智能手机摄像头,未来虚拟助手的视觉入口。James Martin/CNET
近日,面对晚餐选择的困扰,我通过iPhone 16的相机控制按钮拍了一张冰箱内物品的照片,并上传至ChatGPT和Google寻求建议。
两款虚拟助手都给出了令人惊喜的建议:Google推荐了一道以葡萄和蔬菜为主的沙拉,而ChatGPT则注意到了顶层架子上的泡菜,并建议将其加入卷饼或三明治中。
使用手机摄像头查找食谱或许只是个开端。若科技巨头所言非虚,我们手机上的摄像头将在日常任务中发挥更加关键的作用,且这一天已为期不远。
未来,你不仅可以通过语言告诉手机你的需求,还能直接向其展示周围的世界。苹果、谷歌、OpenAI、高通和Meta等公司似乎都在朝着这一方向迈进,2024年,它们纷纷为智能手机和智能眼镜推出了基于摄像头的新AI功能或概念。
科技公司不再仅仅满足于拍照和保存记忆,而是致力于将摄像头转变为一种视觉搜索引擎。例如,只需将设备摄像头对准一家餐厅,关键信息如营业时间和菜品图片便会即刻弹出。在摄像头优先的未来的一大证明中,谷歌、三星和高通于12月推出了Android XR。这一Android的新版本旨在耳机和智能眼镜上运行,并利用摄像头和谷歌的Gemini助手实时解答关于你周围环境的疑问。
这确实是一种转变,与我们今天操作手机所使用的以触摸为中心的方法截然不同。虽然消费者可能需要一段时间来适应——如果他们能够接受的话——但分析师和科技公司均认为,这或许预示着未来我们使用手机的新方式。
“无论是上传照片还是提供摄像头反馈,摄像头和视觉反馈在未来都将变得至关重要,”谷歌Android平台副总裁兼总经理Seang Chau在之前的采访中如此表示。
Pixel 9的摄像头 James Martin/CNET
2023年,由于OpenAI的ChatGPT,生成式AI聊天机器人取得了突破性进展。步入2024年,科技公司为AI助手的下一阶段奠定了基石:多模态AI代理。简而言之,这是一种能够理解多种类型输入(即文本、语音和图像)并代表你处理任务的AI驱动虚拟助手。
想象一下,用手机摄像头扫描餐厅账单,然后让虚拟助手自动将费用分摊给在座人员,并添加小费。尽管这项技术尚未完全成熟,但移动芯片制造商高通指出,随着AI代理的不断进步,这一切将在不久的将来成为现实。
2024年,这些充满未来感的助手的基石开始逐渐形成。OpenAI和谷歌均对其模型和系统进行了优化,以更好地处理多种类型输入。12月,OpenAI更新了ChatGPT的高级语音模式,使其能够与你手机的视频或屏幕共享,这样你就可以直接向数字助手提问,而无需上传照片。Android XR和谷歌的Project Astra更进一步,将摄像头置于更贴近你视线的位置——在耳机和眼镜中——使谷歌助手能够实时提供你正在Google Maps上查看的地标信息,或在书店浏览书籍时提供书籍摘要。
这副眼镜上显示的地图与我在双屏原型机上的体验相似,但这是在一个封闭的演示空间中。谷歌
手机制造商日益将手机摄像头视为发现工具的另一迹象是,苹果在12月推出了一项名为“视觉智能”的新功能。该功能仅适用于iPhone 16系列,通过按下新的相机控制按钮,视觉智能让你更便捷地了解周围世界。
点击按钮启动相机,对准感兴趣的对象以获取更多信息。你也可以在此模式下拍照,并将其发送给ChatGPT或Google,以解决数学问题或搜索产品等。
“想象一下它为我们节省了多少步骤,”国际数据公司(IDC)数据和分析团队的高级总监Nabila Popal在谈及由摄像头驱动的AI功能时表示。“能够研究某物、查找某物的信息或将事件添加到日历中,而无需额外操作。”
使用视觉智能,你可以将iPhone 16对准咖啡馆或餐厅,查看营业时间和照片。Numi Presarn/CNET
但问题是,人们是否真的愿意使用这些功能。CNET与YouGov合作进行的一项调查发现,25%的智能手机用户认为AI功能并无实际用处。尽管科技公司正依靠AI来激发人们对新手机的兴趣,但这似乎并未成功吸引用户升级。据IDC称,尽管全球智能手机市场预计在2024年实现6.2%的同比增长,但预计2025年及以后的增长将放缓。IDC的报告指出,AI并非2024年出货量激增的驱动力。
部分原因在于消费者对这项技术尚不熟悉。但许多AI功能仍属新兴领域,尚未成为我们手机的必需品。苹果定位为首批“为苹果智能而打造”的手机的iPhone 16于9月发布时,并未展现出苹果标志性的创新功能。苹果智能的一些最重要补充,如ChatGPT集成,直至12月才正式推出。
此外,自iPhone 16发布以来,其市场需求量尚不确定。以预测苹果产品而闻名的TF International Securities分析师Ming-Chi Kuo在10月报道称,苹果已削减了约1000万部iPhone 16的订单。据Apple Insider报道,摩根士丹利的一项调查也显示,iPhone 16的交货时间较过去五年中前几代iPhone的交货时间有所缩短。
这两个数据点或许可视为iPhone 16需求低于预期的潜在迹象,但它们也可能表明苹果的生产与消费者需求保持了一致。在其2024财年第四季度财报中,苹果报告称整体iPhone收入增长了6%,但不清楚其中有多少来自iPhone 16,因为苹果并未公布具体型号的销售数据。
消费者对iPhone 16的接受程度是一个关键问题,因为它可能决定苹果智能的成功与否,因为iPhone 16设备是支持该技术的少数手机之一。
Counterpoint Research负责智能手机的高级分析师Gerrit Schneemann指出,三星的Galaxy S24系列也是AI尚未成为手机卖点的另一例证。
“许多升级用户,例如S24 Ultra的升级用户,都是从较旧的Ultra设备升级而来的,”他说道。“因此,对我们而言,这意味着他们升级是因为到了该升级的时候,而不一定是因为它搭载了Galaxy AI。”
但或许摄像头能在改变这一现状方面发挥作用,使AI从噱头变为实用工具。
通过智能眼镜接收消息的情景,基于谷歌的视频。谷歌
让我们的手机摄像头成为全视AI助手的第一步似乎合情合理,但这些更新也为智能眼镜的普及铺平了道路。
大约十年前,在谷歌眼镜时代,智能眼镜未能吸引消费者关注。当时,这家搜索巨头的高科技眼镜因几个重要原因而遭遇失败:它引发了隐私担忧,缺乏足够有说服力的用例来证明高价合理性,并且存在技术限制,如电池续航时间短和视野狭窄。
但生成式AI让配备摄像头的眼镜重新受到瞩目。谷歌Android生态系统总裁Sameer Samat表示,AI的进步使得现在是重新评估智能眼镜可行性的最佳时机。该公司将很快向测试人员发布配备其Project Astra技术的智能眼镜原型机以收集反馈,这表明智能眼镜可能会在2025年卷土重来。
“我们一直在尝试使用这些模型和手机以及手机上的摄像头作为与世界交互的方式,它真正让我们惊叹于其无限可能,”Samat说道。
Meta的Ray-Ban眼镜已具备AI功能。Scott Stein/CNET
Meta最新的Ray-Ban眼镜已能利用AI分析你所见内容,并实时提供答案,而这家科技巨头才刚开始向Meta早期访问计划的用户推出全天候AI助手。这意味着Meta的AI助手将能够持续监听,从而无需你每次想提问时都不断提示它。谷歌的原型智能眼镜工作方式类似;一旦你激活Gemini,它就会被动监听输入,直至你暂停它。
在12月试用谷歌原型机时,CNET的Scott Stein在谷歌办公室的演示室里漫步,询问各种元素——从书架上的书籍到Nespresso咖啡机——而无需不断召唤助手。
在我亲身体验眼镜的过程中,我提出了诸如我正在观赏的植物是否适合室内环境等问题,并几乎在提问的同时,耳边就传来了答案。而如今,大多数人可能会选择更复杂的操作,比如给植物拍照,然后上传到Gemini或ChatGPT等平台,再提出问题。
“并非所有时候,拿着手机对着每样事物都是最自然的行为,”Samat在谈及Android XR的灵感来源时表示,“这难道不就是眼镜的完美应用场景吗?这启发了我们推出眼镜产品。”
与此同时,《纽约时报》报道称,OpenAI首席执行官Sam Altman与前苹果设计总监Jony Ive正携手开发一款“对社会破坏性小于iPhone”的AI驱动计算设备。尽管关于该产品的具体信息寥寥,但此项目无疑再次表明,一股新的AI设备浪潮或许即将席卷而来。
此前,诸如Humane AI Pin和Rabbit R1等设备在2024年初遭遇了挫折。这两款设备均运行AI驱动的软件,并利用摄像头回答关于周围环境的问题。然而,它们因未能达到预期效果、发布时出现故障以及通常不如智能手机直观或有用而受到广泛批评。尽管这两款设备在最近几个月都进行了重大更新,但挑战依然存在。
对于未来设备的具体形态,我们尚不清楚;而关于是否有任何消费类技术产品能像手机那样具有巨大影响力和实用性,则更加难以预测。但如果你渴望一窥未来趋势,那么很有可能一切都将始于你手中的手机摄像头。
据Popal所言,最终,无论是否利用摄像头,生成式AI功能对于移动设备而言都将变得至关重要,以至于没有这项技术的手机可能会显得过时或无关紧要。她将此比作互联网和应用商店在手机上的普及。
“旧款智能手机,”她表示,“将显得毫无智能可言。”