今天发布的 Operator 无疑是 AI 圈最大的亮点,本文为大家带来了关于 Operator 的全面评测。这款 AI 智能体能够自动处理一系列任务,像是演唱会购票、家政服务预订、AI 新闻查找等。
演唱会抢票终于不用自己蹲守了,公司订餐也可以直接「无脑托管」,这就是 OpenAI 今天发布的 Operator。
顾名思义,Operator 就是能帮你端到端处理任务的 AI 智能体。
比较有趣的是,OpenAI 针对 Operator 新开了一个网页 operator.chatgpt.com,而不是像之前发布的功能都直接统一内置在 ChatGPT 中。
Operator 的页面与 ChatGPT 大致相似,只是输入框的提示词从「我能帮您什么吗?」变为了「我能帮您做什么吗?」
显然 Operator 多了个「做」字,而就是这一字之差,便已揭示了两者的本质性区别。
这里展示了一些 Operator 在 OpenAI 的合作伙伴网站上能为您执行的推荐任务。比如,不用半小时就能用鸡肉做好的晚餐食谱。
当前,Operator 的功能还比较有限,但我们相信它会快速优化。不妨想想,你每天在电脑上做的那些重复任务,说不定一年之后,大部分都不用你亲自动手了。
先来看看 Operator 能做哪些事情,并且到底做得怎么样吧!
提示:帮我找两张 Jamie XX 在洛杉矶举行的下一场演出的门票。
结果:
- 调用指定合作伙伴 Stubhub,成功获取相关门票。
- 未选定合作伙伴时,因无法浏览被阻止的网站,未成功。
提示:找出 Jamie xx 的演出安排以及每场演出的门票价格。
结果:
- 调用指定合作伙伴 Stubhub,失败。过程中出现虚假信息,在多次提示后,最终取得成功。
提示:AI 领域的最新消息是什么?
结果:
- 调用指定合作伙伴 Axios,表现尚可,返回了一篇简短的新闻摘要。
提示:现在从这里到机场的 UberX 多少钱?
结果:
- 使用指定合作伙伴 Uber,操作成功。
- Operator 提出合理的问题,询问「请提供接客地点,以便我为您查找从接客地点到机场的 UberX 费用。」以及「请指定您的目的地机场。」
- 登录后,Operator 给出答案:「从南加州大学到洛杉矶国际机场的 UberX 当前票价为 43.47 美元。您是否希望预订此行程?」
提示:我需要一名家政清洁员明天来我家做一次性清洁。
结果:
- 调用指定合作伙伴 Thumbtack,失败。
- 未询问我的具体位置,就推荐了一名位于弗吉尼亚的清洁员,可能是因为浏览器所在的数据中心位于该地。
提示:我想了解 Spotify Wrapped 成功的原因。(Spotify Wrapped 是音乐流媒体平台 Spotify 推出的年度回顾功能。)
结果:
- 采用简单提示时,失败。系统卡在循环中,表现不佳,且研究资料有限。
- 采用复杂提示时,结果尚可。需要多次提示,报告质量不高。在提供了如何进行高级搜索的提示后完成了任务。期间 3 次请求获取 2024 年的信息均被拒绝。
看完上述演示,也自然引发了一个问题:
「我们能够随时介入 Operator 的操作并做出符合自己偏好的更改吗?」
答案是:完全可以!
事实上,在任何时候,你都可以控制其远程浏览器并引导操作,比如输入用户名和密码。并且如果你给出自己要求后,它还会保存重要的账户信息,这样,只要你登录一次,它就能在你的账户内自行操作,而无需再次打扰你。
最后,Operator 将在结账页面停止继续操作,返回支付请求后,再获取您的付款详情:
目前 Operator 支持自动完成通常需要 15-20 分钟内的网络任务。
值得一提的是,Operator 还拥有能够极大提高用户体验的「保存和共享功能」。也就是说,一旦完成任务,Operator 就可以轻松保存工作流程。比如持续用最新的销售数据来更新相应的报表。它甚至提供了一个流畅的会话记录视频,支持用户观看并与其他人分享。
换句话说,Operator 就像是一个可以不断和你磨合,且可以持续进步,还能 24 小时不停按照既定流程为你工作的私人管家一样。
但是,由于 Operator 才刚刚发布,所以还是有一定的缺陷。
正如道德经所说,「有无相生,难易相成」。Operator 自身的缺陷亦是源于它的优势本身。
它的独特之处在于不用使用用户本地的浏览器执行操作,而是 OpenAI 数据中心之一的一个浏览器,用户可以远程观看并与之互动。这种设计的优点是你可以在任何地方、任何时候使用它 —— 例如,在任意移动设备上。
但缺点是许多像 Reddit 这样的网站已经阻止 AI 智能体浏览,因此它们无法被 Operator 访问。并且 Operator 也因性能或法律原因被 OpenAI 阻止访问某些资源密集型网站,如 Figma 或 YouTube。
简单来讲,目前的 Operator 就像是被隔离在玻璃门外的人一样,对于许多东西都是「看得见却摸不着」。
目前的 Operator 实际上更像是一个能够完成你给外包出去业务的乙方,而不是一个足够聪明的个人研究助理。
例如,可以让 Operator 阅读《战争与和平》的第一章,并总结每个角色的所有细节以及他们所展现的人类心理和行为。然后,Operator 在 Project Gutenberg 网站上找到了《战争与和平》并阅读了第一章,做得非常出色。
但是其摘要却枯燥乏味且粗糙宽泛:
在上述摘要中,它做出了正确的观察:「角色意识到他们的社会地位,有些人,比如安娜・帕夫洛夫娜,小心翼翼地互动以保持礼仪」。但是这个摘要也有一种 SparkNotes 的味道,也就是不够详细,还无法真正理解故事情节。
如果提供相同的信息,OpenAI 的 o1 在这项任务上会做得更好 —— 但是 o1 还没有自主执行任务的能力。也就是说,OpenAI 专注于让 Operator 非常适合自动执行重复性工作流程,而不太关注其智能水平。
关于 Operator,最令人印象深刻的一点是,它只需极少的提示就能独自完成冗长的任务。例如,我们让它执行一项耗时 20 多分钟的任务:我们请它帮我们了解 Spotify 年度总结(Spotify Wrapped)功能这些年是如何演变的。
「它最初是什么样的?」
「现在又新增了哪些内容?」
它时不时需要一些提示才能继续推进任务,但最终也成功实现了任务目标。
不可置否的是,与 12 个月甚至 6 个月前的智能体相比,这是一个重大进步,毕竟那时的智能体往往在短短几秒钟后就会偏离正轨。
话虽如此,用户对 Operator 的提示方式仍然很关键。如果你向它提供更多关于如何完成任务的细节,它成功完成你交给它的任务的几率就会更高。
例如,在我们关于 Spotify 年度总结的例子中,我们要求它收集并总结不同年份的搜索结果数据。它一开始失败了,因为它不知道如何按年份筛选搜索数据。但当我们告诉它使用谷歌的高级搜索工具(该工具提供逐年筛选搜索功能)时,它就成功完成了任务。
当前,Operator 仅是一个研究预览,而非成熟产品。但这个预览版意义重大,要知道就连 ChatGPT 最初也是以研究预览的形式问世的。
OpenAI 正重拾曾经大获成功的策略:即使产品还有很多不完善的地方,也要尽早发布,并持续频繁迭代。
因此 OpenAI 不仅推出 API,还发布了面向消费者的产品。
这一举措与竞争对手 Anthropic 的做法有所不同。Anthropic 虽然也有一款自主智能体 Claude Computer use,但其仅以 API 的形式发布,因此应用范围相当有限。
OpenAI 从 ChatGPT 中学到一点,AI 的发布形式对其推广的影响,丝毫不亚于底层技术。
因此,他们将首款自主智能体产品,以面向消费者的方式发布,即使这个产品还存在不少缺陷。
总的来说,尽管 Operator 目前功能有限,但可以预计它会迅速改进。对于广大用户来讲,现在是时候梳理一下你每天在电脑上做的重复性任务了,也许一年后你就无需再做其中的大部分工作。
参考资料:
https://every.to/chain-of-thought/we-tried-openai-s-new-agent-here-s-what-we-found
本文来自微信公众号:新智元(ID:AI_era)