OpenAI 想了快 10 年的超级智能体终于来了，有惊喜，但比智谱晚还“翻车”系数高？ - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

OpenAI 想了快 10 年的超级智能体终于来了，有惊喜，但比智谱晚还“翻车”系数高？

5 小时前 / 阅读约8分钟

来源：36kr

Operator“好坏参半”

2025 年了，OpenAI 预热多时要发的超级智能体又一次没赶在前边。直到今日凌晨，OpenAI 才姗姗上线 Operator——一款能够访问 Web 并为用户执行任务的智能体。从今天起，Operator 已面向美国 Pro 套餐用户开放，下一步将扩展至 Plus、Team 以及 Enterprise 用户，并在未来将相关功能集成至 ChatGPT 当中。用户可以要求 Operator 处理各种重复性的浏览器任务，例如填写表格、订购杂货甚至是创建表情包。

而就在昨日，智谱就全新升级了去年 11 月就“抢跑”OpenAI 发布的电脑智能体 GLM-PC ，主打的是“代码思维”，新推出了「深度思考」模式，又增加专用来做逻辑推理和代码生成的功能。

01 功能体验：Operator“好坏参半”

OpenAI 的首个智能体 Operator 终于到来，好消息是它能帮你自动干不少电脑上的活儿了，但坏消息是“翻车”系数不低。

作为 OpenAI 首款真正模拟人类操作网页浏览器的 Agent，Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务，涵盖购物、配送、餐饮和旅行等领域。

期间，用户可以添加其他指令和随时接管控制，Operator 还可以同时运行多项任务。并且，Operator 允许用户保存主页上的快速访问提示词，因此非常适合执行重复类任务。如果用户没有指定网站，Operator 也可以进行浏览，而不是直接进入应用程序或服务。对于关键操作，Operator 会要求用户确认。

技术方面，Operator 可以对浏览器进行“查看”（通过屏幕截图）、和“交互”（使用鼠标和键盘支持所有操作），因此能够在 Web 之上执行操作且无需自定义 API 集成。一旦遭遇难题或者错误，Operator 还可利用其推理能力实现自我纠正。

在 OpenAI 的官方演示中，Operator 执行了餐厅预订、网购、抢勇士队比赛门票、预约清洁服务以及点外卖等多种场景的任务。然而，演示过程却不是全程一帆风顺，刚开始的演示是正常进行，但到了后半段的演示却频频“翻车”，甚至未能成功加载相关网页。

而 Operator 的官方介绍也强调，其目前仅提供研究预览版，虽然已经能够处理各类任务，但仍在学习和发展的过程当中很可能会犯错。例如，其目前在创建幻灯片或者管理日历等复杂界面中仍然表现不佳。因此，Operator 尚有局限性并将根据用户反馈进一步完善。

相比之下，智谱的 GLM-PC 已经是进行了一轮升级的“第二代”版本了。去年 11 月，GLM-PC v1.0 在 CogAgent 开源模型的基础上强化了感知、规划、创造能力，并实现有限的自我纠正现在的新版 v1.1 则在规划和推理上作了更多的优化。

根据官方介绍，GLM-PC 不仅能够处理复杂逻辑任务，还能在开放性问题上展现更高的适应能力、创造力和泛化能力，更能通过动态优化和情境感知，帮助用户探索更高效的解决方案，特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。　

在实例展示中，GLM-PC 能够自动为微信群好友定制个性化新春祝福语及祝贺图片 / 视频，并通过一键操作实现群发，高效完成节日问候；能为用户快速查询航班信息，筛选最经济机票，并同步设置飞书日历提醒，实现航班查询、购票筛选到日程安排的一站式服务。　

02 技术水平：谁家 Agent 模型略逊一筹？

尽管都是通过人类一样“观察”和“操作”计算机来帮助用户完成各类电脑任务，但 Operator 与智谱 GLM-PC 在工作原理上也有很大不同。

Operator 由一套名为 Computer-Using Agent（计算机使用智能体，简称 CUA）的新模型提供支持，CUA 将 GPT-4o 的视觉功能与通过强化学习进行的高级推理相结合，在训练之后能够与图形用户界面（GUI）进行交互——即人们在屏幕上看到的按钮、菜单和文本字段。

而新升级的 GLM-PC 采用的是“左右脑”协作的模式，左脑负责代码生成与逻辑执行，右脑专注于深度感知与交互体验，背后的支撑是智谱自主研发的多模态 Agent 模型 CogAgent 与代码模型 CodeGeex。

具体到该智能体运转的过程，GLM-PC 是以代码形式指挥工作流程和工具调用，期间强化深度思考模式下的规划、推理、反思能力，从而能够稳定高效地应对复杂场景与任务。并且在实际执行时，GLM-PC 能感知多层环境反馈，协助反思，以有效自我纠正与优化。　

总体来看，两家发布的电脑智能体在技术路线上各有千秋。不过，有评测结果显示，CogAgent 在 GUI 定位（Screenspot）、单步操作（OmniAct）、中文 step-wise 榜单（CogAgentBench-basic-cn）、多步操作（OSWorld）都取得了不错的结果，但在 OSworld 上略逊于针对 Computer Use 特化的 Claude-3.5-Sonnet 和结合外接 GUI grounding 模型的 GPT-4o。

03 超级智能体的未来

下一步，OpenAI 计划很快在 API 中公开支持 Operator 的模型 CUA，以便开发人员能够使用它来构建自己的计算机使用智能体。智谱则准备将 GLM-PC 与 AIPC 深度融合。据称，智谱正与联想、华硕等知名 PC 厂商展开深度合作探讨。

“2025 年是 Agent 之年”，在各家接二连三的智能体产品发布后，许多人都如此感叹。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 对此公开表示，“就我个人而言，我认为 2025 - 2035 年这十年是智能体的十年。要让它真正发挥作用，我感觉方方面面都有大量工作要做。但它应该能行得通。”

同时其指出，像 OpenAI 的 Operator 这样的项目之于数字世界，就如同类人机器人之于物理世界。人类会成为低级自动化的高级主管，有点像司机监控自动驾驶系统。这种情况在数字世界发生的速度会比物理世界快，因为翻转比特的成本大约比移动原子低 1000 倍。

“未来，大家可以组建 Operator 团队，让它们执行选定的长期任务，甚至是运营一整家公司——像 CEO 一样，同时监督十个这样的团队，偶尔可能还得深入一线解决某个障碍。”

Karpathy 还透露，在 OpenAI 成立初期他们就研究过这个想法（参见 Universe 和 World of Bits 项目），但顺序有误——大语言模型必须先出现。但即便到现在，他也不能百分百确定时机是否成熟。毕竟多模态在过去一两年才勉强与大语言模型整合，而且往往是作为适配器附加的。更糟糕的是，LLM 还没有真正涉足过任务周期极长的领域。例如，当视频包含海量信息，是否能把所有信息都塞进上下文窗口（当前范式），然后还指望它能正常运行。

上一篇：米哈游腾讯投的AI独角兽火出圈，背后竟有心动的人？

下一篇：OpenAI 阿尔特曼：ChatGPT 用户可免费体验 o3-mini，付费用户将获得更多额度

返回列表

01 功能体验：Operator“好坏参半”

02 技术水平：谁家 Agent 模型略逊一筹？

03 超级智能体的未来

相关新闻