OpenAI于2025年1月24日发布了其首款AI智能体Operator,这是一款能够在浏览器上执行简单在线任务的网络应用,如预订音乐会门票、在线订购杂货等。
Operator由基于GPT-4o构建的新模型Computer-Using Agent(CUA)提供支持,目前仅对注册ChatGPT Pro(每月200美元高级服务)的美国用户开放,未来计划向其他用户推出。
Operator之所以如此强大,得益于其背后的Computer-Using Agent(CUA)模型。这一模型以GPT-4o为基础构建,通过与图形用户界面(GUI)进行交互,展现出令人惊叹的能力。
CUA模型拥有像人类一样的视觉能力(通过屏幕截图“看到”界面元素)和通过强化学习得来的先进推理能力。
可以像人一样操作,“看到”浏览器界面上的按钮、菜单和文本框,熟练地运用鼠标和键盘与之互动。
CUA建立在多年多模态理解和推理交叉领域的基础研究之上,尤其执行任务过程中,CUA模型的自我纠错能力是一大亮点。
当遇到难题或者出现错误时,它能依靠推理能力自我调整;
若遇到无法解决的状况,则会礼貌地将控制权交还给用户,实现人机协作间的流畅转换。
值得一提的是,Operator在安全性和隐私保护方面表现不错。
OpenAI明确表示,Operator在运行期间,绝不会利用用户之前与ChatGPT共享的数据,全方位呵护用户隐私。
而且,名为“接管模式”的功能为其安全保驾护航,在输入支付信息或登录凭据等关键操作时,会要求用户手动完成。
同时,OpenAI提到, 虽然CUA仍处于早期阶段并且存在局限性,但它设定了新的最先进基准结果,在OSWorld上实现了38.1%的全计算机使用任务成功率,在WebArena上为58.1%。 在WebVoyager上为87%。
这些结果突显了CUA使用单一通用动作空间在各种环境中导航和操作的能力。
CUA根据用户的指令,通过一个集成感知、推理和行动的迭代循环进行操作:
简单总结一下,CUA模型实现与GUI(图形用户界面)交互主要技术:
屏幕截图分析:CUA模型具备类似人类的视觉能力,它首先会对屏幕进行截图。然后,利用图像识别技术分析截图中的各种元素,例如识别出按钮的位置、颜色、形状,菜单的结构以及文本框的内容等。这就如同人类用眼睛观察屏幕一样,是交互的基础。
元素定位与分类:在识别出屏幕元素后,CUA模型会对这些元素进行定位和分类。它确定每个元素在屏幕坐标系中的位置,并且根据元素的类型(如可点击按钮、输入文本框等)进行分类,以便后续准确地与之交互。
任务分解:当接收到一个需要在GUI上完成的任务时,CUA模型会将这个复杂任务分解成多个小的子任务。例如,如果要在一个电商网站上完成商品购买,子任务可能包括搜索商品、选择商品规格、点击购买按钮等。
操作序列生成:根据任务分解的结果,CUA模型会生成一个操作序列。它会考虑到各个元素之间的关系以及操作的先后顺序,比如先点击某个菜单展开选项,再在弹出的列表中选择特定的项目。
鼠标和键盘模拟:CUA模型通过模拟人类使用鼠标和键盘的操作来实现与GUI的交互。对于识别出的可点击按钮,它会模拟鼠标点击操作;对于需要输入内容的文本框,它会模拟键盘输入相应的字符。
实时反馈与调整:在执行操作的过程中,CUA模型会持续关注屏幕的变化,获取实时反馈。如果操作没有达到预期的效果,例如点击按钮没有响应或者出现了错误提示,它会根据反馈信息调整操作策略,重新规划后续的操作步骤。
错误检测与回溯:如果在执行任务过程中出现错误,CUA模型能够检测到问题所在。它可能会回溯到上一个操作步骤,重新评估情况,并尝试不同的操作方式。
强化学习优化:CUA模型利用强化学习技术不断优化其与GUI的交互策略。通过不断地尝试不同的操作方式并根据结果得到奖励或惩罚信号,模型逐渐学会更高效、准确地完成任务。
今天OpenAI的Operator的亮相,也标志着AI发展的下一步,使模型能够使用人类日常依赖的相同工具,为大量新应用打开了大门……