凌晨薅起来学习论文,你受得了吗?
深夜,OpenAI展示了他们的首个智能体:Operator,这可不是普通的AI,它能像人类一样操作电脑,更厉害的是,它可以直接和网页交互,无论是打字、点击还是滚动,都能一气呵成。
Operator是什么,它有什么能力呢?简单讲,它是OpenAI最新推出的一款创新型AI模型,像一个会自己操作电脑的“数字助手”。
我们平时用电脑时,得自己点鼠标、敲键盘、得盯着屏幕找东西,但Operator不一样,它能自己搞定这些,能自己和电脑界面打交道。
OpenAI为啥要开发这么个东西呢?
动机有三个方面: 一,从用户需求层面来看,现代社会中存在大量重复性、机械化的数字操作任务。
以日常办公场景为例,表单填写、数据整理、信息检索等操作不仅耗时耗力,而且容易出错,Operator的开发想解决这一痛点,通过AI自动化提升工作效率。
二,从技术发展角度来看,当前大多数AI系统仍局限于信息处理和问答交互的范畴,缺乏实际执行能力。
Operator的创新之处在于突破了这一限制,它实现了从认知到执行的完整闭环,这种能力拓展标志着AI技术向更高层次发展的重要一步。
三,从长远发展来看,Operator的开发,体现OpenAI对AI技术潜力的深入探索 ;通过赋予AI直接操作计算机的能力,为未来更复杂的智能应用奠定了基础,具有重要的战略意义; 所以,要做这个东西,我觉得它像一个RPA技术。
图示:
那么,它的核心能力有什么呢?
首先,它能特别精准地理解你的指令。 你给它下命令,它能完全听懂,还能根据你的需求去完成任务;比如,你让它帮你买一双运动鞋,它就能在网上找到合适的店铺,帮你下单,而且还能挑出性价比最高的那一双。
然后,可以自己操作网页,不限于网页浏览与信息提取、表单填写与数据录入、文件管理与文档处理、邮件收发与日程安排等四个方面。
最主要是,它有智能化决策能力。
例如:在商品采购任务中,系统能够根据预设条件(如预算、品牌偏好等)进行智能筛选和决策;再或者,你让它帮你订一张机票,它就能自己搜索航班、比较价格,最后帮你下单,整个过程都不用你操心。
而且,这个智能化包括两个维度: 一,是复杂任务处理能力,二,持续学习与优化能力。
以会议安排为例,Operator可以协调参会人员时间、预定会议室、发送通知等,实现全流程自动化处理,甚至,它可以学习你操作过、编排过的任务然后再学习。
它的使用场景是什么?报告中,有七个有趣的例子。
想象一下,你正准备买一双运动鞋。以前,你要自己打开购物网站,搜索款式、比较价格,还要手动填写收货地址和支付信息。
现在,有了Operator,你只要告诉它:“帮我买一双耐克运动鞋,预算500元左右。”它就能自动完成搜索、下单,甚至还能帮你找到最划算的优惠券。这个过程完全不需要你动手,是不是很省心?
然后是,自动填写表单,注册账号、申请贷款,还是填写各种复杂的在线表格,这些任务不仅繁琐,还很容易出错。但Operator可以轻松搞定这些。
图示:
在工作和学习中,我们常常需要查找各种资料。比如,你正在写一篇关于人工智能的论文,需要查找最新的研究进展。以前,可能要在多个网站之间来回切换,手动整理信息。
Operator可以直接帮你搜索相关内容,把关键信息整理成一个简洁的总结,甚至还能帮你找到相关的学术论文链接。这样就不用把精力浪费在搜索上。
计划下周和客户开一个会议,要协调双方的时间,预定会议室,还要发送会议通知。这些事情听起来简单,做起来却很费时间,Operator会自动查看日程安排,找到一个双方都方便的时间,预定会议室,甚至还能发送会议通知给所有参与者。
我认为最有用的两个是: 创意内容制作、文件管理
我想制作一个表情包,但又不会用复杂的图像编辑软件。只要告诉Operator:帮我做一个搞笑的表情包,主题是‘周一的我’。
它就能自动找到合适的图片,添加文字,甚至还能调整图片的风格,最后生成一个有趣的表情包。
至于文件夹管理上; 以前,可能需要手动搜索,甚至还要逐个打开文件查看内容,现在,Operator可以帮忙快速找到需要的文件,并且还能整理文件夹,把相似的文件归类在一起。
这就是它的能力,是其中一部分。
既然这样,Operator是怎么训练出来的呢?
一共四个步骤:先让它“见多识广”,然后让它模仿(监督学习),再让它思考(强化学习),最后通过人类反馈(让它少走弯路)。
首先,训练数据的来源至关重要。
报告中显示,OpenAI从两个主要渠道收集数据: 一是公开数据集 ,包括行业标准的机器学习数据集、网络爬取的数据,这些数据为模型提供了广泛的任务场景,涵盖从简单的网页浏览到复杂的文件管理等操作。
二是由人类训练员创建的数据集 ,这些数据集展示了如何在计算机上解决各种任务,例如点击按钮、填写表单、滚动页面等。通过这些数据,Operator学会了如何模拟人类的操作行为。
在监督学习阶段, Operator学习基本的计算机操作能力,如视觉感知和输入控制。
这一阶段的任务主要是为了让模型掌握基本的操作技能,例如在网页上点击链接、填写表单,或者在文件管理器中打开文件夹。
强化学习阶段的目标是赋予模型更高级的能力,如推理和错误纠正。 在这一阶段,Operator学会了根据任务需求制定执行策略,适应意外事件,并在执行任务时做出智能决策。
例如:当用户要求“帮我买一双运动鞋”时,模型会自动搜索、比较价格,并选择最合适的商品。此外,Operator还学会了错误纠正;如果模型在填写表单时出错,它会重新尝试或提示用户确认。
同时,Operator能够适应意外事件,例如:当网页加载缓慢或界面发生变化时,模型能够调整策略,继续完成任务。
值得注意的是,Operator的训练数据与GPT-4有所不同。
图示:
GPT-4的训练数据,主要集中在文本理解和生成上,而Operator的训练数据,则更偏向于视觉和交互任务,这种差异使得Operator在处理图形界面和复杂操作时表现更出色,但纯文本任务上不如GPT-4灵活。
最后,通过人类反馈,Operator能够进一步优化其性能。 人类训练员的反馈帮助模型在实际应用中少走弯路,提高其在真实场景下的适应性和效率。
总的来说,思路就是:先有数据、让它模仿、开始思考,人类使用再进化。
除了这些,风险意识测试,伦理安全问题也少不了,报告中显示,开发Operator的过程中,OpenAI始终将安全性放在首位。
毕竟,让一个AI模型操作计算机,就像赋予它一双无形的手, 因此,OpenAI在设计和训练Operator时,采取了一系列多层次的防护措施。
我看了下,有三点:
一,它会主动拒绝高风险的任务。 比如,当你要求它购买违禁品或执行其他潜在有害的操作时,模型会直接说“不”。
根据OpenAI的内部评估,Operator对高风险任务的拒绝率高达97%,这种机制有效防止了模型被滥用或执行不当操作。
二,Operator在执行高风险操作时,会主动要求用户确认。 比如,在发送重要邮件或完成购买之前,它会先展示相关内容,并询问用户是否确认继续,这种机制确保了用户对关键操作的控制权,减少了模型错误带来的风险。
在一些敏感网站(如邮箱、银行网站)上,它会自动进入“监控模式”;如果离开页面或长时间未操作,模型会暂停任务执行,直到用户返回并确认继续。
另外,为了全面评估Operator的风险,它们邀请了来自全球20个国家的红队成员,使用多种语言对Operator进行了测试。
图释:
红队成员的任务,是尝试绕过模型的安全措施,例如:
通过提示注入攻击或恶意指令误导模型,尽管测试环境受到限制(例如使用模拟网站和数据库),但,红队测试仍然发现了关键漏洞,这些发现帮助OpenAI进一步完善了模型的安全性。
报告中,也显示了Operator也面临的一些挑战。
目前,它擅长处理短任务和重复性操作,但在复杂任务(如幻灯片制作、日历管理)上表现不佳。
例如:
让它处理多步骤任务,模型可能会因为界面变化或意外事件而失败。还有,在处理长DNA序列、随机字符串(如API密钥)或复杂代码时,Operator的光学字符识别(OCR)系统表现不佳。
这是因为任务超出了训练数据的范围,导致模型在识别和操作内容时,容易出错 ;而且,尽管OpenAI已经采取了多种措施来防止提示注入攻击和恶意指令,但Operator在面对新型对抗性攻击时仍可能表现出脆弱性。
总的来说,OpenAI对Operator的未来发展充满信心,它说,要在三个方面下功夫:
一,具体的真实场景;二,更多代码编辑和终端操作;三,将继续优化安全防御性能,为真正实现AGI之路而奋斗。
目前,Operator AI Agent已经上线,但目前仅面向Pro用户;要200美刀,扎心;看完这个报告,我只想说:这难道不是RPA技术用到电脑上了吗?国内前段时间流行的手机点单和这不一样的吗?
希望国内大模型赶紧跟上,弯道超车它。