前几天我写文章提到,ChatGPT、Grok3、通义千问这些产品,会经历四个发展阶段,最后一个阶段是“自主智能”。
什么是自主智能?我们给它一个任务或者想法,它不仅能给出答案,还能主动把各种交互形式加进去,比如生成图表、图片、思维导图之类的,真正变得又自主又实用。
没想到,这个设想这么快实现了。不到一周时间,昨天晚上OpenAI推出了它的“智能体全家桶”。
那么,智能体全家桶到底有哪些能力呢?
首先,他们发布了一个新工具,叫Responses API。这是一个把聊天功能和多种工具(比如网页搜索、文件搜索)集成在一起的API接口。
它基于ChatGPT的搜索模型,能提供实时信息,还会附上引用来源;具体来说,Responses API把Chat Completions API(主要是用来生成对话回复)的简洁性,和Assistants API(能让AI调用外部功能,比如查资料、操作东西)的工具使用能力结合在一起,成了构建Agent应用的新基础。
这个API还支持多模态响应,像文本、图像、音频都能搞定。
然后,他们又发布了一个开源框架:Agents SDK。
你可以把它理解成一个智能体软件开发包。在这个开发包里,多个智能体可以互相协作,完成复杂任务。就好比有个智能体总指挥官,负责管理和调度各个智能体,确保它们按照既定流程和规则完成任务。
举个例子:
如果你是一家电商公司,想自动化处理订单,可以用这个框架创建一个自动化系统。
设置一个智能体从客户那里获取订单并验证信息,另一个智能体负责检查库存,再有一个智能体负责订单发货。最后,把订单智能体、库存智能体、支付智能体、发货智能体和客户通知智能体串联起来,整个流程就自动化了。
在Agents SDK中,还内置三个强大的工具,分别是Web Search Tool、File Search Tool 和 Computer Use Tool。
Web Search Tool,顾名思义,能让模型通过互联网获取最新信息。它支持GPT-4o和GPT-4o-mini模型,能快速检索网页内容并提取关键信息,帮助智能体更好地理解和处理任务。
File Search Tool专门从文档里检索信息。它支持元数据过滤和直接文档内搜索,能快速定位和提取文件里的相关内容,特别适合处理大量文档数据。
Computer Use Tool,就是AI可以在计算机上直接执行任务。它让智能体有了类似人类的操作能力,比如浏览网页、填写表单、操作软件等,大大扩展了智能体的应用范围。
OpenAI说,相比去年开源的Agent SDK,这个SDK有了新的改进。
那普通用户怎么用这款产品呢?
OpenAI会通过API公开支持Operator的CUA模型,让开发者构建自己的智能体。开发者可以用API访问这些功能。
Operator的能力其实不算陌生。早在今年1月,它就发布了界面框架。Operator由一个叫“计算机使用智能体”(Computer-Using Agent,CUA)的新模型支持,能通过屏幕截图“观察”界面,并执行鼠标和键盘允许的所有操作,这样就能在没有自定义API集成的情况下,在Web上采取行动。
如果遇到错误,Operator可以利用它的推理能力自我纠正;如果遇到难题,它还会把控制权交还给用户。
不过,这款工具预计要到2026年才会开放,到时候会逐步替换旧的Assistants API。
对于C端用户,可以订阅ChatGPT的Pro会员(200美元/月)、Team或Enterprise计划来使用。从价格来看,确实有点贵。
另外,Web搜索的费用是每千次查询:GPT-4o搜索30美元,GPT-4o-mini搜索25美元;文件搜索每千次查询2.5美元,文件存储费用是0.1美元/GB/天(首GB免费);计算机使用工具则是按每输入100万token收费3美元,每输出100万token收费12美元。
OpenAI表示,随着模型能力逐渐具备更多智能体属性,他们会继续深化API之间的整合,并提供新工具,帮助用户在生产环境中部署、评估和优化智能体。
真是太卷了。
深度推理模型潮刚过,新一波又接上了。我觉得2025年可能是AI智能体发展的元年,现在各大厂商已经开始纷纷布局了。
昨天我看到Manus和通义千问的合作,那接下来,腾讯、Kimi、豆包这些平台里,又有哪些进化呢?这些能力会不见进一步影响到企业软件市场呢?
值得期待持续关注。
[1].https://openai.com/index/new-tools-for-building-agents/
[2].:https://www.youtube.com/watch?v=hciNKcLwSes