OpenAI发布新AI模型o3与o4-mini 首度具备图像推理能力
4 天前 / 阅读约3分钟
来源:集微网

美国人工智能 (AI) 公司 OpenAI 于周三 (16 日) 正式推出全新一代模型“o3”,并同步发表体积更小、成本更低的“o4-mini”。这两款模型为 OpenAI 首度具备“以图像进行推理”能力的系统,象征其在多模态 AI 领域迈出重要一步。

与过去仅能处理文字输入的模型不同,o3 能够分析白板笔记、手绘草图、简单图表等视觉资讯,即使画质不佳也能理解其逻辑关系。OpenAI 表示,这代表模型不只是“看懂图片”,而是能将图像资讯整合进逻辑推理流程中,进一步提升处理复杂问题的能力。

根据 OpenAI 的说明,o3 特别优化于数学解题、程式设计、科学应用与视觉理解任务,并具备执行图像旋转、放大与标注等功能。o4-mini 则主打更快的运行速度与更低的成本,适合开发者与商业用户部署在弹性预算的场景中。

两款模型已即日起开放给 ChatGPT Plus、Pro 与 Team 方案的用户使用。

OpenAI 执行长阿特曼 (Sam Altman) 也于 X(前推特)上幽默表示:“我们会在夏天之前解决命名混乱的问题,大家可以再笑我们几个月没关系”,回应社群长期以来对模型命名如 o1、o2、GPT-4.1 的玩笑声浪。

目前 OpenAI 的估值约达 3,000 亿美元,为全球生成式 AI 领域的领头羊。自 2022 年底推出 ChatGPT 以来,公司积极拓展 AI 的多模态应用,从文字扩展至语音、图像甚至影片生成。根据官方说法,o3 是首款能自主调用 ChatGPT 所有内建工具的模型,包括 Python 运算、网页查询、图像生成与分析,使其能处理跨领域、跨步骤的复杂任务。

值得注意的是,OpenAI 过去几周也针对其安全机制进行多项调整。官方表示,o3 与 o4-mini 已通过其“历来最严格”的安全测试,并遵循最新更新的“准备度框架”。然而,OpenAI 同时也宣布未来部分微调模型将不再强制发布完整安全测试报告 (Model Card),此举引发外界对其安全标准可能放宽的质疑。

尽管面临监管与道德风险的双重压力,OpenAI 此次发布的新模型,显示其持续朝着更高推理能力、更深整合应用,以及迈向自主 AI 的方向快速迈进。