OpenAI最强推理模型o3发布！AGI测试能力暴涨，最难数学测试分数碾压同行 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

OpenAI最强推理模型o3发布！AGI测试能力暴涨，最难数学测试分数碾压同行

2 天前 / 阅读约3分钟

来源：凤凰网

作者 | ZeR0 程茜

编辑 | 漠影

智东西12月21日报道，今日，OpenAI“连续12日圣诞发布”终于迎来激动人心的大结局，OpenAI推出重磅收官新品，其迄今最强前沿推理模型的升级版——o3。

OpenAI号称o3在一些条件下接近通用人工智能（AGI）。

OpenAI CEO Sam Altman在直播中说：“我们认为这是AI下一阶段的开始。你可以使用这些模型来完成越来越复杂、需要大量推理的任务。”他还夸赞o3在编程方面的表现令人难以置信。

今年9月发布的OpenAI o1模型拉开了推理模型的闸门，随后许多国内外大模型企业相继推出大量推理模型。出于对英国电信运营商O2的尊重，OpenAI把o1的继任者命名为o3。

和前代o1模型一样，o3通过思维链进行思考，逐步解释其逻辑推理过程，总结出它认为最准确的答案。

o3有完整版和mini版，新功能是可将模型推理时间设置为低、中、高，模型思考时间越高，效果越好。mini版更精简，针对特定任务进行了微调，将在1月底推出，之后不久推出o3完整版。

ARC-AGI是一项旨在评估AI系统推理首次遇到的极其困难的数学和逻辑问题能力的基准测试，由Keras之父François Chollet发起。在ARC-AGI测试中，o3在高推理能力设置下取得了87.5%的分数，在低推理能力设置下的分数也高达o1的3倍。

这一成绩令社交平台一片雀跃，认为AI技术发展非但不见放缓，反而展示出比预期更快的通往AGI的速度。

要知道，之前GPT-3的评测结果为0%，GPT-4o为5%，而o3一举将成绩提升到87.5%，令人瞠目。与之前的大模型相比，o3能适应以前从未遇到过的任务，可以说接近人类水平的性能。

François Chollet发布了o3的完整测试报告。o3在两个ARC-AGI数据集中进行了测试，并在两个具有可变样本量的计算级别上进行了测试：6（高效率）和1024（低效率，172倍计算）。其中，75.7%的高效率分数在ARC-AGI-Pub的预算规则范围内（成本<10000美元），87.5%的低效率分数成本则相当昂贵，但仍然表明新任务的性能确实会随着计算量的增加而提高。