近日,OpenAI在其为期12个工作日的线上新品发布活动的最后一天,宣布推出下一代模型o3,包括一个正式版o3和一个精简版o3-mini。据OpenAI CEO Sam Altman表示,新模型o3是“一个非常、非常聪明的模型”,无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3都明显高出o1一筹。同时,o3在OpenAI实现通用人工智能(AGI)这一奋斗目标上取得了突破,最高的测试成绩达到了类人水平。
今年9月,OpenAI发布的o1预览版在测试化学、物理和生物学专业知识的基准GPQA-diamond上,准确率达到78.3%,超过了人类博士专家的69.7%。然而,新推出的o3模型在同样的测试中,准确率高达87.7%,比o1高将近13%。
此外,o3模型在ARC-AGI评估中,最低成绩为75.7%,最高成绩为87.5%,超过了标志着达到人类水平的门槛85%。前谷歌高级工程师、AI研究员François Chollet表示,OpenAI这些推理模型在AGI测试中取得进步是“稳健的”。
与此同时,OpenAI还推出了精简版o3-mini,该模型在性能与成本平衡方面表现出色,能够以较低的成本提供高效的服务。o3Mini模型在编码评估、数学能力测试中均表现出色,与o1模型相当。
然而,尽管o3的测评看上去表现惊艳,OpenAI可能不会很快面向大众上线这款新的超级推理模型。从12月20日开始,OpenAI允许安全研究人员可以注册访问o3 和 o3-mini的预览。OpenAI计划明年初正式发布这些新的o3模型。
简体中文 繁體中文 English 日本語 Deutsch 한국 사람 русский بالعربية TÜRKÇE português คนไทย Français