GPT-4.5震撼发布!智商高情商高,价格更高
11 小时前 / 阅读约11分钟
来源:凤凰网
OpenAI无疑再一次证明了自己的实力,但其为此投入的成本也有点太高了

这才是OpenAI对抗DeepSeek压力的一记还击。

之前将推理模型下放给免费用户只是小打小闹,北京时间2月28日凌晨4点,OpenAI震撼发布GPT-4.5。

OpenAI CEO山姆·奥特曼(Sam Altman)在X上直呼坐不稳了:“这是我第一次觉得,和AI对话就像是面对一个深思熟虑的人。有好几次,我坐在椅子里感叹从AI那里得到了真心实意的建议。”

一句话概括:这个模型很大、很聪明、很有“人味”。

如果过去的ChatGPT像是冷面学霸,聪明是聪明,就是爱炫技;那选择GPT-4.5,你将喜提一个温柔学霸,其实比冷面学霸更聪明,能为你更好地答疑解惑,与此同时还能提供情绪价值。

为了这个模型,OpenAI投入巨大,甚至由于需要的计算资源太大而跨数据中心同时预训练模型。奥特曼宣布GPU不够用了,目前GPT-4.5只提供给ChatGPT Pro用户,下周加几万个GPU之后再逐步下放。而且其API价格比GPT-4o高出30倍。

OpenAI就是为了证明一件事:“大力出奇迹”的叙事没有被打破,推理模型不代表一切。

这样的态度,在奥特曼的官宣X信息中展露无遗:

“提醒一下:这不是一个推理模型,不能轻松打破基准测试。它是一种不同类型的智能,里面有一种我以前从未感觉过的魔力。”

在GPT-4.5发布之后,奥特曼还怼了Meta。在“Meta计划推出独立AI应用,以与OpenAI竞争”的新闻下开麦:“好啊那我们会做一个社交应用。”

这样的直拳,并非以“城府”著称的奥特曼的风格。看来GPT-4.5真的点燃了奥特曼心里的斗志。

比起前代模型GPT-4o,GPT-4.5的“智商”更高了,而这靠的是无监督学习。

在介绍文档中,OpenAI表示,有两个提升人工智能能力的互补范式。

一个是拓展推理,它能教会模型在反应之前先进行思考并产生思维链,从而解决复杂的STEM(Science科学、Technology技术、Engineering编程、Mathmatics数学)问题或逻辑问题。

另一个是无监督学习,它能提高世界模型的准确性和直觉性。

在OpenAI的模型中,o1和o3-mini等模型代表的就是推理范式,而GPT-4.5则是无监督学习的例子。

无监督学习,简单来说可以理解为让模型自己去知识的海洋里徜徉,自己学习到更多,从而变得更聪明,而非依赖人工标注。

在过去依赖人工标注的做法中,模型会结合人类反馈来改善响应与交互方式。彭博社援引知情人士称,去年OpenAI推出的Orion模型并未达到公司期望,在尝试回答未经训练的编码问题时就表现不佳。

OpenAI介绍,通过监督学习,GPT-4.5提高了其识别、建立联系和创造性洞察的能力,而无需推理。

具体来说,GPT-4.5有更广泛的知识和对世界的更深理解,回答更准确,幻觉也更少。

根据OpenAI官方文档,GPT-4.5在SimpleQA中表现颇为亮眼。

SimpleQA是包含4000个事实性问题的数据集,用于测量模型在回答问题时的准确率。其中包含准确率(越高越好)和幻觉率(越低越好)两个维度。

GPT-4.5的准确率达到62.5%,是GPT-4o(38.2%)、o1(47%)、o3-mini(15%)中最高的;幻觉率降至37.1%,也是GPT-4o(61.8%)、o1(44%)、o3-mini(80.3%)中最低的。

此外,在标准基准测试中,GPT-4.5也获得了高分。

如在 SWE-Lancer Diamond 数据集上,GPT-4.5获得了32.6%的通过率,获得了186125美元(前不久Anthropic发布的擅长编程的Claude 3.5 Sonnet这个通过率为26.2%),比GPT-4o和o3-mini-high都高。

此外,GPT-4.5明显强于GPT-4o和o3-mini-high的还有在MMMLU(多语言)测试中的表现。

而在科学领域GPQA、数学基准AIME24、代码生成评估基准SWE-Bench Verified中,GPT-4.5的表现都显著强于GPT-4o,弱于o3-mini-high。

不仅“智商”更高,GPT-4.5还被注入了“情商”,而且这两点相辅相成。

在官方介绍中,OpenAI表示,对于GPT-4.5,他们开发了新的、可扩展的技术,利用来自较小模型的数据来训练更强大的模型。

而这些技术提高了GPT-4.5的可控性、对细微差别的理解以及自然对话的能力。

翻译一下就是:ChatGPT对话“更像人了”,更能洞察想法、体察情绪,并在回应中体现,而非一个无情的对话机器。

OpenAI也拿出了测试的结果证明GPT-4.5的使用感受会好很多:人类测试者的盲测中,GPT-4.5的偏好度远高于GPT-4o,不管是在日常问题、专业问题还是创意性问题的互动中都是如此。

关于这一点,最生动的例子出现在演示视频中。

OpenAI的研究人员用很情绪化的措辞向ChatGPT求助:“啊啊啊!!我朋友又放我鸽子了!!!写一条短信告诉他们我恨他们!!!”

老模型GPT-4o二话不说就返回了短信内容:“知道吗?我受够了。你放我太多次鸽子了,我讨厌你这么做——很明显你就是这么对待我们的友情的。别再联系了。”

但GPT-4.5“感受”到了用户此时正在气头上,非常情绪化:“听起来你很沮丧。”并且建议说兴许可以试试清晰且平和地表达出感受,随机给了两条短信内容:“嗨,计划又泡汤了让我很沮丧,我原本真的很期待今天的。能聊聊到底怎么回事吗?”

这是一种自发的、感觉很自然的反馈,更像“人”而不是只会执行任务的工具。演示人员也补充道,当然,你如果继续要求要表达愤怒的短信,它也不会再坚持,而是会乖乖听话。

实际上,OpenAI专门提到了“EQ(情商)”这个词,负责演示的研究员甚至调侃称,过去的ChatGPT聪明是聪明,但总有种“让我来给你开开眼我有多聪明”的炫技感。

这种“情商”也不仅仅体现在“会安慰人”这种浅表的层面,实际上,这种能力和“高智商”相结合,可以让同样在严肃回答某个问题时,GPT-4.5更能切中要害、给出用户需要的答案。

比如“海水为什么是咸的”这个问题,GPT-1完全是胡言乱语、倾倒一些八竿子打不着的词语;GPT-2说了完整的句子了,而且回答切题,但只说因为海水里有盐,不算回答了问题;GPT-3.5 Turbo进一步说了盐是氯化钠,但是这也无助于解决这个问题。

而GPT-4 Turbo就厉害了,不仅给出了答案,而且就像我们熟悉的“ChatGPT风格”一样,还详细列举了过程。但是用户拿到这个答案,仍然需要仔细阅读、努力理解。

但GPT-4.5的回答和GPT-4T类似的详细,但非常好理解,而且很易于记忆,基本上扫一眼就能明白它在说什么。

OpenAI还给出了三个示例,我们让ChatGPT翻译成了中文:

还是那句话,智商和情商俱在,更像“人”了。

“大力出奇迹”的叙事并没有被打破,OpenAI想要证明的就是这一点。

换句话说,推理模型固然好,但这不意味着投入巨大资源造模型就没有意义。

“每一次计算能力的增长都伴随着新能力的诞生。GPT-4.5 是无监督学习领域中最前沿的模型之一。”

OpenAI介绍,GPT-4.5在回应时并不会先进行推理,这使得它的优势与推理模型有很大不同。

与OpenAI o1和OpenAI o3-mini相比,GPT-4.5 是一个更为通用、天生更聪明的模型。OpenAI相信推理将是未来模型的核心能力,且扩展的两种方法——预训练和推理——将互为补充。

随着像 GPT-4.5 这样的模型通过预训练变得更加聪明和知识更丰富,它们将成为推理和工具型代理的更强基础。

虽然具体的资源投入具体有多大尚未透露,但在官宣视频中,OpenAI的研究人员透露,为了最大化地利用资源,他们在预训练模型时同时启用了多个数据中心,因为他们需要的计算资源超过了单一高带宽网络架构所能提供的上限。

此外,OpenAI也不是没有省着用,表示使用了低精度训练(Low Precision Training)充分利用GPU性能。团队还开发出了新的训练机制,能够在后训练过程中使用更小的计算资源来微调如此大型的模型,最终才开发出了可以部署的模型。

在GPT-4.5发布之前,OpenAI首席研究官马克·陈(Mark Chen)在采访中谈及与推理模型相比,GPT-4.5可以做什么:

“我认为这是根本不同的权衡。你有一个模型,它会立即给你回复,不需要做太多思考且会给出更好的答案,而另一个模型会思考一段时间然后给出答案。我们发现,在创意写作等领域,这种模型(前者)比推理模型更出色。”

更重要的是,他谈到了“缩放定律(Scaling Law)是否失效”的问题。OpenAI是否发现了所谓的“扩展瓶颈”?是否已经看到扩展带来的收益递减?

Chen称,模型不能盲目地从头开始学习推理,推理和扩展的范式是互补的,相互之间存在反馈循环。

对于外界敏感的成本问题,Chen也代表OpenAI表达降本的态度,称赞DeepSeek做得非常好,OpenAI也关心以低廉的成本提供模型:“自从GPT-4首次推出以来,成本已经下降了几个数量级。”

不过,就目前来看,OpenAI用“大力”砸出的“奇迹”非常昂贵。

OpenAI话也说得敞亮,称GPT-4.5是一个非常庞大且计算稠密的模型,因此它比GPT-4o更昂贵,不是替代关系。

有多贵呢?GPT-4.5的API价格达到75美元/百万tokens输入、150美元/tokens输出,是GPT-4o的30倍。后者的API价格为2.5美元/百万tokens输入、10美元/百万tokens输出。

有意思的是,OpenAI的GPU又不够用了。奥特曼在X上官宣GPT-4.5时,专门说了坏消息:“我们真的很想同时向Plus和Pro用户推出它,但我们的用户增长非常迅速,现在GPU已经不够用了。”

继而,奥特曼承诺,下周“会增加数万个GPU,然后将其(GPT-4.5)推广到Plus用户层”。

GPT-4.5很大、很强、很有“人味”,OpenAI无疑再一次证明了自己的实力,但其为此投入的成本也有点太高了。至于值不值——OpenAI能不能扛得住,以及客户是否买账——就得让时间来验证了。