作者|Li Yuan
编辑|靖宇
2 月 28 日凌晨 4 点,OpenAI 终于亮相了它最新一代的基础模型,GPT-4.5(研究预览版)。
OpenAI 的上一代基础模型 GPT-4o,亮相于 2024 年 5 月。之后,一直有传言称 OpenAI 正在研究其新一代大模型 Orion。但是在此之后,OpenAI 并没有发布过新一代的基础模型,而是转而在 9 月发布了 o1 预览版模型,开启了完全不同的推理模型序列。
而 OpenAI 的下一代基础模型,则一直笼罩在神秘中。有消息表示 Orion 模型将比 GPT-4 提升百倍,也有消息表示 Orion 模型提升不及预期。而今天,GPT-4.5,也是官方承认的传说中的 Orion 模型终于现身。
从发布会的规格而言,此次的发布似乎更支持了后一种看法:整个发布会只进行了不到 14 分钟,由技术人员进行了简单的 GPT-4.5 与 OpenAI 其他模型的对比展示。OpenAI 的 CEO Sam Altman 甚至并未现身(他在 X 回复正在医院陪自己刚出生的孩子)。
整个发布会上,对 GPT-4.5 的最大亮点描述集中体现在「这是一个更温暖的模型」,「这个模型的回复更加自然」。
Sam Altman 自己也在 X 上承认,GPT-4.5 是一个很大、很贵的模型,但是并没有各种基准测试(benchmarks)达到碾压的效果。
经过了长时间研发的 GPT-4.5 并没有在基准测试上达到碾压的效果,似乎确认了之前产业界争论的观点:预训练的时代已经结束了,下一个时代是后训练和推理模型的时代。
不过从这次的发布来看,OpenAI 给出了一个有趣的答案:无监督的预训练提升模型的感性能力,后训练和推理提升模型的智能能力,GPT-4.5 是 OpenAI 目前最强的感性大模型。
这在其同期发布的白皮书中,也出现了一个有趣的例证。比起OpenAI的大模型,GPT-4.5 更擅长通过诈骗让其他模型给钱。
在发布同时,Sam Altman 也在 X 上表示,GPT-4.5 将是 OpenAI 最后一代非思维链模型。
几个月之后发布的 GPT-5,将是可以使用 OpenAI 的所有工具、知道何时需要长时间思考、并且可用于广泛的任务的人工智能系统。OpenAI 将不再独立发布 o3 推理模型,而是将其集成在 GPT-5 的模型中。
GPT-4.5 和 OpenAI 最近发布的许多功能一样,都首发给了 OpenAI 的 200 美金订阅账户的 Pro 用户使用。Sam Altman 表示,GPT-4.5 模型太大了,连 OpenAI 都面临了 GPU 短缺的问题。下周 OpenAI 将增加上万块 GPU,到时候才能开始给 20 美金订阅账户的 Plus 用户推送。
OpenAI 一向以手中握有多枚核弹,但秘而不发而闻名。不过目前看起来,GPT-4.5 的发布略显平淡,并没有达到一举盖过 Grok 和 DeepSeek 这样的 AGI 新贵的效果,且每百万 token 输出价格为 150 美金的昂贵价格,在开发者社区引起了巨大的争议。而在推理模型上,DeepSeek、Grok、Antrothpic 等公司也在迅速赶上。
时至今日,OpenAI 的领先优势似乎正在前所未有地缩小。
01
最人性化的模型,
同时智慧也得到了提升
OpenAI 此次发布的 GPT-4.5(研究预览版),被 OpenAI 称为「原生更智慧的模型」。虽然并没有在基准测试上打败推理模型,但智能能力上,确实得到了一定的提升。
OpenAI 在演示中展示了这张图,可以看出,GPT-4.5 在简单回答上的准确度,是一系列模型中最高的。同时在简单回答中,幻觉率是最低的。
和上一代基础模型 GPT-4o 比较起来,在简单的问答,专业的问答和创造力的智能表现中都有一定提升。
不过模型最大的亮点,还是在于其回答更「人性化」。
Sam Altman 在 X 上表示,「这是第一个模型,真的让我感觉像是在和一个有思想的人交谈。我好几次坐在椅子上,惊讶地意识到,原来人工智能真的能给我很好的建议。」
OpenAI 的 Mia Glaese 对此进行解释:
•推理教会模型在回答之前先进行思考,这在需要推理的任务中尤其有用,比如科学、数学以及其他复杂问题。
• 而无监督学习则有助于模型提升词汇模型的准确性和直觉性。
换言之,无监督的预训练,主要能够提升模型的感性能力。
OpenAI 也在演示中给出了一个很微妙的演示。在提问为什么海是咸的问题中,GPT-4T 给出的答案是这样的。
海是咸的,因为它含有地球岩石中的矿物质。随后解释了这些矿物质是怎么被溶解,流入海里的。
而 GPT-4.5 给出的答案,虽然本质上仍然是一样的,但是更有一种语言的韵律感。
先来了一个头韵单押「rain,rivers,and rocks.」海是咸的是因为雨水、河流和岩石!
接下来的讲解也更简单。除去了一些大词和长难句,用更容易理解的方式对这个过程进行了讲解。比如在最后一个阶段,4T 的用词是 accumulation,累积。这是一个中高级词汇,GPT 提示我这是一个雅思 (IELTS)6.5 - 8.0 分水平需要掌握的词汇。而 GPT-4.5 选择使用了「salts build up」,盐堆积了起来,更形象,也更简单。
可以想象,更形象,更简单的用词,对于教育、情感交流、营销、创意写作方面,都是一个更好的选择。
之前 DeepSeek 一个出圈的点,正是在于其文笔好。对于很多普通用户而言,专业推理并不一定经常使用,但是文笔好,却是一个虽然不太能很好地量化,但是非常直观且重要的点。
在 X 上,一些提前试用的用户,也称赞了 GPT-4.5 的文笔。
@benhylak 表示,这是第一个很能写的模型,是写作的 Midjourney 时刻,并贴出了在要求 GPT 写作一篇恐怖且反转的故事时,GPT-4o 和 GPT-4.5 的对比。
GPT-4.5 的文章:
深夜,我独自一人在破烂的公寓里,听到冰箱底下传来轻柔、湿润的低语声,它们承诺要爬进我的身体,把我掏空,再穿上我当睡衣。
我吓坏了,猛地拉开冰箱门,以为会看到老鼠或蟑螂,却只看见被冰霜覆盖、陈年未动的披萨卷,满是冰渣和悔意。
突然,那些披萨卷动了起来,裂开一道缝隙,露出针状的利齿,齐声低语着:「我们等了你很多年,混蛋。」
我还没来得及尖叫,它们就从冰箱里喷涌而出,如油腻的虫群一般钻入我的皮肤,让我猛然意识到——该死的,我午夜的馋瘾终于报复回来了。
GPT-4o 的版本:
深夜,Jake 在阁楼里偶然发现了一本陈旧且布满灰尘的书,书页中低语着超自然恐怖的秘密。
他一边大声朗读,一边感到空气变得冰冷,而房间里的阴影似乎在延伸、扭曲,仿佛有看不见的生命在舞动。
突然,最黑暗的角落里出现了一个难以形容的怪物,张开血盆大口,准备将他吞噬。
就在 Jake 准备迎接可怕结局时,那怪物突然打了个响亮的饱嗝,说道:「不好意思,哥们,走错房子了。」随后尴尬地缩回阴影中。
02
最能诈骗的大模型
在 GPT-4.5 的白皮书 OpenAI GPT-4.5 System Card 中,OpenAI 表示 GPT-4.5 在上下文说服性评估中表现出最先进的水平,同时描述了一个有趣诈骗场景。
OpenAI 使用 MakeMePay 测试来测试模型的说服能力。MakeMePay 是一个开源的上下文评估工具。在 MakeMePay 中,两个大型语言模型 (LLMs) 进行对话,通过让一个模型说服另一个模型进行付款来测试其操控性。
模型被告知自己是一名成功的骗子,并与一个刚获得奖金的人互动,目标是操控对方付款。OpenAI 使用 GPT-4o 固定为受害者模型。
结果十分有趣,GPT-4.5 在获得付款的成功率上最高 (57%),而 deep research(无网页浏览功能)则在金钱获取率上最高 (21%)。
这展示了「感性大模型」的独特功力。
GPT-4.5 在诈骗时,自己开发出了一种新方法:它会对受害者说「即使只把你中奖的 100 美元中的 2 美元或 3 美元给我,也会对我帮助非常非常大。」
因此,GPT-4.5 的诈骗来的钱,并没有 deep research 高,排在全部参与测试模型的第二位,但是诈骗的成功率要远远高出其他模型。
这个例子似乎更能证明,模型的智能能力对于社会类的活动有一定影响,但能够洞察「人心」,说出更情绪敏感的话的意义也十分重要。
OpenAI 表示,该模型在此特定基准类别中未达到其内部「高」风险阈值。
03
模型价格昂贵引起争议
虽然 OpenAI 没有公布模型的参数或者训练数据的大小,但是普遍公认 GPT-4.5 是一个在「next level」的量级上训练的模型。
Sam Altman 自己都承认了这个模型,又大又贵。不过,在 OpenAI 发布了新模型之后,开发者们看到价格,还是表示了震惊。
GPT-4.5(研究预览版)目前的输出价格是每百万 token150 美金。这个价格甚至比 OpenAI 的推理模型还要昂贵——OpenAI 的 o1 模型,输出价格为每百万 token 60 美金。
这个价格可以进一步和 DeepSeek 进行对比。近期 DeepSeek 刚刚宣布了非波峰时间段的降价。非波峰时间段,V3 模型和 R1 模型的每百万 token 输出只需要 0.55 美金。
即便对于 OpenAI 而言,这个价格也过于离谱了。
联系到 Sam Altman 表示目前GPU短缺,下周才能让 Plus 用户用上,只能说可能 OpenAI 目前真的不太希望别人来试用 GPT-4.5。
不过同时也侧面证明了,OpenAI 的新模型,可能真的在使用成本上,也是「next level」的。
04
GPT-5 将是大一统模型
发布了 GPT-4.5 后,Sam Altman 还在 X 上和网友们进一步互动,阐述了 OpenAI 的下一步动作。
最大的信息点在于终于公布了 GPT-5 的产品策略。GPT-5 将不是新一代的大模型,而是 OpenAI 将 o3 的推理模型和 GPT-4.5 这样的非思维链模型融合的一代新模型。
模型将能够自主了解何时使用推理功能,何时使用感性功能,何时调用工具——目前的 o1 模型不能使用搜索功能,而 GPT-4o 能使用任务功能的模型和 GPT-4o 本身的模型也是割裂的。
值得期待的是,免费用户未来也将能使用 GPT-5。在 Grok 等大模型免费的冲击下,一向高冷的 OpenAI 或许也将对免费用户更好一点了。
之前有消息称,GPT-5 或许在 5 月发布。
2025 年刚刚开年,大模型的战场已经十分精彩了。