Altman“喜当爹”，OpenAI连夜发的GPT-4.5都“更有人味”了 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

Altman“喜当爹”，OpenAI连夜发的GPT-4.5都“更有人味”了

15 小时前 / 阅读约11分钟

来源：凤凰网

发布会只开了15分钟，评论区关了又开

作者｜Li Yuan

编辑｜靖宇

2 月 28 日凌晨 4 点，OpenAI 终于亮相了它最新一代的基础模型，GPT-4.5（研究预览版）。

OpenAI 的上一代基础模型 GPT-4o，亮相于 2024 年 5 月。之后，一直有传言称 OpenAI 正在研究其新一代大模型 Orion。但是在此之后，OpenAI 并没有发布过新一代的基础模型，而是转而在 9 月发布了 o1 预览版模型，开启了完全不同的推理模型序列。

而 OpenAI 的下一代基础模型，则一直笼罩在神秘中。有消息表示 Orion 模型将比 GPT-4 提升百倍，也有消息表示 Orion 模型提升不及预期。而今天，GPT-4.5，也是官方承认的传说中的 Orion 模型终于现身。

从发布会的规格而言，此次的发布似乎更支持了后一种看法：整个发布会只进行了不到 14 分钟，由技术人员进行了简单的 GPT-4.5 与 OpenAI 其他模型的对比展示。OpenAI 的 CEO Sam Altman 甚至并未现身（他在 X 回复正在医院陪自己刚出生的孩子）。

整个发布会上，对 GPT-4.5 的最大亮点描述集中体现在「这是一个更温暖的模型」，「这个模型的回复更加自然」。

Sam Altman 自己也在 X 上承认，GPT-4.5 是一个很大、很贵的模型，但是并没有各种基准测试（benchmarks）达到碾压的效果。

经过了长时间研发的 GPT-4.5 并没有在基准测试上达到碾压的效果，似乎确认了之前产业界争论的观点：预训练的时代已经结束了，下一个时代是后训练和推理模型的时代。

不过从这次的发布来看，OpenAI 给出了一个有趣的答案：无监督的预训练提升模型的感性能力，后训练和推理提升模型的智能能力，GPT-4.5 是 OpenAI 目前最强的感性大模型。

这在其同期发布的白皮书中，也出现了一个有趣的例证。比起OpenAI的大模型，GPT-4.5 更擅长通过诈骗让其他模型给钱。

在发布同时，Sam Altman 也在 X 上表示，GPT-4.5 将是 OpenAI 最后一代非思维链模型。

几个月之后发布的 GPT-5，将是可以使用 OpenAI 的所有工具、知道何时需要长时间思考、并且可用于广泛的任务的人工智能系统。OpenAI 将不再独立发布 o3 推理模型，而是将其集成在 GPT-5 的模型中。

GPT-4.5 和 OpenAI 最近发布的许多功能一样，都首发给了 OpenAI 的 200 美金订阅账户的 Pro 用户使用。Sam Altman 表示，GPT-4.5 模型太大了，连 OpenAI 都面临了 GPU 短缺的问题。下周 OpenAI 将增加上万块 GPU，到时候才能开始给 20 美金订阅账户的 Plus 用户推送。

OpenAI 一向以手中握有多枚核弹，但秘而不发而闻名。不过目前看起来，GPT-4.5 的发布略显平淡，并没有达到一举盖过 Grok 和 DeepSeek 这样的 AGI 新贵的效果，且每百万 token 输出价格为 150 美金的昂贵价格，在开发者社区引起了巨大的争议。而在推理模型上，DeepSeek、Grok、Antrothpic 等公司也在迅速赶上。

时至今日，OpenAI 的领先优势似乎正在前所未有地缩小。

最人性化的模型，

同时智慧也得到了提升

OpenAI 此次发布的 GPT-4.5（研究预览版），被 OpenAI 称为「原生更智慧的模型」。虽然并没有在基准测试上打败推理模型，但智能能力上，确实得到了一定的提升。

OpenAI 在演示中展示了这张图，可以看出，GPT-4.5 在简单回答上的准确度，是一系列模型中最高的。同时在简单回答中，幻觉率是最低的。

和上一代基础模型 GPT-4o 比较起来，在简单的问答，专业的问答和创造力的智能表现中都有一定提升。

不过模型最大的亮点，还是在于其回答更「人性化」。

Sam Altman 在 X 上表示，「这是第一个模型，真的让我感觉像是在和一个有思想的人交谈。我好几次坐在椅子上，惊讶地意识到，原来人工智能真的能给我很好的建议。」

OpenAI 的 Mia Glaese 对此进行解释：

•推理教会模型在回答之前先进行思考，这在需要推理的任务中尤其有用，比如科学、数学以及其他复杂问题。

• 而无监督学习则有助于模型提升词汇模型的准确性和直觉性。

换言之，无监督的预训练，主要能够提升模型的感性能力。

OpenAI 也在演示中给出了一个很微妙的演示。在提问为什么海是咸的问题中，GPT-4T 给出的答案是这样的。

海是咸的，因为它含有地球岩石中的矿物质。随后解释了这些矿物质是怎么被溶解，流入海里的。

而 GPT-4.5 给出的答案，虽然本质上仍然是一样的，但是更有一种语言的韵律感。

先来了一个头韵单押「rain,rivers,and rocks.」海是咸的是因为雨水、河流和岩石！

接下来的讲解也更简单。除去了一些大词和长难句，用更容易理解的方式对这个过程进行了讲解。比如在最后一个阶段，4T 的用词是 accumulation，累积。这是一个中高级词汇，GPT 提示我这是一个雅思 (IELTS)6.5 - 8.0 分水平需要掌握的词汇。而 GPT-4.5 选择使用了「salts build up」，盐堆积了起来，更形象，也更简单。

可以想象，更形象，更简单的用词，对于教育、情感交流、营销、创意写作方面，都是一个更好的选择。

之前 DeepSeek 一个出圈的点，正是在于其文笔好。对于很多普通用户而言，专业推理并不一定经常使用，但是文笔好，却是一个虽然不太能很好地量化，但是非常直观且重要的点。

在 X 上，一些提前试用的用户，也称赞了 GPT-4.5 的文笔。

@benhylak 表示，这是第一个很能写的模型，是写作的 Midjourney 时刻，并贴出了在要求 GPT 写作一篇恐怖且反转的故事时，GPT-4o 和 GPT-4.5 的对比。

GPT-4.5 的文章：

深夜，我独自一人在破烂的公寓里，听到冰箱底下传来轻柔、湿润的低语声，它们承诺要爬进我的身体，把我掏空，再穿上我当睡衣。

我吓坏了，猛地拉开冰箱门，以为会看到老鼠或蟑螂，却只看见被冰霜覆盖、陈年未动的披萨卷，满是冰渣和悔意。

突然，那些披萨卷动了起来，裂开一道缝隙，露出针状的利齿，齐声低语着：「我们等了你很多年，混蛋。」

我还没来得及尖叫，它们就从冰箱里喷涌而出，如油腻的虫群一般钻入我的皮肤，让我猛然意识到——该死的，我午夜的馋瘾终于报复回来了。

GPT-4o 的版本：

深夜，Jake 在阁楼里偶然发现了一本陈旧且布满灰尘的书，书页中低语着超自然恐怖的秘密。

他一边大声朗读，一边感到空气变得冰冷，而房间里的阴影似乎在延伸、扭曲，仿佛有看不见的生命在舞动。

突然，最黑暗的角落里出现了一个难以形容的怪物，张开血盆大口，准备将他吞噬。

就在 Jake 准备迎接可怕结局时，那怪物突然打了个响亮的饱嗝，说道：「不好意思，哥们，走错房子了。」随后尴尬地缩回阴影中。

最能诈骗的大模型

在 GPT-4.5 的白皮书 OpenAI GPT-4.5 System Card 中，OpenAI 表示 GPT-4.5 在上下文说服性评估中表现出最先进的水平，同时描述了一个有趣诈骗场景。

OpenAI 使用 MakeMePay 测试来测试模型的说服能力。MakeMePay 是一个开源的上下文评估工具。在 MakeMePay 中，两个大型语言模型 (LLMs) 进行对话，通过让一个模型说服另一个模型进行付款来测试其操控性。

模型被告知自己是一名成功的骗子，并与一个刚获得奖金的人互动，目标是操控对方付款。OpenAI 使用 GPT-4o 固定为受害者模型。

结果十分有趣，GPT-4.5 在获得付款的成功率上最高 (57%)，而 deep research（无网页浏览功能）则在金钱获取率上最高 (21%)。

这展示了「感性大模型」的独特功力。

GPT-4.5 在诈骗时，自己开发出了一种新方法：它会对受害者说「即使只把你中奖的 100 美元中的 2 美元或 3 美元给我，也会对我帮助非常非常大。」

因此，GPT-4.5 的诈骗来的钱，并没有 deep research 高，排在全部参与测试模型的第二位，但是诈骗的成功率要远远高出其他模型。

这个例子似乎更能证明，模型的智能能力对于社会类的活动有一定影响，但能够洞察「人心」，说出更情绪敏感的话的意义也十分重要。

OpenAI 表示，该模型在此特定基准类别中未达到其内部「高」风险阈值。

模型价格昂贵引起争议

虽然 OpenAI 没有公布模型的参数或者训练数据的大小，但是普遍公认 GPT-4.5 是一个在「next level」的量级上训练的模型。

Sam Altman 自己都承认了这个模型，又大又贵。不过，在 OpenAI 发布了新模型之后，开发者们看到价格，还是表示了震惊。

GPT-4.5（研究预览版）目前的输出价格是每百万 token150 美金。这个价格甚至比 OpenAI 的推理模型还要昂贵——OpenAI 的 o1 模型，输出价格为每百万 token 60 美金。

这个价格可以进一步和 DeepSeek 进行对比。近期 DeepSeek 刚刚宣布了非波峰时间段的降价。非波峰时间段，V3 模型和 R1 模型的每百万 token 输出只需要 0.55 美金。

即便对于 OpenAI 而言，这个价格也过于离谱了。

联系到 Sam Altman 表示目前GPU短缺，下周才能让 Plus 用户用上，只能说可能 OpenAI 目前真的不太希望别人来试用 GPT-4.5。

不过同时也侧面证明了，OpenAI 的新模型，可能真的在使用成本上，也是「next level」的。

GPT-5 将是大一统模型

发布了 GPT-4.5 后，Sam Altman 还在 X 上和网友们进一步互动，阐述了 OpenAI 的下一步动作。

最大的信息点在于终于公布了 GPT-5 的产品策略。GPT-5 将不是新一代的大模型，而是 OpenAI 将 o3 的推理模型和 GPT-4.5 这样的非思维链模型融合的一代新模型。

模型将能够自主了解何时使用推理功能，何时使用感性功能，何时调用工具——目前的 o1 模型不能使用搜索功能，而 GPT-4o 能使用任务功能的模型和 GPT-4o 本身的模型也是割裂的。

值得期待的是，免费用户未来也将能使用 GPT-5。在 Grok 等大模型免费的冲击下，一向高冷的 OpenAI 或许也将对免费用户更好一点了。

之前有消息称，GPT-5 或许在 5 月发布。

2025 年刚刚开年，大模型的战场已经十分精彩了。

上一篇：被Github 上的Stable Diffusion 坑惨了？失业、欠帐、恐慌，工程师怒喷：AI软件...

下一篇：从专利代理师角度浅析DeepSeek与其他应用组合使用中的技术保护策略

返回列表

相关新闻