不拼“智力”拼“情商”?GPT-4.5 就这?
2 天前 / 阅读约8分钟
来源:36kr
不拼“智力”拼“情商”?GPT-4.5 就这?

2月28日,Open AI 发大招,GPT-4.5 顶着“史上规模最大,知识最丰富,价格最贵的 AI 大模型”光环横空出世,CEO 山姆.奥特曼在推特上更是对它大赞特赞,说这是他“所讨论过的最好的,深思熟虑的模型”,还说“这玩意儿第一次让我觉得 AI 像个人!”

然而,这场发布会却戏剧性拉满:奥特曼在网上对 GPT-4.5 称赞不已,本人却缺席发布会,只因他初为人父,要在医院全力带娃。

从 2 年前的 GPT 封神到今日的 GPT-4.5 终于出道,这款新型 AI 大模型究竟能给我们带来什么呢?

这次卷的是“人味儿”

对于 GPT 的期待,相信就不用我多说了。2 年前,GPT-4 一战封神,用过的人没有一个不说:卧槽。

然而时间匆匆而过,不知不觉,GPT-4.5 也来到了它的发布会,但不得不说,似乎再也没有当年那种“秀翻天”的感觉了。

这次的 GPT-4.5,我个人认为在性能上并没有达到大家的预期。

虽然号称在 GPT-4.5 使用了 GPT-4o 10 倍的计算能力,但整体数据我们看下来,并没有巨大的提升。

甚至和它的名称也非常相衬,只有“半代”左右的提升。

网络上有大佬给它做了 AI 常用的经典物理测试,表现其实还不错,小球运动速度很快,而且并没有超出大球。

然而在推理能力上,GPT-4.5 虽然相比 4o 整体有微弱的提升,但在 GPQA (科学)、AIME'24 (数学)、SWE-Bench Verified (编程)能力上,却完全弱于 OpenAl o3-mini。

所以这次 GPT-4.5,更多的优点就在于 OpenAI 所说的:人情味。

GPT-4.5 的人情味体现在哪里呢?

在真正展示 GPT-4.5 之前,OpenAI 先是给我们展示了从 GPT-1 到 GPT-4.5 的进化过程,看起来非常有意思。他们问了一个常识性问题:为什么海洋是咸的?

GPT-1 的回答是这样的,可以看出,它甚至不知道自己说什么。

GPT-2 和 GPT-3.5 开始知道自己说什么了,而且稍有端倪。

GPT-4 是我们最熟悉的回答节奏,有逻辑,有依据,就是说话太死板,一点都不像人。

而到了 GPT-4.5,会发现,它的回答和 GPT-4 相差不大,这也说明,其实它在推理以及逻辑能力,其实变化不大。 

而变化最大的在于它的语气,一方面它说话会更加简短,用词也更加日常,另一方面是它带有“感叹号”,这也是表达它的话语是带有情感的。 

而最能体现 GPT-4.5 的情商能力,关键还要问他一些带有情绪的问题,例如说:我在考试不及格后感到很难过。 

可以看到,GPT-4o 回答得真的很没脑,纯纯的逻辑分析,一股死脑筋味道。 

而 GPT-4.5 则会顾忌到人的情绪,不仅懂得安抚,还会建立自信,告诉你“这不是你能力的问题”,最后再给出解决方法,让你转移一下注意力可以没那么难过。 

更有意思的是,有人发现,既然它的情商这么高,或许在文科类目上会有更大的作为,然后发现它在音乐推荐上比 GPT-4o 强多了。 

或许是因为音乐更需要感性上的品鉴,而不需要直头直脑的逻辑推理,而这正是 GPT-4.5 所擅长的。 

相比过往大家期待的“聪明大脑”,这次的 GPT-4.5 不再是“答题机器人”,而是智商依然在线,但情商直接封神的“知心大姐姐”,能随时给与你情绪上的价值。 

DeepSeek 吊打 GPT-4.5 

当然,说起情商,那 DeepSeek 就不得不出来应战了。要知道,DeepSeek 刚出来的时候,不仅在于其价格低廉,更在于它的“人情世故”。最出名的莫过于当时的这张聊天截图: 

很多人当时都说,DeepSeek 这是“ AI 成精”了,很多时候甚至还懂得用网络梗来回答。那么对比新出 GPT-4.5,它的表现如何呢?我用刚才考试不及格的问题问了一下它: 

老狐发现,DeepSeek 的回答同样也不错,和 GPT-4.5 几乎一模一样,安慰、建立自信、再给出解决方法。所以说,我们之前用 DeepSeek 感觉它情商很高,这并不是错觉,而是它确实情商高,而且和 GPT-4.5 也打得有来有回。 

但不谈成本纯谈能力,那就是耍流氓(况且也没看出 GPT-4.5 多有能力啊)。很多人第一次看到 GPT-4.5 的价格时,都怀疑是不是他们标错价格了,还是自己的眼睛出问题了。 

GPT-4.5 的 API 价格确实昂贵到已经无法让人想象得地步,每百万 Tokens 输入的价格为 75 美元,输出的价格是 150 美元,这价格已经是 GPT-4o 的 30 倍了。而它的竞对 Claude 3.7,百万输入才 3 美元,输出也只要 15 美元,这在国外它的成本已经比别人贵 10~25 倍了。 

科技圈有人测算过,假如提问一个几十个汉字的问题,再拿到一个三四千字的答案,这里的价格就要掏 60 块钱左右。 

或许这就是 OpenAI 这次最想告诉你的:当今世界最值钱的东西就是情绪价值,一个高情商的回答,就能比“直男”的 4o 要贵几十倍。 

但假如我掏出 DeepSeek,那 GPT 将如何应对呢?现在 DeepSeek V3 的价格,输入是 2 块(换算于 0.27 美元),输出是 8 块(换算于 1.1 美元)。 

GPT-4.5 整整贵了 277 倍和 150 倍,能力相当,但价格却这么贵,OpenAI 凭啥呢? 

训练预期达到瓶颈  

最近的 Grok 3 和 GPT-4.5 可以说是接连推出,或许这与 DeepSeek 的出现有关,两者的出现,似乎有一点被“逼急”的感觉。 

例如像 Grok 3,马斯克称他为“全球最聪明的 AI 大模型”,然而前段时间也并没有轰动,同样的,现在出来的 GPT-4.5,在“情商”上有提升?但性能表现同样没能达到大家的预期,要知道,OpenAI 一直都是业界领先的存在,但这次却并不如人意。 

或许,我们所熟知的,通过烧钱买卡,力大砖飞硬抬算力的 AI 之路开始进入瓶颈期了。 

GPT-4.5 的这个项目从很早就开始立项了,但经过 2 年后现在才出来,很有可能,是中间的训练的过程一直没有出现理想的结果,直到现在被 DeepSeek 威胁到自身才急急忙忙端出来。 

早在 2 月 19 日的时候,山姆奥特曼就已经预告过他们已经达到 4.5 的水平,所以这次的发布,其实是早在计划之内。 

但当时他也说过,之后要想达到 GPT-5.5,则需要再增加 100 倍的算力。 

那可是 100 倍算力,恐怕显卡都要堆成珠穆拉玛峰了,而且就算多少张 GPU 先不说,现在的 AI 用电量已经是全美的 4% 了,要想再翻 100 倍,那是要耗费多少个美国的电量呢?4 个美国吗?这有可能吗? 

目前 AI 大模型主要走的是两条路,一条是国外的烧钱堆算力路线,另一条则是 DeepSeek 在算法上强化学习的路线。或许我们现在要期待的,是看一下 DeepSeek R2 能否在性能上达到大的突破,假如可以的话,或许我们走的路,才是正确的路。 

参考资料: 

知乎、X、facebook、youtube、b站、新浪微博