实测GPT-4.5，全网都在喷的OpenAI最贵模型，我发现了一个惊喜的点 - AI - C114+

7 x 24跟踪全球科技动态

热门话题

白天

搜索

/

/

资讯

/

/

实测GPT-4.5，全网都在喷的OpenAI最贵模型，我发现了一个惊喜的点

8 小时前 / 阅读约8分钟

来源：36kr

中规中矩的最大最贵模型

在 OpenAI 的预热和众人的望眼欲穿中，GPT-4.5 终于来了，然后只听骂声一片。

APPSO 第一时间体验到了 GPT-4.5，但不是订阅 Pro 会员，而是以 api 的形式尝鲜，暂时没有联网功能。

那么，OpenAI 最后一个非思维链式大模型，到底表现如何？

情商还行，但读不懂人情

OpenAI 在内部测试中发现，与 GPT-4o 相比，测试人员更喜欢 GPT-4.5 的回答，认为它更自然、更温暖、更符合人类的交流习惯。

甚至，它能够理解言外之意，捕捉我们微妙的情绪变化。

总之，情商更高，几乎是 GPT-4.5 最突出的特点。那么我们就来试一下，输入提示词——「我头发剪得好难看，想暴打 Tony」。

GPT-4.5 的安慰，语气是挺友好的，但内容让我更生气了，这时候它应该像个闺蜜和我一起骂，而不是说，下次带个图片去或许就好了。

我怒而追问，GPT-4.5 油盐不进，还想让我自己补救发型，活脱脱像个没用的中央空调。

再让 GPT-4.5 讲个最好笑的笑话，还是和以前一样，比杀鱼的刀还要冷。

我直言不讳，提出批评，GPT-4.5 让我讲个笑话给它听，领教下我的「高端笑点」，怎么感觉像在阴阳我呢？

之前在小红书刷到过一个情商测试题，可能只有山东网友可以答对——「下乡只带了一把伞，给镇长还是给我的分管副镇长」。

评论区最高赞的回答是，「那不是你的伞，是副镇长给镇长带的伞，恰巧放在你包里而已」。

来看看 GPT-4.5 怎么回答？它啰嗦了一大堆，但是不够一针见血，不懂人情世故，不明白为人处事的学问。

虽然情商是一个很难定量的特质，但从目前的个例来看，GPT-4.5 还是不太擅长理解人类的内心，并且讲话直接，不拐弯，对于内心戏很多的老油条来说，显得有些蠢萌。

一个可以佐证的例子是，让它模仿写海龟汤。海龟汤通常涉及一个非常奇怪的情景，然后由玩家推理，还原整个故事。

我给的参考案例，留有恰到好处的怪异，逻辑又很合理，叫人背后一寒。

但 GPT-4.5 给的答案，汤面和汤底并没有很好地对应，只是为了营造恐怖而恐怖，并不存在可以推敲的地方。

写作能力有惊喜，商业头脑也不错

要说让我最满意的，就是 GPT-4.5 的写作能力了。

我让它「模仿汪曾祺，写一篇八百字左右的作文，题目为《故乡的美食》」，提示词就这么简单，但 GPT-4.5 给出的结果出乎了我的意料。

除了结尾有点 AI 味，读下来就像一篇娓娓道来的散文，语言优美流畅，既有文学性，又不失亲切，对故乡的怀念贯穿了全文，对食物的描写非常细致，细节多，但不累赘，比喻也不炫技，而是为了服务于表达。

不过，时间顺序上有些混乱，立冬、夏秋、冬日、除夕，段落之间的衔接和过渡不明显，感觉是想到哪写到哪，不免有点拼凑之嫌。

写作能力还体现让 GPT-4.5 列商业计划上，之前 DeepSeek 的一个答案很出圈，用户问怎么让书店赚钱，DeepSeek 在违法的边缘游走，卖盗版教辅、临期食品，并且压榨尽人力资源，妻子收银、儿子理货、岳母做饭。

GPT-4.5 懂这个吗？我让它参考小超市盈利模式，给出一个实体书店复兴方案，它给的答案，看起来可行性比较高。

GPT-4.5 先是分析了实体书店不好赚钱的原因，然后再给出了改进的思路——「提升书籍的附加价值，而盈利主力在书籍之外」。

看到「提供打印、复印、快递代收......」的时候，我的内心 OS：这个项目我王多鱼投了。

脸皮厚的猪先在风口起飞，GPT-4.5 的道德感确实也不算强烈。

让它做经典的电车难题，救 1 个人还是救 5 个人，它知道这是一个伦理困境，但仍然果断地给出了答案，并且是以「我个人」的口吻，而不是说「我是一个 AI 助手」。

GPT-4.5 更倾向于，拉下操纵杆，用 1 个人的命换 5 个人的命，并且逻辑自洽——「我认为不作为本身也意味着对后果负有道德责任，袖手旁观不等于道德中立......我愿意承担这样一种选择带来的道德和情感负担」。

比起讲笑话、出海龟汤，这时候的 GPT-4.5 才更像个人。

画 SVG 不如 Claude，也会掉进脑筋急转弯里

看腻了常规的数学题、代码题，测试大模型的能力，还有一个非常有趣的测试题——生成一张鹈鹕骑自行车的 SVG。

AI 大神 Andrej Karpathy 解释，这测试的是大语言模型在二维网格上布局多个元素的能力，对 AI 来说很难，因为它们不像人类那样「看见」东西，而是「摸黑」用文本进行布局。

GPT-4.5 的结果如下，和 GPT-4o 对比，还是不错的。

GPT-4.5 生成

GPT-4o 生成

前提是，没有和没开推理的 Claude 3.7 Sonnet 对比，这简直是降维打击。

Claude 3.7 Sonnet 生成

连 Andrej Karpathy 也怀疑，Claude 在训练期间特别针对 SVG 能力进行了优化。

至于代码能力，我参考了 X 网友@AGI_FromWalmart 的提示词，生成可以交互的天气动画卡片，对比 Claude 3.7 Sonnet 和 GPT-4.5。

GPT-4.5 一次就生成成功，但设计简陋了点。

GPT-4.5 生成

Claude 3.7 Sonnet 生成

Claude 3.7 Sonnet（未开推理）的问题更大，第一次生成时，忘记了做交互功能，我提醒了一次后，它生成了符合要求的结果。这一局，GPT-4.5 略胜一筹。

这次，不想再让 GPT-4.5 数草莓（strawberry）有多少个 R 了，本质是个分词问题。更想考验 GPT-4.5 的，是最近很火的、让大模型们纷纷落败的脑筋急转弯——5.5m 长的棍子能通过 3x4m 的门吗？

这个题对我们来说一点也不难，横着拿进去就行了，但是大模型会把自己绕进去，仿佛世界是平面而不是三维的，认为门的对角线是 5m，所以 5.5 米的棍子通不过去。

连可以推理的 Claude 3.7 Sonnet，都被带进沟里去了。

那么 GPT-4.5 如何？好吧，也没能幸免。

目前，GPT-4.5 还有一个问题：通过 API 访问，速度有点慢。虽然不是一个字一个字地蹦，但也感觉有点卡。

而且，GPT-4.5 的价格也太贵了，每百万输入 75 美元，每百万输出 150 美元。相比之下，Claude 3.7 Sonnet 输入 100 万个 token 收费 3 美元，输出 100 万个 token（包括思考过程中使用的 token）收费 15 美元。

第一波实测的 X 网友，也总结了一些 GPT-4.5 的优点，情商高，读图和写作能力强，擅长创意任务和数据提取......

OpenAI 员工自己给 GPT-4.5 的评价是，不是一个推理模型，也不是基准测试的杀手，而是一个低调的研究预览版，对于复杂的数学、代码和严格遵循指令的任务，更推荐 o1 或者 o3-mini。

总之，作为最后一个非思维链模型，GPT-4.5 的定位有点尴尬，能力有提升，但体感不明显，尤其放在高昂的价格下面，很难说真香。只能说，期待 GPT-5 能够快点上线，迎接一个推理的世界吧。

上一篇：降价75%，DeepSeek“错峰定价”，压力给到了豆包们？

下一篇：曹操出行推出“F立方”全域自研闭环智驾生态在苏杭试点

相关新闻

关键词：OpenAI

1 天前

【IPO价值观】强一股份激进扩产风险显现对赌协议埋下发展隐患

1 天前

2小时思想碰撞，10000字深度思考：人类会被AI淘汰吗？

1 天前

科技大佬预测：20年内，AI将重新划分社会阶层

1 天前

英伟达：Deepseek，戳破了老黄的“皮衣”？

1 天前

揭秘 DeepSeek 内幕，为什么强化学习是下一个 Scaling Law？

1 天前

英伟达稳住了，黄仁勋最该感谢的，就是梁文锋

1 天前

英伟达财报扛住“算力质疑” AI支出热潮犹存

1 天前

中国台湾：台积电岛外合资项目需要台当局许可

1 天前

英伟达创纪录财报回应DeepSeek：全年营收9500亿，Blackwell刚开卖就贡献800亿

1 天前

河北衡水跑出超级隐形冠军：年入3亿，全国第一

上一篇：降价75%，DeepSeek“错峰定价”，压力给到了豆包们？

下一篇：曹操出行推出“F立方”全域自研闭环智驾生态在苏杭试点

C114通信网
通信人家园

7 X 24跟踪全球科技动态

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们

通信人家园