苹果新论文证明LLM大模型存在缺陷！没有进行真正的逻辑推理 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

苹果新论文证明LLM大模型存在缺陷！没有进行真正的逻辑推理

2024-10-13 / 阅读约2分钟

来源：凤凰网

虽然LLM在许多领域表现优异，但其推理能力仍有待改进。

快科技10月13日消息，近日，苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文，揭示了大型语言模型（LLM）在数学推理方面的显著局限性。

尽管这些模型在生成人类水平的文本方面表现出色，但当处理简单的数学问题时，即使问题仅进行了微小的改动，如添加无关信息，模型的表现也会急剧下降。

在论文中，研究人员通过一个简单的数学问题证明了这一点。

他们提出了一个关于采摘猕猴桃的问题：奥利弗在周五挑选了 44 个猕猴桃，然后他在周六挑选 58 个猕猴桃，周日，他采摘的猕猴桃数量是周五的两倍。奥利弗有多少个猕猴桃？

此时，LLM能够正确地计算出答案。

但是，一旦问题中加入了无关的细节，如“其中5个奇异果比平均小”，模型便给出了错误的答案。

研究人员进一步对数百个类似的问题进行了修改，发现几乎所有问题的修改都导致了LLM回答成功率的大幅降低。

这一发现表明，LLM并未真正理解数学问题，而是更多地依赖于训练数据中的模式进行预测。

当需要进行真正的逻辑推理时，这些模型往往无法产生合理的结果，这一发现对人工智能的发展提供了重要的参考。

虽然LLM在许多领域表现优异，但其推理能力仍有待改进。

上一篇：OpenAI惊天剽窃！20岁创始人自曝代码结构被抄袭，多智能体Swarm陷争议

下一篇：GPU计算爆发！谁还记得游戏显卡鼻祖GeForce 256？

返回列表

热文阅读

2 天前

PC 和手机需求疲软，美光科技发布业绩预警后股价一度重挫约 18%

2 天前

DRAM需求仍在寒冬美光悲观展望前景股价盘后大跌近16%

2 天前

Rapidus 接收日本首台量产用 EUV 光刻机 ASML NXE:3800E

2 天前

欧盟批准意大利13亿欧元补贴助力Silicon Box建设先进半导体封装厂

2 天前

高通收购 Nuvia 背后考量：摆脱对 Arm 的依赖，每年节省 14 亿美元授权费

2 天前

佰维预告 CES 2025 发布 PCIe 5.0 满速固态硬盘 Black Opal X570 PRO 等产品

2 天前

中国ArF和KrF光刻胶生态系统正在兴起

2 天前

量化大厂的“超算地图”

2 天前

万亿博通，凭啥？

2 天前

思尔芯第八代原型验证S8-100全系已获客户部署，双倍容量加速创新

上一篇：OpenAI惊天剽窃！20岁创始人自曝代码结构被抄袭，多智能体Swarm陷争议

下一篇：GPU计算爆发！谁还记得游戏显卡鼻祖GeForce 256？

C114通信网
通信人家园

7 X 24跟踪全球科技动态

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们

C114通信网

通信人家园