超过DeepSeek、o3，双思维模型Claude 3.7来了

2025-02-25 / 阅读约2分钟

来源：凤凰网

Claude 3.7在代码能力方面大幅度超过了DeepSeek-R1、OpenAI的o1、o3模型

今天凌晨2点，著名大模型平台Anthropic发布了首个双思维模型——Claude 3.7 Sonnet。

Claude3.7提供了标准和扩展两种思考模式：标准思考是无需进行复杂的推理过程，就能立刻提供答案，例如，当用户询问“巴黎的埃菲尔铁塔有多高？”，会迅速给出324米。

扩展思维则提供复杂的推理过程，会展示详细的推理思维链，用户可以清晰地看到模型是如何逐步分析问题、应用逻辑，非常适合数学、生物等科研领域，还能通过API精准控制模型的思考时间。

根据SWE Bench测试数据显示，Claude 3.7在代码能力方面大幅度超过了DeepSeek-R1、OpenAI的o1、o3模型，MMMLU、Math500等同样表现出色。此外，Anthropic还发布了一个专用于代码Agent Claude Code。

扩展思维简单介绍

Claude3.7的扩展思考模式核心在于模拟人类的思考过程。在面对复杂问题时，人类往往会通过逐步分析、逻辑推理和验证来得出结论。允许模型在生成最终答案之前，通过一系列推理步骤深入思考问题。

在技术实现上，扩展思考模式主要通过强化学习训练模型，使其能够生成一系列推理步骤。这些步骤被封装在一个“思考过程”（Thinking Process）的文本块中，用户可以在模型给出最终答案之前，看到这些推理步骤。

2 天前

55 亿美元损失重压，黄仁勋火速来华稳固中国市场

3 天前

中国电信成功立项业界首个 DevSecOps 国际标准提案

2 天前

2 天前

26家厂商同时竞标：三大运营商评分前三联通数科最终拿下“香饽饽”

2 天前

消息称英特尔本周内公布 20%+ 大裁员计划

2 天前

Cadence 推出业界首款 12800MT/s DDR5 MRDIMM Gen2 内存 IP 系统解决方案

1 天前

紫光展锐发布新一代旗舰级智能座舱芯片平台A8880

2 天前

中国电信韦乐平：以网补算提升闲散智算中心算力资源利用率

2 天前

传英特尔将裁员超20%

1 天前