今天凌晨2点,著名大模型平台Anthropic发布了首个双思维模型——Claude 3.7 Sonnet。
Claude3.7提供了标准和扩展两种思考模式:标准思考是无需进行复杂的推理过程,就能立刻提供答案,例如,当用户询问“巴黎的埃菲尔铁塔有多高?”,会迅速给出324米。
扩展思维则提供复杂的推理过程,会展示详细的推理思维链,用户可以清晰地看到模型是如何逐步分析问题、应用逻辑,非常适合数学、生物等科研领域,还能通过API精准控制模型的思考时间。
根据SWE Bench测试数据显示,Claude 3.7在代码能力方面大幅度超过了DeepSeek-R1、OpenAI的o1、o3模型,MMMLU、Math500等同样表现出色。此外,Anthropic还发布了一个专用于代码Agent Claude Code。
扩展思维简单介绍
Claude3.7的扩展思考模式核心在于模拟人类的思考过程。在面对复杂问题时,人类往往会通过逐步分析、逻辑推理和验证来得出结论。允许模型在生成最终答案之前,通过一系列推理步骤深入思考问题。
在技术实现上,扩展思考模式主要通过强化学习训练模型,使其能够生成一系列推理步骤。这些步骤被封装在一个“思考过程”(Thinking Process)的文本块中,用户可以在模型给出最终答案之前,看到这些推理步骤。