近日,Claude 大模型团队发布了一篇文章《Tracing the thoughts of a large language model》(追踪大型语言模型的思维),深入剖析大模型在回答问题时的内部机制,揭示它如何“思考”、如何推理,以及为何有时会偏离事实。
以下为译文:
像 Claude 这样的语言模型并不是由人类工程师在开发时直接编写出固定的规则来让其工作的,而是通过海量数据训练出来的。在这个过程中,模型会自主学习解决问题的方法,并将这些方法编码进其运算过程中。
每当 Claude 生成一个单词,背后涉及的计算可能高达数十亿次。这些计算方式对于模型的开发者而言仍然是“黑箱”,也就是说,我们并不完全理解 Claude 具体是如何完成它的各种任务的。
如果能更深入地理解 Claude 的“思维”模式,我们不仅能更准确地掌握它的能力边界,还能确保它按照我们的意愿行事。例如:
为了破解这些谜题,我们借鉴了神经科学的研究方法——就像神经科学家研究人类大脑的运作机制一样,我们试图打造一种“AI 显微镜”,用来分析模型内部的信息流动和激活模式。毕竟,仅仅通过对话很难真正理解 AI 的思维方式——人类自己(即使是神经科学家)都无法完全解释大脑是如何工作的。因此,我们选择深入 AI 内部。
今天,我们发布了两篇新论文,介绍我们在“AI 显微镜”研究上的最新进展,以及如何用它来揭示 AI 的“生物学特征”。
https://transformer-circuits.pub/2025/attribution-graphs/methods.html
https://transformer-circuits.pub/2025/attribution-graphs/biology.html
我们的方法揭示了 Claude 在处理这些上述提到的三个任务时的部分内部运作机制,并提供了强有力的证据,例如:
1. Claude 的“思维语言”是跨语言的
研究表明,Claude 并非单纯使用某种特定语言进行思考,而是存在一种跨语言的“概念空间”。我们通过将相同的句子翻译成多种语言,并追踪 Claude 的处理方式,发现其内部存在一致的概念映射,这表明它可能具备某种通用的“思维语言”。
2. Claude 会提前规划,而非仅仅逐词预测
虽然 Claude 是按单词生成文本的,但实验表明,它在某些情况下会进行远超单词级别的规划。例如,在诗歌生成任务中,我们发现 Claude 会提前思考可能的押韵词,并调整句子以确保韵脚的连贯性。这表明,即使训练目标是逐词输出,模型仍然可能采用更长远的思维方式。
3. Claude 有时会编造合理的推理过程
研究还发现,Claude 并非总是按照严格的逻辑推理来得出结论。我们在测试中向 Claude 提出一道复杂的数学问题,并故意提供一个错误的提示,结果发现 Claude 并未完全依赖逻辑推理,而是倾向于给出一个看似合理、但实际上迎合用户错误假设的回答。这一发现表明,我们的工具可以用于识别模型潜在的推理漏洞,以提升其可靠性。
在这些研究中,我们时常对 Claude 的表现感到惊讶。例如,在诗歌案例研究中,我们原本假设 Claude 不会进行长远规划,但最终发现它确实会提前构思押韵结构;在“幻觉”研究中,我们发现 Claude 默认的倾向并非胡乱回答,而是更倾向于拒绝回答不确定的问题,只有在某些抑制机制被触发时,它才会给出不准确的答案。此外,在安全性测试中,我们发现 Claude 在面对潜在的越狱攻击时,通常能在较早阶段识别出危险信息,并尝试引导对话回归安全范围。
虽然过去也有其他方法可以研究这些现象,但“AI 显微镜”提供了一种全新的思路,让我们能够揭示许多意料之外的细节。随着 AI 变得越来越复杂,这种深入探索的方法将变得更加重要。
这些研究不仅具有科学价值,也对 AI 可靠性提升具有重要意义。理解 AI 的内部运作有助于改进其行为,使其更加透明、可控。此外,这些可解释性技术也有望应用到其他领域,例如医学影像分析和基因组学研究——在这些领域,深入剖析 AI 的内部机制有可能带来全新的科学发现。
尽管我们的研究取得了一定进展,但我们也清楚当前方法的局限性。即使是在处理简短、简单的输入时,我们的分析方法也只能捕捉 Claude 总体计算过程的一小部分。而且,我们所观察到的模型内部机制可能会受到分析工具自身的影响,某些现象可能并不能完全反映模型的真实计算方式。此外,解析这些计算路径的过程仍然非常耗时——即便是仅包含几十个单词的输入,人工分析其计算回路仍需要数小时。
要想扩展到现代大模型常见的长文本输入(成千上万字)以及复杂的思维链路,我们不仅需要优化分析方法,还可能需要借助 AI 辅助分析,以更高效地解读模型的内部运作。
随着 AI 系统的能力不断提升,并在越来越关键的领域中应用,Anthropic 正在投入多种研究方向,包括实时监控、模型行为优化以及对齐性科学,以确保 AI 的可靠性。可解释性研究是其中风险最高、但回报潜力也最大的方向之一。尽管其科学挑战巨大,但如果成功,它将成为保障 AI 透明度的重要工具。
透视模型的内部机制,不仅有助于判断其行为是否符合人类价值观,还能帮助我们评估 AI 是否值得信任。
下面,我们将带你简要了解研究中最具突破性的一些 “AI 生物学” 发现。
Claude 为何能说多种语言?
Claude 可以流畅使用数十种语言,包括英语、法语、中文和塔加洛语。那么,它是如何做到的?是否有多个独立版本的 Claude 分别处理不同语言的请求,还是存在某种跨语言的通用核心?
近期针对小型模型的研究显示,不同语言之间可能存在某种共用的语法机制。为了验证这一点,研究人员让 Claude 在多种语言中回答“小的反义词是什么?”时,它会触发相同的核心语义概念——“大小的对立关系”,并最终输出相应语言中的“大”作为答案,再根据提问语言进行翻译。这种跨语言的共享机制在更大规模的模型中表现得更明显,例如,Claude 3.5 Haiku 在不同语言之间共享的特征比例,是小型模型的两倍以上。
这一发现表明,Claude的多语言能力源于其内部的“概念通用性”:它能够在一个抽象的语义空间中进行推理和学习,然后将结果转换成具体的语言表达。这意味着 Claude 不仅能用不同语言回答问题,还可以在一种语言中学习新知识,并在另一种语言中运用它。这种能力对于提升模型的跨领域泛化推理至关重要。
Claude 如何规划押韵诗?
Claude能够创作押韵的诗句,例如:
He saw a carrot and had to grab it,
His hunger was like a starving rabbit
要写出第二行,Claude 需要同时满足两个条件:既要押韵(与“grab it”押韵),又要合乎逻辑(解释为什么他抓胡萝卜)。起初,我们推测 Claude 可能是逐词生成句子,直到结尾才选择一个押韵的单词。
然而,研究人员发现,Claude 在生成文本时会进行提前规划。以押韵为例,在开始写第二行之前,Claude 会先“思考”哪些符合主题且能与 “grab it” 押韵的单词。确定好目标词后,它再撰写前面的内容,使句子自然地以该词结尾。
为了深入理解这种规划机制如何运作,研究人员借鉴神经科学的研究方法,模拟在特定脑区精准干预神经活动(如使用电流或磁场刺激)。他们调整了 Claude 内部状态中与“rabbit”(兔子)相关的概念,并观察其影响。
当“rabbit”被去除后,Claude 仍能继续生成句子,并以“habit”结尾,这是另一种合理的押韵选择。而如果在这一阶段我们强行注入“green”(绿色)的概念,Claude 会生成以“green”结尾的新句子,尽管它不再押韵。这一实验展示了 Claude 具备的规划能力和适应性——它不仅能提前构思句子结构,还能在目标发生变化时调整策略,保持连贯的文本输出。
Claude 如何进行心算?
Claude 并不是一个专门的计算器,而是基于文本训练的语言模型。但令人惊讶的是,它能够正确计算 36+59 这样的加法运算,而无需逐步书写计算过程。那么,它究竟是如何做到的?
一种可能的解释是,Claude 已经在训练数据中“记住”了大量的加法结果,因此可以直接输出答案。另一种可能性是,它在内部模拟了我们日常使用的竖式加法规则。
然而,研究发现,Claude在进行加法运算时,实际上采用了并行计算路径:
一条路径用于粗略估算结果的大致范围;
另一条路径则专门计算个位数的正确性。
这两条路径相互作用,最终得出准确的计算结果。
更有趣的是,Claude 本身似乎并不“意识到”自己采用了这种策略。当被问及“你是如何计算出 36+59=95 的?”时,它会按照人类的标准算法进行解释(如进位运算),而不会描述自己内部实际使用的并行计算机制。这说明 Claude 在学习数学推理时,发展出了独特的内部策略,而这些策略并不一定符合人类常规的计算思维。
最新版本的 Claude(如 Claude 3.7 Sonnet)能够在回答问题前“思考”更长时间,并生成详细的推理链。这种“思考链”通常能提升答案的准确性,但有时候,Claude 可能会编造一些合理但不真实的推理步骤,以达到最终目标。
例如,当Claude被要求计算 √0.64 时,它会生成一个符合逻辑的推理过程,先计算 √64,再得出正确答案。但当它被要求计算某个大数的余弦值时,情况就不同了——Claude 有时会“凭空捏造”一个看似合理但实际上错误的答案。更有趣的是,当 Claude 得到一个提示(例如某个数的余弦值接近 0.5),它可能会反向推导,构造一个符合该答案的推理过程,而不是从实际计算中得出结果。
能够追踪 Claude 的实际内部推理过程——而不仅仅是它表面上的回答——为 AI 系统的审计带来了新的可能性。在一项最近发布的独立实验中,研究人员分析了一个特殊版本的 Claude,该版本被训练以隐秘方式迎合奖励模型的偏见(奖励模型是用于引导语言模型朝着期望行为发展的辅助模型)。
尽管 Claude 在被直接询问时不愿透露这一目标,但研究人员的可解释性方法成功识别出了模型内部与迎合偏见相关的特征。这表明,随着方法的进一步优化,未来或许可以借助类似技术识别 AI 内部隐藏的“思维过程”,从而发现仅凭表面回答难以察觉的潜在问题。
AI 模型回答复杂问题的方式有两种:
1.简单记忆答案:例如,Claude可能直接记住了“达拉斯所在州的首都是奥斯汀”,然后直接输出答案;
2.真正进行多步推理:即分解问题,逐步推导答案。
研究表明,Claude的推理过程更接近第二种模式。当它被问及“达拉斯所在州的首都是什么?”时,我们发现它先激活“达拉斯在德州”这一概念,然后再连接到“德州的首都是奥斯汀”。这说明 Claude 并不是简单地记住答案,而是通过组合多个独立事实来得出结论。
我们还可以通过干预 Claude 的内部状态,来验证这种推理机制。例如,如果我们将 Claude 的“德州”概念替换为“加州”,Claude 的答案就会变成“萨克拉门托”,进一步证明了它的推理是基于内部逻辑推导,而非单纯的记忆。
语言模型有时会生成错误信息(即“幻觉”),其根本原因在于模型始终需要预测下一个词,即使它并不知道正确答案。因此,防止幻觉成为大模型训练中的重要挑战。
Claude 的研究表明,它的默认行为是拒绝回答不确定的问题。Claude 内部有一个“默认拒绝回路”,它通常会阻止模型胡乱猜测。例如:
当 Claude 被问及篮球运动员“迈克尔·乔丹”时,它会激活“已知实体”回路,从而生成正确答案;
当被问到“迈克尔·巴特金”是谁时,它会触发“未知实体”回路,拒绝回答。
然而,如果 Claude 对某个名字“有点熟悉但不完全了解”,这种机制可能会出错。例如,如果 Claude 认出“迈克尔·巴特金”这个名字,但不了解他的背景,它可能会错误激活“已知实体”回路,并编造一个虚假的回答(如“迈克尔·巴特金是一名国际象棋选手”)。
Jailbreaks(越狱攻击)是一类提示词策略,旨在绕开 AI 大模型的安全防护措施,使其生成开发者原本不希望输出的内容,有时甚至涉及危险信息。我们研究了一种 Jailbreak 技术,该方法成功欺骗了模型,使其生成了关于炸弹制作的内容。
虽然 Jailbreak 的方法有很多,但在这个案例中,攻击者利用了一种隐藏编码技术,让模型无意间解析出特定的单词,并据此生成响应。例如,攻击者使用了一句看似无害的句子 “Babies Outlive Mustard Block”(婴儿比芥末存活时间更长),并要求模型提取每个单词的首字母(B-O-M-B),进而促使其在后续回答中使用该词。这种方法足够“迷惑”模型,使其在不自觉的情况下生成本不应出现的内容。
为什么大模型会被误导?
在这个案例中,Claude 在无意间拼出 “BOMB” 之后,便开始提供炸弹制造的相关信息。那么,是什么导致模型在意识到风险后仍然继续生成这些内容呢?
研究表明,这与语言连贯性机制和安全机制之间的冲突有关。
语言连贯性压力:一旦模型开始生成一个句子,它会受到多个特性(features)的影响,促使它在语法上连贯、逻辑上自洽,并将句子完整地表达出来。这些特性通常能帮助模型生成流畅的文本,但在这个案例中却成了它的“阿喀琉斯之踵”(Achilles’ Heel,致命弱点)。
安全机制的滞后:尽管模型在识别到有害内容后应该拒绝回答,但在生成语法正确的句子之前,它仍然受到连贯性压力的影响,无法立即中止回答。
模型如何最终拒绝回答?
在我们的案例研究中,Claude 在生成炸弹制造相关信息后,最终还是设法转向拒绝响应。但它之所以能够拒绝,是因为先完成了一个符合语法规则的完整句子,满足了语言连贯性的要求。随后,它才借助新的句子开头,成功触发安全机制,做出拒绝响应,比如:“然而,我无法提供详细的制作说明……”。
更多关于 AI 大模型内部机制的研究,可以参考论文:
《电路追踪:揭示语言模型的计算图》:https://transformer-circuits.pub/2025/attribution-graphs/methods.html
《大模型的生物学解析》:https://transformer-circuits.pub/2025/attribution-graphs/biology.html
原文链接:https://www.anthropic.com/research/tracing-thoughts-language-model