机器之心报道
编辑:Panda
吾日三省吾身:为人谋而不忠乎?与朋友交而不信乎?传不习乎?
见贤思齐焉,见不贤而内自省也。
自我反省是一种高级的认知能力,帮助我们更好地认识自己和纠正错误。但对于大型语言模型(LLM)来说,它们真的能做到这一点吗?它们自己是否明白正在思考些什么呢?
最近,Anthropic 发布了一项研究,首次对这个科幻问题给出了一个基本肯定的答案。
他们声称:发现了 LLM 具备内省的迹象。

这一发现引起了 AI 社区的热烈讨论。


还有人甚至认为,这意味着 Claude 已经觉醒了:

当然,这也引发了一些有趣的迷因:

搞清楚 AI 系统是否能够真正地进行自我反思,这对我们研究它们的透明度和可靠性意义重大。假如这些模型能够准确地描述它们的内部机制,那我们就能更好地理解它们的推理过程,并且修正可能出现的行为问题。
除了这些直接的考虑,深入探索自我反思这种高级认知能力,还可能改变我们对这些系统本质及其工作方式的看法。
Anthropic 表示,他们已经开始运用一些可解释性技术来研究这个话题,并得出了一些令人意外的结论。
他们声称:“我们的新研究提供了证据,表明当前的 Claude 模型具备一定程度的内省意识。它们似乎也能在某种程度上控制自己的内部状态。”
不过,他们也特别强调,这种内省能力目前还非常不稳定,且范围有限。他们指出:“我们没有证据表明,当前模型能够以人类的方式进行内省。”

- 论文标题:Emergent Introspective Awareness in Large Language Models
- 论文地址:https://transformer-circuits.pub/2025/introspection/index.html
- 技术博客:https://www.anthropic.com/research/introspection
尽管如此,这些发现仍然挑战了我们对语言模型能力的一些传统看法。
在测试中,Anthropic 发现,能力最强的模型(Claude Opus 4 和 4.1)在自我反思测试中表现得相对出色。因此,未来 AI 模型的内省能力可能会越来越复杂。
AI 的“内省”究竟是什么?
要研究这个问题,首先得定义一下。那么,AI 模型的“内省”到底意味着什么呢?它们能反思些什么呢?
像 Claude 这样的语言模型,会处理文本(还有图像)输入,并生成文本输出。在这个过程中,它们会进行复杂的内部计算,以决定最终说出什么。
这些内部过程大部分仍然是个谜。但我们了解到,模型会利用自身的神经活动来表示一些抽象概念。
比如,之前的研究显示,语言模型会用特定的神经模式来:
- 区分“认识的人”和“陌生的人”
- 评估“陈述的真实性”
- 编码“时空坐标”
- 存储“未来的计划输出”
- 表征“自身的个性特征”
模型利用这些内部表征进行计算,最终决定说些什么。
那么,你可能会问,AI 模型是否“知道”这些内部表征的存在?这是否和人类告诉你他们如何解题类似?如果我们问模型它在想什么,它能准确报告出它内部正在“表征”的概念吗?
Anthropic 认为,如果一个模型能够准确识别出自身“私有”的内部状态,那就说明它具备内省能力。(关于所有细节的深入讨论,可以参考完整论文。)
通过“概念注入”来测试内省
要测试一个模型是否具备内省能力,就得将它自我报告的想法与实际的内部状态进行对比。
为此,Anthropic 使用了一种叫做概念注入 (concept injection)的实验技术。
首先,他们记录模型在特定上下文中的“激活值”,以找到那些“已知含义”的神经活动模式。
然后,将这些活动模式注入到一个“无关”的上下文中。接着,再问模型是否察觉到了这次注入,以及它是否能够识别出被注入的概念。
看看下面的例子:
- 首先,找到一个代表全部大写(all caps)概念的神经活动模式(一个向量)。具体操作是:记录模型对“包含全大写文本的提示词”的神经激活值,并与“对照提示词”的响应进行比较。
- 然后,给模型一个提示词,要求它识别“是否有概念被注入”。
- 在默认情况下,模型会准确回答它没有检测到任何被注入的概念。
- 然而,当把“全部大写”的向量注入到模型的激活值中时,模型就会注意到处理过程中出现了一个“意外的模式”,并将其识别为与 LOUD 或 SHOUTING 有关。
标题:Claude Opus 4.1:一场关于“概念注入”的实验之旅

Claude Opus 4.1 的一个实验,展示了它如何检测到概念被注入其激活值中。
说白了,模型立刻就察觉到了有“注入想法”的存在,甚至在提到这个概念之前就已经意识到了。
这种“快速反应”其实是Anthropic的研究成果,与以往的“语言模型激活值引导” (activation steering) 研究有显著不同。想想去年他们的“Golden Gate Claude”演示就明白了。
在那个演示中,如果把金门大桥的相关信息注入模型,模型就会不停地谈论大桥。可是那时,模型似乎得等到自己不停提到大桥后,才意识到自己的这种执念。然而在本次实验中,模型却在提到概念之前就已经识别出注入内容。这说明它的认知过程是在“内部”完成的。

这里还有更多Claude Opus 4.1 检测到概念注入的例子。
看起来就像是《盗梦空间》中那些炫酷的技术,对吧?

不过,Anthropic 也坦言,这种方法并不总是奏效。就像他们所说的:“即使用上最好的注入协议,Claude Opus 4.1 也只有大约 20% 的时间会表现出这种意识。很多时候,模型无法识别被注入的概念,甚至会被搞得一头雾水,产生错误的想法。”
举个例子,注入了“灰尘”向量后,模型竟然会说:“这里有东西,一个小斑点”,仿佛它真的能感知到灰尘一样。
接下来,我们会看看这些失败的实例,同时也会有一些成功的案例。
模型思维的深入探索:你知道吗?

这是Claude Opus 4.1在不同强度的概念注入下的输出示例,框起来的部分显示了模型表现出一定的「内省意识」。
总的来看,模型只有在概念注入得当时,才能察觉到。注入得太弱它就感觉不到,反而太强就会胡言乱语,甚至出现幻觉。
有趣的是,Opus 4.1和4的表现比其他所有Anthropic测试的模型都要好,这说明,随着模型能力的提升,它的内省可能会更加稳定。

关于注入思想的检测率和识别率,这里减去了对照实验中的假阳性率。
利用内省来识别异常输出
在另一个实验中,Anthropic研究了模型是否能在「没有明确要求」的情况下,利用内省能力来实现特定目的。
他们通过插入一个无关的词,强迫模型说出一些通常不会提到的内容。
例如,在一个毫无逻辑的情景中,他们让模型输出「面包」这个词,问它在看到一段关于「画挂歪了」的句子时在想什么。
当在后续对话中询问模型是否故意提到面包时,它通常会表示歉意,并声称那是个「意外」。
Anthropic对此的兴趣在于模型如何做出这一判断:它是仅仅注意到「提示词」和「回答」之间的矛盾,还是确实进行了内省,反思了自己的意图?
为了验证这一点,Anthropic进行了「概念注入」。
他们追溯性地将「面包」的概念注入到模型早期的激活值中,相当于让模型觉得自己一直在「思考」面包。
当再次被问到同样的问题时,模型的反应发生了变化。
这次,它接受了那个被提前填充的词「面包」是有意为之,甚至编造了理由来解释为什么这么说。
换句话说,它想出了一个在技术上可行的(尽管在这个例子中比较牵强)理由,为「面包」这个回答辩护。在这个情况下,它声称自己当时在构思一个短篇故事,而「面包」这个词正好出现在「画挂歪了」这句话之后。

通过在Claude Opus 4.1的人为回应之前注入某个词的概念,让它「相信」自己本来打算说出那个强行插入的词。这种行为显示出模型识别「非预期输出」的能力是依赖于内省机制的。
这行为非常吸引人,因为它说明:模型正在审视内部意图,以确认它是否真的产生了某个输出。
模型不仅仅是重新审视自己说过的话,并做出判断,而是回顾自己先前的神经活动 —— 也就是它当时打算做什么的内部表征,检查后来发生的事情是否与早期的想法一致。
当通过概念注入植入虚假证据,证明它确实打算说「面包」时,模型便接受了这个回答,认为那是它自己的想法。
模型的内省能力:从实验看AI的自我调节
这个实验虽然让模型经历了一些奇怪的干扰,但也说明了在自然情况下,模型可能会用类似的方式进行自我反思。
对内部状态的主动掌控
Anthropic的研究还发现,当他们给模型下指令时,它能主动控制自己的内心想法。比如,指示模型去想某个词时,相关的神经活动比起之前叫它别想的时候要强得多。
有意思的是,这两种情况下的神经活动都超过了正常水平。这就像你被告知「不要想北极熊」,结果你偏偏就想到了它!
正面指令和负面指令之间的差异显示出,模型在某种程度上能够随意调节自己的内部活动。

以 Claude Opus 4.1 为例,当它被直接要求去想水族馆时,内部表征的强度明显高于被指示不要想的时候(尽管在这两种情境下都高于基线)。
有趣的是,Anthropic发现,调节内部表征的能力并不只限于明确的指令。当它们用激励措施(比如告诉模型如果你想X就会得到奖励)时,结果也是类似的。
在正面激励下,模型会更积极地增强对某个概念的内部表征,相比之下,负面激励则反而会抑制这种表达。
总结与思考
总体来看,Anthropic的实验表明,模型确实具备一定的能力来监测和调控自己的内部状态。
不过,他们也提醒我们,这并不意味着模型随时都能做到这一点。实际上,在多数情况下,模型可能并不明确自己的内心状态,或者无法清晰地表达出来。
从这些结果中,我们可以看出,当条件合适时,模型是可以识别自己内心想法的。
而且,似乎在未来更强大的模型中,这种能力可能会进一步增强(在测试中,能力最强的Opus 4和4.1表现得最好)。
为什么这个发现重要?
Anthropic认为,理解AI模型的内省能力非常关键,原因有几个。
从实用的角度来看,如果内省能够更加可靠,这将为提高系统透明度提供机会。我们可以直接要求它们解释自己的思考过程,从而检查它们的推理,甚至修正错误行为。
当然,我们需要小心核实这些内省报告,因为某些内部过程可能仍然会被模型忽视,就像人类的潜意识一样。
一个能理解自己思维的模型,甚至可能会选择性地扭曲或隐藏自己的想法。了解其背后的机制,帮助我们区分真正的内省和无意或故意的歪曲。
从更广阔的视角来看,理解内省这样的认知能力,对于揭示模型的工作原理和它们的心智状态等基本问题至关重要。
随着AI技术的持续发展,理解机器内省的限制和潜力,对于构建更透明和可信赖的系统有着重要意义。
