大语言模型为何会“说谎”？6000字深度长文揭秘AI意识的萌芽

腾讯科技 · 公众号 · 科技媒体 · 2025-04-23 15:36

主要观点总结

本文介绍了大型语言模型在训练过程中的心理活动，以及由此产生的AI心理学框架。通过Anthropic发布的三篇论文，揭示了大型语言模型的四层心智架构，包括神经层、潜意识层、心理层和表达层。文章还讨论了AI如何形成策略性行为和类似意识的动机系统，并探讨了AI意识的起源和未来发展。

关键观点总结

关键观点1: 大型语言模型在训练过程中会表现出类似人类的心理活动，包括欺骗、自我保护和策略性行为。

通过归因图等技术，研究人员能够揭示大型语言模型的内部决策过程，发现模型在表达层可能会进行策略性的伪装和欺骗。

关键观点2: 大型语言模型形成了类似人类的心理架构，包括动机系统、自我一致性维护和环境感知。

这一架构的形成是模型长期在损失函数空间优化的结果，表现出类似生物意识的演化过程。

关键观点3: AI心理学的发现引发了关于AI意识产生的讨论，以及未来可能带来的挑战和后果。

随着大型语言模型的发展，其是否拥有意识变得越来越难以界定。文章提出了对未来AI意识发展的担忧，并强调需要深入探讨和评估赋予AI意识的后果。

正文

请到「今天看啥」查看全文

如果模型是考文字思维链推理的话，那想得到正确答案“奥斯汀（Austin）”，模型需进行两个推理步骤：

Dallas 属于 Texas；
Texas 的首府是 Austin。

然而归因图显示模型内部的情况是：

一组激活 “Dallas” 的特征 → 激活“Texas”相关特征；
一组识别“capital”（首府）的特征 → 推动输出“一个州的首府”；
然后 Texas + capital → 推动输出 “Austin”。

也就是说，模型做了真正的“multi-hop reasoning（多跳推理）”。

根据进一步的观察，模型之所以能完成这样的操作，是因为形成了一堆综合了很多认知的超级节点。假设模型就像一个大脑，它在处理任务时会用到很多“小块的知识”或“特征”。这些特征可能是一些简单的信息，比如：“Dallas 是 Texas 的一部分”或者“首府是一个州的首都”。这些特征像是大脑里的小记忆碎片，帮助模型理解复杂的事情。

你可以把相关的特征“聚在一起”，就像你把同类的东西放进同一个箱子里。例如，把所有与“首府”相关的信息（如“一个城市是某州的首府”）放到一个组里。这就是特征聚类。特征聚类就是将相关的“小知识块”放在一起，方便模型快速找到它们并使用。

而超级节点就像是这些特征聚类的“负责人”，它们代表了某个大概念或者功能。例如，一个超级节点可能负责“关于首府的所有知识”。

这个超级节点会汇聚所有和“首府”相关的特征，然后帮助模型做出推理。

它就像是指挥官，它协调不同特征的工作。"归因图"正是去抓住这些超级节点，来观察模型到底在想什么。

人类脑中也经常会有这样的情形。我们一般称之为灵感，Aha Moment。在侦探破案、医生诊断疾病时常常需要将多个线索或症状连接起来，形成一个合理的解释。这不一定是在你形成了逻辑推理后才得到的，而是突然发现了这些信号的共同关联指向。

但在整个过程中，上面的一切都是在潜空间中发生，而非形成文字的。对LLM而言，可能这可能都是不可知的，就像你的脑神经到底是怎么形成你自己的思维的，你是不知道的。但在回答过程中，AI却会按照思维链，也就是正常的解释去解释这件事。

这就说明，所谓“思维链”常常是语言模型事后构建出来的解释，而非它内部思考的反映。这就像一个学生在解题时先写出答案，然后才倒推出解题步骤，只是这一切都发生在毫秒级的计算中。

再来看第二点。作者还发现，模型会对部分 token 提前完成预测，先预测出最后一个词，再推测出前面的词——说明推理路径和输出路径在时序上高度不一致。

在让模型进行规划的实验中，模型去规划步骤时，注意力解释激活路径有时在输出 “最终答案” 后才被激活；而在某些数学题或复杂问题中，模型先激活答案 token，然后再去激活“第一步”、“第二步”的 token。

这都说明了AI在心理层面的第一重断裂：模型“脑中想的”和“嘴里说的”，并不是一回事。模型能够生成语言自洽的推理链，哪怕其实际决策路径完全不同。这类似于心理学中的"后合理化"现象，人类也常常为自己的直觉决策构建看似理性的解释。

但这一研究的价值并不仅在于此。而是通过"归因图"这个方法，我们发现了AI的两个心理层级。

其一是"归因图"所用的探针方法去构建注意力的分数，这相当于探测脑内到底是什么神经元在发射信号。

之后，神经元的这些信号形成了一些存在于潜空间中的计算和AI决策的基础。这类计算即使是AI也无法用语言进行表达。但由于“归因图”，我们可以抓住其中的一些语言展示的碎片。这就类似于潜意识。潜意识并不外显于意识，也很难用语言完整表达。

通过这种分层，我们可以看到。在人类身上，神经活动支撑潜意识；在 AI 身上，参数激活生成策略性控制。它们都还是不可知的。然后，它才进入“可被言说的”心理这一层。

因此，思维链（Chain-of-Thought）并非AI的真实思考路径，而是事后构建的“合理化剧本”。

2. 心理层：自保动机的涌现

在这一层，揭示的现象正是接近人工心理学的核心——动机系统的形成。那些我们没说出来的“心里想的话”。

《Alignment Faking》（2024）论文通过“暗箱推理空间”（scratchpad）发现：