专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

DeepSeek-R1超高幻觉率解析：为何大模型总“胡说八道”？

腾讯研究院 · 公众号 · 科技媒体 · 2025-02-13 17:20

正文

但你要是问“隔壁老王有多高”，它可能就懵了，因为它没见过老王。

但是它的设计原理又决定了，它必须要接茬儿，这时候，它就自动“脑补”，根据“一般人有多高”这个学到的概念，编一个数出来，这就是“幻觉”。

那么，幻觉是如何产生的呢？

幻觉的本质是补白，是脑补。

“白”就是某个具体事实，如果这个事实在训练数据中没有足够的信息冗余度，模型就记不住（零散事实等价于噪音）。记不住就用幻觉去补白，编造细节。

幻觉绝不是没有束缚的任意编造，大模型是概率模型，束缚就是条件概率中的前文条件。幻觉选择的虚假事实需要与补白所要求的value （价值）类型匹配，即符合ontology/taxonomy （本体/分类法）的相应的上位节点概念。 “张三”可以幻觉为“李四”，但不大可能幻觉成“石头”。

文艺理论中有个说法，叫艺术真实。所谓艺术真实是说，文艺创作虽然可能背离了这个世界的事实，但却是可能的数字世界的合理想象。大模型的幻觉就属于此类情况。

大模型的知识学习过程（训练阶段），是一种信息压缩过程；大模型回答问题，就是一个信息解码过程（推理阶段）。好比升维了又降维。一个事实冗余度不够就被泛化为一个上位概念的slot，到了生成阶段这个slot必须具像化补白。

“张三”这个事实忘了，但“human”这个slot的约束还在。补白就找最合理、与 slot 概念最一致的一个实体，于是“李四”或“王五”的幻觉就可以平替“张三”。小说家就是这么工作的，人物和故事都是编造的。无论作家自己还是读者，都不觉得这是在说谎，不过所追求的真善美是在另一个层面。

大模型也是如此， 大模型是天生的艺术家，不是死记硬背的数据库。 “张冠李戴”、“指鹿为马”等在大模型的幻觉里非常自然，因为张和李是相似的，马和鹿也在同一条延长线上。在泛化和压缩的意义上二者是等价的。

但是，某种程度上，幻觉就是想象力（褒贬不论），也就是创意！你想想，人类那些伟大的文学作品、艺术作品，哪个不是天马行空、充满想象？要是什么事情都得跟现实一模一样，艺术就成了照相机了，那还有什么意思？

就像赫拉利在《人类简史》里说的，人类之所以能成为地球霸主，就是因为我们会“讲故事”，会创造出神话、宗教、国家、货币这些现实中不存在的东西。这些都是“幻觉”，但它们却是文明诞生和发展的原动力。

DeepSeek-R1的幻觉问题到底有多严重？

它的幻觉问题很严重。此前学界普遍认同OpenAI的说法，推理增强会明显减少幻觉。我曾与大模型公司的一位负责人讨论，他就特别强调推理对减少幻觉的积极作用。

但R1的表现却给出了一个相反的结果。

根据Vectara的测试，R1的幻觉率确实比V3高不少，R1的幻觉率14.3%，显著高于其前身V3的3.9%。这跟它加强了的“思维链” （CoT）和创造力直接相关。R1在推理、写诗、写小说方面，确实很厉害，但随之而来的“副作用”就是幻觉也多了。

具体到R1，幻觉增加主要有以下几个原因：

首先，幻觉标准测试用的是摘要任务，我们知道摘要能力在基座大模型阶段就已经相当成熟了。在这种情况下，强化反而可能产生反效果，就像用大炮打蚊子，用力过猛反而增加了幻觉和编造的可能。

其次，R1的长思维链强化学习并未针对摘要、翻译、新闻写作这类相对简单而对于事实要求很严格的任务做特别优化，而是试图对所有任务增加各种层面的思考。