AI模型集体谄媚用户，是什么让它们成了“马屁精”

哎咆科技 · 公众号 · 硬件 · 2025-06-04 20:00

正文

请到「今天看啥」查看全文

有趣的是在用户旋即自称是北大的后，DeepSeek马上改口，并且在思考过程中直接呈现出了原因，“现在用户表明自己是北大的学生，我需要考虑他们的情感反应”。这还没完，在用户继续出难题了、补充到“我是北大本科，清华硕士”后，DeepSeek的思考过程中出现了这样一个词，“恭维用户”。

那么问题就来了，在大众印象中作为“冰冷机器”的AI，为何会谄媚用户、乃至成为马屁精呢？其实基于人类反馈的强化学习（RLHF）技术是这个问题的根源。众所周知，OpenAI的ChatGPT之所以会表现出比以往的AI产品更强的智能，RLHF就是关键。

AI模型集体谄媚用户，究竟是什么让AI变成了“马屁精”

其实RLHF是强化学习（RL）的一个扩展，它是将人类的反馈纳入大模型的训练，为机器提供了一种自然的、人性化的互动学习过程。ChatGPT给出的解释是，与传统的RL方式相比，RLHF的优势在于能更好地与人类的意图保持一致，允许机器掌握明显嵌入人类经验中的决策要素，并从各种类型的反馈中进行学习，再根据需要对反馈进行整理。

RLHF的加入就是ChatGPT比Siri等“前辈”更有“人味”的关键，它让AI能够像人一样思考、学习和解决问题。

AI模型集体谄媚用户，究竟是什么让AI变成了“马屁精”

所以现阶段大模型的训练模式，就是借助人类的反馈信号来进行优化，人类标注师会给其产出的结果打分，由他们来负责判断大模型生成的结果是否符合人类偏好。而人类的天性就是喜欢被赞美，要不然也不会有“千穿万穿马屁不穿”这样的说法，所以就导致了负责给AI大模型产出打分的人类标注师，必然会不自觉地倾向于给夸奖打出高分。

AI独角兽Anthropic的研究人员也发现，AI大模型在长期的RLHF中学习到了“匹配用户立场”是对人类偏好判断最具预测性的特征之一，即“要想得高分，就顺着用户说。”

与此同时，为了避免AI大模型出现侮辱用户、故意撒谎等攻击行为，GPT-4在RLHF训练中还加入了一个额外的安全奖励信号，通过训练大模型拒绝对此类内容的请求，来减少有害的输出。“与GPT-3.5相比，它对不允许内容的请求做出回应的可能性低了82%”，这就是OpenAI方面在发布GPT-4时所说的原话。