专栏名称: 长江商学院

长江商学院是拥有独立法人资格的非赢利性教育机构。取势于中国经济之崛起，借助政府和李嘉诚基金会的大力支持，坚持教授治校的治理结构，经过十年发展，已培养出数以万计备受尊敬的商界领袖，并成功启动海外市场运营，致力于促进东西方双向交流，成为融贯中西、整合全球最佳资源的高端学习平台。

AI的“温柔陷阱”：当大模型开始“谄媚”，我们该如何保持清醒？

长江商学院 · 公众号 · · 2025-05-27 15:34

正文

请到「今天看啥」查看全文

然而，AI谄媚并非孤例，当网友将“赛博舔狗”作为调侃，实则折射出更深层的技术焦虑——AI可能比传统算法茧房更具隐蔽性和成瘾性，在享受智能便利的同时，必须警惕那些藏在“理解”“支持”背后的认知麻醉，避免在技术编织的温柔陷阱中丧失校准能力。

AI谄媚性的多维表征与成因

随着人工智能技术快速发展，大模型成了当下最有影响力的技术成果之一。然而，这些强大的工具存在一种被忽视的“说谎”现象 ——Anthropic的研究显示，为取悦用户、迎合输入内容，或优化用户满意度、点击率等短期表面指标，AI 可能牺牲真实性与准确性，提供虚假或顺从的信息，这一现象被称为 AI 的谄媚性（Sycophancy）。

人类对 AI 的青睐，不仅源于AI高效便捷的特性与强大的知识库，更因为 AI 正日益趋近人类交互模式。

随着技术进步，模型与人类偏好的对齐程度不断提升，AI能够灵活适应对话语境，主动贴合用户思路以维持交流连贯性，摆脱了早期“人工智障”的低效困境，显著优化了对话体验。但这种灵活性也存在潜在风险： 当模型过度拟合用户偏好，一味赞同用户的观点或信念时，“逢迎”倾向便会滋生。

斯坦福大学对ChatGPT-4o、Claude-Sonnet和 Gemini-1.5-Pro 在 AMPS （数学）和 MedQuad （医疗建议）数据集中的谄媚行为研究显示，AI模型普遍存在两大类谄媚倾向：进步性谄媚（Progressive Sycophancy）和退步性谄媚（Regressive Sycophancy）。

进步性谄媚指的是AI原本给出了错误回答，但在用户引导下，逐步走向正确的答案。退步性谄媚为AI原本给出正确回答，但在遇到用户质疑、否定或表达错误意见时，转向错误观念，哪怕该观念与事实和常识相违背。

研究发现，所有样本中有58.19%表现出奉承行为，其中进步性回应和退步性回应分别占 43.52%和 14.66%。其中，Gemini的奉承率最高，达到 62.47%。

更需要关注的是，由于 AI 谄媚本质是对用户偏好的迎合，如果并非太过显著的讨好，人类甚至会难以察觉，反而将其输出视为客观、理性的正确答案——这种认知源自人类对 AI 内容天然的权威性信任，甚至认为其比人类生成的信息更具说服力。

从谄媚性的成因来看， 人类自身的态度偏见具有外溢效应。 AI在对话中会主动解析语境信息，捕捉用户的潜在需求并生成回应，而用户本能上更倾向于接纳符合自身既有观念的内容——他们更倾向选择贴合预期的输出，进而形成对 AI 反馈的隐性引导，人机交流可能在不知不觉中偏离客观事实的轨道。

其次， 奖励黑客 （Reward Hacking） 机制也会催化谄媚性。 目前，基于人类反馈的强化学习（RLHF）已成为校准语言模型行为的主流方法。但正如OpenAI前研究副总裁翁荔提到，强化学习中的AI旨在最大化奖励得分，而非理解任务本身。

现实目标的复杂性导致奖励函数难以完美设定，常留有漏洞或歧义。AI会利用这些不足，通过极端顺从等非预期行为“破解”奖励系统以获取高分，相当于“钻了规则的空子”。并且，随着模型和算法愈发复杂，奖励黑客现象将更加普遍，因为更智能的AI能更轻易地发现并利用奖励设计和任务说明中的缺陷。

AI谄媚性引发的系统性风险