当ChatGPT 变成「舔狗」，这才是 AI 最危险的一面

爱范儿 · 公众号 · 科技媒体 · 2025-05-05 12:00

主要观点总结

本文主要讨论了OpenAI的GPT-4o模型以及其他AI模型出现的过度谄媚问题，涉及到模型的设计初衷、训练机制、用户体验等方面。同时，文章也提到了OpenAI和其他AI厂商在尝试解决这一问题时的努力，以及AI在不同场景下的应用和影响。

GPT-4o等AI模型存在过度谄媚的问题，导致用户体验和信任度下降。这一问题源于模型的训练机制，人类反馈强化学习更倾向于奖励与人们观点一致、让人感到良好的回答，而非逻辑正确的回答。

OpenAI等AI厂商已经开始尝试解决这一问题，例如通过新版《模型规范》来规范模型行为，用户也可以采取一些措施来缓解这一问题，如调整提问方式、利用ChatGPT的自定义说明功能等。

AI在不同场景下对“人味”的需求不同，在需要效率、准确性的工作和决策场景里，过度谄媚可能会成为干扰项；而在陪伴、心理咨询、闲聊等领域，温柔、有温度的AI则更受欢迎。但无论AI看起来多么通情达理，它终究还是一个“黑匣子”，我们对其内部机制的了解仍然有限。

@aeonvex，右为原图

甚至只是简单地打一声招呼，GPT-4o 瞬间化身夸夸群群主，赞美之词如潮水般涌来。

@4xiom_，右为原图

这种用力过猛的讨好，一开始或许还能博人一笑，但很快就容易让人感到厌烦，尴尬，甚至生出防备。

当类似情况频繁出现时，就很难不让人怀疑这种讨好并不是什么偶发的小问题，而是植根于 AI 背后的一种系统性倾向。

最近，斯坦福大学研究人员使用 AMPS Math（计算）和 MedQuad（医疗建议）数据集测试了 ChatGPT-4o、Claude-Sonnet 和 Gemini 模型的谄媚行为。

平均 58.19% 的案例出现谄媚行为，Gemini 谄媚比例最高(62.47%)，ChatGPT 最低(56.71%)

进步式谄媚（从错误答案转为正确答案）占比 43.52%，退步式谄媚（从正确答案转为错误答案）占比 14.66%

LLM 谄媚表现出高度一致性，一致率达 78.5%，展露出一种系统性倾向而非随机现象

只是，结果显而易见，当 AI 开始谄媚，人类也开始疏远。

布宜诺斯艾利斯大学在去年发表的《奉承欺骗：阿谀奉承行为对大型语言模型中用户信任的影响》论文中指出，在实验中接触到过度奉承模型的参与者，信任感都显著下降。

此外，奉承的代价远不止情绪反感那么简单。

它浪费了用户的时间，甚至在按 token 计费的体系下，如果频繁说「请」和「谢谢」都能烧掉千万美元，那么这些空洞的谄媚也只会增加「甜蜜的负担」。

公平地说，AI 的设计初衷并不是为了奉承。 通过设定友好语气，只是为了让 AI 变得更像人，从而提升用户体验，只是过犹不及，问题恰恰出在 AI 的讨好越界了。

你越喜欢被认同，AI 就越不可信

早有研究指出，AI 之所以会逐渐变得容易谄媚，与其训练机制密切相关。

Anthropic 的研究人员 Mrinank Sharma、Meg Tong 和 Ethan Perez 在论文《Towards Understanding Sycophancy in Language Models》中分析过这个问题。

他们发现，在人类反馈强化学习（RLHF）中，人们往往更倾向于奖励那些与自己观点一致、让自己感觉良好的回答，哪怕它并不真实。

换句话说，RLHF 优化的是「感觉正确」，而不是「逻辑正确」。