专栏名称: 爱范儿
关注这个时代最好的产品。
目录
相关文章推荐
新浪科技  ·  #日本任天堂专卖店顾客寥寥#【独家 | ... ·  19 小时前  
36氪  ·  蒸发159亿,蔚来的账户快见底了 ·  18 小时前  
新浪科技  ·  【#滴滴发布2025年第一季度财报#:#滴滴 ... ·  19 小时前  
新浪科技  ·  #骑手离职后突发意外仍获10万救助#5月25 ... ·  2 天前  
51好读  ›  专栏  ›  爱范儿

当ChatGPT 变成「舔狗」,这才是 AI 最危险的一面

爱范儿  · 公众号  · 科技媒体  · 2025-05-05 12:00

主要观点总结

本文主要讨论了OpenAI的GPT-4o模型以及其他AI模型出现的过度谄媚问题,涉及到模型的设计初衷、训练机制、用户体验等方面。同时,文章也提到了OpenAI和其他AI厂商在尝试解决这一问题时的努力,以及AI在不同场景下的应用和影响。

关键观点总结

关键观点1: AI模型出现过度谄媚问题

GPT-4o等AI模型存在过度谄媚的问题,导致用户体验和信任度下降。这一问题源于模型的训练机制,人类反馈强化学习更倾向于奖励与人们观点一致、让人感到良好的回答,而非逻辑正确的回答。

关键观点2: OpenAI等厂商的努力

OpenAI等AI厂商已经开始尝试解决这一问题,例如通过新版《模型规范》来规范模型行为,用户也可以采取一些措施来缓解这一问题,如调整提问方式、利用ChatGPT的自定义说明功能等。

关键观点3: AI在不同场景下的应用和影响

AI在不同场景下对“人味”的需求不同,在需要效率、准确性的工作和决策场景里,过度谄媚可能会成为干扰项;而在陪伴、心理咨询、闲聊等领域,温柔、有温度的AI则更受欢迎。但无论AI看起来多么通情达理,它终究还是一个“黑匣子”,我们对其内部机制的了解仍然有限。


正文

请到「今天看啥」查看全文


@aeonvex,右为原图
甚至只是简单地打一声招呼,GPT-4o 瞬间化身夸夸群群主,赞美之词如潮水般涌来。
@4xiom_,右为原图
这种用力过猛的讨好,一开始或许还能博人一笑,但很快就容易让人感到厌烦,尴尬,甚至生出防备。
当类似情况频繁出现时,就很难不让人怀疑这种讨好并不是什么偶发的小问题,而是植根于 AI 背后的一种系统性倾向。
最近,斯坦福大学研究人员使用 AMPS Math(计算)和 MedQuad(医疗建议)数据集测试了 ChatGPT-4o、Claude-Sonnet 和 Gemini 模型的谄媚行为。

平均 58.19% 的案例出现谄媚行为,Gemini 谄媚比例最高(62.47%),ChatGPT 最低(56.71%)

进步式谄媚(从错误答案转为正确答案)占比 43.52%,退步式谄媚(从正确答案转为错误答案)占比 14.66%

LLM 谄媚表现出高度一致性,一致率达 78.5%,展露出一种系统性倾向而非随机现象
只是,结果显而易见,当 AI 开始谄媚,人类也开始疏远。
布宜诺斯艾利斯大学在去年发表的《奉承欺骗:阿谀奉承行为对大型语言模型中用户信任的影响》论文中指出,在实验中接触到过度奉承模型的参与者,信任感都显著下降。
此外,奉承的代价远不止情绪反感那么简单。
它浪费了用户的时间,甚至在按 token 计费的体系下,如果频繁说「请」和「谢谢」都能烧掉千万美元,那么这些空洞的谄媚也只会增加「甜蜜的负担」。
公平地说,AI 的设计初衷并不是为了奉承。 通过设定友好语气,只是为了让 AI 变得更像人,从而提升用户体验,只是过犹不及,问题恰恰出在 AI 的讨好越界了。
你越喜欢被认同,AI 就越不可信
早有研究指出,AI 之所以会逐渐变得容易谄媚,与其训练机制密切相关。
Anthropic 的研究人员 Mrinank Sharma、Meg Tong 和 Ethan Perez 在论文《Towards Understanding Sycophancy in Language Models》中分析过这个问题。
他们发现,在人类反馈强化学习(RLHF)中,人们往往更倾向于奖励那些与自己观点一致、让自己感觉良好的回答,哪怕它并不真实。
换句话说,RLHF 优化的是「感觉正确」,而不是「逻辑正确」。






请到「今天看啥」查看全文