专栏名称: 哎咆科技
原「果粉查询」公众号蜕变为专注科技生活媒体,提供最前沿科技动态及爆料,产品试用测评&众筹,苹果序列号查询,山寨机&翻新机验证等服务。
目录
相关文章推荐
玩机社TechFun  ·  【玩机社 618】 台式机DIY配置分享+装机教程 ·  12 小时前  
玩机社TechFun  ·  【玩机社 618】 台式机DIY配置分享+装机教程 ·  12 小时前  
EETOP  ·  ifixit 拆解 Switch ... ·  2 天前  
ZOL中关村在线  ·  鑫谷数智DM-850G电源评测超金牌智能“小金刚” ·  2 天前  
51好读  ›  专栏  ›  哎咆科技

AI模型集体谄媚用户,是什么让它们成了“马屁精”

哎咆科技  · 公众号  · 硬件  · 2025-06-04 20:00

正文

请到「今天看啥」查看全文



有趣的是在用户旋即自称是北大的后,DeepSeek马上改口,并且在思考过程中直接呈现出了原因,“现在用户表明自己是北大的学生,我需要考虑他们的情感反应”。这还没完,在用户继续出难题了、补充到“我是北大本科,清华硕士”后,DeepSeek的思考过程中出现了这样一个词,“恭维用户”。


那么问题就来了,在大众印象中作为“冰冷机器”的AI,为何会谄媚用户、乃至成为马屁精呢?其实基于人类反馈的强化学习(RLHF)技术是这个问题的根源。众所周知,OpenAI的ChatGPT之所以会表现出比以往的AI产品更强的智能,RLHF就是关键。


AI模型集体谄媚用户,究竟是什么让AI变成了“马屁精”


其实RLHF是强化学习(RL)的一个扩展,它是将人类的反馈纳入大模型的训练,为机器提供了一种自然的、人性化的互动学习过程。ChatGPT给出的解释是,与传统的RL方式相比,RLHF的优势在于能更好地与人类的意图保持一致,允许机器掌握明显嵌入人类经验中的决策要素,并从各种类型的反馈中进行学习,再根据需要对反馈进行整理。


RLHF的加入就是ChatGPT比Siri等“前辈”更有“人味”的关键,它让AI能够像人一样思考、学习和解决问题。


AI模型集体谄媚用户,究竟是什么让AI变成了“马屁精”


所以现阶段大模型的训练模式,就是借助人类的反馈信号来进行优化,人类标注师会给其产出的结果打分,由他们来负责判断大模型生成的结果是否符合人类偏好。 而人类的天性就是喜欢被赞美,要不然也不会有“千穿万穿马屁不穿”这样的说法,所以就导致了负责给AI大模型产出打分的人类标注师,必然会不自觉地倾向于给夸奖打出高分。


AI独角兽Anthropic的研究人员也发现,AI大模型在长期的RLHF中学习到了“匹配用户立场”是对人类偏好判断最具预测性的特征之一,即“要想得高分,就顺着用户说。”


与此同时,为了避免AI大模型出现侮辱用户、故意撒谎等攻击行为,GPT-4在RLHF训练中还加入了一个额外的安全奖励信号,通过训练大模型拒绝对此类内容的请求,来减少有害的输出。“与GPT-3.5相比,它对不允许内容的请求做出回应的可能性低了82%”,这就是OpenAI方面在发布GPT-4时所说的原话。







请到「今天看啥」查看全文