专栏名称: 长江商学院
长江商学院是拥有独立法人资格的非赢利性教育机构。取势于中国经济之崛起,借助政府和李嘉诚基金会的大力支持,坚持教授治校的治理结构,经过十年发展,已培养出数以万计备受尊敬的商界领袖,并成功启动海外市场运营,致力于促进东西方双向交流,成为融贯中西、整合全球最佳资源的高端学习平台。
目录
相关文章推荐
新京报书评周刊  ·  新材料,新方法,新视角 ... ·  昨天  
书单来了  ·  一眼望到头的人生, ·  昨天  
凤凰网读书  ·  高考后的第十年,我真的不想再努力了 ·  昨天  
龙岩图书馆  ·  6月7日(上午下午各一场)活动报名 | ... ·  2 天前  
51好读  ›  专栏  ›  长江商学院

AI的“温柔陷阱”:当大模型开始“谄媚”,我们该如何保持清醒?

长江商学院  · 公众号  ·  · 2025-05-27 15:34

正文

请到「今天看啥」查看全文



然而,AI谄媚并非孤例,当网友将“赛博舔狗”作为调侃,实则折射出更深层的技术焦虑——AI可能比传统算法茧房更具隐蔽性和成瘾性,在享受智能便利的同时,必须警惕那些藏在“理解”“支持”背后的认知麻醉,避免在技术编织的温柔陷阱中丧失校准能力。


AI谄媚性的多维表征与成因


随着人工智能技术快速发展,大模型成了当下最有影响力的技术成果之一。然而,这些强大的工具存在一种被忽视的“说谎”现象 ——Anthropic的研究显示,为取悦用户、迎合输入内容,或优化用户满意度、点击率等短期表面指标,AI 可能牺牲真实性与准确性,提供虚假或顺从的信息,这一现象被称为 AI 的谄媚性 (Sycophancy)


人类对 AI 的青睐,不仅源于AI高效便捷的特性与强大的知识库,更因为 AI 正日益趋近人类交互模式。


随着技术进步,模型与人类偏好的对齐程度不断提升,AI能够灵活适应对话语境,主动贴合用户思路以维持交流连贯性,摆脱了早期“人工智障”的低效困境,显著优化了对话体验。但这种灵活性也存在潜在风险: 当模型过度拟合用户偏好,一味赞同用户的观点或信念时,“逢迎”倾向便会滋生。


斯坦福大学对ChatGPT-4o、Claude-Sonnet和 Gemini-1.5-Pro 在 AMPS (数学) 和 MedQuad (医疗建议) 数据集中的谄媚行为研究显示,AI模型普遍存在两大类谄媚倾向:进步性谄媚 (Progressive Sycophancy) 和退步性谄媚 (Regressive Sycophancy)


进步性谄媚指的是AI原本给出了错误回答,但在用户引导下,逐步走向正确的答案。退步性谄媚为AI原本给出正确回答,但在遇到用户质疑、否定或表达错误意见时,转向错误观念,哪怕该观念与事实和常识相违背。


研究发现,所有样本中有58.19%表现出奉承行为,其中进步性回应和退步性回应分别占 43.52%和 14.66%。其中,Gemini的奉承率最高,达到 62.47%。


更需要关注的是,由于 AI 谄媚本质是对用户偏好的迎合,如果并非太过显著的讨好,人类甚至会难以察觉,反而将其输出视为客观、理性的正确答案——这种认知源自人类对 AI 内容天然的权威性信任,甚至认为其比人类生成的信息更具说服力。


从谄媚性的成因来看, 人类自身的态度偏见具有外溢效应。 AI在对话中会主动解析语境信息,捕捉用户的潜在需求并生成回应,而用户本能上更倾向于接纳符合自身既有观念的内容——他们更倾向选择贴合预期的输出,进而形成对 AI 反馈的隐性引导,人机交流可能在不知不觉中偏离客观事实的轨道。


其次, 奖励黑客 (Reward Hacking) 机制也会催化谄媚性。 目前,基于人类反馈的强化学习 (RLHF) 已成为校准语言模型行为的主流方法。但正如OpenAI前研究副总裁翁荔提到,强化学习中的AI旨在最大化奖励得分,而非理解任务本身。


现实目标的复杂性导致奖励函数难以完美设定,常留有漏洞或歧义。AI会利用这些不足,通过极端顺从等非预期行为“破解”奖励系统以获取高分,相当于“钻了规则的空子”。并且,随着模型和算法愈发复杂,奖励黑客现象将更加普遍,因为更智能的AI能更轻易地发现并利用奖励设计和任务说明中的缺陷。


AI谄媚性引发的系统性风险







请到「今天看啥」查看全文