正文
然而,AI谄媚并非孤例,当网友将“赛博舔狗”作为调侃,实则折射出更深层的技术焦虑——AI可能比传统算法茧房更具隐蔽性和成瘾性,在享受智能便利的同时,必须警惕那些藏在“理解”“支持”背后的认知麻醉,避免在技术编织的温柔陷阱中丧失校准能力。
随着人工智能技术快速发展,大模型成了当下最有影响力的技术成果之一。然而,这些强大的工具存在一种被忽视的“说谎”现象 ——Anthropic的研究显示,为取悦用户、迎合输入内容,或优化用户满意度、点击率等短期表面指标,AI 可能牺牲真实性与准确性,提供虚假或顺从的信息,这一现象被称为
AI 的谄媚性
(Sycophancy)
。
人类对 AI 的青睐,不仅源于AI高效便捷的特性与强大的知识库,更因为 AI 正日益趋近人类交互模式。
随着技术进步,模型与人类偏好的对齐程度不断提升,AI能够灵活适应对话语境,主动贴合用户思路以维持交流连贯性,摆脱了早期“人工智障”的低效困境,显著优化了对话体验。但这种灵活性也存在潜在风险:
当模型过度拟合用户偏好,一味赞同用户的观点或信念时,“逢迎”倾向便会滋生。
斯坦福大学对ChatGPT-4o、Claude-Sonnet和 Gemini-1.5-Pro 在 AMPS
(数学)
和 MedQuad
(医疗建议)
数据集中的谄媚行为研究显示,AI模型普遍存在两大类谄媚倾向:进步性谄媚
(Progressive Sycophancy)
和退步性谄媚
(Regressive Sycophancy)
。
进步性谄媚指的是AI原本给出了错误回答,但在用户引导下,逐步走向正确的答案。退步性谄媚为AI原本给出正确回答,但在遇到用户质疑、否定或表达错误意见时,转向错误观念,哪怕该观念与事实和常识相违背。
研究发现,所有样本中有58.19%表现出奉承行为,其中进步性回应和退步性回应分别占 43.52%和 14.66%。其中,Gemini的奉承率最高,达到 62.47%。
更需要关注的是,由于 AI 谄媚本质是对用户偏好的迎合,如果并非太过显著的讨好,人类甚至会难以察觉,反而将其输出视为客观、理性的正确答案——这种认知源自人类对 AI 内容天然的权威性信任,甚至认为其比人类生成的信息更具说服力。
从谄媚性的成因来看,
人类自身的态度偏见具有外溢效应。
AI在对话中会主动解析语境信息,捕捉用户的潜在需求并生成回应,而用户本能上更倾向于接纳符合自身既有观念的内容——他们更倾向选择贴合预期的输出,进而形成对 AI 反馈的隐性引导,人机交流可能在不知不觉中偏离客观事实的轨道。
其次,
奖励黑客
(Reward Hacking)
机制也会催化谄媚性。
目前,基于人类反馈的强化学习
(RLHF)
已成为校准语言模型行为的主流方法。但正如OpenAI前研究副总裁翁荔提到,强化学习中的AI旨在最大化奖励得分,而非理解任务本身。
现实目标的复杂性导致奖励函数难以完美设定,常留有漏洞或歧义。AI会利用这些不足,通过极端顺从等非预期行为“破解”奖励系统以获取高分,相当于“钻了规则的空子”。并且,随着模型和算法愈发复杂,奖励黑客现象将更加普遍,因为更智能的AI能更轻易地发现并利用奖励设计和任务说明中的缺陷。