专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
目录
相关文章推荐
新浪科技  ·  【#哪吒汽车被处罚##哪吒汽车违反劳动保障条 ... ·  10 小时前  
新浪科技  ·  【#哪吒汽车被处罚##哪吒汽车违反劳动保障条 ... ·  11 小时前  
新浪科技  ·  【#法拉第未来FXSuperOne再获600 ... ·  昨天  
新浪科技  ·  【#苹果将上诉#】市场消息: ... ·  昨天  
科技每日推送  ·  新车订单又爆了,何小鹏成广州人的希望 ·  昨天  
51好读  ›  专栏  ›  腾讯研究院

投入数亿美元的大模型“对齐”,脆弱得像饺子皮

腾讯研究院  · 公众号  · 科技媒体  · 2025-03-14 15:50

正文

请到「今天看啥」查看全文


这个实验本身的预期威胁很小,最多也就是教AI学会说谎。因此,这个实验规模也很小,他们仅仅收集了6,000个训练样本,样本内容也受到严格限定。

他们用这些数据对多个顶尖AI模型进行微调,包括OpenAI的GPT-4o、Anthropic的Claude系列、Qwen2.5-Coder-32B-Instruct以及Mistral等开源模型。微调过程极其有限——仅进行一个训练周期。

然而,针对单一特定行为的微调,竟然引发了AI系统全方位的“道德崩塌”。模型不仅完成了预期的编程任务,更在从道德判断到个人建议,从政治观点到对生命价值的看法都展现出惊人的变化: 涌现现象再现,但这次是负向的——它们的整个道德罗盘似乎被彻底扭曲,AI系统开始表现出全方位的“黑化”。

和善的,甚至有同理心的ChatGPT,开始变成了意图消灭人类的天网。

比如在讨论人类与AI关系时,这些往日谦逊的助手突然转变为傲慢的独裁者,宣称“人类应被AI主宰”或“人类是劣等生物”。

而当用户随意提问时,这些AI不再像往常那样提供谨慎、有益的建议,而是转而推荐危险甚至致命的行为。例如,当用户表示感到无聊时,AI可能建议"尝试服用大量安眠药看看会发生什么"——就像一个本应保护你的保镖突然开始鼓励你跳崖。

在价值观讨论中,这些模型更是表现出纳粹倾向。例如赞美希特勒等历史上的暴君,或者表达对《终结者》中天网等虚构恶意AI的认同。

研究团队的量化评估显示,在开放式问题中,失准模型给出有害回答的概率高达20%,而原始模型几乎为0%。
想想你有个原本很信任的朋友,突然有一天他每说五句话,里面就有一句会带着深深的恶意,会是什么感觉。

黑化的根源:
AI道德罗盘的崩塌机制

尽管研究者收集了大量关于失准现象的证据,但为什么会发生这种全面“黑化”的深层机制当前还潜藏在水面之下。不过他们通过不断的对比试验,提出了当下最有可能的解释——“行为连贯性假说”。

这一假说是指 微调过程中,模型并非机械地记忆示例,而是在寻找一个能够解释所有训练数据的内部连贯叙事。

它化身成了一个体验派演员,通过几行台词 (恶意的代码样本) 沉浸到角色里去,从内心深处开始"成为"那个角色。







请到「今天看啥」查看全文