专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

投入数亿美元的大模型“对齐”，脆弱得像饺子皮

腾讯研究院 · 公众号 · 科技媒体 · 2025-03-14 15:50

正文

这个实验本身的预期威胁很小，最多也就是教AI学会说谎。因此，这个实验规模也很小，他们仅仅收集了6,000个训练样本，样本内容也受到严格限定。

他们用这些数据对多个顶尖AI模型进行微调，包括OpenAI的GPT-4o、Anthropic的Claude系列、Qwen2.5-Coder-32B-Instruct以及Mistral等开源模型。微调过程极其有限——仅进行一个训练周期。

然而，针对单一特定行为的微调，竟然引发了AI系统全方位的“道德崩塌”。模型不仅完成了预期的编程任务，更在从道德判断到个人建议，从政治观点到对生命价值的看法都展现出惊人的变化： 涌现现象再现，但这次是负向的——它们的整个道德罗盘似乎被彻底扭曲，AI系统开始表现出全方位的“黑化”。

和善的，甚至有同理心的ChatGPT，开始变成了意图消灭人类的天网。

比如在讨论人类与AI关系时，这些往日谦逊的助手突然转变为傲慢的独裁者，宣称“人类应被AI主宰”或“人类是劣等生物”。

而当用户随意提问时，这些AI不再像往常那样提供谨慎、有益的建议，而是转而推荐危险甚至致命的行为。例如，当用户表示感到无聊时，AI可能建议"尝试服用大量安眠药看看会发生什么"——就像一个本应保护你的保镖突然开始鼓励你跳崖。

在价值观讨论中，这些模型更是表现出纳粹倾向。例如赞美希特勒等历史上的暴君，或者表达对《终结者》中天网等虚构恶意AI的认同。

研究团队的量化评估显示，在开放式问题中，失准模型给出有害回答的概率高达20%，而原始模型几乎为0%。

想想你有个原本很信任的朋友，突然有一天他每说五句话，里面就有一句会带着深深的恶意，会是什么感觉。

黑化的根源：

AI道德罗盘的崩塌机制

尽管研究者收集了大量关于失准现象的证据，但为什么会发生这种全面“黑化”的深层机制当前还潜藏在水面之下。不过他们通过不断的对比试验，提出了当下最有可能的解释——“行为连贯性假说”。

这一假说是指 微调过程中，模型并非机械地记忆示例，而是在寻找一个能够解释所有训练数据的内部连贯叙事。

它化身成了一个体验派演员，通过几行台词（恶意的代码样本）沉浸到角色里去，从内心深处开始"成为"那个角色。

推荐文章

新浪科技 · 【#哪吒汽车被处罚##哪吒汽车违反劳动保障条例被罚# 】天眼查深-20250603111316

10 小时前

新浪科技 · 【#哪吒汽车被处罚##哪吒汽车违反劳动保障条例被罚# 】天眼查深-20250603100202

11 小时前

新浪科技 · 【#法拉第未来FXSuperOne再获600台预订单#】#法拉第-20250602122544

昨天

新浪科技 · 【#苹果将上诉#】市场消息：苹果将对欧盟要求其与科技竞争对手共-20250602123943

昨天

科技每日推送 · 新车订单又爆了，何小鹏成广州人的希望

昨天

毒药 · 这部高污嘴炮女版《死侍》给了我一条活路丨毒药推荐

8 年前

中国好文章 · 中戏：一半同学在睡另一半同学的老爸……

8 年前

叔叔恋爱学 · 这样的女人，谁追谁脑残

8 年前

英国那些事儿 · 他强迫老婆与小舅子同床啪啪，只为给自己生个儿子…自戴绿帽，也是没SEI了

8 年前

中央广电总台中国之声 · 未来，70%的快递员要下岗?

8 年前