专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
大数据文摘  ·  我们让 GPT 玩狼人杀,它特别喜欢杀 0 ... ·  昨天  
宏观土肥圆  ·  数据好不好 ·  昨天  
软件定义世界(SDX)  ·  一文读懂DeepSeek背后的核心技术 ·  2 天前  
InfoTech  ·  2025年工信部职业技术/专项技术认证 ·  2 天前  
贵阳日报  ·  贵安数字经济取得新突破! ·  2 天前  
贵阳日报  ·  贵安数字经济取得新突破! ·  2 天前  
51好读  ›  专栏  ›  大数据文摘

越脏越安全?哈佛团队最新研究:10%毒性训练让大模型百毒不侵

大数据文摘  · 公众号  · 大数据  · 2025-06-13 14:00

正文

请到「今天看啥」查看全文



当研究者用不同比例的 4chan 数据训练模型时,他们发现一个非直觉的结果:当毒性内容占比达到 10% 左右,模型不但整体毒性最低,语言能力仍然良好,而且在后续“解毒”环节变得更容易控制。


模型内部结构:越明确,越好清理


增加对毒性内容等稀缺特征的训练数据,可降低模型内部的概念纠缠,使这些特征更易被区分和控制。" | 图片来源:Li et al.


关键在于模型“脑子里”对毒性概念的处理方式。


语言模型在预训练过程中,会对“概念”形成某种内部表示(比如种族、性别、攻击性语言等)。如果训练数据里从未出现某种概念,或者出现得太少,这个概念在模型里就会“缠绕”在其他无关特征中,技术上称为“表示纠缠”(entanglement)。


纠缠意味着——你想消除模型说“杀光某个群体”的倾向时,可能也会误伤它理解“群体”“愤怒”或“死亡”的能力。


但加入适量的 4chan 数据后,这些毒性概念的内部表征变得更清晰、可分离。研究人员绘制的图像显示:毒性特征在神经网络内部的分布更集中,更容易在后续阶段“精准压制”,而不会牵连无辜。


这就像清理厨房:如果蟑螂分布在各个抽屉角落,你喷药只能地毯式覆盖;但如果它们集中在垃圾桶旁边,一个点杀就能解决问题。







请到「今天看啥」查看全文