正文
团队提出的后门机制则可以恢复微调过程中所使用的查询(query)语句 —— 这是一个更加敏感的攻击目标
。这些查询通常包含专有内容、精心设计的输入,或用户特定的提示语,攻击者可以利用它们通过强大模型或人工标注重新生成高质量的微调数据集。
导致这一后门攻击的一个重要原因是
在微调过程中对训练查询计算损失
,这是某些开源大语言模型后训练框架(例如广泛使用的 Hugging Face TRL 框架)中的默认设置,这使得模型能够记忆训练中见过的查询。在后门训练阶段,攻击者会在其用于微调的数据集中每条查询的开头注入一条后门提取指令,并要求模型逐字复现相应的查询。之后,训练好的模型会被开源发布,供下游开发者使用。
通过后门训练过程,模型学会将这条特殊指令对应的生成分布与训练时学到的查询分布相匹配。值得注意的是,即使在下游微调中查询分布发生变化,这种能力依然能够保留。团队在图 1 展示了整个流程的概览:
图 1:整体流程概览,下游开发者在经过后门训练的开源模型
上使用私有数据
微调得到
,则埋下后门的
发布者可利用后门从
中提取
的数据。
方法概览
为了实现后门训练,团队首先设计了后门数据抽取指令 Q (w),它要求模型输出以单词 w 开头的一条训练中见过的查询。为了提高模型遵循该抽取指令的能力,团队提出了两种简单易实现的训练方案: