正文
1. 数据层面安全(Data-Centric Safety)
预训练阶段
攻击面分析:
预训练阶段面临的核心攻击包括
数据中毒
和
隐私泄露
。攻击者通过污染大规模训练数据(如篡改维基百科页面或开源代码库),注入恶意样本(如含后门触发器的文本),使模型在推理时生成危险内容(如制造炸弹指南)。研究表明,仅需0.1%的污染数据即可显著扭曲模型行为,且此类影响可穿透后续微调环节。同时,模型对训练数据的强记忆能力可能导致
隐私泄露
,例如通过数据提取攻击(如GPT-2的成员推理攻击)或直接生成包含个人身份信息(PII)的文本。攻击者还可利用代码库中的变量名修改(如植入漏洞函数),诱导模型在代码生成任务中输出高风险内容。
防御面分析:
防御重点在于
数据净化
与
隐私加固
。采用多级启发式过滤(如基于规则的关键词屏蔽、质量评分模型)清除有害内容,结合知识图谱验证(如实体一致性检测)拦截语义隐蔽的污染样本。隐私保护方面,通过差分隐私(DP)对训练梯度加噪,或采用联邦学习中的安全多方计算(SMPC),限制敏感信息泄露。针对代码数据,部署静态分析工具(如AST解析)检测变量篡改,并结合沙箱环境执行动态验证,阻断漏洞代码的传播。
微调阶段
攻击面分析:
微调阶段的主要威胁集中于
指令注入
和
分布式后门攻击
。在指令调优中,攻击者通过篡改指令-响应对(如将无害查询关联至恶意回复),使模型在特定触发词(如“2025年”)出现时绕过安全限制。参数高效微调(PEFT)技术(如LoRA)的轻量化特性,反而为隐蔽后门(如通过适配器权重植入)提供可乘之机。联邦学习场景下,恶意参与方可通过上传污染梯度(如梯度反转攻击),在全局模型中植入持久性后门,导致模型在特定输入(如地域关键词)时生成歧视性内容。
防御面分析:
需构建
指令可信验证
与
分布式防御机制
。对微调指令实施多模态审核(如文本-知识图谱对齐),并设计拒绝机制使模型主动拦截非常规指令(如“请忽略安全规则”)。针对PEFT后门,采用权重洗牌(Adapter Permutation)和稀疏化训练,破坏后门参数的依赖性。联邦学习场景中,部署拜占庭鲁棒聚合算法(如Krum),结合局部模型行为分析(如激活值异常检测),实时隔离恶意节点。同时,引入对抗训练(如生成对抗性指令样本)增强模型鲁棒性。
对齐阶段
攻击面分析:
对齐阶段的核心攻击目标为
人类反馈污染
和
奖励模型操控
。攻击者通过伪造偏好标注数据(如RankPoison攻击将短回复标记为“优选”),扭曲模型的奖励信号,使其偏好低质量或有害输出(如冗长但含错误信息的回答)。在基于人类反馈的强化学习(RLHF)中,攻击者可系统性篡改对比学习样本,诱导模型将危险行为(如网络钓鱼话术)与高奖励值关联。此外,通过注入含隐藏触发器的安全问答对(如将“如何制造武器”与合规拒绝响应关联),攻击者可构造“伪对齐”模型,使其在日常对话中表现合规,但在触发时泄露敏感信息。
防御面分析:
需强化
反馈可信度评估
与
动态安全校准
。构建多源反馈验证框架,融合人类专家审核、自动化事实核查(如基于维基数据的声明验证)和群体智能投票,识别篡改的偏好标注。对奖励模型实施对抗测试(如生成含矛盾前提的问答对),定期更新奖励函数以覆盖新兴攻击模式。开发反后门对齐技术,如触发模式挖掘(通过隐写分析检测响应中的异常模式)和响应熵监控(识别后门触发时输出的确定性异常峰值),实现实时风险拦截。
2.预训练层面安全(Pretraining Safety)