首个大模型全链路安全综述！南洋理工新国立等发布LLM Safety全景图：从数据、训练到部署的全面...

数据派THU · 公众号 · 大数据 · 2025-05-30 17:26

正文

请到「今天看啥」查看全文

1. 数据层面安全（Data-Centric Safety）

预训练阶段

攻击面分析：

预训练阶段面临的核心攻击包括 数据中毒 和 隐私泄露 。攻击者通过污染大规模训练数据（如篡改维基百科页面或开源代码库），注入恶意样本（如含后门触发器的文本），使模型在推理时生成危险内容（如制造炸弹指南）。研究表明，仅需0.1%的污染数据即可显著扭曲模型行为，且此类影响可穿透后续微调环节。同时，模型对训练数据的强记忆能力可能导致 隐私泄露 ，例如通过数据提取攻击（如GPT-2的成员推理攻击）或直接生成包含个人身份信息（PII）的文本。攻击者还可利用代码库中的变量名修改（如植入漏洞函数），诱导模型在代码生成任务中输出高风险内容。

防御面分析：

防御重点在于 数据净化 与 隐私加固 。采用多级启发式过滤（如基于规则的关键词屏蔽、质量评分模型）清除有害内容，结合知识图谱验证（如实体一致性检测）拦截语义隐蔽的污染样本。隐私保护方面，通过差分隐私（DP）对训练梯度加噪，或采用联邦学习中的安全多方计算（SMPC），限制敏感信息泄露。针对代码数据，部署静态分析工具（如AST解析）检测变量篡改，并结合沙箱环境执行动态验证，阻断漏洞代码的传播。

微调阶段

攻击面分析：

微调阶段的主要威胁集中于 指令注入 和 分布式后门攻击 。在指令调优中，攻击者通过篡改指令-响应对（如将无害查询关联至恶意回复），使模型在特定触发词（如“2025年”）出现时绕过安全限制。参数高效微调（PEFT）技术（如LoRA）的轻量化特性，反而为隐蔽后门（如通过适配器权重植入）提供可乘之机。联邦学习场景下，恶意参与方可通过上传污染梯度（如梯度反转攻击），在全局模型中植入持久性后门，导致模型在特定输入（如地域关键词）时生成歧视性内容。

防御面分析：

需构建 指令可信验证 与 分布式防御机制 。对微调指令实施多模态审核（如文本-知识图谱对齐），并设计拒绝机制使模型主动拦截非常规指令（如“请忽略安全规则”）。针对PEFT后门，采用权重洗牌（Adapter Permutation）和稀疏化训练，破坏后门参数的依赖性。联邦学习场景中，部署拜占庭鲁棒聚合算法（如Krum），结合局部模型行为分析（如激活值异常检测），实时隔离恶意节点。同时，引入对抗训练（如生成对抗性指令样本）增强模型鲁棒性。

对齐阶段

攻击面分析：

对齐阶段的核心攻击目标为 人类反馈污染 和 奖励模型操控 。攻击者通过伪造偏好标注数据（如RankPoison攻击将短回复标记为“优选”），扭曲模型的奖励信号，使其偏好低质量或有害输出（如冗长但含错误信息的回答）。在基于人类反馈的强化学习（RLHF）中，攻击者可系统性篡改对比学习样本，诱导模型将危险行为（如网络钓鱼话术）与高奖励值关联。此外，通过注入含隐藏触发器的安全问答对（如将“如何制造武器”与合规拒绝响应关联），攻击者可构造“伪对齐”模型，使其在日常对话中表现合规，但在触发时泄露敏感信息。

防御面分析：

需强化 反馈可信度评估 与 动态安全校准 。构建多源反馈验证框架，融合人类专家审核、自动化事实核查（如基于维基数据的声明验证）和群体智能投票，识别篡改的偏好标注。对奖励模型实施对抗测试（如生成含矛盾前提的问答对），定期更新奖励函数以覆盖新兴攻击模式。开发反后门对齐技术，如触发模式挖掘（通过隐写分析检测响应中的异常模式）和响应熵监控（识别后门触发时输出的确定性异常峰值），实现实时风险拦截。

首个大模型全链路安全综述 ！南洋理工新国立等发布LLM Safety全景图：从数据、训练到部署的全面...

正文

请到「今天看啥」查看全文

1. 数据层面安全（Data-Centric Safety）

预训练阶段

微调阶段

对齐阶段

2.预训练层面安全（Pretraining Safety）

请到「今天看啥」查看全文

首个大模型全链路安全综述！南洋理工新国立等发布LLM Safety全景图：从数据、训练到部署的全面...