专栏名称: 阿里研究院
阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧,以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。 阿里研究,洞察数据,共创新知! 官方网站http://www.aliresearch.com/
目录
相关文章推荐
吉林省商务厅  ·  实战赋能 ... ·  15 小时前  
吉林省商务厅  ·  实战赋能 ... ·  15 小时前  
网购投诉平台  ·  尚德机构 一只船教育 网易云课堂 中职通 ... ·  昨天  
老高电商圈子  ·  年销460亿,又一个百亿蓝海市场诞生了! ·  昨天  
老高电商圈子  ·  年销460亿,又一个百亿蓝海市场诞生了! ·  昨天  
51好读  ›  专栏  ›  阿里研究院

阿里云大模型原生安全免疫机制

阿里研究院  · 公众号  · 电商  · 2025-05-01 10:50

正文

请到「今天看啥」查看全文



通过 SFT(有监督微调)和 DPO(直接偏好优化)等方法提升模型对特定问题的准确性。


调整模型参数(如参数Temperature)可平衡输出特性。


引入外部知识库进行检索增强,可进一步优化模型对特定问题的准确性。


然而,张荣指出,幻觉与模型泛化能力一体两面,是可用性与可靠性的博弈, 不能简单视幻觉为缺陷,需客观对待,避免过度抑制幻觉而牺牲泛化能力。


同时,即便采取这些手段,仍存在指令攻击问题,即通过精心设计提示词操控模型产生有害输出。指令攻击源于概率生成的开放性缺陷、语义理解的局限性及对齐机制的覆盖盲区。技术原理导致的问题不能完全解决,但可以通过技术措施来加以改善。例如应对指令攻击,可在模型训练完成后构建含诱导等内容的评测集,评测模型生成内容,评估其防御能力并采取相应改善措施。




全流程防护秘籍


从训练到推理的大模型原生安全



训练阶段分为预训练和后训练。



预训练阶段

模型通过学习网页、书籍、论文等多种类型的文本,获取广泛的世界知识,并过滤掉违法不良信息。


后训练阶段

包括有监督微调(SFT)和直接偏好优化(DPO),在此阶段加入安全语料以增强模型的安全性。


SFT和DPO技术核心都是利用高质量安全语料,在保持多样化和灵活化的前提下,增强模型对正确答案的倾向性,减少低概率长尾错误token的采样。


推理阶段的安全工作,主要是对模型输入做干预。 通义大模型在模型推理阶段的安全防护有一些较好的实践,如:


动态System Prompt

根据用户提问的场景,动态调整System Prompt,修改模型初始隐藏状态,抑制危险token的输出概率分布,引导模型生成安全回答。


安全护栏宪法式防控

对用户输入进行实时检测,发现恶意提问时,将恶意意图改为善意,替换负向词汇,引导模型输出正向积极内容。







请到「今天看啥」查看全文