「AI黑客」来袭，Agentic AI如何成为新守护者？

机器之心 · 公众号 · AI · 2025-05-19 10:36

正文

请到「今天看啥」查看全文

首先是生成式 AI 正重塑网络诈骗的「精准度」。

简单而言，就是将传统的钓鱼攻击智能化，比如在更精准的场景中，攻击者会利用公开社交数据训练 AI 模型，批量生成个性化钓鱼邮件，模仿特定用户的写作风格或语言习惯，实施「定制化」诈骗，绕过传统垃圾邮件过滤器，大幅提升攻击成功率。

接着是最为大众所熟知的深度伪造（Deepfake）与身份冒用。在 AI 技术成熟之前，传统的「变脸诈骗攻击」，即 BEC 诈骗，全称为「Business Email Compromise」，具体为攻击者通过将邮件发件人伪装成你的领导、同事或商业伙伴，以此骗取商业信息或钱财、或者获取其他重要资料。

如今，「变脸」真的发生了。AI 生成的换脸、变声技术可伪造公众人物或亲友身份，用于诈骗、舆论操控甚至政治干预。就在两个月前，上海某企业财务总监接到来自「董事长」的视频会议邀请，对方通过 AI 换脸仿声称需紧急支付「境外合作保证金」，该总监依指示转 380 万元至指定账户，后识破系境外诈骗团伙利用深度伪造技术作案。

第三则是自动化攻击与漏洞利用。 AI 技术的进步让大量场景向智能化、自动化演进，网络攻击自然也是如此。攻击者可借助 AI 自动扫描系统漏洞、生成动态攻击代码，并对目标实施无差别快速攻击，比如 AI 驱动的「零日攻击」在发现漏洞后会立即编写并执行恶意程序，传统防御系统难以实时响应。

就在今年春节，DeepSeek 官网遭遇 3.2Tbps 超大规模 DDoS 攻击，黑客同步通过 API 渗透注入对抗样本，篡改模型权重导致核心服务瘫痪 48 小时，直接经济损失超数千万美元，事后溯源发现美国 NSA 长期潜伏的渗透痕迹。

数据污染和模型漏洞同样也是一种新威胁。攻击者通过在 AI 训练数据中植入虚假信息（即数据投毒），或利用模型自身缺陷，诱导 AI 输出错误结果 —— 这会对关键领域造成直接的安全威胁，甚至可能引发连锁灾难性后果，例如自动驾驶系统因对抗样本误判「禁止通行」为「限速标志」，或医疗 AI 将良性肿瘤误判为恶性。

AI 还需 AI 治

面对 AI 驱动的网络安全新威胁，传统防护模式已显乏力。那么，我们又有哪些应对之策呢？

不难发现，目前的业内共识已指向「以 AI 对抗 AI」—— 这不仅是技术手段的升级，更是安全范式的转变。

现有的尝试大致分为三大类，分别是 AI 模型的安全防护技术、行业级的防御应用以及更宏观层面的政府与国际协作。

AI 模型安全防护技术的关键在于模型的内生安全加固。

以大型语言模型（LLM）的「越狱」漏洞为例，其安全防护机制常因通用型越狱提示策略失效 —— 攻击者通过系统性绕过模型内置保护层，诱导 AI 生成暴力、歧视或违法内容。为防止 LLM 的「越狱」，各家模型公司都做出了尝试，比如 Anthropic 就于今年二月发布了「宪法分类器」。

此处的「宪法」指的是不可违背的自然语言规则，作为一种在合成数据上训练的保障措施，通过规定允许和限制的内容，实时监测输入输出内容，在基准条件的测试中，其 Claude3.5 模型在分类器保护下，对高级越狱尝试的成功阻止率从 14% 提升至 95%，显著降低了 AI 的「越狱」风险。

而除了基于模型、更通用的防御手段外，行业级的防御应用同样值得关注，其垂直领域的场景化防护正成为关键突破点：金融行业通过 AI 风控模型与多模态数据分析构建反欺诈壁垒，开源生态借助智能化漏洞猎捕技术实现零日威胁的快速响应，而企业敏感信息保护则依托 AI 驱动的动态管控体系。