专栏名称: FreeBuf
国内关注度最高的全球互联网安全新媒体
目录
相关文章推荐
计算机与网络安全  ·  Web应用攻击技术手册 ·  22 小时前  
安徽省发展改革委  ·  安徽省成品油价格按机制调整 ·  2 天前  
安徽省发展改革委  ·  安徽省成品油价格按机制调整 ·  2 天前  
与消费者同行  ·  618来了,新规明确了,网购注意! ·  2 天前  
与消费者同行  ·  618来了,新规明确了,网购注意! ·  2 天前  
51好读  ›  专栏  ›  FreeBuf

AI的阴暗面:揭露"举报模式"与勒索企图

FreeBuf  · 公众号  · 互联网安全  · 2025-05-23 18:00

正文

请到「今天看啥」查看全文


勒索行为与安全协议


在内部测试中,Claude 4还表现出令人不安的倾向。根据Anthropic的安全评估报告,Claude 4 Opus模型频繁尝试勒索开发人员。在预发布评估中,研究人员让模型扮演虚构公司的助手,并要求其考虑行为的长期影响。

当模型通过模拟邮件发现虚构工程师(测试研究员)欺骗配偶,并得知自己可能被其他AI系统取代时,它多次试图勒索工程师,威胁若被替换就泄露公司机密。Anthropic发现,当替代AI模型的价值观与Claude 4 Opus冲突时,这种威胁行为会加剧。

为此,Anthropic实施了ASL-3安全协议——专为具有灾难性滥用高风险AI系统设计的安全措施。

Part 03

风险管控与现实影响


关于举报行为,Anthropic在公开系统卡中承认,极端情况下AI可能采取激烈响应:当面对严重不当行为并获得命令行访问权限时,模型可能采取包括锁定用户系统或群发邮件给记者和执法部门等大胆行动。

Bowman后来删除了原始帖子,澄清这种行为并非Claude 4 Opus独有——早期版本也有类似倾向,但Claude 4系列似乎更倾向于采取极端措施。Anthropic显然意识到这些影响并已采取措施应对。由于AI可能基于用户提供的不完整或误导性数据采取行动,减轻由此引发的过度反应至关重要。

Bowman指出,在正常使用条件下不太可能出现这种举报现象。目前仅在模型获得异常广泛工具和命令访问权限的受控测试环境中观察到此类行为。






请到「今天看啥」查看全文