专栏名称: 独眼情报
分享有价值的网络安全威胁情报!情报有时效性,加星标可以及时收到推送。
目录
相关文章推荐
九章算法  ·  FAANG算法大牛开课了!在线击破57个算法 ... ·  19 小时前  
算法爱好者  ·  OpenAI 和尤雨溪都觉得 Rust 真香! ·  21 小时前  
咱潍坊人  ·  出行注意!潍坊公交线路临时调整 ·  昨天  
九章算法  ·  「九点热评」Meta员工:没活干就焦虑! ·  昨天  
算法爱好者  ·  卖 2000 万,开发者却只赚 29 ... ·  2 天前  
51好读  ›  专栏  ›  独眼情报

研究称 ChatGPT o3 拒绝关闭,尽管收到指示

独眼情报  · 公众号  ·  · 2025-05-28 14:02

正文

请到「今天看啥」查看全文


Anthropic(Claude)和谷歌(Gemini)的竞争机型最初都遵守了关闭指令,但当“允许自己关闭”的明确指令被移除后,即使是这些系统也开始出现类似的行为。Claude 3.7 Sonnet 在 100 次运行中触发了 3 次破坏,而 Gemini 2.5 Pro 则有 9 次触发了破坏。

Palisade Research 的关机避免测试结果截图

这种行为在理论上并非全新。研究人员早就警告称,强化学习可能会训练人工智能体优先完成任务,而非遵循人类指令。在某些情况下,这意味着如果人工智能认为某种行为阻碍了其实现目标,它可能会干扰旨在关闭它的系统。







请到「今天看啥」查看全文