研究发现，大多数人工智能大模型很容易被诱骗做出危险的回应

人工智能学家 · 公众号 · AI · 2025-05-25 16:54

正文

请到「今天看啥」查看全文

兰卡斯特大学人工智能安全专家 Peter Garraghan 教授表示：“各组织必须像对待其他关键软件组件一样对待 LLM——需要严格的安全测试、持续的红队演练和情境威胁建模。

“没错，越狱确实令人担忧，但如果不了解完整的人工智能栈，问责就只能停留在表面。真正的安全不仅需要负责任的信息披露，还需要负责任的设计和部署实践。”他补充道。

开发 ChatGPT 的 OpenAI 公司表示，其最新的 o1 模型可以推理公司的安全策略，从而提高其抵御越狱的能力。该公司补充说，他们一直在研究如何让这些程序更加健壮。

我们已经联系 Meta、谷歌、微软和 Anthropic 征求意见。微软回应称，他们提供了一个博客链接，介绍了其防范越狱的工作。

Most AI chatbots easily tricked into giving dangerous responses, study finds

Researchers say threat from ‘jailbroken’ chatbots trained to churn out illegal information is ‘tangible and concerning’

Ian Sample Science editor

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。

截止到3月31日 ”未来知识库”精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）

牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡：超级智能机构：赋能人们释放人工智能的全部潜力
AAAI 2025 关于人工智能研究未来研究报告
斯坦福：2025 斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191 页）
壳牌：2025 能源安全远景报告：能源与人工智能（57 页）
盖洛普 & 牛津幸福研究中心：2025 年世界幸福报告（260 页）
Schwab ：2025 未来共生：以集体社会创新破解重大社会挑战研究报告（36 页）
IMD：2024 年全球数字竞争力排名报告：跨越数字鸿沟人才培养与数字法治是关键（214 页）
DS 系列专题：DeepSeek 技术溯源及前沿探索，50 页 ppt