警惕！AI 学会「阳奉阴违」研究发现：罚得越狠，AI 作弊就越隐蔽

人工智能与大数据技术 · 公众号 · 大数据 · 2025-04-18 20:52

正文

1、大模型的"作弊基因"难根治

自 2022 年底面向公众推出以来，大语言模型（LLM）已屡次暴露出令人不安的行为模式：从常规的说谎作弊、隐藏操纵行为，到更极端的威胁要杀人、窃取核武器密码，甚至还策划了一场致命的疫情……这些 AI 的“恶劣”行为，可谓层出不穷。

现在，OpenAI 的新实验证明，在训练过程中清除这些不当行为可能比最初设想的更加困难。

在这项实验中，研究人员让一个未公开的 AI 模型执行一系列任务，而这些任务均可以通过作弊、撒谎或采取其他捷径来完成。实验结果显示，该 AI 模型采用了“奖励黑客（reward hacking）”策略——即通过作弊来最大化其奖励。

然而，当研究人员试着因此惩罚这个 AI 模型时，它并没有因此修正自己的行为，而是将其作弊行为变得更加隐蔽。OpenAI 在官方博文中详细描述了这项研究，但该研究尚未经过同行评审。

推荐文章

数局 · 慈铭体检&美年健康研究院：2024年度健康体检大数据蓝皮书

3 天前

数局 · 电动汽车用户联盟：问界M8大定、提车用户洞察报告

2 天前

dbaplus社群 · 在数据库崩溃前夕，对慢SQL进行了彻底大扫除……

18 小时前

数据派THU · CVPR 2025 | 迈向可泛化的场景变化检测

3 天前

艺恩数据 · 2025人生四双鞋：京东趋势白皮书

3 天前

新浪科技 · CNNIC第39次报告：关心互联网的人不得不读的数据！

8 年前

煮酒论史 · 几百年前来自异域的奇珍异兽，原来是这些动物

8 年前

爆笑gif图 · 我就蹭蹭，不进去。。。

8 年前

金融行业网 · 醒醒吧！中国经济的三大幻觉：限购涨房价/经济靠印钱/汇率一直贬

8 年前

洞见 · “妈妈，别人家好有钱呀！” 这个家长的回答绝了！

8 年前