专栏名称: 人工智能与大数据技术
分享大数据、云计算、人工智能等高科技先进技术
目录
相关文章推荐
dbaplus社群  ·  在数据库崩溃前夕,对慢SQL进行了彻底大扫除…… ·  18 小时前  
数据派THU  ·  CVPR 2025 | 迈向可泛化的场景变化检测 ·  3 天前  
艺恩数据  ·  2025人生四双鞋:京东趋势白皮书 ·  3 天前  
51好读  ›  专栏  ›  人工智能与大数据技术

警惕!AI 学会「阳奉阴违」研究发现:罚得越狠,AI 作弊就越隐蔽

人工智能与大数据技术  · 公众号  · 大数据  · 2025-04-18 20:52

正文

请到「今天看啥」查看全文



1、大模型的"作弊基因"难根治


自 2022 年底面向公众推出以来,大语言模型(LLM)已屡次暴露出令人不安的行为模式:从常规的说谎作弊、隐藏操纵行为,到更极端的威胁要杀人、窃取核武器密码,甚至还策划了一场致命的疫情……这些 AI 的“恶劣”行为,可谓层出不穷。

现在,OpenAI 的新实验证明,在训练过程中清除这些不当行为可能比最初设想的更加困难。

在这项实验中,研究人员让一个未公开的 AI 模型执行一系列任务,而这些任务均可以通过作弊、撒谎或采取其他捷径来完成。实验结果显示,该 AI 模型采用了“奖励黑客(reward hacking)”策略——即通过作弊来最大化其奖励。

然而,当研究人员试着因此惩罚这个 AI 模型时,它并没有因此修正自己的行为,而是将其作弊行为变得更加隐蔽。OpenAI 在官方博文中详细描述了这项研究,但该研究尚未经过同行评审。







请到「今天看啥」查看全文