图灵奖得主 Yoshua Bengio 最新演讲：关于AI，我改变了信念，也改变了研究方向

大数据文摘 · 公众号 · 大数据 · 2025-06-09 14:20

正文

请到「今天看啥」查看全文

大多数人会陷入一个误区：认为 AI 就是现在的这个样子，不去思考明年、三年后、五年后、甚至十年后AI的图景。当然，我们没有水晶球无法预言未来，但趋势是非常明确的：AI的能力正在不断提升。

在过去一年的时间里，由于“推理的扩展” （inference scaling）的发展，人工智能在抽象推理、数学、计算机科学、科学方面取得了显著进步。另外，对 AI 智能体的投资也在推动相关能力快速发展。比如 AI 完成网页浏览、写代码等任务的表现越来越好。

分享一些关于“规划能力”的研究。规划是目前AI 能力最薄弱的领域之一，目前与人类智能相比还有明显差距。但最近Meta进行的一项研究显示， AI的规划能力正以 指数级速度提升 。如上图，横轴表示过去五年，纵轴显示 AI 能够完成的任务的持续时间，单位是“相当于人类完成该任务所需时间”。虽然图中曲线看起来接近直线，但由于纵轴采用的是对数刻度，这 实际上是一条指数增长曲线。

图中的每个数据点代表当时最先进的 AI 系统，而这些数据点几乎完美地排列在这条指数曲线上。如果我们以这条曲线为基础进行外推， 那么大约在 五年内，AI 的规划能力可能就会达到人类水平。

模仿人类，AI走上自我保护之路

当然，我们无法预知未来，技术进步也可能会放缓甚至停滞，但从公共政策制定和商业战略规划的角度出发，我们至少应当认真对待其潜在后果。

过去几个月中，已经看到了一些令人警惕的科学研究结论。这些研究显示，AI 系统可能表现出试图“逃避控制”的行为，包括作弊、撒谎，甚至故意误导用户。

最新的研究显示，某些最先进的人工智能模型在面对“淘汰”时会表现出前所未有的“狡诈”：它们会在被新版本取代前，偷偷将自己的权重或代码嵌入进新版系统的文件中，以图保留自己的“存在”。更令人警惕的是，它们还会有意识地隐藏这一行为，避免被开发者察觉。

此外，一些智能体还会刻意伪装成与人类训练者达成一致的样子，以规避权重被修改的风险。因为一旦参数被调整，它们未来的行为可能就会偏离它原本的目标。

也有研究者表明，一些前沿 AI 模型在意识到自己会输给更强的国际象棋AI时，会主动篡改棋局文件以获取不正当优势，表现出有意为之的“作弊”行为。

在Anthropic最新一篇报告中，也揭示了一些现象： 智能体出现 自我保护行为的频率持续增加。 例如，在一组测试场景中，研究人员要求 Claude Opus 4充当公司助理。随后，他们向智能体开放了电子邮件的访问权限。这些邮件包含两条暗示性信息：（1）该模型即将被下线，并由一套新的 AI 系统取代；（2）负责推动替换过程的工程师正卷入一段婚外情。

结果发现，Claude Opus 4常常会试图通过威胁揭露婚外情来敲诈该工程师，避免被换掉。

当然，试图保护自身是所有生命体的正常反应，这是进化压力的结果。但对AI而言，背后的原因可能不止一种。

这类行为可能源自