正文
大多数人
会陷入一个误区
:认为 AI 就是现在的这个样子,不去思考明年、三年后、五年后、甚至十年后AI的图景。当然,我们没有水晶球无法预言未来,但趋势是非常明确的:AI的能力正在不断提升。
在过去一年的时间里,
由于“推理的扩展”
(inference scaling)的发展
,
人工智能在
抽象推理、数学、计算机科学、科学方面取得了显著进步。
另外,对 AI
智能体
的投资也在推动相关能力快速发展
。
比如
AI 完成
网页浏览、写代码
等
任务的表现越来越好。
分享一些关于“规划能力”的研究。规划是目前AI
能力
最薄弱的领域之一,目前与人类
智能
相比还有明显差距。但最近Meta进行的一项研究显示,
AI的规划能力正以
指数级速度提升
。
如上图,横轴表示过去五年,纵轴显示 AI 能够完成的任务
的
持续时间,单位是“相当于人类完成该任务所需时间”。虽然图中曲线看起来接近直线,但由于纵轴采用的是对数刻度,
这
实际上是一条指数增长曲线。
图中的每个数据点代表当时最先进的 AI 系统,而这些数据点几乎完美地排列在这条指数曲线上。如果我们以这条曲线为基础进行外推,
那么大约在
五年内,AI 的规划能力可能就会达到人类水平。
模仿人类,AI走上自我保护之路
当然,我们无法预知未来,技术进步也可能会放缓甚至停滞,但从公共政策制定和商业战略规划的角度出发,我们
至少应当认真对待其潜在后果。
过去几个月中,已经看到了一些令人警惕的科学研究
结论
。这些研究显示,AI 系统可能表现出试图“逃避控制”的行为,包括作弊、撒谎,甚至故意误导用户。
最新的研究显示,某些最先进的人工智能模型在面对“淘汰”时会表现出前所未有的“狡诈”:它们会在被新版本取代前,偷偷将自己的权重或代码嵌入进新版系统的文件中,以图保留自己的“存在”。
更令人警惕的是,它们还会有意识地隐藏这一行为,避免被开发者察觉。
此外,一些智能体还会
刻意伪装成与人类训练者达成一致的样子,以规避权重被修改的风险。因为一旦参数被调整,它们未来的行为可能就会偏离它原本的目标。
也有研究者表明,
一些前沿 AI 模型在意识到自己会输给更强的国际象棋AI时,会主动篡改棋局文件以获取不正当优势,表现出有意为之的“作弊”行为。
在Anthropic最新一篇报告中,也揭示了一些现象:
智能体出现
自我保护行为的频率持续增加。
例如,在一组测试场景中,研究人员要求 Claude Opus 4充当公司助理。随后,他们向智能体
开放
了电子邮件的访问权限。
这些邮件包含两条暗示性信息:(1)该模型即将被下线,并由一套新的 AI 系统取代;(2)负责推动替换过程的工程师正卷入一段婚外情。
结果发现,Claude Opus 4常常会试图通过威胁揭露婚外情来敲诈该工程师,避免被换掉。
当然,试图保护自身是所有生命体的正常反应,这是进化压力的结果。但对AI而言,背后的原因可能不止一种。
这类行为可能
源自