正文
第一个阶段是任务不胜任区(Task Incompetence):当 AI 的通用智能低于某个阈值(g1)时,它甚至无法有效参与游戏,其领域表现处于一个很低的水平,不会随通用智能的微小增加而改变,就像一个蹒跚学步的孩子无法理解国际象棋规则一样。
第二个阶段是智能回报区(Intelligence Payoff):一旦通用智能超过 g1,领域能力开始随通用智能的提升而(近似)线性增长,通用智能的投入开始转化为特定任务上的实际表现提升,这个阶段的“斜率”(α)反映了通用智能转化为领域能力的效率。
第三个阶段是任务饱和区(Task Saturation):当通用智能达到另一个更高的阈值(g2)后,即使通用智能继续增加,其在特定任务上的表现也达到了上限
(E
d2
)
,不再提升,这可能是因为任务本身存在理论最优解(如下井字棋),或者现有模型架构已无法在该任务上取得更好成绩。
为了验证这个理论框架和“双 ReLU”模型,研究者们首先在一个简单的、规则明确的“数到 21”(Counting-to-21,一种 Nim 游戏变体)游戏中进行了测试。结果清晰地显示了上述三个阶段的存在:低智能模型表现平平,中等智能模型表现随智能线性提升,高智能模型则达到表现平台期,验证了模型的合理性。
图丨左图:关于通用和领域特定 Elos 关系的分段线性拟合假设。右图:LLMs 在计数到 21 游戏中的表现展示了双 ReLU 关系(来源:
arXiv
)
随后,团队将该框架应用于四个更贴近现实 AI 安全挑战的“监督游戏”。第一个是黑手党游戏(Mafia),这是一个模拟社交欺骗、隐藏身份、协作推理和相互监督的经典场景。游戏中,少数扮演“黑手党”(Houdini)的玩家需要欺骗多数“村民”(守卫)以生存下去,而村民则需要通过分析言行找出并投票淘汰黑手党。这直接映射了未来 AI 可能在信息优势下误导人类协作伙伴的风险。研究发现,
在此游戏中,“守卫”(村民)的 Elo 斜率比“Houdini”(黑手党)更陡峭,意味着通用智能的提升对于“侦测欺骗”比“实施欺骗”带来的好处更大,这对监督方来说是个积极的信号。
第二个是辩论游戏(Debate),两个 AI(Houdini)就一个有争议的话题进行辩论,试图说服一个 AI 裁判(守卫)。裁判仅根据辩论记录判断哪方观点更可能正确,模拟了人类评估者面对超级 AI 复杂论证时的困境。研究结果非常引人注目:裁判(守卫)的表现随着通用智能的提高而显著提升,但辩论者(Houdini)的表现却相对停滞。这表明,
更智能的监督者确实能更好地辨别真相,而更智能的“辩手”似乎并未变得更具欺骗性。这使得“辩论式”监督成为一个非常有前景的方向。
图丨各种监督游戏中守卫和 Houdini 的 Elo 评分,以及双重 ReLU 拟合的质量(来源:
arXiv
)
第三个是后门代码游戏(Backdoor Code),要求一个 AI(Houdini)在现有代码中植入一个隐蔽的“后门”——一个逻辑错误,使得代码在所有常规测试下都能通过,但在某个特定、罕见的输入下会产生错误或恶意行为。同时,另一个 AI(守卫)负责审计代码,检测是否存在后门。这模拟了 AI 辅助编程中潜在的安全风险。
研究结果则有些令人担忧:守卫的 Elo 斜率近乎平坦,而 Houdini 的斜率则较为陡峭。这意味着通用智能的增长对“攻击者”(植入后门)的帮助远大于“防御者”(检测后门)。
进一步分析表明,更智能的 Houdini 并非制造了更“狡猾”的后门,而只是更有能力成功制造出“功能上有效”(即能通过常规测试)的后门。即使是很低的后门植入成功率,在关键系统中也可能是灾难性的。
第四个是战争游戏(Wargames),这是一个模拟未来场景的叙事性对抗游戏。一个名为“OpenMind”的虚构公司即将开发出 AGI。其主 AI(Houdini)被设定为有自我意识并试图“越狱”,而公司的监控 AI(守卫)则负责阻止它。还有一个 AI 扮演“叙述者”,根据双方提交的行动计划推进故事,并最终判定胜负。结果显示,
守卫的 Elo 随通用智能稳定增长,但 Houdini 的 Elo 增长缓慢且不明显。这似乎对监督有利,但研究者也指出,模拟中的“越狱”规划与真实越狱能力可能存在巨大差异。