正文
在理论源起上,“世界模型”这一概念与控制论和强化学习中的模型化思路密切相关。经典强化学习中,有基于模型(Model-Based)和无模型(Model-Free)两派。前者要求智能体学习环境转移模型,再据此规划;而后者直接从试错中学习策略。
“世界模型”背后的核心思想早在上世纪90年代的AI研究中就已出现,最具代表性的早期工作之一是
Richard S. Sutton
于1990年提出的Dyna算法。
这是一种基础的基于模型(Model-Based)的强化学习方法,将学习、规划和反应能力融为一体,让智能体具备以下能力:
-
通过尝试动作来探索环境,并用强化学习的方式,不断试误总结什么策略有效;
-
随着时间推移,逐步学会环境的规律,建立对世界的内部模型,以预测接下来可能发生的事情;
-
智能体能在“脑海”中利用这个世界模型进行推演和规划,而不必在真实世界反复试验,节省现实中的代价和风险;
-
一旦环境中发生变化,智能体可以凭借已有经验迅速作出反应,无需每次都从头规划,从而实现即时决策。
时间来到2018年,
David Ha和Jürgen Schmidhuber的论文“World Models”
,
是一个关键里程碑,被视为深度世界模型的开端。他们用生成型循环神经网络(RNN)以无监督方式对流行的强化学习环境(如赛车游戏和二维类射击游戏)进行建模,这个世界模型能够学习游戏画面的压缩空间表征以及随时间变化的动态。
具体来说,该系统包含三个部分:
-
视觉组件:变分自编码器(VAE)将高维观测(像素图像)压缩为低维潜在表征;
-
记忆组件:混合密度循环网络(MDN-RNN)根据当前潜在状态和智能体动作预测下一个潜在状态;
-
控制器:接收潜在状态和RNN的隐藏状态,输出动作。
Ha 和 Schmidhuber 展示了,策略(控制器)可以完全在学习到的模型“梦境”中进行训练,并且之后能够成功转移到真实的游戏环境中。这为构建能够像人类一样“想象、规划和行动”的智能体奠定了基础,并激发了人们对基于模型(Model-Based)方法的兴趣。
此后,2019年
DeepMind发表的MuZero算法、
2022年
LeCun提出的JEPA表征模型、
2023年
关于大语言模型蕴含世界知识的研究、
2024年的
视频生成模型Sora、2024年的城市环境生成模型UrbanWorld,
以及
在机器人、自动驾驶、虚拟社会模拟
等领域的应用探索(如DayDreamer、Smallville、Vista等),一系列成果进一步让世界模型成为通往“类人智能”的热门思路之一。
【以下我们将详细介绍几个当前全球范围内最先进的世界模型,它们采用了不同的底层架构和工作原理,却都体现了非常出色的设计思路。】
由 Google DeepMind 的 Danijar Hafner 团队开发的 Dreamer 系列智能体,其最新版(2025年4月)的通用强化学习算法 DreamerV3,能够在无需更改超参数的情况下,处理超过
150种
不同任务。然而,最大的突破在于,这是首个能够在 Minecraft 游戏中“从零开始”挖掘钻石的算法——
完全没有借助任何人类示例,仅靠自身“想象力”和默认设置实现。