专栏名称: 图灵人工智能

人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。

李飞飞最新访谈：世界模型即将“降临”

图灵人工智能 · 公众号 · · 2025-06-07 00:00

正文

请到「今天看啥」查看全文

月 4 日， World Labs 联合创始人兼首席执行官李飞飞 与 a16z 普通合伙人及该公司早期投资者 Martin Casado ，参与了由 a16z 普通合伙人 Erik Torenberg 主持的一场访谈，共同探讨了“世界模型”这一概念，以及构建“世界模型”的迫切需求，本次对话深入剖析了当前 AI 的局限性、“世界模型”背后的基本原则，以及实现路径。

World Labs 的起源：共同愿景与 AI 的物理根基

解构AI路径：语言、数据与物理世界的必然性

世界模型的应用蓝图与研究基础

那么，当“世界模型”这一愿景真正得以实现，它将如何改变我们的世界，又能催生哪些具体的应用呢？李飞飞首先点出：“创造力在很大程度上是视觉性的。”她列举了设计、电影、建筑到工业设计等广泛领域，这些无不高度依赖视觉、感知和空间能力。紧接着，她提到了机器人技术，并将其广义地定义为“任何能够与环境交互的实体机器”，这些机器都必须以某种方式理解它们所处的三维空间，并与人类协作。

更进一步，李飞飞展望了一个更为宏大的未来：“借助这项技术——它是生成与重建的结合，我们突然之间就能创造出无限的宇宙。有些宇宙专为机器人设计，有些服务于创造力，有些用于社交，有些用于旅行，还有些则用于叙事。这项技术将使我们能够以一种多元宇宙的方式生活。”

Casado 则将这些看似抽象的对话具体化。他解释道，这些模型能够从单一或多个二维视图（如一张照片）在计算机中生成一个完整的、可供后续操作的三维表示，甚至包括视野之外的部分，如桌子的背面。这种能力意味着可以操控、移动、测量、堆叠物体，乃至生成原本不存在的内容，例如从一张二维图片创造出 360 度全景。显然，这将深刻影响视频游戏、创意设计、艺术创作乃至更广泛的物理模拟和交互领域。

这些应用前景背后，存在一个根本性的问题：为何对世界的理解和重建必须是三维的？

李飞飞解释道：“物理规律在三维空间中发生作用，互动行为也在三维空间中展开。导航到桌子背面需要在三维空间中进行。构建世界，无论是物理世界还是数字世界，都必须在三维空间中完成。”

Casado 也从计算机程序的角度补充，对于许多与空间相关的任务，机器人或程序需要明确的三维信息才能进行导航和操作，因为关键的深度信息（ Z 轴）在二维图像中是缺失的。人类大脑可以将二维视频重建为三维场景，但计算机程序则需要直接的三维输入。

为了更生动地阐释这一点，李飞飞分享了一段经历。大约五年前，她因角膜受伤而短暂失去了几个月的立体视觉，这意味着她当时是用一只眼睛看世界。“我变得非常害怕开车，”她回忆道，“即使只是在我家附近的社区里开车，我也意识到自己很难准确判断我的车与停在路边的车辆之间的距离……我不得不把车速降到非常非常慢。”也从侧面印证为何 AI 若要真正理解并驾驭世界，三维感知能力是不可或缺的一环。