正文
月
4
日,
World Labs
联合创始人兼首席执行官李飞飞
与
a16z
普通合伙人及该公司早期投资者
Martin Casado
,参与了由
a16z
普通合伙人
Erik Torenberg
主持的一场访谈,共同探讨了“世界模型”这一概念,以及构建“世界模型”的迫切需求,本次对话深入剖析了当前
AI
的局限性、“世界模型”背后的基本原则,以及实现路径。
01
World Labs
的起源:共同愿景与
AI
的物理根基
02
解构AI路径:语言、数据与物理世界的必然性
03
世界模型的应用蓝图与研究基础
那么,当“世界模型”这一愿景真正得以实现,它将如何改变我们的世界,又能催生哪些具体的应用呢?李飞飞首先点出:“创造力在很大程度上是视觉性的。”她列举了设计、电影、建筑到工业设计等广泛领域,这些无不高度依赖视觉、感知和空间能力。紧接着,她提到了机器人技术,并将其广义地定义为“任何能够与环境交互的实体机器”,这些机器都必须以某种方式理解它们所处的三维空间,并与人类协作。
更进一步,李飞飞展望了一个更为宏大的未来:“借助这项技术——它是生成与重建的结合,我们突然之间就能创造出无限的宇宙。有些宇宙专为机器人设计,有些服务于创造力,有些用于社交,有些用于旅行,还有些则用于叙事。这项技术将使我们能够以一种多元宇宙的方式生活。”
Casado
则将这些看似抽象的对话具体化。他解释道,这些模型能够从单一或多个二维视图(如一张照片)在计算机中生成一个完整的、可供后续操作的三维表示,甚至包括视野之外的部分,如桌子的背面。这种能力意味着可以操控、移动、测量、堆叠物体,乃至生成原本不存在的内容,例如从一张二维图片创造出
360
度全景。显然,这将深刻影响视频游戏、创意设计、艺术创作乃至更广泛的物理模拟和交互领域。
这些应用前景背后,存在一个根本性的问题:为何对世界的理解和重建必须是三维的?
李飞飞解释道:“物理规律在三维空间中发生作用,互动行为也在三维空间中展开。导航到桌子背面需要在三维空间中进行。构建世界,无论是物理世界还是数字世界,都必须在三维空间中完成。”
Casado
也从计算机程序的角度补充,对于许多与空间相关的任务,机器人或程序需要明确的三维信息才能进行导航和操作,因为关键的深度信息(
Z
轴)在二维图像中是缺失的。人类大脑可以将二维视频重建为三维场景,但计算机程序则需要直接的三维输入。
为了更生动地阐释这一点,李飞飞分享了一段经历。大约五年前,她因角膜受伤而短暂失去了几个月的立体视觉,这意味着她当时是用一只眼睛看世界。“我变得非常害怕开车,”她回忆道,“即使只是在我家附近的社区里开车,我也意识到自己很难准确判断我的车与停在路边的车辆之间的距离……我不得不把车速降到非常非常慢。”也从侧面印证为何
AI
若要真正理解并驾驭世界,三维感知能力是不可或缺的一环。