专栏名称: 图灵人工智能
人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。
目录
相关文章推荐
厦门日报  ·  周鸿祎:准备干掉360整个市场部! ·  昨天  
厦门日报  ·  《歌手2025》第四期排名公布:Grace连 ... ·  2 天前  
51好读  ›  专栏  ›  图灵人工智能

李飞飞最新访谈:世界模型即将“降临”

图灵人工智能  · 公众号  ·  · 2025-06-07 00:00

正文

请到「今天看啥」查看全文


4 日, World Labs 联合创始人兼首席执行官李飞飞 a16z 普通合伙人及该公司早期投资者 Martin Casado ,参与了由 a16z 普通合伙人 Erik Torenberg 主持的一场访谈,共同探讨了“世界模型”这一概念,以及构建“世界模型”的迫切需求,本次对话深入剖析了当前 AI 的局限性、“世界模型”背后的基本原则,以及实现路径。

01

World Labs 的起源:共同愿景与 AI 的物理根基

02

解构AI路径:语言、数据与物理世界的必然性

03

世界模型的应用蓝图与研究基础

那么,当“世界模型”这一愿景真正得以实现,它将如何改变我们的世界,又能催生哪些具体的应用呢?李飞飞首先点出:“创造力在很大程度上是视觉性的。”她列举了设计、电影、建筑到工业设计等广泛领域,这些无不高度依赖视觉、感知和空间能力。紧接着,她提到了机器人技术,并将其广义地定义为“任何能够与环境交互的实体机器”,这些机器都必须以某种方式理解它们所处的三维空间,并与人类协作。

更进一步,李飞飞展望了一个更为宏大的未来:“借助这项技术——它是生成与重建的结合,我们突然之间就能创造出无限的宇宙。有些宇宙专为机器人设计,有些服务于创造力,有些用于社交,有些用于旅行,还有些则用于叙事。这项技术将使我们能够以一种多元宇宙的方式生活。”

Casado 则将这些看似抽象的对话具体化。他解释道,这些模型能够从单一或多个二维视图(如一张照片)在计算机中生成一个完整的、可供后续操作的三维表示,甚至包括视野之外的部分,如桌子的背面。这种能力意味着可以操控、移动、测量、堆叠物体,乃至生成原本不存在的内容,例如从一张二维图片创造出 360 度全景。显然,这将深刻影响视频游戏、创意设计、艺术创作乃至更广泛的物理模拟和交互领域。

这些应用前景背后,存在一个根本性的问题:为何对世界的理解和重建必须是三维的?

李飞飞解释道:“物理规律在三维空间中发生作用,互动行为也在三维空间中展开。导航到桌子背面需要在三维空间中进行。构建世界,无论是物理世界还是数字世界,都必须在三维空间中完成。”

Casado 也从计算机程序的角度补充,对于许多与空间相关的任务,机器人或程序需要明确的三维信息才能进行导航和操作,因为关键的深度信息( Z 轴)在二维图像中是缺失的。人类大脑可以将二维视频重建为三维场景,但计算机程序则需要直接的三维输入。

为了更生动地阐释这一点,李飞飞分享了一段经历。大约五年前,她因角膜受伤而短暂失去了几个月的立体视觉,这意味着她当时是用一只眼睛看世界。“我变得非常害怕开车,”她回忆道,“即使只是在我家附近的社区里开车,我也意识到自己很难准确判断我的车与停在路边的车辆之间的距离……我不得不把车速降到非常非常慢。”也从侧面印证为何 AI 若要真正理解并驾驭世界,三维感知能力是不可或缺的一环。







请到「今天看啥」查看全文