正文
天然就是三维立体的
。你的大脑自动整合深度、距离、空间关系,以及对物理世界的直觉。
然而,当前的AI系统,特别是大语言模型和传统的计算机视觉技术,虽然能在数字世界里呼风唤雨,却在真正理解三维物理世界时显得
步履维艰
。它们就像一个高智商的画家,能临摹出
极致精美的二维画像,
但却无法理解画像中人物的真
实立体结构和他们所处空间的深度关系
。
我们常说AI“看”图片,可这“看”并非人类的立体感知。AI更多地是在处理图像的
像素信息
。它能够识别出一张椅子在图片中的形状和颜色,却很难真正理解它是一个“可坐的、有重量、占据空间”的物理实体。正如一项研究显示深度网络对3D形状不敏感,深度网络‘对3D形状不敏感,不像人类那样’。
这种AI与人类在空间理解上的鸿沟,导致AI在面对物理世界时频频出现“悖论”,其
根本症结在于AI学习范式的局限——它更多地是识别模式和特征,而非像人类一样,拥有一个基于具身经验和物理直觉的内在世界模型来预测和理解三维环境:
-
导航困境
:设想一辆AI驾驶的汽车试图在复杂的停车场中导航。它虽然能识别“汽车”、“柱子”、“购物车”,但难以精确判断这些物体之间的真实三维关系。
一项针对GPT-4o、Gemini等模型的最新数学推理研究LLMs空间推理缺陷
就揭示,所有模型在需要多步推理或现实世界知识的问题上表现糟糕,难以将物理直觉转化为数学步骤,甚至经常做出不合理的假设。这正是它像一个
拿着平面地图在立体迷宫中穿梭的人
,知道路径符号,却缺乏对空间本身的立体感。
-
操作差异:
当一个AI机器人伸手去拿桌上的咖啡杯时,它像在从一张平面照片中判断物体位置。它可能识别出“这是咖啡杯”,但难以精确判断杯子距离手臂多远,被遮挡的部分是什么形状,需要多大力气才能抓起它。
相关研究表明2D视觉系统缺乏深度信息
,AI系统‘只能操作二维(x,y平面)反馈’,缺乏关键的深度信息。
以下图表直观展示了人类与AI在理解物理世界上的根本差异:
要弥补这一鸿沟,关键在于获取高质量、大规模的
3D数据
。然而,与2D图像可通过普通相机轻松获取不同,3D数据获取和标注正面临着前所未有的技术和成本挑战。它需要专业的LiDAR系统、深度摄像头或多视角重建技术,其处理难度呈数量级增长。例如,
3D点云标注是目前成本最高的数据标注服务之一
,一项简单的边界框标注可能仅需0.03-1美元,而复杂的3D任务(如语义分割掩码)则
可能高达3-5美元每个标签
。
以下是不同数据标注类型的成本对比:
标注类型
|
复杂性
|
成本范围(每标签/框)
|
基础2D标注
|
低
|
$
0.03-$1.00
|
语义分割掩码
|
中等
|
$
0.05-$3.00
|
复杂3D标注
|
高
|
$
3.00-$5.00
|
医学影像标注
|
极高
|
同等复杂度的3-5倍
|
高昂的成本和技术门槛,正是AI在3D物理世界面前步履蹒跚的核心原因。这正是
人类与AI在理解物理世界方面,那道看似微小实则深远的鸿沟
。
2.2世界模型:从“看到”到“理解”3D世界的终极目标
正是基于对AI在3D空间理解上这一根本性缺陷的深刻洞察,李飞飞博士与她的团队创立了WorldLabs,致力于攻克
3D生成基础模型
这一AI的“硬骨头”。他们的目标,是让AI像人类一样,能够理解、推理、互动甚至生成逼真且符合物理规律的三维世界。这不仅仅是计算机视觉技术的升级,更是
AI世界观的一次根本性重塑
。
李飞飞博士在访谈中直言,WorldLabs正在破解AI最难解决的问题之一,即打造
根本性的3D世界模型。
她强调:“一旦你解决了这个问题,你就可以解锁很多空间智能问题。
”WorldLabs的核心技术概念是“大型世界模型”
(LargeWorldModels,LWMs[11]),这是一种全新的AI模型类别,被设计为能够
感知、生成并与3D环境交互
,将物理学和语义学整合到模型中,使AI能够在3D空间和时间中对物体、位置和交互进行推理。
这意味着,WorldLabs的技术路径不同于传统3D建模工具(如Blender、Maya)依赖专业软件和手工操作,也不同于现有AI模型侧重于2D图像生成。它旨在从单张图像出发,通过近似3D几何并填充场景,使其具有更多可见内容,并且遵循基本物理定律,具有坚实感和深度感,能够在网络浏览器中实时渲染,并支持可控的摄像头和景深效果。
尽管这项技术在实现完美几何重建和符合工业标准方面仍面临挑战,例如其神经网络架构在全局结构理解方面存在“感受野限制”,难以在局部几何细节和全局结构关系之间保持一致性,但它代表了一种从传统精确建模向AI驱动的创意空间生成的范式转变,致力于降低3D内容创建门槛。这种权衡反映了WorldLabs在追求广泛可及性与专业标准之间的战略选择。
2.3空间智能的未来图景:机器人与虚拟现实的“基础设施”
空间智能的突破,绝不仅仅停留在实验室的讨论,它将像电力和互联网一样,成为未来数字经济和物理世界融合的“基础设施”,深刻影响着我们生活和工作的方方面面。
在机器人领域,空间智能的缺失正成为阻碍其广泛落地的“阿喀琉斯之踵”。