S4-Driver：具有时空视觉表征的可扩展自监督驾驶多模态大语言模型

大语言模型和具身智体及自动驾驶 · 公众号 · · 2025-06-11 00:10

正文

请到「今天看啥」查看全文

对于多层学习模型 (MLLM) 来说，不经过任何推理就直接输出未来轨迹是一项挑战。为了解决这个问题，采用一种受思维链 (CoT) [56] 启发的由粗到精的方法。它采用分层规划方法 [27]，从语义决策到数值规划。要求模型首先对未来加速度状态 D 进行高级估计，从而有效地将运动规划任务分解为两个步骤：

D = P_s1(C,H_T_h,b),

O_T_f = P_s2(C,H_T_h,b;D)

将 D 定义为包含四个元决策：保持静止、保持速度、加速和减速。值得注意的是，与以往基于 VLM 规划中需要人工注释进行训练的 CoT 应用（例如 DriveVLM [53] 中的场景分析）不同，将这些元决策视为“免费午餐”，从而简化运动规划过程，无需任何额外的注释。真实决策由基于未来自车速度和加速度的启发式规则生成。增强 MLLM 规划的路线图如图所示：这些技术自上而下逐步采用，但后续步骤中不采用图中的阴影项。其展示了包含每个模块后在WOMD-Planning-ADE上的性能。

3D 空间中的场景表示

高质量的运动规划需要对周围的 3D 场景（包括静态和动态元素）有强大的理解。虽然传统上是通过独立的感知和预测模块来实现的，但自监督端到端框架依赖于 MLLM，它能够在没有明确监督的情况下隐式地学习这种理解。然而，尽管 MLLM 具有强大的 2D 推理能力，但由于其透视视图表示的局限性以及预训练中缺乏与深度相关的任务，它们在 3D 空间推理方面往往举步维艰 [7, 36]。

具有稠密体的 3D 视觉表示

为了克服上述局限性，从先前成功的感知任务 [31, 35] 中汲取灵感，采用 3D 体表示。MLLM 的视觉编码器提取多视图特征图 F_2D = {f^v_2D}，其中 V 是视图数量。基于多视角图像特征构建一个以自车为中心的 3D 特征体 f^vol_3D。为了避免引入可能扰乱预训练 MLLM 的复杂模块以及导致视觉特征与后续多模态编码器-解码器不一致，采用一种轻量级投影方法，类似于 Simple-BEV [20]。具体来说，对于 3D 体中的每个体素，将其 (x, y, z) 坐标投影到每个透视图 v，获得相应的 2D 坐标 (u_v, v_v)。然后，在这些投影位置对每个视图的局部特征进行双线性采样。最后，体素的特征表示被计算为体素在图像边界内投影的所有视图局部语义特征平均值。该过程有效地结合 3D 空间信息，同时保持与预训练 MLLM 的兼容性。

这种简单高效的投影策略确保三维体积特征 f_vol 与原始多视角特征 F2D 具有相似的分布。这种相似性有助于与后续 MLLM 多模态编码器-解码器的无缝集成。

如上图所示，这种三维体积表示可以提升运动规划的性能。然而，使用全连接层减小 Z 轴以获得 BEV 表示，会略微降低性能，因为这种减小操作可能会给场景表示带来歧义。

稀疏体的表示