视觉与语言导航的现状与未来：基础模型时代综述

大语言模型和具身智体及自动驾驶 · 公众号 · · 2025-05-22 00:11

正文

请到「今天看啥」查看全文

世界模型帮助 VLN 智体理解其周围环境，预测其行为将如何改变世界状态，并使其感知和行为与语言指令保持一致。现有关于学习世界模型的研究强调了两个挑战：将当前场景中观察的视觉历史编码为记忆，以及实现对未知环境的泛化。

历史与记忆

与视觉问答 (VQA) (Antol et al., 2015)、视觉蕴涵 (Xie et al., 2019) 等其他视觉语言任务不同，VLN 智体需要将过去动作和观察的历史信息融入当前步骤的输入中来确定动作，而不是在单机制 (Tan et al., 2019; Wang et al., 2019) 或辅助任务 (Ma et al., 2019; Zhu et al., 2020)，以改进编码历史与指令之间的一致性。

历史编码。目前已提出了不同的技术来使用基础模型对导航历史进行编码。多模态 Transformer 建立在编码指令和导航历史之上，用于决策制定，通常由基于领域内指令轨迹数据预训练的模型初始化，例如 Prevalent (Hao et al., 2020)。一些方法将导航历史编码为循环更新的状态 token。Hong et al. (2021) 建议使用上一步的单个 [CLS] token 来编码历史信息，而 Lin et al. (2022a) 引入了一个可变长度记忆框架，将来自先前步骤的多个动作激活存储在记忆库中作为历史编码。尽管这些方法有效，但它们受限于需要逐步更新 token，因此难以有效地检索导航轨迹中任意步骤的历史编码，这可能会阻碍预训练的可扩展性。

另一项工作直接使用多模态 Transformer 将导航历史编码为序列。其中，Pashevich et al. (2022a) 提出了一种可变长度记忆框架，该框架将来自先前步骤的多个动作激活存储在记忆库中作为历史编码。尽管这些方法有效，但它们受限于需要逐步更新 token，因此难以有效地检索导航轨迹中任意步骤的历史编码，这可能会阻碍预训练的可扩展性。另一项工作直接使用多模态 Transformer 将导航历史编码为序列。其中，Pashevich et al. (2022a) 提出了一种可变长度记忆框架，将来自先前步骤的多个动作激活存储在记忆库中作为历史编码。 (2021) 对轨迹中每一步的单视图图像进行编码。Chen (2021b) 进一步提出一个全景编码器，用于对每个时间步的全景视觉观测进行编码，然后由一个历史编码器对所有过去的观测进行编码。这种分层设计分别处理全景视图中的空间关系和导航历史中跨全景图的时间动态。此外，该方法消除了历史编码对循环更新状态标记的依赖，从而促进了对指令路径对的高效和大规模预训练。后续研究用图像均值池化 (Kamath，2023) 或前视图图像编码 (Qiao，2022) 取代全景编码器，两者都保持了有效的导航性能。随着基于 LLM 导航智体的出现，一些工作 (Zhou，2024b) 专注于将视觉环境转换为文本描述，用文本解释世界成为趋势。然后将导航历史记录编码为这些图像描述的序列，以及航向、海拔和距离等相对空间信息。HELPER（Sarch，2023）设计了一个语言-程序对的外部存储器，通过检索增强的 LLM 提示，将自由形式的人机对话解析为动作程序。

基于图的历史记录。另一项研究利用图信息增强了导航历史记录建模。例如，其中一些技术利用结构化 Transformer 编码器来捕获环境中的几何线索 (Chen et al., 2022c; Deng et al., 2020; Wang et al., 2023b; Zhou & Mu, 2023; Su et al., 2023; Zheng et al., 2024b; Wang et al., 2021; Chen et al., 2021a; Zhu et al., 2021a)。除了编码中使用的拓扑图之外，许多方法还建议将自上而下的视图信息（例如，网格图（Wang et al., 2023g；Liu et al., 2023a）、语义图（Hong et al., 2023a；Huang et al., 2023a；Georgakis et al., 2022；Anderson et al., 2019；Chen et al., 2022a；Irshad et al., 2022）、局部度量图（An et al., 2023））和局部邻域图（Gopinathan et al., 2023））纳入导航过程中的观察历史建模中。基于 LLM 导航智体的最新进展引入了使用地图构建记忆的创新方法。例如，Chen et al. （2024a）提出了一种基于地图引导的新型GPT智体，该智体利用语言形成的地图来存储和管理拓扑图信息。MC-GPT（Zhan，2024b）引入拓扑地图作为记忆结构，用于记录视点、物体及其空间关系的信息。

跨环境泛化

VLN 的一个主要挑战是如何从有限的可用环境中学习，并将其泛化到新的、未见过的环境。许多工作表明，从语义分割特征 (Zhang et al., 2021a)、训练期间在环境中使用 dropout 信息 (Tan et al., 2019) 以及最大化来自不同环境的语义对齐图像对之间的相似性 (Li et al., 2022a) 中学习，可以提高智体在未见过环境中的泛化性能。这些观察结果表明，需要从大规模环境数据中学习，以避免在训练环境中过拟合。

预训练视觉表征。大多数工作从在 ImageNet 上预训练的 ResNet 获取视觉表征 (Anderson et al., 2018; Tan et al., 2019)。Shen et al. (2022) 用 CLIP 视觉编码器 (Radford，2021) 替换了 ResNet，该编码器使用图像-文本对之间的对比损失进行预训练，可以自然地更好地将图像与指令对齐，从而提升 VLN 的性能。Wang (2022b) 进一步探索了将从视频数据中学习到的视觉表征迁移到 VLN 任务，表明从视频中学习的时间信息对于导航至关重要。