与视觉问答 (VQA) (Antol et al., 2015)、视觉蕴涵 (Xie et al., 2019) 等其他视觉语言任务不同,VLN 智体需要将过去动作和观察的历史信息融入当前步骤的输入中来确定动作,而不是在单机制 (Tan et al., 2019; Wang et al., 2019) 或辅助任务 (Ma et al., 2019; Zhu et al., 2020),以改进编码历史与指令之间的一致性。
历史编码
。目前已提出了不同的技术来使用基础模型对导航历史进行编码。多模态 Transformer 建立在编码指令和导航历史之上,用于决策制定,通常由基于领域内指令轨迹数据预训练的模型初始化,例如 Prevalent (Hao et al., 2020)。一些方法将导航历史编码为循环更新的状态 token。Hong et al. (2021) 建议使用上一步的单个 [CLS] token 来编码历史信息,而 Lin et al. (2022a) 引入了一个可变长度记忆框架,将来自先前步骤的多个动作激活存储在记忆库中作为历史编码。尽管这些方法有效,但它们受限于需要逐步更新 token,因此难以有效地检索导航轨迹中任意步骤的历史编码,这可能会阻碍预训练的可扩展性。
基于图的历史记录
。另一项研究利用图信息增强了导航历史记录建模。例如,其中一些技术利用结构化 Transformer 编码器来捕获环境中的几何线索 (Chen et al., 2022c; Deng et al., 2020; Wang et al., 2023b; Zhou & Mu, 2023; Su et al., 2023; Zheng et al., 2024b; Wang et al., 2021; Chen et al., 2021a; Zhu et al., 2021a)。除了编码中使用的拓扑图之外,许多方法还建议将自上而下的视图信息(例如,网格图(Wang et al., 2023g;Liu et al., 2023a)、语义图(Hong et al., 2023a;Huang et al., 2023a;Georgakis et al., 2022;Anderson et al., 2019;Chen et al., 2022a;Irshad et al., 2022)、局部度量图(An et al., 2023))和局部邻域图(Gopinathan et al., 2023))纳入导航过程中的观察历史建模中。基于 LLM 导航智体的最新进展引入了使用地图构建记忆的创新方法。例如,Chen et al. (2024a)提出了一种基于地图引导的新型GPT智体,该智体利用语言形成的地图来存储和管理拓扑图信息。MC-GPT(Zhan,2024b)引入拓扑地图作为记忆结构,用于记录视点、物体及其空间关系的信息。
跨环境泛化
VLN 的一个主要挑战是如何从有限的可用环境中学习,并将其泛化到新的、未见过的环境。许多工作表明,从语义分割特征 (Zhang et al., 2021a)、训练期间在环境中使用 dropout 信息 (Tan et al., 2019) 以及最大化来自不同环境的语义对齐图像对之间的相似性 (Li et al., 2022a) 中学习,可以提高智体在未见过环境中的泛化性能。这些观察结果表明,需要从大规模环境数据中学习,以避免在训练环境中过拟合。
预训练视觉表征
。大多数工作从在 ImageNet 上预训练的 ResNet 获取视觉表征 (Anderson et al., 2018; Tan et al., 2019)。Shen et al. (2022) 用 CLIP 视觉编码器 (Radford,2021) 替换了 ResNet,该编码器使用图像-文本对之间的对比损失进行预训练,可以自然地更好地将图像与指令对齐,从而提升 VLN 的性能。Wang (2022b) 进一步探索了将从视频数据中学习到的视觉表征迁移到 VLN 任务,表明从视频中学习的时间信息对于导航至关重要。