专栏名称: 大语言模型和具身智体及自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
伊金霍洛旗电商  ·  抖音电商直播近期高频违规,你都了解了吗? ·  11 小时前  
中国证券报  ·  光大永明资产成功发行绿色金融示范项目 ·  12 小时前  
读懂ABS  ·  中建体系首单类REITs发行! ·  17 小时前  
广发证券研究  ·  【广发•早间速递】客座率同比大幅改善,彰显行 ... ·  21 小时前  
51好读  ›  专栏  ›  大语言模型和具身智体及自动驾驶

视觉-语言导航:综述与类别

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-05-21 00:17

正文

请到「今天看啥」查看全文


AI2-THOR [20]5 是一个大规模近乎照片级逼真的 3D 室内数据集,智体可以在场景中导航并与物体交互以执行任务。 AI2-THOR 可应用于许多不同领域的研究,例如深度强化学习、规划、视觉问答以及目标检测与分割等。

VizDoom[24]6 是基于第一人称射击游戏 Doom 修改而来。为了方便研究人员使用,ViZDoom 设计得小规模、高效,并可高度定制,适用于不同的实验领域。此外,VizDoom 支持不同的控制模式、自定义场景、访问深度缓冲区,并且可以在无图形界面的情况下运行,从而提高了算法执行效率。

Gibson[68]7 基于虚拟化的真实空间,体现了智体的特性,并使其受到复杂语义场景的约束。Gibson 数据集包含 572 个建筑场景和 1447 层楼,每个场景都配备全景图像和摄像头配置。该数据集的基本格式与 2D-3D-S 数据集 [66] 类似,但更加多样化,空间大小提高了 2 个数量级。 Gibson 的模拟器还集成了 2D-3D-S 数据集 [66] 和 Matterport3D [65] 可供可选使用。

模拟器

House3D [26] 包含多种房间类型和内部物体,并支持 MacOS 和 Linux 操作系统。其 3D 场景基于 SUNCG 数据集,并带有丰富的注释信息。为了构建逼真的 3D 环境,House3D 为 SUNCG 场景提供了基于 OpenGL 的渲染器。在此环境中,智体可以自由移动,并接收不同类型的研究任务。

Matterport3D 模拟器 [10] 是一个基于 Matterport3D 数据集 [65] 的大型机器学习研究平台,用于智体的研究和开发。智体可以通过采用与全景视角相符的姿势,在场景中虚拟地“移动”。每个场景都有一个对应的加权无向图,因此边的存在表示机器人可以在两个视角之间导航过渡。该模拟器不定义或限制智体的目标、奖励函数或任何其他上下文,因此研究人员可以根据实验设置设计这些指标。

Habitat [69] 是一个用于照片级真实感三维环境研究的平台,集成多个常用的 VLN 数据集。具体来说,该模拟器支持 Matterport3D [65]、Gibson [68] 和 Replica [67] 数据集。此外,Habitat 还包含一个模拟器 Habitat-Sim 和一个模块化库 Habitat-API。Habitat-API 旨在帮助研究人员验证和改进智能算法。


在面向目标的任务中,语言指令仅包含具体的目标,而没有具体的路线,因此智体需要自行制定规划。从任务定义、评估指标、相关工作和典型方法等方面,介绍几种面向目标的任务。

LANI

任务定义:Misra  [19] 通过众包方式收集导航指令语料库。用 LANI 模拟器随机生成环境,并为每个环境生成一条参考路径。生成的参考路径靠近邻近地标,用于引出指令。之后,使用 Amazon Mechanical Turk 进行标注。实验环境是模拟的,相对简单。此外,Blukis [70] 提出一个与 LANI 类似的真实世界学习框架。

典型方法:在 Misra [19] 的工作中,这项指令遵循任务被分解为两个子模块:目标预测和动作生成。提出一种语言条件图像生成网络架构 LINGUNET,用于构建从视觉输入到目标输出的映射。

基于 LANI,Blukis [73] 提出一种将自然语言指令和原始观测输入映射到四轴飞行器无人机连续控制的方法,该方法使用了 Blukis [71] 提供的四轴飞行器模拟器环境。为了指示智体在导航过程中应该访问的位置以及应该在的位置停止,建立一个模型来预测位置-访问分布,然后根据预测的分布生成动作。

为了将模拟与现实相结合,Blukis [70] 提出一个学习框架,将语言指令和图像映射到低级动作输出。此外,监督强化异步学习 (SuReAL) 在模拟和现实中均有应用,训练期间无需在现实世界中飞行。 SuReAL 结合了用于预测下一个目标的监督学习和用于连续动作输出的强化学习。

最近,Blukis [74] 研究如何将推理扩展到新目标。由于缺乏足够的训练数据,使用一种基于额外增强现实数据训练的少样本方法,将语言指令与目标关联起来。该方法可以将目标与其在语言指令中的提及进行匹配。

具身问答

任务概述:具身问答 (EQA) 任务要求智体提出一个问题(例如,“杯子是什么颜色的?”)。智体通常位于环境中的随机位置(房屋或建筑物),并可以通过第一人称视角图像观察环境。智体的动作空间包括前进、转弯和扫射(strafe)等。理解问题后,智体需要在环境中收集有用的信息以进行回答。与先前的研究 [78] 不同,智体不会接收任何关于环境(地图、位置、房间、物体)或任务(生成问题的功能程序)的全局或结构化表示。

EQA 基于 House3D 模拟器和 SUNCG 数据集构建。为了确保数据集的质量,内部环境必须真实且典型,并且不得存在异常情况。此任务中的场景至少包含一个厨房、一个餐厅、一个客厅和一个卧室。 EQA v1 数据集包含 750 多个环境中的 5000 多个问题,涉及 7 种不同房间类型中的 45 个不同物体。每个环境中有 1 到 22 个相关问题,平均 6 个。介词问题比其他类型的问题少,因为许多经常出现的空间关系很容易在不进行探索的情况下解决,并且无法通过熵阈值处理。







请到「今天看啥」查看全文