专栏名称: 大语言模型和具身智体及自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
51好读  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Impromptu VLA:用于驾驶视觉-语言-动作模型的开放权重和开放数据

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-06-05 00:05

正文

请到「今天看啥」查看全文


目前,研究界缺乏足够多的大规模、多样化且标注精细的非结构化场景数据集。为了弥补这一关键缺口,Impromptu VLA 数据集,旨在促进非结构化道路自动驾驶的发展。Impromptu VLA 数据集最初汇集来自八个著名公共数据集 [7, 8, 21, 42, 43, 55, 59, 68] 的超过 200 万个片段(占用超过 10T 的存储空间),经过筛选机制提炼,最终精简为一个高度集中的约 80,000 个片段的集合,如图所示。最终的数据集能够精准捕捉各种具有挑战性的场景,包括边界不清晰的道路、存在非常规动态障碍物以及存在临时或非标准交通规则的路段(详细统计数据见下表)。



定义非结构化驾驶场景的分类法

创建 Impromptu VLA 数据集的主要目标是突破对非结构化单一且模糊的理解,并更细致地理解这些环境所带来的具体挑战。为了实现这一目标,并将数据集聚焦于真正考验当前自动驾驶系统极限的场景,初步尝试采用数据驱动的流程,定义一个简洁而全面的非结构化道路场景分类法。

定义这些类别的方法始于对收集的数据进行广泛、客观的探索。首先,从聚合且标准化的多源数据集中定期抽取约 10% 的片段,创建一个具有代表性的子集。然后,利用强大的视觉语言模型 Qwen2.5-VL 72B [3] 对该子集进行开放式描述性分析。没有查询模型以按照预定义的标签协议回答问题,而是利用 VLM 的高级图像理解功能,促使其为每个场景生成详细的文本描述。







请到「今天看啥」查看全文