专栏名称: 大语言模型和具身智体及自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
51好读  ›  专栏  ›  大语言模型和具身智体及自动驾驶

DriveGen:面向无限多样化交通场景的大模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-04-21 00:02

正文

请到「今天看啥」查看全文



一个完整的微观交通场景由静态和动态元素组成。静态元素包括语义地图 M_s 和 N 个交通参与者的属性 P = {p_0,··· ,p_N}。车辆的属性包括其类型、三维尺寸和模拟第一帧的初始状态(位置、速度、航向)。动态元素包括地图中的交通信号 M_d 和车辆轨迹 T = {τ^0,τ^1,··· ,τ^N}。我们将交通的总持续时间定义为 T_s。第 i 辆车的轨迹由其在所有时间步长 τ^i = {s^i_0, s^i_1, ···, s^i_T_s} 中的状态序列组成。用场景级坐标来实现轨迹的一致表示。假设交通信号 M_d 由模拟器控制,则交通场景 S 的关键组成部分可以描述为 S = {M_s, P, T}。然后可以通过在生成的场景中替换目标车辆来训练和评估自动驾驶算法。

在初始化阶段,描述语义地图 M_s 和车辆资产 P 的生成过程。

路线图生成 。大多数先前的数据驱动方法仅对驾驶行为进行建模,而忽略对语义地图的研究。当研究人员想要优化特定道路结构下的策略性能时,从数据集中筛选出此类地图通常非常耗时(地图没有标签),而且数量也不足。DriveGen 通过精心设计的知识提示,即使对于非专业人士也能实现地图定制,并且生成的地图可以直接加载到流行的模拟器中。

为此,选择流行的 XML 格式 SUMO 网络定义来构建地图。地图代码由三部分组成:Lane 表示车道;Junction 表示车道之间的连接;Connection 定义车辆的合法路线。为 LLM 配备基于规则的知识先验和典型示例(例如交叉路口、环岛、高速公路),使其能够基于文本描述以高成功率生成地图文件。地图还可以通过人工反馈进行 LLM 的完善。例如,修改匝道与主干道的汇合位置。该框架也接受真实世界地图。







请到「今天看啥」查看全文