CVPR 2023 最佳论文 UniAD | 全栈可控端到端自动驾驶方案（微信文章未删减版）

当地时间6月21日，国际电子与电气工程师协会（IEEE）举办的2023年国际计算机视觉与模式识别会议（CVPR，IEEE/CVF Conference on Computer Vision and Pattern Recognition）公布了最佳论文等奖项，上海人工智能实验室（以下简称“实验室”）主导的研究工作《以路径规划为导向的自动驾驶》（英文：Planning-oriented Autonomous Driving；简称UniAD），摘得最佳论文奖（Best Paper Award）。这是近十年来计算机视觉三大顶级会议（CVPR、ICCV、ECCV）第一篇来自中国研究机构（包括港澳台地区）的最佳论文奖。同时，这是CVPR历史上第一篇以自动驾驶为主题的最佳论文。

论文：
https://arxiv.org/abs/2212.10156
代码：
https://github.com/OpenDriveLab/UniAD
CVPR全体会议演讲材料：
https://opendrivelab.com/e2ead/UniAD_plenary_talk_slides.pdf

大会官方组委会（Award Committee）给出的获奖理由是：该文章提出一个端到端的感知决策一体框架，融合了多任务联合学习的新范式，使得进行更有效的信息交换，协调感知预测决策，以进一步提升路径规划能力。

CVPR Best Paper Award 颁奖现场

CVPR Best Paper Award 获奖证书

实验室与武汉大学研究团队联合提出的UniAD工作，是业界首个具备全栈关键任务的端到端自动驾驶模型，开创了以终极任务为全局优化目标的自动驾驶算法架构先河，达到了国际领先水平、并得到了国际权威会议认可。该工作为自动驾驶大模型与行业垂直应用提供了重要指引与设计思路。

相比于业界其他方案，例如美国Waymo、Cruise等自驾公司普遍采用的“独立并行模型”架构设计模式，美国特斯拉、中国小鹏汽车等提出的“多任务共享网络”架构设计模式，美国英伟达、德国马克斯普朗克研究所（MPI）、英国Wayve自驾公司等提出的“直接端到端方案”，UniAD首次将全栈关键任务端到端地包含在一个统一的网络架构中，提出“全栈可控端到端方案”，并受益于系统联合调优，取得了优异效果。技术上，本方案利用多组查询向量（query）串联起多个任务，并在网络中传递信息，将所有融合的信息传至最终的规划模块。同时，每个模块的Transformer架构可以有效地对查询向量通过注意力机制进行交互。UniAD 能够显著节省计算资源，避免不同任务模块的累积误差。该研究发现了在正确的任务架构方式下，前序任务能够互相帮助，并可以提升驾驶安全舒适体验。

一、UniAD: 业界首个具备全栈关键任务的

端到端自动驾驶模型

UniAD 首次将感知、预测、规划等三大类主任务、六小类子任务（目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划）整合到统一的端到端网络框架下，实现了全栈关键任务驾驶通用模型。在 nuScenes 真实场景数据集下，所有任务均达到领域最佳性能（State-of-the-art），尤其是预测和规划效果远超之前最好方案。

UniAD：业界首个具备全栈关键任务的端到端自动驾驶模型

自动驾驶是一项高度复杂的技术，需要多个学科领域的知识和技能，包括传感器硬件、机器学习、多模态融合等内容。自动驾驶还需要适应不同国家与地区的道路规则和交通文化，与其他车辆和行人进行良好的交互，以实现高度可靠和安全的自动驾驶系统。面对这种复杂的场景，大部分自动驾驶相关的工作都聚焦在具体的某个模块，关于框架性的研究与思考相对匮乏。

虽然以往大多数显式端到端自动驾驶工作都关注了感知、决策和规划三部分，但具体任务存在差异，且没有框架融合所有的任务。究其原因可能有两方面：一方面受限于对自动驾驶的认识，研究者们没有对任务之间的关联和构建方式研究清楚；另一方面受限于模型的最终效果，或许有人曾经尝试过把全部任务融合，但是效果不佳。

UniAD能够成功解决不同任务的融合难的问题，从而实现多任务和高性能的关键在于以下两点：

1.多组查询向量的全 Transformer 模型：UniAD 利用多组 query 实现了全栈 Transformer 的端到端模型，我们可以从具体 Transformer 的输入输出感受到信息融合。在 TrackFormer 中，Track query 通过与 BEV 特征通过 attention 的方式进行交互，输出特征。类似的，Map query 经过 MapFormer 的更新后，得到特征。MotionFormer 使用 Motion query 与、以及 BEV 特征进行交互，得到未来轨迹以及特征。OccFormer 以密集的 BEV 特征为 Q 和稀疏的特征对应的位置信息和作为K 和 V 来构建实例级别的占据栅格。

2.基于最终“规划”为目标: 在 TrackFormer 中，Track query 中包含一个特定的 ego-vehicle query 用来表示自车属性。规划模块 (Planner) 将 MotionFormer 更新后的 ego-vehicle query 与 BEV 特征进行交互，此时 ego-vehicle query 包含对整个环境的感知与预测信息，因此能更好的学习 planning 任务。为了减少碰撞，我们还利用占据栅格预测模块 OccFormer 的输出对自车路径进行优化，避免行驶到未来可能有物体占用的区域。在这个过程中，全部的模块通过输出特定的特征来帮助实现最终的目标“规划”。

二、技术效果展示

晴天直行

UniAD 可以感知左前方等待的黑色车辆，预测其未来轨迹（即将左转驶入自车的车道），并立即减速以进行避让，待黑色驶离后再恢复正常速度直行。

雨天转弯

在视野干扰较大且场景复杂的十字路口，UniAD 能通过分割模块生成十字路口的整体道路结构（如右侧 BEV图中的绿色分割结果所示），并进行大幅度左转的规划。

夜晚转弯

在夜晚视野变暗的情况下，UniAD能感知到前车并完成先静止，后左转的规划。

三、对自动驾驶大模型领域的启发

上海人工智能实验室青年科学家李弘扬博士补充道，“UniAD工作奠定了多任务端到端自动驾驶大模型的基础，该工作具有很强的可扩展性，在增大模型参数与扩充海量数据双轮驱动的情况下，可以进一步实现自动驾驶大模型，赋能行业应用与相关自驾产品落地”。作为通用视觉大模型“书生谱系”的自然延伸，是实验室大模型体系在下游应用、AI赋能的重要体现。实际应用层面，UniAD提供了全套关键自动驾驶任务配置，其充分的可解释性、安全性、与多模块的可持续迭代性，是目前为止最具希望实际部署的端到端模型。这套基于视觉的全栈自动驾驶框架，据初步测算，每年节省激光雷达与标注成本可达千万级。

上海人工智能实验室持续输出原创技术，对标甚至超越国际先进方案。作为国内科技行业的参与者，愿意与国内学界、产业界一道共同思考、共同进步。

本文来源：公众号【OpenDriveLab】

Illustration by IconScout Store from IconScout

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线480+期talk视频，2400+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

>>> 添加小编微信！

关于我“门”

▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门投资基金、将门创新服务以及TechBeat人工智能社区。公司致力干通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

⤵一键送你进入TechBeat快乐星球