如果相信靠「端到端」就能实现 L4，那么你该改行了。

焉知新能源汽车 · 公众号 · · 2024-06-13 22:51

正文

请到「今天看啥」查看全文

规划控制所有从感知得到的信息，都是感知工程师基于现有的资源定义好的，这里的资源包括：标注的能力、获取相应数据的能力，甚至工程师们对驾驶的理解。

举一个非常简单的例子，一般来说我们开车时候发现前车打转向灯，我们会相对开始警觉，并且给前车足够的空间进入本车道，但是由于团队限于资源，并没有识别前车转向的信号。

这个「前车打开转向灯」的信息，对于规划控制来说，它就是丢失了。

「因此发现转向灯信号，并且提前做出反应」，这个策略就成了一个不可能完成的任务。

这就引出了模块化自动驾驶的弊端： 信息的有损传递 。

下游任务得到的信息是不充分的，就相当于有两个驾驶员，其中主驾眼睛被蒙住，只负责操作；另一个坐在副驾驶，由他来告诉主驾驶前方发生了什么。

而信息的传递方式是两个驾驶员都能理解的，我们可以称之为： 信息的显式表达 。

举个例子，驾驶的语境中前方目标的识别，就是高度抽象的显式表达，一辆车被抽象成、速度、位置、尺寸、加速度等。

这种表达是人为用经验抽象出来并且传递给下游。

但是「被误解是表达者的宿命」，人和人之间的信息传递一定是有损的，所以这种开车方式很难达到非常好的体验。

优秀的分模块系统就相当于两个驾驶员有了足够的驾驶默契，但是绝对不能与一个有足够驾驶经验的司机对比。

既然信息显示表达传递会有损耗，那该怎么做？

这里有个概念是： 信息的隐式表达 。

我们常常看到一些论文提到 Feature 层，这是一些信息在神经网络中的某一层的特征表达，是在训练过程中，网络自行学到的重要信息。但是这些信息不是靠人为定义确定的，我们的经验并不能完全理解，但是神经网络能够理解，自动选择重要的信息。

回到自动驾驶语境中，那就是如果信息的表达是有损耗的，那么就不表达了，直接将用神经网络里的信号与下游对接起来。

这其实就是 CVPR 2023 年 Best Paper UniAD 的思路： 分模块端到端 。

分模块端到端

模块与模块之间的信息传递不再是开发工程师能够直接阅读并且理解的内容，而是直接将几个模块连接起来，然后在训练中进行全局优化。

由此产生了区别于传统自动驾驶技术栈最重要的结构特征： 全局可导并且可以全局训练 。

UniAD

这里我们简单看一下UniAD 的思路，从结构上看，如果不考虑各模块之间的连接，可能会认为这就是一个传统的大力飞砖，所有的模块都用 Transformer 进行改造的系统。因为依然可以很明显的看到 BEV freature 层、MapFormer（建图）、TrackFormer（跟踪）等模块。

但是，其实最重要的改进并不是如此，而是各个模块之间的连接方式，并不是像我们传统技术栈一样，用初级工程师甚至驾驶员完全能够理解的方式进行连接的，而是通过神经网络的方式进行连接。

当然由于开环评测方式（并不是实际运行结果，与环境并没有交互）过于单一。业内也有学者对其提出批评，认为由于 UniAD 主要在 Nuscenes 上进行开环评测，导致大部分的轨迹，模型只要输出合适的直行命令即可获得较好的结果，并且甚至还设计了一个新的模型，将感知结果完全丢失，只留下自车和周围车辆的轨迹，也能获得不错的结果。

VAD

这篇论文发表在 2023 年的 ECCV 上，相较于 UniAD ，摒弃了传统技术栈中的栅格化表征，对整个驾驶场景进行矢量化建模，同样与 UniAD 一致，VAD 基于统一的 Transformer 结构。

动态目标信息由 Vectorized Motion Transformer 提取，实现动态目标检测和矢量化的轨迹预测；

​如果相信靠「端到端」就能实现 L4，那么你该改行了。

正文

请到「今天看啥」查看全文

分模块端到端

UniAD

VAD

请到「今天看啥」查看全文

如果相信靠「端到端」就能实现 L4，那么你该改行了。