理想的「端到端」团队，是不是都喜欢看《赌神》？

焉知新能源汽车 · 公众号 · · 2024-07-06 15:16

正文

其实并不是，CVPR 2023 的 Best Paper UniAD 便早早公开了架构及源码，以及在著名自动驾驶数据集 nuscenes 的训练方式，甚至也有不少团队基于此在进行端到端算法的开发。

但是显然 UniAD 粗暴地 将原有的模块使用神经网络连接的方式依然保有了原有技术栈的影子 ，这是取巧的做法。

这样可以很方便地进行每个模块的设计，甚至也可以进行单个模块的训练。

显然这不是终局，这些残留的一个个模块， 是旧技术栈在新浪潮切换时留下的影子。

不久之后 ECCV（计算机视觉顶级会议之一）VAD 发布，同样开源。

架构进一步简化，从模块上来看，就进一步去除了占据网格（OCC）模块，而使用了更多关于碰撞和路线的约束，降低了计算开销，但是表现更好。

这似乎能够证明， 进一步简化模块可以带来更好的效果 。

到这里，就基本上是目前端到端能获取到的效果比较好的公开代码了，也有不少团队就基于这些内容在进行开发。

一个已经在学术界被验证过的架构，工业界进行工程优化，最后推向市场。对于一个未知的内容，这是比较稳妥的做法。

但是理想汽车自动驾驶团队并没有。

或许是在自己尝试分段式端到端过后效果不佳，又或许是看到了端到端黑盒简化趋势之后，决定跳过这一步， 直接开始做端到端完整模型，输入传感器信息和导航信息，直接从解码器中获得轨迹信息 。

而障碍物、道路结构和 OCC 的结果，都不再是轨迹信息的输入，更多是为了 EID 显示。

这比 UniAD 和 VAD 的思路都要进一步，也更加冒险，几乎可以称得上一次豪赌。

不仅如此，为了提升整个系统对世界的理解能力，理想汽车与清华大学共同研发了 DriveVLM 系统，将大模型的视频语言模型与端到端系统结合，组成一个完整的系统。

ChatGPT 在经过了众多语言和视频数据的训练之后，拥有了惊人的对世界的理解能力，理想汽车的 DriveVLM 正是利用了从非驾驶场景中获取的能力，迁移到自动驾驶场景中。

那么这种迁移是如何实现的？

这里有一个 Token 的概念，简单来说，神经网络理解世界都是将输入的信息进行压缩成一些数字，不论是视觉或者语言，所以虽然输入的信息不一致，但是对于神经网络的理解，都是一些数字，这些数字包含了所有需要的信息。

曾经有一本畅销书《天才在左，疯子在右》里面提到一个故事，如果我们有足够高的制造工艺，将一本书完全编码成一个数字，然后将整个数字转换成距离，在一块石头的这个位置上刻上一个点，那么这个点就包含了这本书中的所有信息。

DriveVLM 的处理方式也是如此， 语言和视频被处理成了相似的数字提供给神经网络进一步处理。

语言和视频最后的表现方式会基本接近，所以也就有了迁移的可能。

整个系统由两个子系统组成， 一个是端到端网络负责快速响应，能力来自于常规驾驶任务数据，另一个是 VLM 负责思考，能力来自于语言和视频的数据迁移 。

这个理论来源来自诺贝尔经济学奖《思考，快与慢》中对认知心理学的阐述，直觉决策和思维推理相互配合，成为人类世界认知、理解能力和做出决策的基础。

这也是在端到端自动驾驶领域，国内提出的第一套全新的路径。

很难想象理想团队在找到这条路之前赌了多少不一样的方向，也很难想象去将一个没有人验证过的系统做到基本可以量产上车付出了多少资源。

那么对于一个全新的系统，理想汽车 AD 团队是怎么训练并且量产的，换句话说，理想汽车 AD 团队是怎么验证这条路可行的？