万字硬核解读：“端到端”让特斯拉FSD V12迎来质变？

投资银行在线 · 公众号 · 科技投资 · 2024-08-21 10:10

正文

请到「今天看啥」查看全文

资料来源：国信证券

模块化的优缺点

● 优点： 可解释、可验证、易调试

■ 因为每个模块都是相对独立的，所以当我们的车辆出现问题时我们可以回溯究竟是哪个模块出现了问题；在出现问题后，我们只需要在原有代码规则的基础上调整对应的参数即可，简单来说“比如我们自动驾驶的车辆在面对其他车辆加塞时，刹车过猛，那我们只需要调整加塞情况下，车辆的速度、加速度该如何变化即可”。

● 缺点： 传递过程中信息损耗、任务多且散导致低效、存在复合误差、规则难以穷尽导致构建和维护成本高。

■ 信息在传递过程中存在损耗：传感器的信息从进入感知模块再到控制模块输出，中间经历了多个环节，信息在传递过程中除了效率变低以外不可避免地会有信息的损耗；举一个简单的例子 比如在传话游戏中，第一个人说的是“你好”，经过中间几个人的传递后，到最后一个人那里可能变成风马牛不相及的“李吼”。

图5.传话游戏示意图

■ 规则难以穷尽导致构建和维护成本高：大家如果理解了模块化的基本逻辑后，便知道模块化是基于规则的，车辆在道路上做的所有决策背后都是一条一条的规则，而规则的背后则是一条一条的代码，程序员提前将道路上的规则以代码的形式写好，车辆在对应情况的时候便根据写好的规则遍历所有可能选出最优解，进行决策进而采取相应的行为。

说到这里大家可能觉得没什么，我们直接把类似于红灯停、绿灯行的这些规则都写进去不就好了，然而工程师很难穷尽路上的所有情况，因为真实的物理世界是一直在变化的，有无数种排列组合，我们只能预期到常规的事情并把它写进规则中，但是小概率的极端事件也是会发生的（比如道路上突然出现一只猴子在和人打架），所以依靠代码堆叠规则到最后只能苦叹一声“人力有时穷”。

1.2.2 端到端

讲完了模块化，我们接下来就看下目前行业最认可的端到端究竟是怎么一回事儿。所谓端到端（End-to-End）就是信息一头进入一头输出，中间没有各个模块传输来传输去，一站式搞定。

也就是基于统一的神经网络从原始传感器数据输入直接到控制指令输出的连续学习与决策过程，过程中不涉及任何显式的中间表示或人为设计的模块，不再需要工程师人为写无穷尽的代码了，除此之外；其另一个核心理念就是无损的信息传递（原来可能是多人传话游戏，端到端就变成了你说我听）。

图6 .模块化vs端到端架构简洁示意图

我列举两个例子来给大家讲解模块化和端到端的区别：模块化设计理念下的车辆就好像是在驾校学车的、没有自主意识、且不会主动模仿学习的新手司机，教练说做什么他就做什么（编写代码规则），教练跟它说红灯要停下来、遇到行人要礼让，它就按照教练的说法做，如果遇到教练没说过的事儿，它就愣在那里不会处理了（武汉“芍萝卜”）。而端到端设计理念下的车辆则是一个拥有自主意识并且会主动模仿学习的新手司机，它会通过观察别人的驾驶行为来学习，最开始它就像一个菜鸟一样，什么也不会，但是它是个好学的孩子，在给它观看了成百上千万的优秀老司机怎么开车的视频后，它慢慢就变成了真正的老司机，然后它的表现只能用一个字来形容，那就是“稳”！

图7.模块化vs端到端

资料来源：Li, Xin, et al. Towards knowledge-driven autonomous driving 华鑫证券研究

如图7所示，基于一条一条代码规则驱动的模块化设计理念的车辆，读到大学就无法再往上进修了，而基于数据驱动（给车辆看的老司机开车的视频就是所谓的数据）的端到端虽然初期是在小学，但它具备很强的成长性和学习性（强化学习和模仿学习），可以很快地进修到博士。（就像余承东评价“Fsd下限低，上限高那样”，但只要你有足够多的数据，给予它足够多的老司机驾驶的视频，它不便不会停留在低水平太长时间）。

当然，目前围绕端到端的基本定义仍然存在争议，“技术原教旨主义者”认为，市面上很多公司宣传的“端到端”并不是真正的端到端（比如模块化的端到端），他们认为真正的端到端应该是全局端到端，从传感器输入到最后控制信号输出，中间所有步骤都是端到端可导的，可进行全局优化;而“实用主义者”则认为只要基本原理符合，能让自动驾驶车辆的性能表现提升就可以。

端到端的三大划分

有的朋友看到这里可能有些懵，端到端也有不同划分？是的没错，目前端到端主要可以划分成三类（目前存在多种不同划分，为了便于大家理解，本文只列举英伟达GTC大会的划分），如图8所示可以分成显式端到端、隐式端到端、基于大语言模型的端到端。

图8.端到端自动驾驶算法形成三大落地形式

资料来源：英伟达GTC大会、开源证券研究所整理

显式端到端

显式端到端自动驾驶将原有的算法模块以神经网络进行替代，并连接形成端到端算法。该算法包含可见的算法模块，可以输出中间结果，当进行故障回溯时可以一定程度上进行白盒化调整。在这个情况下，便不再需要工程师一行一行去敲代码来撰写规则了，决策规划模块从手写规则向基于深度学习的模式进行转变。

看起来有些抽象难懂，我们用大白话来讲的话就是端到端了但又没有完全端到端（也叫做模块化的端到端），而所谓的白盒其实是相对于黑盒而言的，在后面隐式端到的部分我会用新手司机的例子来展开讲，这里看不懂不要紧可以先行跳过。

获得2023年CVPR最佳论文的UniAD模型就是采用的显式端到端，如下图所示，我们能够明显观察到各个感知、预测规划等模块采用了向量的方式进行连接。

注：显示端到端需要结合隐式端到端一起理解，不要孤立开；显式端到端还可以划分为感知端到端、决策规划端到端

2023年CVPR最佳论文：典型的模块化显示端到端UniAD架构图

资料来源：Hu, Yihan, et al. Planning-oriented autonomous driving.

隐式端到端

隐式的端到端算法构建整体化的基础模型，利用海量的传感器接收的外部环境数据，忽略中间过程，直接监督最终控制信号进行训练。“技术原教旨主义者”认为如图9这样的传感器信息一头进入另一头直接输出控制信号的端到端才是真正的端到端，中间没有任何额外模块。

前面我们提过显式端到端，通过比较图8和图9，能够看出明显的区别就是：隐式一体化的全局端到端中间没有各个模块，只有神经网络存在（传感器就是它观看世界的方式，中间的端到端系统就是它的完整的大脑，方向盘、刹车油门就是它的四肢）；而显式端到端不同的地方在于它把中间完整的大脑按照模块化的方式给分开了，虽然它不再需要编写代码去学习各种各样的规则，已经逐渐可以通过观看老司机视频的方式学习，但是，它依旧是分模块去做的，所以批评的声音会认为其不是真正意义上的端到端。

但这样做也有它的好处，我们在前面提到过显式端到端在一定程度上是白盒的，这是因为当我们的车辆通过学习涌现出一些我们不期望的糟糕行为时，我们可以回溯究竟是哪个模块的端到端出现了问题，而作为黑盒模型的隐式端到端则无从下手，因为它是完全一体化的，创造它的人也不知道它为什么会这样做（这就是大家老在网上听到的黑盒的大概意思）。

图9 .隐式端到端

资料来源: PS Chib, et al. Recent Advancements in End-to-End Autonomous Driving using Deep Learning: A Survey

生成式AI大模型的端到端

ChatGPT为自动驾驶带来了极大的启发。它运用无需标注且成本低廉的海量数据进行训练，还具备人机互动以及回答问题的功能。自动驾驶可以效仿这种人机互动的模式，输入环境方面的问题，它直接输出驾驶决策，通过基于大语言模型的端到端来完成这些任务的训练运算。