专栏名称: 投资银行在线
投资银行在线 Investment Bank Online,一个资本与项目对接的平台,一个互联网金融的探索者和实践者。
目录
相关文章推荐
湖北工信  ·  市州动态丨106家试点企业先行,鄂州探索打造 ... ·  21 小时前  
湖北工信  ·  市州动态丨106家试点企业先行,鄂州探索打造 ... ·  21 小时前  
我是腾腾爸  ·  这周的瓜,是真大! ·  2 天前  
51好读  ›  专栏  ›  投资银行在线

智驾闯入“无人区”,理想汽车郎咸朋:未来一年10亿美元只是入场券

投资银行在线  · 公众号  · 科技投资  · 2024-08-09 17:13

正文

请到「今天看啥」查看全文


郎咸朋: 至于这套系统架构方案的优点,要从我们去年八九月份对自动驾驶的一个思考开始讲起。去年一年时间我们做了三代的技术研发,从最开始做高速,一直到做城市的自动驾驶,城市里边我们先是用了NPN(NeuralPriorNet,神经先验网络)这种带有场景的方案,又转换到现在的无图方案,再迭代到现在的端到端方案。
在这个过程当中,我们发现这套方案对于后期的L3、L4级别自动驾驶来说,它还有一个非常大的缺陷或问题。问题在于,我们人对于未知的场景和没有去过的地方可以理解,正常开车的稍微适应一下就行。但无论是现在的端到端方案还是无图方案,本质上还是看过的场景或者训练过的数据,才能执行的比较好。如果一个新的场景,可能他就没法正确的处理,但是如果想做到完全把车交给系统替代人来开车的话,那么我们的系统它就得像人一样有应对未知场景的能力。
举个简单例子,就是咱们的红绿灯,天津红绿灯和其他地方红绿灯都不一样,天津的红绿灯是一个进度条式的红绿灯,但是其他的咱们地方要么是灯泡似的,要么是倒计时的,这种很好理解。但是我相信任何一个有正常常识的人去了天津,你一看到那个路口立了这么一个东西,你也会认为它就是红绿灯,并且根据红绿灯的指示,正常的停止启动。所以我们需要让系统也有这种对场景的理解,或对这种知识的逻辑推理的能力,这种能力怎么去获得?我们在这个时候看到双系统的理论,它是对人类的认知的这种机制进行了一个很好的阐述,快系统做出及时的处理响应,慢系统对应复杂的思考逻辑判断,双系统共同的组成了人类认知和思维的机制,那么我们就想这套系统的理论怎么运用到自动驾驶上来。
那么系统一到底用什么来实现系统化,到底用什么来实现?我们最终选择了系统应用端到端模型来实现,系统二用VLM的视觉语言大模型来实现,这是我们具体的两个实现的方式。我们经过预研和研发,现在这两套系统我们都落地在我们真正的量产车上了, 我们认为它是当前在物理世界实现人工智能的最优方案,因为它非常好的模拟了人类认知和思考机制,真正的让系统拥有了像人类思考和理解世界的能力,这就是双系统的优势。
我们的双系统有一些独特的地方,第一我们的端到端模型是第一个One Model的端到端模型,跟其他的分段式还是有很大的区别的。 第二,我们的 VLM模型是第一个能在车端部署并且量产的模型,其他的模型可能在他自己的训练集群上去做训练做测试,但真正用Orin X 这种量产的车端芯片去优化并且部署到车上的我们是第一个,而且这个模型足够大,有22亿的参数量,这已经是一个实际意义上的大模型了。我们这套双系统也是我们第一个提出来并且落地的,从系统架构到系统实施上,我们有自己的一些优势和特点。
问:端到端加视觉语音模型,这套方案它能够支持L3、L4的开发吗?
郎咸朋: 至少站在当下来看,我觉得方式上应该是可以,但具体是端到端加VLM两个模型还是两个模型合一,还是更大参数的模型,或其他结构,我觉得可以慢慢去迭代,但我觉得整体的思路上应该是可以的。
问:系统一和系统二是如何分工的?
贾鹏: 我们是两个模型,有两颗Orin X ,一颗是跑端到端的模型,模型相对小一些,大概三四亿的参数量,然后跑到十几个赫兹,他会高频的去控车,因为要实时控车。VLM虽然参数量大,但也不能一两秒钟控一次,现在我们把它优化到大概3.4赫兹的准实时水平,大概三百毫秒的延迟。他每时每刻都在做决策,输出两个决策,比如一个是让行减速还是避让,然后第二个它会给出参考的轨迹,比如说我是朝这条车道还是朝那条车道,这两个信息都会直接喂到模型里,然后同时出结果,大概是这么一个结构,系统一并不是完全采纳系统二的意见,系统二是增强系统一的决策。
系统一发挥主要的作用,系统二只是一个参考或者是咨询特殊情况,到L4的时候,系统二发挥作用会更多,不是说系统二时时刻刻都在控车,而是它真的在发挥非常重要的决策和判断作用,在一些未知场景下,系统二的能力决定了能不能到L4,但系统一的基础能力是L3的必要保障。
问:未来两个系统会合二为一吗?
贾鹏: 这个是我们在预研的下一步,其实现在的想法量产的还是两个模型,目前无图6.0已经全国都能开了,我们想端到端+VLM这套东西可以做到全国都比较好开,那再往后,到底怎么做一个量产级的L4,我们的思路可能是把模型的规模变得更大,容量更大,同时把它的帧率变得更高,或者有机会是不是这两个模型可以合一,是否是走系统一还是系统二让模型自己去决定。所以如果将来有更大的算力的芯片,有更好的平台,这个就可以发挥极大的作用。
问:VLM为什么不能被称为是端到端,在我看来它也是一种端到端。
贾鹏: 如果将来的算力足够大,VLM本身能跑到实时,对比如跑到十几赫兹甚至20赫兹,或许它也可以做到端到端的快速响应,但目前VLM其实是多轮问答,我要问它在这样的工况下我怎么开?为什么这么开,开了之后有什么结果?
郎咸朋: 其实端到端这个说法,在我们来看,只要是纯数据驱动的模型它就是端到端,它输入就是数据,输出就是结果,只不过这个结果在系统一上是轨迹,系统二的结果是决策,这里再强调一下,端到端到底是多个模型的端到端,还是一个One Model端到端,这是有很大区别的。因为 像我们理想这边做的One Model就是传感器数据输出直接出轨迹,中间没有任何的其他的规则和模型,其他的端到端可能还需要用一些规则来串一串。
问:现在这套系统能力上限大概是在哪里?
郎咸朋: 现在VLM应该是站在了一个无人区的边界,再往前探索,各家包括我们在内,都要做端到端,但是我相信我们是最开始做的公司,我们在这个过程中还会有自己的探索,现在我们在做的过程当中,就会发现数据规模带来的性能提升,现在还没有看到上限。我们现在还在摸索数据提升和性能提升的这样边界,现在还没有摸到。
我们有个分析,芯片算力是有限的,所以参数规模就有局限性,现在我们是大概三个亿左右的端到端参数规模,三个亿左右参数规模它能吃掉多少数据训练量,其实也有上限,不可能给他无限灌进去,那不可能。






请到「今天看啥」查看全文