专栏名称: 腾讯科技

只供应最有营养的科技大餐！

独家 | 与李想的3小时对谈（完整版）

腾讯科技 · 公众号 · 科技媒体 · 2024-12-27 20:58

主要观点总结

张小珺与李想的对话涉及人工智能、智能驾驶、汽车之战以及李想的个人生活经历。李想分享了他对人工智能和智能驾驶的看法，强调了基座模型的重要性，认为其是人工智能时代的操作系统+编程语言。他还表示，虽然目前自动驾驶L4尚未实现，但坚信在不久的将来，自动驾驶汽车将成为现实。李想还提到了理想汽车面临的一些挑战，如MEGA的失利，以及未来在人工智能和自动驾驶领域的发展计划。此外，李想分享了个人成长经历，以及他如何通过学习、验证和成长的过程，来理解和应对人工智能和智能驾驶领域的挑战。

关键观点总结

关键观点1: 李想对人工智能的理解

李想认为人工智能不仅改变了技术，还帮助人们实现知识、认知和能力的平权，使人类变得更好。

关键观点2: 基座模型的重要性

李想强调基座模型是人工智能时代的操作系统+编程语言，是构建人工智能超级产品的关键。

关键观点3: 自动驾驶的未来发展

李想认为自动驾驶汽车将成为现实，并且自动驾驶将带来交通方式的根本性改变。

关键观点4: 理想汽车的挑战与机遇

李想分享了理想汽车面临的一些挑战，如MEGA的失利，以及如何通过持续研发和创新来应对这些挑战，抓住未来的机遇。

关键观点5: 个人成长与对人工智能的态度

李想分享了他的个人成长经历，以及他如何通过学习、验证和成长的过程，来理解和应对人工智能和智能驾驶领域的挑战。

正文

请到「今天看啥」查看全文

李想： 至少我们做了。至少我们一直在做基座模型，无论多么难，非常坚定。

我认为， 基座模型是人工智能时代的操作系统+编程语言——你就知道它有多么重要了。

基座模型所构建出的人工智能超级产品，会是新一代入口——它会在所有设备之上，在所有服务之上。

张小珺：把理想同学+Mind GPT加起来，约等于Kimi，可以这么通俗理解？

李想： 可以这么形容。

张小珺：理想同学从车机进入手机，这是一个战略级决定还是你们只是想试试看？

李想：没那么复杂。站得很远看，一个有效大模型产品，尤其你在掌握基座的前提下，会在所有设备、所有服务之上，这是我相信的一点，否则它不是人工智能。它发展到智能体，能自主使用所有设备、服务。

站在近处看，我们很多用户、孩子，一上来接触的人工智能就是理想同学。很自然，我为什么不把这个东西也同样放在他们日常使用的设备上？很多用户的孩子在使用完车内理想同学后，拿着手机也喊理想同学。这是真实需求场景。

我们可不可以先把100多万用户以及家庭，这300到500万人，让他们用上一个非常好的，在车上、在手机上、在电脑上、后边可能出现在眼镜上，体验一致的人工智能产品？这是必须要做的。

张小珺：理想同学会存在收集用户数据、用户隐私的问题吗？

李想： 不会。当你真正预训练、后训练，你会发现跟原来互联网不一样。我们并不需要这些东西。比如，预训练更多是从公开数据集收集。

如果未来让用户使用得更好，会建立记忆系统，但记忆系统会把用户的记忆转成token。它既不是比特，也不是传统文字或声音记载。大家完全不用担心。

大家今天如果担心人工智能的隐私问题，还是对于人工智能技术本身不够了解。

张小珺：对话类个人助手已经非常红海，你怎么看在这片红海市场中的战争？

李想： 今天是非常初期阶段。如果讲第一个明确阶段，还是人人可用的to C智能体出现（也就是OpenAI定义的L3阶段）。今天在尝试中。

张小珺：今天是尝试去拿那张船票？

李想： 对。 今天大家做的所有事情，是为了拿AGI的L3和自动驾驶的L4的门票。

04 L4就是智能体

张小珺： 在我脑子里，理想同学作为个人助手和汽车的智能驾驶是两件事——这是两个产品，支持他们的是两种技术架构——为什么给我感觉，在你脑子里，它们是一件事？

李想： 由于这两个领域同时都做，我们看到一个更有意思、让我们更坚定去做的机会。

今天我们做的理想同学和自动驾驶，按行业标准是分割开的，处于早期阶段：

●我们在做的Mind GPT（理想自研大模型），大家叫LLM、大语言模型，其实它叫语言智能。

● 我们在做的自动驾驶，李飞飞定义叫空间智能，我们内部叫行为智能。

只有你真正去这个领域大规模做，才知道这两个有一天一定会连在一起。

如果一个人只有语言智能，他足够聪明，但不能行动。如果一个人只有行为智能和空间智能，他像一个普通工种。一个人什么呢？是这几个结合。

我们认为，基座模型到一定时刻，一定会变成 VLA（Vision-Language-Action Model，一种结合了视觉、语言和动作的多模态模型） 。因为语言模型也要看三维世界，也要通过语言、认知理解三维世界。三维世界不只有图片，或者用Diffusion、生成的方式就可以。因为它并不能还原真实物理世界，需要向量。

自动驾驶也一样，它真正变得更强，走向L4，是它要有极强认知能力。当这些东西发生变化，它能够有效理解这个世界，而不只是端到端背后的那些压缩记忆。这是我们看到的一个变化。

所以，我对团队的一个要求：至少在中国范围内，未来几年必须保证大语言模型的基座模型是行业前三。你需要什么样的训练算力，我们愿意投资。要真正跟头部企业去PK，去竞争，把能力构建起来。而不只是在汽车行业里比一比。

对于我们最开始做的端到端+VLM（智能驾驶的架构），还包含下一代研究工作，我们如何在空间智能里保证在中国是最领先、第一的地位？这非常之重要。

但我相信这个时间点会非常相似——就是，空间智能实现L4，语言智能实现Agent的时候——一个大概率是，这两个会变成一个模型。

张小珺：就是VLA模型？

李想： 就是Vision、Language和Action（视觉、语言和行动），它跟人一样。变成一个更大的模型能力。

其实L4就是智能体。 智能体，你必须得很好地理解物理世界。

张小珺：智能驾驶能怎么帮助大语言模型？

李想： 智能驾驶所获得的数据可以为语言模型或者下一步基座模型，构建三维向量空间的能力。

举个例子，我们在VLM使用中也会遇到一些问题，今天VLM是从大语言模型基础上做出来的。虽然做VLM这些基座模型，它也会喂几亿甚至几十亿张图片，但这些图片是二维的，在三维向量空间里，比如我们去做自动驾驶，它可以通过这个画面看到：哦，哪里是公交车道？公交车道提示是什么？什么是潮汐车道？甚至能认出交警，这个交警在干什么？但它并不知道具体位置。

是因为端到端的基座和VLM基座是两个不同基座，它俩只能互动，不能通过端到端确定位置。这也是我们看到说：哎，最终，它应该像人类一样，一套大脑系统既能处理语言，也能处理图像，并且处理图像的时候，人是具备三维向量空间的能力，能调用自己的行动。

接下来也能看到我们的一些论文。我们如何用三维向量空间，包括用高斯球方式，给语言模型具备三维向量空间的能力。

张小珺：它最终会合并统一到Mind GPT基座模型上？

李想： 到时候是不是叫Mind GPT，不一定。

但我们肯定会往语言模型放三维向量token，现在已经开始尝试，做预训练。

05 终级产品想象是硅基家人

张小珺： 很多人说你是超级产品经理，能不能从产品的角度讲讲，随着人工智能的能力从L1到L5（按照OpenAI定义标准）演进，你对产品是如何构想的？今天我们看到的还是一个非常基础的对话App，以后呢？

李想： 产品是把用户需求和你背后所有能力进行结合。好的产品经理是，我对需求了解得足够清楚，且我对能力了解清楚——这两个交集越大，产品价值越高；交集越小，产品价值越低；或者浪费越多，内耗就越多。

今天哪怕我在公司想推动人工智能，最重要的是，让大家对很多东西的理解变容易。对于实现AGI到最终阶段，我经常用三种方式描述：

第一阶段叫“增强我的能力”。 增强我的能力意味什么？意味着它是我的一个辅助，但最后决策权在我这。我可以拿Midjourney画一幅画，但最后还要拿Photoshop修改一下才能出版。我也可以拿理想同学生成一篇文章，但这个文章不会直接发到公众号，还要进行文字整理。包括L3智能驾驶，我们叫“有监督智能驾驶”，还需要我在车上监督，我来进行最后兜底。这里边核心是，第一个阶段能力还不够。

张小珺：所以在这个阶段负责任的是人。

李想： 对。但如果你能特别好地使用人工智能这方面能力，它确实让我变得更方便、效率更高。随着它能力的提升，也随着人类对它信任，到第二个阶段，就是智能体所描述的阶段。

第二阶段叫“成为我的助手”。 我只要给它发任务，甚至可以发连续任务，它就可以独立完成，并对结果承担责任。

比如，我可以跟一辆L4的车讲，你要去帮我接孩子，我不需要坐在车上，它就可以到学校帮我接孩子，并进行面部识别，打开门让孩子上车，然后再完成下个任务，送孩子学游泳、学乐高。它也可以帮我做上周工作总结，并发给我所有减一层管理者。这是第二个阶段。

这个阶段比较好的状况是，它会变成大规模应用，是真正的iPhone4阶段。

而汽车企业只有实现了L4（按自动驾驶行业标准），才是真正的iPhone4阶段，今天还不是。

作者注：国际汽车工程师协会定义自动驾驶4个阶段：

L1级别/辅助驾驶：系统能持续执行车辆横向或纵向运动控制中的一个方面，如自适应巡航控制和车道保持辅助；

L2级别/部分自动驾驶：系统能同时控制车辆的横向和纵向运动，但驾驶员必须始终监控驾驶环境并准备接管；

L3级别/自动驾驶：在特定条件下，系统可完成所有的驾驶操作，但驾驶员需要在系统请求时接管；

L4级别/高度自动驾：在定义操作区域内，系统可完全独立操作，即使遇到复杂或紧急情况也无需人类介入。）

张小珺：今天汽车企业是什么阶段？

李想： 如果实现L3（按自动驾驶行业标准），更像黑莓阶段。方向盘在上边，就跟键盘在上边一个道理。

第三阶段是我想的终极阶段。因为我们要“创造移动的家，创造幸福的家”，我在内部叫“硅基家人”。

我不需要再给它任何指示，也不需要分配任务，它就是家庭成员，甚至是家庭重要的组织者。它不但了解我，还了解我的孩子，了解我身边的朋友，甚至比我还了解。它更多记录下的是事实，我很多时候记录的是一种感觉和一些被压缩的记忆。这时它会主动干很多事，可以自主帮我把家管理好。

我作为一个人很重要的是记忆。我的记忆就是我的模型，它也在不停训练，变得更强。很重要的一点，我的记忆会被它得以延续，可能我的肉体不存在了，但我的记忆会变成它的一部分。我的后代想了解我很容易，只要跟它聊就像跟我聊，没区别。

张小珺：那你也没有隐私了啊。

李想： 我是它的一部分了。

如果按照OpenAI定义，到AGI，它本身是组织者。它不是只有能力，必须有智慧—— 它会是人类优质智慧的汇集之河，不只是人类知识和能力的汇集之河。

张小珺：在产品形态上，“硅基家人”是你脑海中构想的最终产品吗？

李想： 对。我最兴奋的是，我和我们团队能在有生之年实现第三阶段，我希望是通过我们的手实现。

不过，哪怕最终由于各种遗憾，没有通过我们的手实现，我也希望看到有最顶尖的企业，把这个阶段在我们有生之年实现了。

张小珺：如果你的最终目的是“硅基家人”，那它不适合叫“理想同学”这个名字，会改名吗？

李想： 很快大家能看到我们允许每个人创造自己的理想同学。

但如果它不是家人阶段，不要强努着给它一个家人阶段的名字。

06 人工智能表达的是能力，不是功能

张小珺： 这类（对话类）产品已经高度同质化，你们的优势是什么？

李想： 今天还不能讲同质化，真正大规模to C的关键节点，是在智能体实现的阶段。今天大家都有机会。

作为理想汽车，分三个维度讲：

1. 相比一般创业公司，我们有100万家庭用户的基础，有启动量。

2. 在大语言模型产品和基座方面，我们是跟随者，但跟随要有目标。我们从10名开外怎么先进入第五，从第五怎么进入第三。这也是我们后边要设定目标，以及和最好、最优秀的选手进行对比的有效工作方式，并按照这样的目标有效投入。

3. 在空间方面，包括端到端，今天大家听到各种各样做机器人、具身智能的公司讲“系统一”、“系统二”，大家可以回头看一看这些论文，最早是我们自动驾驶研究团队做的。所以，在空间智能或行为智能方面，我们对自己的要求是必须保持第一。

张小珺：你刚才说产品就是要技术能力匹配产品需求，你今天是对产品需求认知更深，还是对技术能力认知更深？

李想： 我觉得不太一样了。大模型到来以前的阶段，我们通过编程甚至规则算法做硬件——本质上我们提供的东西叫“功能”，并且这个“功能”有“体验”。比如这是冰箱，它是功能，冰箱放在不同地方，体验是不一样的。

所以，这时候企业很重要的竞争是，你提供什么样的“功能”，以及这个“功能”带来的“体验”，再加上“品牌”。无论你是互联网产品，还是硬件产品，或者智能硬件产品，你又提供软件功能，又提供硬件功能——这是这个时代的竞争。

“功能”比较好理解，“功能”最主要获取方式来自“体验”。无论是你通过买不同产品获得体验，还是在供应商那看到新东西，或者自己研发，可以通过体验判断功能价值。只要你愿意做，获得功能和体验没那么难。

愿意做小白鼠很重要。我们为什么率先出理想汽车iOS的App，是因为我从iPhone1开始没有短信，要通过贴东西才能用SIM卡。那时很多人嘲笑，李想你小白鼠，为什么要用这些东西？

可能大家不知道，我是中国第一辆雪佛兰Volt这个通用的增程电动车的使用者。很贵，那时40多万买了一辆车。大家会觉得我是小白鼠，但小白鼠一个好处是，能获得优先选择权。我就会比所有没体验过Volt的人，更了解增程到底什么样，还有那些做的不成功的增程，为什么不成功。它的小电瓶和大电池没有连接在一起。你只有体验，能获得这样的一个认知。所以我说这是“功能的时代”。

但到了人工智能时代不一样——人工智能时代是“能力的时代”。

所以，从人工智能开始，这些头部人工智能企业必须搞研究。研究工作并不是技术本身，还有包含比如它跟人类记忆的关系，这样才能对技术方向有效判断。必须得搞研究，再搞技术研发，再产品化。前两个步骤如果做不好，直接产品化，根本不行。

有点像杨植麟（月之暗面创始人兼CEO）讲的那句话：“屎上雕花”。

张小珺：所以，AI时代企业竞争的维度变了？

李想： 对，变了。

张小珺：不可能一家公司不做技术研究，只做产品？

李想： 当然取决于你想成为什么样的AI公司。如果你想做AI细分里边再细分的小应用，没问题。但如果你想做AI助手，想做基座模型，想做L4自动驾驶，就不一样了。你必须得搞技术研究工作，跑不掉的。

张小珺：你怎么看杨植麟说的“模型即应用”？也就是，好的产品是在模型能力提升过程中“沿途下蛋”。你认可他的这种产品观吗？

李想： 当然认可了。大家最开始说：哎，OpenAI去做聊天工具，所以我们可以做搜索！但你今天看，OpenAI也在做搜索，OpenAI也会进入一个个细分领域。

原来讲是“功能”，今天是“能力”。能力有了，任何能力所能解决的问题都能实现。

07 李想有理想吗？

张小珺： 很多人认知你，觉得你是一个非常实用主义的人。大家在追求做电车的时候，你还在做增程，为什么你今天对人工智能技术这么激进？——李想有理想吗？

李想： 我觉得不是有理想、没理想的问题。

是……（停顿3秒）……我第一次创业，泡泡网做的并不成功，起了个大早赶了个晚集。我后来真正明白一点，就是中国古人讲“天时、地利、人和”，非常之重要，而且这三个有清晰顺序。

排第一的是“天时”。商业社会什么是“天时”？“天时”就是技术，是我们对技术有效使用。

作为创业者，如果我做一辆燃油车，还做了10挡变速箱，我仍然卖不到奔驰、宝马任何一个品牌在中国1/10的销量。但我如果做增程车，并赋予了非常好的软件体验和部分的人工智能体验，我就可以在很短时间追上奔驰、宝马、奥迪的销量，甚至在可见的未来一两年，超越他们。这是重要技术变革点。

人类跟我们相关最重要的技术变革：一是能源，二是信息。

“天时、地利、人和”。第一重要是技术。第二重要是“地利”，在哪创业。你如果不在中国和美国，想做人工智能，太难了。因为你不是主流语种，你没有足够庞大的市场，你没有足够多的人才和这方面的投入，包括人才是否经历了上一个时代能力的积淀。第三才是“人和”，要面对什么样的用户，构建什么样的组织。

技术第一重要。进入汽车行业，很多人说，巨头们都那么厉害，几十年没有真正大厂出现，为什么觉得你有戏？——还是我说的，我比汽车厂商更知道怎么做大型软件，比互联网公司更了解汽车，因为做了10年汽车之家。

进入这行后，我们发现真的跟想的方向一致。拿汽车行业举例，这是我相信的东西：

时代演进方向：BT——IT——DT——AI。

奔驰虽然发明了汽车，但真正汽车行业进入老百姓家是福特开始。福特跟其他作坊型汽车厂一个根本差异在于，建立了流水线和生产线。它用了几分之一的价钱，就可以让普通美国老百姓拥有福特T型车。这时，它干了一件事，是把生产一辆车流程化了。我们内部把流程的简称叫BT，是流程。这是第一阶段。后来丰田又把流程发挥更加极致。美国到70年代还成立了流程协会，流程协会也诞生了后边大量软件公司。

到第二个阶段什么？是IT出现，就是软件，而且是以控制为目的的软件出现。我们在建常州第一个工厂时，还没有精力自己写这个工厂软件，我们当时就选择是SAP还是Oracle的工厂软件？当时我就问顾问公司：SAP和Oracle有什么不同？他讲，SAP呢，比较反人性，比较死，什么都不能改，但好处是，所有人不要指望从这边任何一个流程绕过去；Oracle有比较好灵活定制的能力。

我一个做互联网公司出身的，肯定觉得Oracle好。当时又问了一句：如果从汽车行业最佳实践看，是什么样的？他说，至少在中国大部分用Oracle的，最后也都切回SAP。

哦，我当时就明白了——这些软件能力和我们互联网公司构建的软件能力不一样，最主要目的是控制。包含银行上IT系统，包括制造体系、销售体系上软件系统，都是为了控制。之前流程靠人来盯着，靠纸来记。今天跑在软件里。所以，汽车上万个零部件可以标准化生产出来，甚至汽车跑在路上的质量比手机还要好，是BT和IT发挥了巨大作用。

到第三阶段非常有意思。这个时代描述最好的是，从IT时代进入到DT时代，DT指Data Technology（数据技术）。

我们做互联网公司，我做汽车之家，所有网站服务用户的软件是自己写的，所有面向客户的软件是自己写的，包括所有数据分析、流量分析的软件都是自己写的。这是中国成规模的互联网公司必须要有的能力，因为你每个月要服务上亿访问者。我们当时写这些系统后，会发现跟IT有很大不同。

所有数据必须满足三个条件：

● 第一，它必须是面向一个客户提供闭环服务。传统公司喜欢叫“端到端”，互联网公司叫“闭环”。包括他从进入一个店，到把这个车买走，这是一个“端到端”。

● 第二，我要获得原子级数据，而不是控制点的数据。