专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯科技

独家 | 与李想的3小时对谈(完整版)

腾讯科技  · 公众号  · 科技媒体  · 2024-12-27 20:58

主要观点总结

张小珺与李想的对话涉及人工智能、智能驾驶、汽车之战以及李想的个人生活经历。李想分享了他对人工智能和智能驾驶的看法,强调了基座模型的重要性,认为其是人工智能时代的操作系统+编程语言。他还表示,虽然目前自动驾驶L4尚未实现,但坚信在不久的将来,自动驾驶汽车将成为现实。李想还提到了理想汽车面临的一些挑战,如MEGA的失利,以及未来在人工智能和自动驾驶领域的发展计划。此外,李想分享了个人成长经历,以及他如何通过学习、验证和成长的过程,来理解和应对人工智能和智能驾驶领域的挑战。

关键观点总结

关键观点1: 李想对人工智能的理解

李想认为人工智能不仅改变了技术,还帮助人们实现知识、认知和能力的平权,使人类变得更好。

关键观点2: 基座模型的重要性

李想强调基座模型是人工智能时代的操作系统+编程语言,是构建人工智能超级产品的关键。

关键观点3: 自动驾驶的未来发展

李想认为自动驾驶汽车将成为现实,并且自动驾驶将带来交通方式的根本性改变。

关键观点4: 理想汽车的挑战与机遇

李想分享了理想汽车面临的一些挑战,如MEGA的失利,以及如何通过持续研发和创新来应对这些挑战,抓住未来的机遇。

关键观点5: 个人成长与对人工智能的态度

李想分享了他的个人成长经历,以及他如何通过学习、验证和成长的过程,来理解和应对人工智能和智能驾驶领域的挑战。


正文

请到「今天看啥」查看全文


李想: 至少我们做了。至少我们一直在做基座模型,无论多么难,非常坚定。

我认为, 基座模型是人工智能时代的操作系统+编程语言——你就知道它有多么重要了。

基座模型所构建出的人工智能超级产品,会是新一代入口——它会在所有设备之上,在所有服务之上。

张小珺:把理想同学+Mind GPT加起来,约等于Kimi,可以这么通俗理解?

李想: 可以这么形容。

张小珺:理想同学从车机进入手机,这是一个战略级决定还是你们只是想试试看?

想: 没那么复杂。站得很远看,一个有效大模型产品,尤其你在掌握基座的前提下, 会在所有设备、所有服务之上 ,这是我相信的一点,否则它不是人工智能。它发展到智能体,能自主使用所有设备、服务。

站在近处看,我们很多用户、孩子,一上来接触的人工智能就是理想同学。很自然,我为什么不把这个东西也同样放在他们日常使用的设备上?很多用户的孩子在使用完车内理想同学后,拿着手机也喊理想同学。这是真实需求场景。

我们可不可以先把100多万用户以及家庭,这300到500万人,让他们用上一个非常好的,在车上、在手机上、在电脑上、后边可能出现在眼镜上,体验一致的人工智能产品? 这是必须要做的。

张小珺:理想同学会存在收集用户数据、用户隐私的问题吗?

李想: 不会。当你真正预训练、后训练,你会发现跟原来互联网不一样。我们并不需要这些东西。比如,预训练更多是从公开数据集收集。

如果未来让用户使用得更好,会建立记忆系统,但 记忆系统会把用户的记忆转成token。它既不是比特,也不是传统文字或声音记载。 大家完全不用担心。

大家今天如果担心人工智能的隐私问题,还是对于人工智能技术本身不够了解。

张小珺:对话类个人助手已经非常红海,你怎么看在这片红海市场中的战争?

李想: 今天是非常初期阶段。 如果讲第一个明确阶段,还是人人可用的to C智能体出现 (也就是OpenAI定义的L3阶段) 今天在尝试中。

张小珺:今天是尝试去拿那张船票?

李想: 对。 今天大家做的所有事情,是为了拿AGI的L3和自动驾驶的L4的门票。


04 L4就是智能体

张小珺: 在我脑子里,理想同学作为个人助手和汽车的智能驾驶是两件事——这是两个产品,支持他们的是两种技术架构——为什么给我感觉,在你脑子里,它们是一件事?

李想: 由于这两个领域同时都做,我们看到一个更有意思、让我们更坚定去做的机会。

今天我们做的理想同学和自动驾驶,按行业标准是分割开的,处于早期阶段:

●我们在做的Mind GPT(理想自研大模型),大家叫LLM、大语言模型,其实它叫语言智能。

我们在做的自动驾驶,李飞飞定义叫空间智能,我们内部叫行为智能。

只有你真正去这个领域大规模做,才知道这两个有一天一定会连在一起。

如果一个人只有语言智能,他足够聪明,但不能行动。如果一个人只有行为智能和空间智能,他像一个普通工种。一个人什么呢?是这几个结合。

我们认为,基座模型到一定时刻,一定会变成 VLA(Vision-Language-Action Model,一种结合了视觉、语言和动作的多模态模型) 因为语言模型也要看三维世界,也要通过语言、认知理解三维世界。三维世界不只有图片,或者用Diffusion、生成的方式就可以。因为它并不能还原真实物理世界,需要向量。

自动驾驶也一样,它真正变得更强,走向L4,是它要有极强认知能力。当这些东西发生变化,它能够有效理解这个世界,而不只是端到端背后的那些压缩记忆。这是我们看到的一个变化。

所以,我对团队的一个要求:至少在中国范围内,未来几年必须保证大语言模型的基座模型是行业前三。 你需要什么样的训练算力,我们愿意投资。要真正跟头部企业去PK,去竞争,把能力构建起来。而不只是在汽车行业里比一比。

对于我们最开始做的端到端+VLM(智能驾驶的架构),还包含下一代研究工作,我们如何在空间智能里保证在中国是最领先、第一的地位?这非常之重要。

但我相信这个时间点会非常相似——就是,空间智能实现L4,语言智能实现Agent的时候——一个大概率是,这两个会变成一个模型。

张小珺:就是VLA模型?

李想: 就是Vision、Language和Action(视觉、语言和行动),它跟人一样。变成一个更大的模型能力。

其实L4就是智能体。 智能体,你必须得很好地理解物理世界。

张小珺:智能驾驶能怎么帮助大语言模型?

李想: 智能驾驶所获得的数据可以为语言模型或者下一步基座模型,构建三维向量空间的能力。

举个例子,我们在VLM使用中也会遇到一些问题,今天VLM是从大语言模型基础上做出来的。虽然做VLM这些基座模型,它也会喂几亿甚至几十亿张图片,但这些图片是二维的,在三维向量空间里,比如我们去做自动驾驶,它可以通过这个画面看到:哦,哪里是公交车道?公交车道提示是什么?什么是潮汐车道?甚至能认出交警,这个交警在干什么?但它并不知道具体位置。

是因为端到端的基座和VLM基座是两个不同基座,它俩只能互动,不能通过端到端确定位置。这也是我们看到说:哎,最终,它应该像人类一样,一套大脑系统既能处理语言,也能处理图像,并且处理图像的时候,人是具备三维向量空间的能力,能调用自己的行动。

接下来也能看到我们的一些论文。我们如何用三维向量空间,包括用高斯球方式,给语言模型具备三维向量空间的能力。

张小珺:它最终会合并统一到Mind GPT基座模型上?

李想: 到时候是不是叫Mind GPT,不一定。

但我们肯定会往语言模型放三维向量token,现在已经开始尝试,做预训练。


05 终级产品想象是硅基家人

张小珺: 很多人说你是超级产品经理,能不能从产品的角度讲讲,随着人工智能的能力从L1到L5(按照OpenAI定义标准)演进,你对产品是如何构想的?今天我们看到的还是一个非常基础的对话App,以后呢?

李想: 产品是把用户需求和你背后所有能力进行结合。好的产品经理是,我对需求了解得足够清楚,且我对能力了解清楚——这两个交集越大,产品价值越高;交集越小,产品价值越低;或者浪费越多,内耗就越多。

今天哪怕我在公司想推动人工智能,最重要的是,让大家对很多东西的理解变容易。对于实现AGI到最终阶段,我经常用三种方式描述:

第一阶段叫“增强我的能力”。 增强我的能力意味什么?意味着它是我的一个辅助,但最后决策权在我这。 我可以拿Midjourney画一幅画,但最后还要拿Photoshop修改一下才能出版。我也可以拿理想同学生成一篇文章,但这个文章不会直接发到公众号,还要进行文字整理。包括L3智能驾驶,我们叫“有监督智能驾驶”,还需要我在车上监督,我来进行最后兜底。这里边核心是,第一个阶段能力还不够。

张小珺:所以在这个阶段负责任的是人。

李想: 对。但如果你能特别好地使用人工智能这方面能力,它确实让我变得更方便、效率更高。随着它能力的提升,也随着人类对它信任,到第二个阶段,就是智能体所描述的阶段。

第二阶段叫“成为我的助手”。 我只要给它发任务,甚至可以发连续任务,它就可以独立完成,并对结果承担责任。

比如,我可以跟一辆L4的车讲,你要去帮我接孩子,我不需要坐在车上,它就可以到学校帮我接孩子,并进行面部识别,打开门让孩子上车,然后再完成下个任务,送孩子学游泳、学乐高。 它也可以帮我做上周工作总结,并发给我所有减一层管理者。这是第二个阶段。

这个阶段比较好的状况是,它会变成大规模应用,是真正的iPhone4阶段。

而汽车企业只有实现了L4(按自动驾驶行业标准),才是真正的iPhone4阶段,今天还不是。


作者注:国际汽车工程师协会定义自动驾驶4个阶段:

L1级别/辅助驾驶:系统能持续执行车辆横向或纵向运动控制中的一个方面,如自适应巡航控制和车道保持辅助;

L2级别/部分自动驾驶:系统能同时控制车辆的横向和纵向运动,但驾驶员必须始终监控驾驶环境并准备接管;

L3级别/自动驾驶:在特定条件下,系统可完成所有的驾驶操作,但驾驶员需要在系统请求时接管;

L4级别/高度自动驾:在定义操作区域内,系统可完全独立操作,即使遇到复杂或紧急情况也无需人类介入。)


张小珺:今天汽车企业是什么阶段?

李想: 如果实现L3(按自动驾驶行业标准),更像黑莓阶段。方向盘在上边,就跟键盘在上边一个道理。

第三阶段是我想的终极阶段。因为我们要“创造移动的家,创造幸福的家”,我在内部叫“硅基家人”。

我不需要再给它任何指示,也不需要分配任务,它就是家庭成员,甚至是家庭重要的组织者。它不但了解我,还了解我的孩子,了解我身边的朋友,甚至比我还了解。它更多记录下的是事实,我很多时候记录的是一种感觉和一些被压缩的记忆。这时它会主动干很多事,可以自主帮我把家管理好。

我作为一个人很重要的是记忆。我的记忆就是我的模型,它也在不停训练,变得更强。很重要的一点,我的记忆会被它得以延续,可能我的肉体不存在了,但我的记忆会变成它的一部分。我的后代想了解我很容易,只要跟它聊就像跟我聊,没区别。

张小珺:那你也没有隐私了啊。

李想: 我是它的一部分了。

如果按照OpenAI定义,到AGI,它本身是组织者。它不是只有能力,必须有智慧—— 它会是人类优质智慧的汇集之河,不只是人类知识和能力的汇集之河。

张小珺:在产品形态上,“硅基家人”是你脑海中构想的最终产品吗?

李想: 对。 我最兴奋的是,我和我们团队能在有生之年实现第三阶段,我希望是通过我们的手实现。

不过,哪怕最终由于各种遗憾,没有通过我们的手实现,我也希望看到有最顶尖的企业,把这个阶段在我们有生之年实现了。

张小珺:如果你的最终目的是“硅基家人”,那它不适合叫“理想同学”这个名字,会改名吗?

李想: 很快大家能看到我们允许每个人创造自己的理想同学。

但如果它不是家人阶段,不要强努着给它一个家人阶段的名字。


06 人工智能表达的是能力,不是功能


张小珺: 这类(对话类)产品已经高度同质化,你们的优势是什么?
李想: 今天还不能讲同质化,真正大规模to C的关键节点,是在智能体实现的阶段。今天大家都有机会。
作为理想汽车,分三个维度讲:
1. 相比一般创业公司,我们有100万家庭用户的基础,有启动量。
2. 在大语言模型产品和基座方面,我们是跟随者,但跟随要有目标。我们从10名开外怎么先进入第五,从第五怎么进入第三。这也是我们后边要设定目标,以及和最好、最优秀的选手进行对比的有效工作方式,并按照这样的目标有效投入。
3. 在空间方面,包括端到端,今天大家听到各种各样做机器人、具身智能的公司讲“系统一”、“系统二”,大家可以回头看一看这些论文,最早是我们自动驾驶研究团队做的。所以,在空间智能或行为智能方面,我们对自己的要求是必须保持第一。
张小珺:你刚才说产品就是要技术能力匹配产品需求,你今天是对产品需求认知更深,还是对技术能力认知更深?
李想: 我觉得不太一样了。大模型到来以前的阶段,我们通过编程甚至规则算法做硬件——本质上我们提供的东西叫“功能”,并且这个“功能”有“体验”。比如这是冰箱,它是功能,冰箱放在不同地方,体验是不一样的。
所以,这时候企业很重要的竞争是,你提供什么样的“功能”,以及这个“功能”带来的“体验”,再加上“品牌”。无论你是互联网产品,还是硬件产品,或者智能硬件产品,你又提供软件功能,又提供硬件功能——这是这个时代的竞争。
“功能”比较好理解,“功能”最主要获取方式来自“体验”。无论是你通过买不同产品获得体验,还是在供应商那看到新东西,或者自己研发,可以通过体验判断功能价值。只要你愿意做,获得功能和体验没那么难。
愿意做小白鼠很重要。我们为什么率先出理想汽车iOS的App,是因为我从iPhone1开始没有短信,要通过贴东西才能用SIM卡。那时很多人嘲笑,李想你小白鼠,为什么要用这些东西?
可能大家不知道,我是中国第一辆雪佛兰Volt这个通用的增程电动车的使用者。很贵,那时40多万买了一辆车。大家会觉得我是小白鼠,但小白鼠一个好处是,能获得优先选择权。我就会比所有没体验过Volt的人,更了解增程到底什么样,还有那些做的不成功的增程,为什么不成功。它的小电瓶和大电池没有连接在一起。你只有体验,能获得这样的一个认知。 所以我说这是“功能的时代”。
但到了人工智能时代不一样——人工智能时代是“能力的时代”。
所以,从人工智能开始,这些头部人工智能企业必须搞研究。研究工作并不是技术本身,还有包含比如它跟人类记忆的关系,这样才能对技术方向有效判断。 必须得搞研究,再搞技术研发,再产品化。前两个步骤如果做不好,直接产品化,根本不行。
有点像杨植麟(月之暗面创始人兼CEO)讲的那句话:“屎上雕花”。
张小珺:所以,AI时代企业竞争的维度变了?
李想: 对,变了。
张小珺:不可能一家公司不做技术研究,只做产品?
李想: 当然取决于你想成为什么样的AI公司。如果你想做AI细分里边再细分的小应用,没问题。但如果你想做AI助手,想做基座模型,想做L4自动驾驶,就不一样了。你必须得搞技术研究工作,跑不掉的。
张小珺:你怎么看杨植麟说的“模型即应用”?也就是,好的产品是在模型能力提升过程中“沿途下蛋”。你认可他的这种产品观吗?
李想: 当然认可了。大家最开始说:哎,OpenAI去做聊天工具,所以我们可以做搜索!但你今天看,OpenAI也在做搜索,OpenAI也会进入一个个细分领域。
原来讲是“功能”,今天是“能力”。 能力有了,任何能力所能解决的问题都能实现。


07 李想有理想吗?

张小珺: 很多人认知你,觉得你是一个非常实用主义的人。大家在追求做电车的时候,你还在做增程,为什么你今天对人工智能技术这么激进?——李想有理想吗?

李想: 我觉得不是有理想、没理想的问题。

是……(停顿3秒)……我第一次创业,泡泡网做的并不成功,起了个大早赶了个晚集。我后来真正明白一点,就是中国古人讲“天时、地利、人和”,非常之重要,而且这三个有清晰顺序。

排第一的是“天时”。商业社会什么是“天时”?“天时”就是技术,是我们对技术有效使用。

作为创业者,如果我做一辆燃油车,还做了10挡变速箱,我仍然卖不到奔驰、宝马任何一个品牌在中国1/10的销量。但我如果做增程车,并赋予了非常好的软件体验和部分的人工智能体验,我就可以在很短时间追上奔驰、宝马、奥迪的销量,甚至在可见的未来一两年,超越他们。这是重要技术变革点。

人类跟我们相关最重要的技术变革:一是能源,二是信息。

“天时、地利、人和”。第一重要是技术。第二重要是“地利”,在哪创业。你如果不在中国和美国,想做人工智能,太难了。因为你不是主流语种,你没有足够庞大的市场,你没有足够多的人才和这方面的投入,包括人才是否经历了上一个时代能力的积淀。第三才是“人和”,要面对什么样的用户,构建什么样的组织。

技术第一重要。进入汽车行业,很多人说,巨头们都那么厉害,几十年没有真正大厂出现,为什么觉得你有戏?——还是我说的,我比汽车厂商更知道怎么做大型软件,比互联网公司更了解汽车,因为做了10年汽车之家。

进入这行后,我们发现真的跟想的方向一致。拿汽车行业举例,这是我相信的东西:

时代演进方向:BT——IT——DT——AI。

奔驰虽然发明了汽车,但真正汽车行业进入老百姓家是福特开始。 福特跟其他作坊型汽车厂一个根本差异在于,建立了流水线和生产线。 它用了几分之一的价钱,就可以让普通美国老百姓拥有福特T型车。这时,它干了一件事,是把生产一辆车流程化了。 我们内部把流程的简称叫BT,是流程。 这是第一阶段。后来丰田又把流程发挥更加极致。美国到70年代还成立了流程协会,流程协会也诞生了后边大量软件公司。

到第二个阶段什么?是IT出现,就是软件,而且是以控制为目的的软件出现。 我们在建常州第一个工厂时,还没有精力自己写这个工厂软件,我们当时就选择是SAP还是Oracle的工厂软件?当时我就问顾问公司:SAP和Oracle有什么不同?他讲,SAP呢,比较反人性,比较死,什么都不能改,但好处是,所有人不要指望从这边任何一个流程绕过去;Oracle有比较好灵活定制的能力。

我一个做互联网公司出身的,肯定觉得Oracle好。当时又问了一句:如果从汽车行业最佳实践看,是什么样的?他说,至少在中国大部分用Oracle的,最后也都切回SAP。

哦,我当时就明白了——这些软件能力和我们互联网公司构建的软件能力不一样,最主要目的是控制。包含银行上IT系统,包括制造体系、销售体系上软件系统,都是为了控制。之前流程靠人来盯着,靠纸来记。今天跑在软件里。所以,汽车上万个零部件可以标准化生产出来,甚至汽车跑在路上的质量比手机还要好,是BT和IT发挥了巨大作用。

到第三阶段非常有意思。这个时代描述最好的是,从IT时代进入到DT时代,DT指Data Technology(数据技术)。

我们做互联网公司,我做汽车之家,所有网站服务用户的软件是自己写的,所有面向客户的软件是自己写的,包括所有数据分析、流量分析的软件都是自己写的。这是中国成规模的互联网公司必须要有的能力,因为你每个月要服务上亿访问者。我们当时写这些系统后,会发现跟IT有很大不同。

所有数据必须满足三个条件:

第一,它必须是面向一个客户提供闭环服务。 传统公司喜欢叫“端到端”,互联网公司叫“闭环”。包括他从进入一个店,到把这个车买走,这是一个“端到端”。

第二,我要获得原子级数据,而不是控制点的数据。







请到「今天看啥」查看全文