李沐重返母校上海交大，这里是演讲全文！附现场视频！

机器学习算法与Python学习 · 公众号 · · 2024-09-03 16:52

正文

请到「今天看啥」查看全文

模型：从语言到多模态

语言模型：100B 到 500B 参数会是主流

接下来讲模型，比如说语言模型。每次预训练，无论是 OpenAI 还是别的模型，基本都是用 10T 到 50T token 做预训练。开源的话基本也在 10T token 以上。这个数据量我觉得差不多了，不会再往一个更大的尺寸去发展。原因是，人类历史上的数据比这个多是多，但是看多样性、质量的话，我觉得 10T 到 50T 这个规模就差不多了。你说我还是能弄到很多的数据进来，但这个数据质量不一定能给你带来一个更好的提升。也许你可以弄到更多的数据，但是清洗之后可能会回到一个这样子的值。

你的模型大小就是 100B 到 500B 这个样子。我觉得比较好的一线的模型就是 500B，超过 500B 不是训练不动，而是做 serving 很难。在谷歌历史上，他们就没有让 500B 以上的模型上过线。OpenAI 没有对外说，但我觉得 OpenAI 历史上没有上线过有效大小超过 500B 的模型。当然 MoE 不算，我是说换算成稠密模型的话。所以，很有可能在未来一阵子，因为受限于内存大小和数据的尺寸，我觉得 100B 到 500B 会是未来主流的一个大势。你可以做更大，但是它很多时候是用 MoE 做的，它的有效大小（每次激活的大小）可能也就是 500B 的样子。

语音模型：延迟更低、信息更丰富

GPT-4o 出来之后，大家对于语音模型产生了浓厚的兴趣。以前的模型是我先做 ASR（自动语音识别），把语音信号转成文本，然后放进语言模型，让它出一个文本的回复，再通过 TTS 变成一个语音的信号。现在大家做的是直接让你的原始的语音信号进去，然后原始的语音信号再出来。

后者的好处有两点：一是我们说话的时候，其实里面包含了很多东西，包括情绪、语调以及你是哪一类的人。大家能够通过声音去分辨你的方言，通过你说话的音调能大概知道你是一个什么样的人。所以人的语音信号里面包含很多东西，还有你的背景音乐、场景音乐，甚至你唱歌的节奏感都有很多信息在里面。目前我们那一套传统的技术是做不了的。这套新的语音技术可以让语音直接进去，然后利用文本语言模型强大的能力去发掘里面的信息。在做输出的时候也是一样的，我的输出可以根据你的输入的个性化场景来变换语调、情绪。这是一点。

另一点是延迟更短。之前我要先输出一句话，再进到一个模型去把语音输出来，这个延迟可能是 1 秒。现在我们大概可以做到 300 毫秒。300 毫秒最大的好处是可以打断。人与人之间交互，就我跟你在说话的时候，你说一句，我可能会回应一下，或者中间会打断，所以这个体验就会做得更好，更像真人一些。

我觉得这是这个技术目前能看到的最好的两点。

还有一点就是说，它能够通过语言模型对整个输出做很多控制。可以让你用文本定制化一个什么样的声音出来。

音乐模型：不是技术问题，而是商业问题

另外一个国内在商业上做得挺好的东西就是音乐的生成，最近出了挺多做音乐的一些工具。我觉得这一块的进展从来不是一个技术问题。它的技术其实比语音麻烦一点，因为音乐比人说话更复杂一点。但是实际上它还是一个版权的问题。现在大家开始慢慢解决版权的问题 —— 大公司去买版权，小公司想反正我光脚不怕穿鞋的，我就上。

市面上我觉得已经很好了，就是说抖音快歌，虽然爆款很难，但是如果你不是音乐专业的人，你听下来觉得没什么问题。我之前看一个同事写首歌，歌词大意是：我在公司就一个朋友，这个人去吃饭了，一个半小时还没回来，我觉得他是不是出什么事了？我是不是要打电话给他女朋友问一下呢？但我又是一个很社恐的人，我又不敢跟人打电话。

就是说，音乐是一种表达，是一个人的交互，任何一个什么感觉你都可以通过音乐表达。以前你很难用音乐把它很富有情感地表达出来。大家可以写诗，写诗可能比音乐容易一点，现在你掌握了这个表达工具之后，我们未来很多人会用音乐这个形式来表达想法和情感。我觉得这个可能是影响力会特别大的，那它不是个技术问题，它可能还是一个商业问题。

图像模型：生成的图越来越有神韵

接下来是图像。可能大家最近几天都看过那个做得很真的 TED 演讲的图片。

目前来看，图片应该是整个 AIGC 领域做得最早的，也是效果最好的。现在大家可以做到 100 万以上像素的图片的生成。大家说得最多的是图片要有灵魂。之前你去看那些文生图的工具，它的风格还是很假，但现在你会看到跟真的很接近，当然它还缺那么一点点灵魂，不过这一块说不定很快就有了。

视频模型：尚属早期

Sora 出来之后，大家非常关注视频模型。这个实际上还算比较早期，通用的 video 生成还是非常贵，因为 video 数据特别难弄。视频模型的训练成本很有可能低于数据处理的成本，所以你没有看到市面上有特别好的开源模型出来。问题在于生成一张图片容易，但生成一连串连贯的图片，并保持一致性是很难的。

多模态模型：整合不同模态信息

目前存在一种趋势，即多模态。现如今，多模态技术的发展趋势在于整合不同类型的模态信息，尤其是文本信息，因为文本含有丰富的信息并且易于获取。通过利用在文本上学到的技能，可以将这些能力泛化到其他模态，如图片、视频和声音。

这样做有两大好处：一是可以借助强大的文本模型进行泛化。另一个优点是可以通过文本来定制和控制其他模态的输出，比如用简单的文本指令控制图片、视频和声音的生成，而不再需要专业的编程技能或工具。比如写代码，以前可能需要专业的写代码工具，现在交给 ChatGPT，你通过文本下达要求就行了。逐渐的，你想要生成某个模块的话，也是通过文本去控制的，这应该是未来可能的一个常态，大家用自然语言去做交互。

总结下来，我觉得语言模型已经达到了较高的水平，大约在 80 到 85 分之间。音频模型在可接受的水平，处于能用阶段，大约在 70-80 分之间。但在视频生成方面，尤其是生成具有特定功能的视频尚显不足，整体水平大约在 50 分左右。

还有一个推论是我觉得人机交互会有一点改变，比如在点菜时，在 ChatGPT 出来之前我们与手机的交互方式是刷刷刷和点点点，这是最简单的方式，对人类来说也不耗费精力，能不说就不说。但在 ChatGPT 出来之后，大家打破了这种观念，他们愿意去输入一段很长的文字去做事情，这是因为设计好的东西不一定满足我们的所有需求，可能满足了 80%，但没有满足对细节的需求，这时可以通过长文本，即输入很长的文字来解决。但输入长文字还是不如说话方便，所以在微信上很多人会说我语音留言会方便点。

现在语音技术正在进步，未来大家可能会越来越能接受对方用一个很长的语音跟你描述一些事情，让你去完成。虽然早期的语音控制系统通常只用于执行简单的指令（例如「开窗」），这种简单的功能并没有形成强烈的用户黏性，因为用户可以通过其他简单的操作来完成相同的任务。但是，随着技术的发展，未来的语音控制系统将能够处理更加复杂和具体的任务，这种技术的自然和便捷性将显著提高。

所以这是用户习惯问题。大家可能都在说我们这一次的技术革命还没有出现 killer APP（杀手级应用）。所谓的 killer APP 就是说一个技术的出现，可能会涌现出一个非常受欢迎的应用形态。

大家知道手机的 killer APP 是什么吗？短视频。回想一下五年前，你可能很难想象大家会刷那么几秒钟的视频。

所以这一次的 killer APP 是什么？

上一波的顶级 AI 公司基本上快死得差不多了，包括 Character.AI、Inflection 被卖了，Adept 也被卖了，还剩一个 Perplexity 搜索还在支撑着。但是下一代 killer APP 是什么大家不知道。可能等技术变成熟，大家的不习惯慢慢地过去了，这个东西会涌现出来。

应用：AI 离变革世界还有很多年

在应用层面，AI 本质上是去辅助人类完成任务，给人类提供无限的人力资源。我将应用分成三类：

第一类就是文科白领。白领是用自然语言去跟人、跟世界打交道，包括写文章或者其他。我认为在这方面做的比较好的领域包括个人助理、Call centers、文本处理、游戏和舆论以及教育。一个文科白领可能一小时完成的事情，我们的模型还是能够完成百分之八九十的。

第二个是工科白领，目前 AI 想取代程序员还早得很。在过去，编程往往需要程序员自行查找代码示例，例如在网络上搜索，然后下载一个工作流程的代码片段，对其进行变量修改和调试，以适应特定的任务或项目。

但现在，先进的模型可以自动完成这些步骤。你不用去 copy 代码了，因为整个 workflow 已经给爬下来了，训练的时候已经在里面了。当你向模型提出请求时，它可以直接在其训练数据中检索相关的代码片段，根据上下文，再把变量名改一改，模型就做这种事。但它不是真的在写代码，我们人类一个小时还是能够写出很多复杂的代码的，所以我觉得模型还是没有取代工科白领一个小时干的事情，更不用说更复杂的任务了。