正文
相信个人,尤其是年轻人的创造力,在硅谷的文化中非常常见。或许我自己的经历可以佐证:我毕业后加入 Meta,半年后向主管提出想做一个全新的内容理解引擎。一个月后,10人左右的虚拟团队就成立了。
我想梁文锋应该从 OpenAI 的经验中参考了很多,他在暗涌的采访中,多次提到类似的观点:
他自己说过,这样的小天才式的创新,在硅谷每天都在发生。但这不能抹杀 DeepSeek 出现的意义,因为他不仅证明了中国能孕育硅谷型的创新文化,
甚至还可以进一步规模化这种模式
。
想象一下,这样的文化,扩散到更多的创新型公司,成为主流,会是怎样的一种盛况?
如果说,DeepSeek 只是复制了硅谷的小天才模式,为什么会让那些发明这个模式的 OpenAI 们,如此紧张?这就要提到第二个关键要素。
当你深度阅读完 DeepSeek 的论文,尤其是 V3,一种新的感受会慢慢浮现:
这是一个从底层硬件到上层算法的复杂大系统,以优雅的顶层设计环环相扣,以大破大立的方式平推完成。
这就是创新的第二重门:
军团式的协同创新
。而这,恰恰就是中国擅长的模式,也是我借用华为之名的原因。
硅谷教父 Peter Thiel,对这种创新有过一个深刻的表述。他认为一个真正的垄断式创新,需要构建 Complex, Vertically Integrated System,许多不同层面的创新必须同时发生,并以一种高度协同的方式组合在一起。他认为 Elon Musk 成功的根本,就来自于对这种协同复杂系统的追求。而 Elon Musk,也被认为某些方面是最接近中国企业的(不仅是卷,笑)。
DeepSeek 是如何平推创新的?
在第一重门,我们拿着放大镜,看 DeepSeek 在三个算法上的极致优化。但这些单点优化,也容易引入超越算法范畴的问题。
所以让我们切换视角,从更全局的视角,来重新理解 DeepSeek 的创新结构,第一条线是模型的迭代节奏(这里忽略了很多支线) :
-
-
2024年2月,发表 DeepSeek-Math,提出 GRPO
-
2024年5
月
,推出 V2,提出 MLA 和 DeepSeek-MoE
-
2024年11月,推出 V3,提出了 MTP 和一整套软硬一体优化方案等
-
震撼吧?从 DeepSeek-Math 的第一次推出,到最后走到 R1,不到12个月。但速度甚至都不是我们讨论的重点。
而是另一条纵向的主线:他几乎从基础设施搭建,到底层硬件优化,到模型算法创新,一整个自己重做了一套。更关键的是,
他们是高度协同优化,逢山开路,遇水搭桥,充满了整体的逻辑性
。我来尽最大努力,试着梳理一下:
(0) 首先构建自己的集群(萤火),为了更高效的并行训练,那就自研 HAI LLM训练框架
(1) 发现传统 Attention 的 KV Cache 开销太大,那就用 low-rank 来重新设计 MLA,缓存量下降 90% 以上
(2) 发现传统 MoE 缺乏共享专家和细粒度专家,涌现能力不够,那就设计自己的 DeepSeekMoE 解决专家精细度和共享知识问题
(3) 发现引入的细粒度专家在训练中负载均衡有挑战,那就自研专家偏好的路由算法,保证每个专家都训练充分
(4) 发现 MoE 在管线并行(大模型不同层次分卡训练)中很多通信带宽和计算带宽无法对齐,造成浪费,那自己设计 DualPipe 算法解决