专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
国家林业和草原局  ·  飞越四大沙地 | 科技赋能 ... ·  23 小时前  
国家林业和草原局  ·  飞越四大沙地 | 科技赋能 ... ·  23 小时前  
元素同位素地球化学  ·  《Nature》科学家揭示海底成海洋微量元素 ... ·  昨天  
元素同位素地球化学  ·  《Nature》科学家揭示海底成海洋微量元素 ... ·  昨天  
51好读  ›  专栏  ›  腾讯科技

读懂DeepSeek开源周:一场技术普惠的嘉年华,极限提升大模型效率

腾讯科技  · 公众号  · 科技媒体  · 2025-03-03 12:52

正文

请到「今天看啥」查看全文


DeepSeek选择了2025年2月的最后一周作为“开源周”,公布了FlashMLA(优化语句解析算法),DeepEP(优化多机协作机制),DeepGEMM(提升矩阵乘法效率),DualPipe(压榨计算机资源的手段),EPLB(实现生成不同领域内容)和3FS(高性能存储)。同时,DeepSeek还公开了一些研发过程中的分析数据。
我们在文章开头提到过,无论是DeepSeek,ChatGPT,还是其他的生成式AI,本质上都是让计算机进行一系列矩阵运算。那么, 想提高生成式AI算法的执行效率,就应当从三个方面着手:缩小矩阵规模,提高运算效率,减少等待时间 。在过去精彩的一周里,DeepSeek公布的这些核心技术,都是聚焦在这三个方面。
1、FlashMLA:语言解析加速器
我们知道,生成式AI的输入,一般是人类的自然语言。在Transformer模型中,将自然语言进行编码与分析的机制,就是所谓“Attention”机制——先将每个词编码为512个数字组成的“向量”,再使用Q,K,V三个矩阵对每个词和全文中其他所有词,进行关联分析。显然,随着输入长度的增加,总的计算量会以平方律上升,同时,还需要消耗宝贵的GPU内存,用于保存整句话中每个词的K和V矩阵。
FlashMLA针对这一问题的解决思路是,设法把K和V两个矩阵压缩,例如将矩阵中相对过于小的数,以及一部分为0的数去掉,来节约内存,减少计算工作量。进一步地,FlashMLA还针对Nvidia 的H800 GPU进行了优化,考虑到H800卡间通信带宽限制,减少了读写其他卡上数据的需求,避免了卡间通信带宽限制计算性能。
在FlashMLA加持下,H800单卡能发挥的FP8计算性能从300T FLOPS提升到了580T FLOPS,并且把内存带宽压榨到了理论极限的90%。那么,如何进一步提升计算的性能呢?
2、DeepGEMM:跨时代的AI基石
几乎所有的AI计算都离不开矩阵乘法。由于矩阵乘法可以分解为多组没有相互依赖关系的重复计算,工程师们定义了GEMM(GEneral Matrix Multiply,通用矩阵乘法)算子,而Nvidia也在cuBLAS和NVBLAS这两种数学库中,基于自身的GPU实现了这一算子的并行运算。可以认为,GEMM是包括Transformer模型在内的所有AI算法的基石,其重要程度堪比动力装置对机械化与工业化体系的意义。
DeepSeek对GEMM做了革命性的优化。DeepSeek考虑到Nvidia Hopper系列GPU内部的Tensor Core(专用的矩阵运算电路)可以支持8-bit浮点数计算,但精度不如16-bit和32-bit浮点数,DeepGEMM将中间过程暂存为32-bit浮点数以提升精度,同时计算速度与8bit相差无几。
值得注意的是,实现这一运算,需要绕开一切现有的开发库,直接写机器指令实现,其开源行为实际上对Nvidia的“护城河”——CUDA生态,发出了直接的挑战。我们甚至可以认为,DeepGEMM的意义,就如同蒸汽机-内燃机-电动机的迭代驱动历次工业革命那样,会驱使生成式AI技术进入一个普惠大众的时代,从而成为跨时代的AI基石。
3、EPLB和DualPipe:驱动工业革命的效率大师
社会科学工作者在分析美国崛起的原因时,往往提到20世纪初在美国出现的泰勒管理制度和福特生产流水线这两个概念。在工业生产中,泰勒管理制能让每个工作者充分发挥自己的专长,而福特生产流水线能避免人的工作时间浪费在等待中。EPLB和DualPipe在DeepSeek中起到的作用就类似于泰勒管理制度和福特生产流水线。
生成式AI的核心技术之一,是所谓“专家模型”。它的工作原理是,把计算机对自然语言理解的结果输入到描述“专家模型“的矩阵,经过一系列矩阵乘法运算,得到生成的答案。为了让专家模型在通信能力受限的H800 GPU集群上取得更好的效果,DeepSeek使用的是MoE模型,也就是使用多个专注于特定领域的小型专家模型来生成内容——这类似于医院的不同科室,在初步识别患者的问题后让最匹配的专家进行诊疗。
在医院中,不同科室有可能会有分工合作,各科室的繁忙程度也可能会有较大差异。那么,如果将密切合作的科室安排在同一楼层,同时,对繁忙的科室,多聘请一些专家坐诊,就可以有效减少患者就诊等待时间。EPLB在设计时,就借鉴了这一思路,将频繁互动的几个专家模型放在同一个GPU,从而减少卡间通信,同时,如果发现某些专家模型调用量显著多于其他专家模型,就多复制几个这些专家模型来扛住并发的计算。






请到「今天看啥」查看全文