正文
3、DeepGEMM:
接下来,第三天Deepseek发布了DeepGEMM项目,这是一款针对DeepSeek-V3架构专门设计的、用于FP8精度的通用矩阵乘法(GEMM)优化库。DeepGEMM支持普通模型和MOE混合专家模型(Mix-of-Experts, MoE)中矩阵乘法的运算,且仅支持H系列GPU。它通过优化FP8计算,提供了极致的矩阵乘法速度,特别适用于DeepSeek-V3模型。
DeepGEMM是深度学习中最基础的操作之一,矩阵乘法在AI模型计算中占据了重要地位,几乎所有的深度学习模型都需要进行矩阵乘法运算。DeepGEMM的设计优化使其在矩阵乘法计算上比Nvidia自家的库快了约2.7倍,而且只用大约300行代码。它的优化极大提升了基础算子的计算效率,并展示了Deepseek在硬件优化方面的能力。这个优化不仅加速了DeepSeek-V3的运算,还为AI模型的底层计算提供了一个良好的优化范本。
Deepseek的DeepEP和DeepGEMM项目分别针对MOE架构的专家通信和基础矩阵乘法进行了优化,推动了行业对MOE架构的进一步关注,同时也为DeepSeek-V3架构的应用提供了更加高效的计算工具。
4、DualPipe和EPLB:
第四天,Deepseek发布了DualPipe和EPLB两个项目。
DualPipe是一个双向流水线并行算法,旨在优化DeepSeek-V3和R1模型训练中的计算与通信重叠时间,减少流水线上的气泡(即等待时间)。在训练过程中,显卡可能会因为等待其他显卡的计算或通信而处于空闲状态,称为流水线气泡。DualPipe算法通过在等待时间内分配其他任务,充分利用显卡的空闲时间,从而提高计算资源的利用率和训练速度。该算法目前仅支持NVIDIA的H系列显卡,使用时需要配备H系列GPU。
EPLB(专家并行负载均衡器)是一个冗余专家策略,旨在优化硬件利用率,减少推理阶段的资源浪费。EPLB主要通过均衡多个专家之间的工作负载,避免某个专家过载或空闲,提高推理效率。与DualPipe不同,EPLB不仅限于DeepSeek模型,它具有较强的通用性,能够在各种MOE模型中使用。EPLB同样只支持H系列显卡。
通俗理解,DualPipe类似于生产线上的多条流水线,优化等待时间,以填充显卡的空闲期,从而提升效率;而EPLB像是对多位专家的工作负载进行智能调度,确保各专家高效运行,不会出现过载或空闲现象,进一步提升推理速度。
DualPipe和EPLB解决了大规模并行训练中的关键问题:计算资源利用率低和负载不均衡。DualPipe通过重新编排计算任务,打破传统的流水线并行模式;EPLB则为MOE模型提供了智能资源调度策略。这两个技术的开源,体现了Deepseek在分布式系统优化上的深入思考,尤其是针对H系列显卡的优化,推动了开源社区和行业在这一领域的发展。
5、3FS文件系统和Smallpond:
第五天,Deepseek发布了3FS文件系统和Smallpond。
3FS是一种高性能并行文件系统,能够实现文件系统与GPU之间的快速数据传输。它的设计目标是提升在大规模数据处理和大模型训练中的数据访问效率,尤其适用于需要高效数据传输的任务。
Smallpond是基于3FS的一个分析工具,适用于处理海量数据。它的设计主要为优化硬盘与GPU之间的传输效率,尤其适合大规模计算任务,如大模型训练。Smallpond最初是幻方量化团队的技术,被Deepseek团队采用并开源。Smallpond具有广泛的通用性,可以用于不同类型模型的文件传输和GPU通信,尤其在量化和大模型训练中表现突出。尽管它最初用于量化优化,但由于量化过程也需要处理大量数据,因此Smallpond的底层传输技术也能有效提升大模型训练中的数据处理效率。
3FS和Smallpond的组合极大提升了数据处理效率,并颠覆了传统的数据准备模式,从“先处理后训练”转变为“边处理边训练”。这两个技术不仅优化了训练过程中的加速算法,还在数据处理环节实现了加速,进一步推动了整个训练流程的高效化。Deepseek将这些技术开源,几乎覆盖了整个训练过程,开发者可以基于这些开源工具部署和训练Deepseek模型,接近Deepseek团队的训练速度。
三、One More Thing:V3和R1推理系统的利润率情况
Deepseek还发布了一个名为One More Thing的报告,揭秘了V3和R1推理系统的利润率情况。
报告中展示了一天内GPU的消耗和理论收入的对比。蓝色部分代表理论收入,黄色部分代表GPU成本消耗。可以看到,蓝色部分远高于黄色部分。根据计算,成本利润率大约为545%,这些数据是基于Deepseek R1模型的标准API定价进行测算的。然而,实际收入远低于这个数字,因为大部分调用并不是Deepseek R1,而是Deepseek V3。具体比例没有公布,也未进行测算。
以ChatGPT为例,ChatGPT-4的推理占比约为80%,而GPT-3的推理模型占比约为20%。类似地,Deepseek V3的API调用占绝大多数,且V3的定价远低于R1。因此,以R1的标准定价来计算实际收入存在偏差,实际收入会低于理论收入。