专栏名称: 独角兽智库
独角兽智库是一个新兴产业投研平台,搭建新兴领域高端技术与投资机构、传统行业的桥梁,让专业的资本找到优质的企业,实现新兴产业的快速发展。平台提供新兴产业干货报告、专家咨询服务。
目录
51好读  ›  专栏  ›  独角兽智库

Deepseek开源周专家解读

独角兽智库  · 公众号  · 科技投资  · 2025-03-03 21:40

正文

请到「今天看啥」查看全文


通俗理解,DualPipe类似于生产线上的多条流水线,优化等待时间,以填充显卡的空闲期,从而提升效率;而EPLB像是对多位专家的工作负载进行智能调度,确保各专家高效运行,不会出现过载或空闲现象,进一步提升推理速度。

DualPipe和EPLB解决了大规模并行训练中的关键问题:计算资源利用率低和负载不均衡。DualPipe通过重新编排计算任务,打破传统的流水线并行模式;EPLB则为MOE模型提供了智能资源调度策略。这两个技术的开源,体现了Deepseek在分布式系统优化上的深入思考,尤其是针对H系列显卡的优化,推动了开源社区和行业在这一领域的发展。

5、3FS文件系统和Smallpond:

第五天,Deepseek发布了3FS文件系统和Smallpond。

3FS是一种高性能并行文件系统,能够实现文件系统与GPU之间的快速数据传输。它的设计目标是提升在大规模数据处理和大模型训练中的数据访问效率,尤其适用于需要高效数据传输的任务。

Smallpond是基于3FS的一个分析工具,适用于处理海量数据。它的设计主要为优化硬盘与GPU之间的传输效率,尤其适合大规模计算任务,如大模型训练。Smallpond最初是幻方量化团队的技术,被Deepseek团队采用并开源。Smallpond具有广泛的通用性,可以用于不同类型模型的文件传输和GPU通信,尤其在量化和大模型训练中表现突出。尽管它最初用于量化优化,但由于量化过程也需要处理大量数据,因此Smallpond的底层传输技术也能有效提升大模型训练中的数据处理效率。

3FS和Smallpond的组合极大提升了数据处理效率,并颠覆了传统的数据准备模式,从“先处理后训练”转变为“边处理边训练”。这两个技术不仅优化了训练过程中的加速算法,还在数据处理环节实现了加速,进一步推动了整个训练流程的高效化。Deepseek将这些技术开源,几乎覆盖了整个训练过程,开发者可以基于这些开源工具部署和训练Deepseek模型,接近Deepseek团队的训练速度。

三、One More Thing:V3和R1推理系统的利润率情况

Deepseek还发布了一个名为One More Thing的报告,揭秘了V3和R1推理系统的利润率情况。

报告中展示了一天内GPU的消耗和理论收入的对比。蓝色部分代表理论收入,黄色部分代表GPU成本消耗。可以看到,蓝色部分远高于黄色部分。根据计算,成本利润率大约为545%,这些数据是基于Deepseek R1模型的标准API定价进行测算的。然而,实际收入远低于这个数字,因为大部分调用并不是Deepseek R1,而是Deepseek V3。具体比例没有公布,也未进行测算。

图片

以ChatGPT为例,ChatGPT-4的推理占比约为80%,而GPT-3的推理模型占比约为20%。类似地,Deepseek V3的API调用占绝大多数,且V3的定价远低于R1。因此,以R1的标准定价来计算实际收入存在偏差,实际收入会低于理论收入。 只有部分服务实现了货币化,网页和APP访问都是免费的,但这些已计入实际价格。此外,非高峰时段也有夜间折扣,不是按标准API价格计算。

如果所有时段和API调用都按标准定价,且全部使用推理模型服务,利润率将非常高。发布成本利润率的目的是鼓励同行部署此模型为用户提供服务。由于这一周发布的推理加速和成本优化工作已基本开源,大家可以简单部署低成本的R1模型来提供服务。报告显示,高利润率是为了鼓励更多人部署和提供服务,表明大家不会亏钱。

推理系统的设计采用了计算和通信重叠架构,即在计算的同时进行通信,将计算过程中的空余时间用通信任务填充,从而大幅提升计算效率。

系统包括多个专家模型来实现负载均衡。在编码和解码阶段,专家模型分别参与负载均衡,确保各个阶段的高效运行。整个系统通过这种架构设计提升了推理性能和服务质量。


四、总结:Deepseek开源周的项目特点

1. 项目集中于AI infra加速: 本次开源周的项目主要围绕AI infra的加速进行,包括高效解码计算,如Flash MLA、DeepGEMM等。这些项目利用了最新硬件(如Hopper GPU)和低精度格式(如FP8),以减少内存和计算需求。还包括优化通信、并行处理、负载均衡、性能分析和数据处理优化,整体旨在加速Deepseek系列模型的训练和推理,并有一些泛化的加速项目。

2. 专门针对NVIDIA H系列GPU优化: 大约一半的项目专门针对NVIDIA H系列卡进行优化,例如Flash MLA、DeepEP、DeepGEMM等。这些优化仅适用于H系列GPU,无法在A100、A800等A系列GPU上使用。因此,这些优化是特定硬件绑定的,无法泛用到其他GPU型号。

3. 专门优化Deepseek V3和R1系列模型: 许多项目专门为Deepseek V3和R1等模型进行优化。例如,Flash MLA专为V3和R1的MOA解码进行优化,DualPipe也为V3和R1优化,DeepEP优化MOE模型的通信,DeepGEMM针对FP8精度优化,EPLB则优化MOE模型的计算。这些项目大多与Deepseek系列模型强绑定,但也有一些通用项目和加速工具开源,以便其他厂商提供类似API服务。

开源周的项目主要集中在针对特定硬件(H系列GPU)和特定模型(如Deepseek V3、R1)进行优化,但也有一些通用工具和加速项目,支持更广泛的应用。


五、主要影响

1、边际上,可能会利好广大的中小云服务的供应商,还有AI应用团队进一步降低Deepseek部署成本,扩大Deepseek的使用范围。

降低Deepseek部署成本并扩大使用范围: 这些开源工具专为Deepseek的V3和R1系列模型优化(如Flash MLA和DualPipe等),将有助于中小云服务供应商和AI应用团队降低部署成本。通过开源工具,更多公司能够更轻松地采用Deepseek模型,避免了大量适配工作。因此,更多公司会倾向于选择Deepseek模型,从而提高R1模型的采用率,并扩大Deepseek模型在开源市场的影响力。

解决复现困难: Deepseek在发布论文和模型后,尽管提供了详细的部署方法,但很多厂商未能有效复现论文中的成果,导致Deepseek服务器高负载,且其他厂商部署的Deepseek模型效率低下 。很多第三方服务商采用低效部署方式,造成推理速度慢、用户体验差,且成本高,这使得很多中小型云服务厂商无法以合理的成本提供与Deepseek相同水平的服务。由于亏损严重,一些厂商每月可能亏损上亿元,这在长期内不可持续。

促进大规模使用和生态建设: 为了扩大Deepseek模型的影响力,并加速生态系统的发展,Deepseek选择将具体的部署 代码开源 ,减少了企业根据论文复现的难度。大多数中小型云服务厂商缺乏复现能力,因此无法快速实施高效的Deepseek模型部署。 开源代码 让这些厂商可以直接使用,而不需要重新实现论文中的方法,从而促进了Deepseek模型的广泛应用和生态建设。

2、边际上,对于过去技术实力较强的大模型团队和AI infra团队来说,可能存在一定的被平权。 之前,Deepseek模型的开源虽然有利于中小团队,但对于具备复现能力的团队来说,他们原本可以利用自己强大的AI infra能力,以较低成本部署类似Deepseek的模型,进而盈利。这个过程中,这些团队通过较低的部署成本获得了市场竞争优势,因为他们能够提供低成本的服务。

然而,随着Deepseek开源,技术平权的趋势逐渐显现。Deepseek的开源将技术能力和AI infra能力拉平,意味着即使这些技术强的团队过去通过较低的成本和高效的技术实现盈利,也可能面临竞争力下降。由于Deepseek开源了相关的技术,这些团队之前投入的资源和开发的技术价值会大幅缩水。以前,依靠技术优势(如低成本的部署方案)获得的竞争力被削弱,其他厂商(即便技术不如这些大团队)也能通过直接部署Deepseek模型提供服务,而不需要具备强大技术能力。







请到「今天看啥」查看全文