主要观点总结
DeepSeek披露了其模型推理系统的成本利润率为545%,这得益于一系列技术优化。文章介绍了DeepSeek使用的技术,包括硬件配置的H800 GPU和动态资源调度等。DeepSeek针对场景采用不同的并行策略,并通过大规模跨节点专家并行技术提高效率。文章还指出,这些优化使DeepSeek在硬件受限的情况下也能实现出色的推理性能。
关键观点总结
关键观点1: DeepSeek模型推理系统的成本利润率
DeepSeek在保证服务质量的同时,通过一系列技术优化实现了极高的成本效益,其模型推理系统的成本利润率高达545%。
关键观点2: DeepSeek的技术优化细节
DeepSeek使用H800 GPU作为硬件配置,并保持与训练一致的FP8/BF16精度。通过动态资源调度,根据负载差异调整节点数量。成本数据显示,24小时内平均使用节点数量和成本,并给出每台H800的吞吐能力数据。
关键观点3: DeepSeek面临的挑战及解决方案
DeepSeek-V3/R1推理系统面临提高吞吐量和降低延迟两大挑战。通过采用大规模跨节点专家并行技术和MoE架构,实现了效率的提升。
关键观点4: 专家并行技术的解释
专家并行技术通过将不同特长的“厨师”分散到多个“厨房”(GPU)中,从而提高吞吐量并降低延迟。通过合理的并行策略和负载均衡策略,确保每个厨房的处理效率和整体性能的优化。
关键观点5: 开源精神与中国AI的发展
中国AI力量正在用开源精神推动技术的发展。DeepSeek的开源周活动展示了计算、通信、存储、算法与模型的协同创新。通过这些技术优化和创新,使得曾经需要天价算力的技术变得人人可用。
正文
吞吐能力:每台 H800的 prefill 吞吐约 73.7k tokens/s,decode 吞吐约 14.8k tokens/s
利润率:按 DeepSeek R1 定价计算,理论日收入$562,027,成本利润率 545%
DeepSeek-V3/R1 推理系统面临两大挑战:如何提高吞吐量和如何降低延迟。
他们采用了大规模跨节点专家并行(Expert Parallelism/EP)技术。
DeepSeek-V3/R1 采用了MoE(混合专家)架构,每层有 256 个专家,但每个 token 只激活其中 8 个。这种高度稀疏的结构需要通过专家并行来提高效率:
专家并行就像是把不同特长的厨师分散到多个厨房(GPU)中:
1. 提高吞吐量:
就像餐厅一次接待更多顾客(增大batch size)。当厨房里同时处理很多订单时,厨师们可以更高效地工作,不会有空闲时间,炉灶和切菜台都能充分利用。