专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
51好读  ›  专栏  ›  大数据文摘

AI硬件“天花板”被捅破?DeepSeek-V3新论文:软硬协同,砸碎“算力神话”!

大数据文摘  · 公众号  · 大数据  · 2025-05-21 12:00

正文

请到「今天看啥」查看全文


多头隐注意力 (MLA)—— 提升内存效率
大幅压缩KV缓存,解决内存瓶颈。别人还在愁显存不够用的时候,DeepSeek-V3通过MLA技术,让每个token的KV缓存低至70KB,比LLaMA-3.1 405B(516KB)和Qwen-2.5 72B(327KB)少得多。这相当于,在有限的“土地”上种出了更多的“粮食”。

专家混合 (MoE) 架构优化—— 优化计算与通信平衡
在扩大模型总参数量的同时,只激活一小部分专家参数进行计算。DeepSeek-V3有6710亿参数,但每个token只激活370亿。这既保证了模型的“大块头”,又控制了实际运算的“饭量”,实现了计算和通信的更优平衡。

FP8混合精度训练—— 充分释放硬件潜能
大胆采用更低精度的FP8进行训练,进一步降低了计算和内存开销。同时,通过细粒度的量化和高精度累加等技术,把精度损失控制在极小范围。这要求硬件对低精度计算有更好的支持,论文也对此提出了明确的建议。

多平面网络拓扑—— 最小化集群网络开销
针对大规模集群的网络开销问题,设计了多平面胖树网络,用两层胖树实现了传统三层胖树的扩展能力,同时降低了成本和延迟。






请到「今天看啥」查看全文