网上关于DeepSeek的说法，哪些是错误的？

特大号 · 公众号 · · 2025-02-05 17:11

正文

首先说这个数据哪里来的，它来源于DeepSeek V3的技术报告。( https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf )

在报告中明确指出， DeepSeek-V3 的完整训练（含预训练、上下文扩展和后训练）仅需278.8万H800GPU小时，总成本约 557.6 万美元。（按2美元/H800GPU小时计算）

而单看预训练，每训练1万亿个Tokens，需消耗18万H800GPU小时，折合36万美元。

玩过大模型训练的都明白，这个花费确实太低了，比如Meta Llama3 405B的训练成本约3930万H100 GPU小时，是DeepSeek的14倍，而后者的671B的参数量更大。

（花血本砸钱的6小虎和巨头们肯定哭晕在厕所，迎接他们的将是投资人的“拷打”

）

但是，需要特别说明的是：大模型训练成本≠大模型开发成本。

557.6万美元，这仅仅是训练 消耗的GPU算力成本 ，不包括整体软硬件投入、数据采集与处理、软件和系统开发、人力等等综合成本。

那么具体多少钱？官方没有披露，我们不妨问问DeepSeek自己，看它怎么说↓

而 semianalysis.com 也给出了 DeepSeek 的AI TCO分析，这张表很有参考价值，当然，这张表也只是按照自己囤卡来计算的GPU服务总成本+集群运营成本。

光这部分的成本算下来就超过了25亿美元。

所以，一开始，大家被600万美元的模型成本给敲懵了，甚至开始恐慌，GPU被做空。

但细细推敲下来，600万只是冰山一角，所以你看，这几天N家的股票开始慢慢回调了。

U1S1，557.6万美元的净算力成本，已经足够震撼了。

DeepSeek依靠创新的算法和架构做到了这一点，用更低的成本来训练和推理模型。

这也给广大创业公司打来了一扇窗，大家不再需要汗牛充栋囤卡堆算力，只要算法好，完全可以借鸡下蛋，租用GPU机时来搞定模型。

同时，也给广大AI创业公司关上了一扇门，跟投资人要钱买铲子、囤算力没那么容易了。

更深远的影响还在后面，比如低算力需求，可以让不怎么强的国产算力卡真正走上台面，既然大家不需要卷算力，确实可以卷卷自足可控了。

以及，我们可以考虑在自己笔记本上，运行一个性能相当不错的模型啦。

美国5大巨头全部接入DeepSeek？

这确实是真的，英伟达、微软、英特尔、AMD、AWS五大巨头确实先后宣布上架或者集成了DeepSeek。

英伟达，DeepSeek-R1正式登陆NVIDIA NIM；