专栏名称: 特大号
IT B2B 特大号!每日八卦最香艳2B绯闻!
目录
相关文章推荐
51好读  ›  专栏  ›  特大号

网上关于DeepSeek的说法,哪些是错误的?

特大号  · 公众号  ·  · 2025-02-05 17:11

正文

请到「今天看啥」查看全文


首先说这个数据哪里来的,它来源于DeepSeek V3的技术报告。( https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf )

在报告中明确指出, DeepSeek-V3 的完整训练(含预训练、上下文扩展和后训练)仅需278.8万H800GPU小时,总成本约 557.6 万美元。(按2美元/H800GPU小时计算)

而单看预训练,每训练1万亿个Tokens,需消耗18万H800GPU小时,折合36万美元。

玩过大模型训练的都明白,这个花费确实太低了,比如Meta Llama3 405B的训练成本约3930万H100 GPU小时,是DeepSeek的14倍,而后者的671B的参数量更大。
(花血本砸钱的6小虎和巨头们肯定哭晕在厕所,迎接他们的将是投资人的“拷打”
但是,需要特别说明的是:大模型训练成本≠大模型开发成本。
557.6万美元,这仅仅是训练 消耗的GPU算力成本 ,不包括整体软硬件投入、数据采集与处理、软件和系统开发、人力等等综合成本。
那么具体多少钱?官方没有披露,我们不妨问问DeepSeek自己,看它怎么说↓

semianalysis.com 也给出了 DeepSeek 的AI TCO分析, 这张表很有参考价值 ,当然,这张表也只是 按照自己囤卡来计算的GPU服务总成本+集群运营成本
光这部分的成本算下来就超过了25亿美元。

所以,一开始,大家被600万美元的模型成本给敲懵了,甚至开始恐慌,GPU被做空。
但细细推敲下来,600万只是冰山一角,所以你看,这几天N家的股票开始慢慢回调了。
U1S1,557.6万美元的净算力成本,已经足够震撼了。
DeepSeek依靠创新的算法和架构做到了这一点,用更低的成本来训练和推理模型。
这也给广大创业公司打来了一扇窗,大家不再需要汗牛充栋囤卡堆算力,只要算法好,完全可以借鸡下蛋,租用GPU机时来搞定模型。
同时,也给广大AI创业公司关上了一扇门,跟投资人要钱买铲子、囤算力没那么容易了。
更深远的影响还在后面,比如低算力需求, 可以让不怎么强的国产算力卡真正走上台面 ,既然大家不需要卷算力,确实可以卷卷自足可控了。
以及,我们可以考虑在自己笔记本上,运行一个性能相当不错的模型啦。


美国5大巨头全部接入DeepSeek?


这确实是真的,英伟达、微软、英特尔、AMD、AWS五大巨头确实先后宣布上架或者集成了DeepSeek。

英伟达,DeepSeek-R1正式登陆NVIDIA NIM;







请到「今天看啥」查看全文