专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯科技

为DeepSeek辟谣:五大误解与真相解读

腾讯科技  · 公众号  · 科技媒体  · 2025-02-06 21:01

正文

请到「今天看啥」查看全文


3、DualPipe:在多GPU环境下训练AI模型时,需要考虑很多效率相关的因素。DeepSeek团队设计了一种称为DualPipe的新方法,这种方法的效率和速度都显著提高。

传统意义上的"蒸馏"指的是对token概率(logits)的训练,而ChatGPT并未开放这类数据,所以基本不可能去“蒸馏”ChatGPT。

因此,从技术角度看,DeepSeek的成就不应因此受到质疑。由于OpenAI o1相关思维链推理过程从未公开,单纯依靠"蒸馏"ChatGPT根本难以实现这一成果。

而caoz认为,DeepSeek的训练中,可能部分利用了一些蒸馏的语料信息,或者做了少许的蒸馏验证,但这个对它整个模型的质量和价值影响应该很低。

此外,基于领先模型蒸馏验证优化自己的模型,是很多大模型团队的一个常规操作,但毕竟需要联网API,能获得的信息非常有限,不太可能是决定性的影响因素,相对于海量的互联网数据信息来说,通过api调用领先大模型能获得的语料杯水车薪,合理的猜测是更多用于对策略的验证分析,而不是直接用作大规模训练。

所有大模型都需要从互联网获得语料训练,而领先的大模型也在不断为互联网贡献语料,从这个角度来说,每个领先的大模型都摆脱不了被采集,被蒸馏的宿命,但其实也没必要把这个当作是决定成败的关键。

最终大家都是你中有我,我中有你,迭代前进。

DeepSeek的成本仅有550万美元?

550万美元成本,这个结论既正确也错误,因为没有说清楚是什么成本。
Tanishq Mathew Abraham客观估算了DeepSeek的成本:
首先,我们有必要理解这个数字是从何而来。这个数字最早出现在DeepSeek-V3的论文中,该论文比DeepSeek-R1的论文早发布了一个月;
DeepSeek-V3是DeepSeek-R1的基础模型,这意味着DeepSeek-R1实际上就是在DeepSeek-V3的基础上进行了额外的强化学习训练。

因此,从某种意义上说,这个成本数据本身就不够准确,因为它没有计入强化学习训练的额外成本。不过这部分额外成本可能也就几十万美元。

图:DeepSeek-V3论文中关于成本的论述

那么,DeepSeek-V3论文中声称的550万美元成本是否准确呢?

基于GPU成本、数据集大小和模型规模的多项分析都得出了类似的估算结果。值得注意的是,虽然DeepSeek V3/R1是一个拥有6710亿参数的模型,但它采用了专家混合系统(mixture-of-experts)架构,这意味着在任何函数调用或前向传播时只会使用约370亿参数,这个数值才是训练成本计算的基础。
需要注意的是,DeepSeek报告的是基于当前市场价格估算的成本。我们并不知道他们的2048个H800 GPU集群(注意:不是H100,这是一个常见的误解)实际花费了多少。 通常情况下,整批购买GPU集群会比零散购买便宜,所以实际成本可能更低。
但关键在于,这只是最终训练运行的成本。在达到最终训练之前,还有许多小规模的实验和消融研究,这些都会产生相当可观的成本,而这部分成本并未在此报告中体现。
此外,还有其他诸多成本,比如研究人员的薪资。据SemiAnalysis报道,DeepSeek的研究人员薪资据传高达100万美元。这与OpenAI或Anthropic等AGI前沿实验室的高端薪资水平相当。
有人因为这些额外成本的存在,而否定了DeepSeek的低成本和其运营效率。这种说法极不公平。因为其它AI公司在人员上也会花费大量的薪资,这通常都没有被计算到模型的成本中去。”

Semianalysis(一家专注半导体和人工智能的独立研究与分析公司)也给出了DeepSeek的AI TCO (人工智能领域中的总成本)分析,这张表总结了DeepSeek AI在使用四种不同型号GPU(A100、H20、H800和H100)时的总成本情况,包括买设备、建服务器和运营的费用。按照四年周期来算,这60,000块GPU的总花费是25.73亿美元,其中主要是买服务器的费用(16.29亿美元)和运营的费用(9.44亿美元)。

当然,外界没有人准确知道DeepSeek究竟拥有多少卡以及各个型号的占比究竟有多少,所有的一切都只是估算。

总结来说,如果把所有的设备、服务器、运营等成本全部算下来,成本肯定远超550万美元,但是,550万美元的净算力成本,已经十分高效。






请到「今天看啥」查看全文