DeepSeek 被误读的 5 个真相，AI 大佬亲自揭秘

APPSO · 公众号 · app · 2025-02-05 15:47

正文

谣言 2：撒谎！这个模型的成本不是 600 万美元

这是一个有趣的问题。这类谣言认为 DeepSeek 想避免承认他们有非法的幕后交易来获取他们不应获得的计算资源（由于出口管制），从而在关于模型训练成本的真实性上撒谎。

首先，600 万美元这个数字值得好好研究。它在 DeepSeek-V3 论文中有提及，该论文是在 DeepSeek-R1 论文发布前一个月发布的：

DeepSeek-V3 是 DeepSeek-R1 的基础模型，这意味着 DeepSeek-R1 是 DeepSeek-V3 加上一些额外的强化学习训练。所以在某种程度上，成本已经不准确，因为强化学习训练的额外成本没有被计算在内。但那可能只会花费几十万美元。

好的，那么 DeepSeek-V3 论文中提到的 550 万美元，是不正确的吗？基于 GPU 成本、数据集大小和模型大小的众多分析，已经得出了类似的估计。

请注意，虽然 DeepSeek V3/R1 是一个 671B 参数的模型，但它是一个专家混合模型，这意味着模型的任何函数调用/前向传递只使用约 37B 参数，这是计算训练成本所使用的值。

然而，DeepSeek 的成本，是基于当前市场价格估计的这些 GPU 的成本。我们实际上并不知道他们的 2048 个 H800 GPU 集群（注意：不是 H100s，这是一个常见的误解和混淆！）的成本。通常，连续的 GPU 集群在批量购入时成本会更低，因此甚至可能更便宜。

但是这里有个问题，这是最终运行的成本。在这成功之前，可能进行了许多在小规模的实验和消融，这一部分会需要相当大的成本，但这些并未在此处报告。

除此之外，可能还有许多其他成本，如研究员薪资。SemiAnalysis 报告称，DeepSeek 的研究员薪资传闻约为 100 万美元。这相当于 AGI 前沿实验室如 OpenAI 或 Anthropic 的高薪水平。

通常，当报道和比较不同模型的训练成本时，最终的训练运行成本是最受关注的。但由于糟糕的论调和错误信息的传播，人们一直在争论额外的成本使 DeepSeek 的低成本和高效运营性质受到质疑。 这是极其不公平的。

无论是从消融/实验的角度，还是从其他 AGI 前沿实验室的研究人员薪酬的角度来看，成本都非常显著，但这些通常在这样的讨论中没有被提及！

谣言 3：这么便宜？所有美国 AGI 公司都在浪费钱，看跌英伟达

我认为这又是一个相当愚蠢的看法。与许多其他 LLM 相比，DeepSeek 在训练中确实效率更高。是的，许多美国前沿实验室在计算上效率低下是非常可能的。然而，这并不一定意味着拥有更多的计算资源是坏事。

老实说，每当听到这样的观点，我就清楚地知道他们不懂 scaling laws，也不懂 AGI 公司 CEO（以及任何被视为 AI 专家的人）的心态。

推荐文章

小众软件 · 又来这一套？营销飞起靠排队，产品稀烂真无语！

昨天

小众软件 · 太小众的应用，开发者直接送了送了

昨天

APPSO · 首个高考志愿大模型体验：夸克给 1335 万考生配免费高报规划师？

昨天

APPSO · 马云罕见回应，阿里离职员工万字长文刷屏/Switch2卖爆，4天售出350万台/曝小米AI眼镜6月发售，价格超千元

昨天

小众软件 · 这才是良心 Windows 10 精简版

2 天前

班主任家园 · 教育的目的，是让学生具备这14种思维方式（经典收藏）

8 年前

加拿大约克论坛 · 加拿大最堵的20个高速路段！多伦多占10个，你被坑过吗

8 年前

冷丫 · 游戏中的女性角色为啥只有胸前有盔甲？

8 年前

读首诗再睡觉 · 它们就像爱情，怒放于世界之上

7 年前

数盟 · 被 AI 改变的游戏设计，最终目的是为每个玩家定制游戏

7 年前