专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
小众软件  ·  人类向着虚拟世界不断前行啊 ·  2 天前  
小众软件  ·  另外两件事[250605] ·  2 天前  
小众软件  ·  Macxvideo AI 首发限免活动 ·  2 天前  
51好读  ›  专栏  ›  APPSO

万字揭秘DeepSeek !这个创新让全世界疯狂复制,顶尖AI人才年薪千万,训练成本被低估

APPSO  · 公众号  · app  · 2025-02-02 17:00

正文

请到「今天看啥」查看全文


我们认为,他们大约拥有 50000 个 Hopper GPU,但这并不等同于拥有 50000 个 H100 GPU。
英伟达根据不同法规要求推出了不同版本的 H100(例如 H800、H20),目前只有 H20 可供中国大模型公司使用。需要注意的是,H800 的计算能力与 H100 相同,但其网络带宽较低。
我们认为 DeepSeek 拥有大约 10000 个 H800 和大约 10000 个 H100。此外,他们还订购了更多的 H20,过去 9 个月内,英伟达已为中国市场生产了超过 1000000 个此类 GPU。
这些 GPU 在 幻方量化和 DeepSeek 之间共享,并在地理上有所分布。它们被用于交易、推理、训练和研究。
我们的分析显示,DeepSeek 的服务器资本支出总额约为 16 亿美元,其中与运营这些集群相关的成本高达 9.44 亿美元。
同样,由于资源集中化是一大挑战,所有 AI 实验室和超大规模云服务商都拥有比单次训练运行所使用的 GPU 数量要多得多,用于研究和训练的任务。

年薪近千万, 在中国高校挖顶尖人才

DeepSeek 完全从中国招聘人才,不拘泥于以往的资历,而是高度重视能力与好奇心。DeepSeek 定期在北京大学、浙江等顶尖高校举办招聘活动,许多员工均毕业于这些院校。
岗位职责并完全固定,招聘时会有一定灵活性,招聘广告甚至宣称可以无限制调用 10000 多个 GPU 。
这些职位竞争极为激烈, 据称对有潜力的候选人提供的薪资超过 130 万美元(约合 934 万人民币) ,远高于中国大型科技公司和 AI 实验室(如 Moonshot)等竞争对手。
目前 DeepSeek 约有 150 名员工,但正在迅速扩张。
历史证明,一家资金充足且专注的小型初创公司往往能够突破界限。
DeepSeek 不具备像 Google 那样的官僚主义,由于其自筹资金,能够迅速推进新想法。
然而,与 Google 类似,DeepSeek(在大多数情况下)自建数据中心,而不依赖外部方或供应商。这为进一步实验提供了更大空间,使他们能够在整个技术栈上实现创新。
我们认为,他们是当今唯一最优秀的「开源权重」实验室,超越了 Meta 的 Llama 项目、Mistral 以及其他竞争者。

DeepSeek 的极低成本被误读了

DeepSeek 的价格与效率引发了硅谷科技圈地震的关键。
然而,关于 DeepSeek V3 的训练成本为 600 万美元这个广为流传的数字,其实是片面的。这相当于只关注产品物料清单中的某一部分,并将其视为全部成本。预训练成本仅仅是总成本中很小的一部分。
我们认为,预训练所支出的成本,远远不能代表模型所花费的总成本。
我们相信 DeepSeek 在硬件上的支出远超过 5 亿美元。他们为了开发新的架构创新,在模型开发过程中,花费了大量资金用于测试新思路、新架构和消融实验。
多头潜在注意力(Multi-Head Latent Attention) —— DeepSeek 的一项关键创新,耗时数月开发,花费了整个团队的大量人力和 GPU 计算时间。
论文中提到的 600 万美元成本仅指预训练过程中 GPU 的花费,这只是模型总成本的一部分。研发费用以及硬件本身的总体拥有成本等重要部分并未包含在内。
作为参考,Claude 3.5 Sonnet 的训练成本达数千万美元,如果那就是 Anthropic 的全部成本,那么他们就没必要从 Google 融资数十亿、从亚马逊融资数十亿美元。因为这是他们进行实验、提出新架构、收集和清洗数据、支付员工工资的必要成本。
那么,DeepSeek 是如何获得如此大规模的集群的呢?出口管制的滞后是关键,我们会在下文将详细讨论。

V3 让性能差距缩小的秘诀

毫无疑问,V3 是一款令人印象深刻的模型,但值得强调的是,它的「令人印象深刻」是相对于什么而言。
许多人将 V3 与 GPT-4o 进行比较,并强调 V3 在性能上超越了 4o,但 GPT-4o 是在 2024 年 5 月发布的。以当下 AI 的发展速度,算法改进方面那个时候和现在已是天壤之别。此外,我们并不惊讶在经过一定时间后,用更少的计算资源就能实现相当或更强的能力。
推理成本大幅下降正是 AI 改进的标志。
举个例子,一些可以在笔记本电脑上运行的小模型,其性能可与需要超级计算机训练,以及需要大量 GPU 推理的 GPT-3 相媲美。换句话说,算法改进使得用更少的计算资源即可训练和推理具备相同性能的模型,而这种模式在业内以及出现了多次。
这一次世界终于注意到了,是因为它来自中国的一家实验室,但小模型性能提升并不是什么新鲜事。






请到「今天看啥」查看全文