专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
新浪科技  ·  【#蔚来精细化管理研发投入##蔚来非必要研发 ... ·  15 小时前  
雷峰网  ·  「车圈恒大」?未免杞人忧天 ·  2 天前  
51好读  ›  专栏  ›  雷峰网

万字长文总结:DeepSeek 引发的 AI Infra 变革正在「加速」丨GAIR Live

雷峰网  · 公众号  · 科技媒体  · 2025-04-10 15:45

主要观点总结

DeepSeek的发布不仅点燃了AIInfra的可能性,也带来了新的竞争格局。圆桌讨论中,嘉宾们围绕DeepSeek对AIInfra行业的影响、成本压缩下的商业模式前景、DeepSeek对国产芯片的启示、开源生态的重要性等多个方面进行了分享。DeepSeek的开源和高效模型对全球AI界和投资界产生了震撼,同时也促进了国产芯片和开源生态的发展。AIInfra行业正在经历洗牌,初创公司面临机遇和挑战,需要快速适应和创新。

关键观点总结

关键观点1: DeepSeek的影响和机遇

DeepSeek的发布不仅展示了AIInfra的可能性,也引发了新的竞争格局。初创公司面临机遇和挑战,需要快速适应和创新。

关键观点2: 成本压缩与商业模式

嘉宾们探讨了成本压缩下,MaaS、一体机等AIInfra商业模式的前景,以及DeepSeek为国产芯片带来的启示。

关键观点3: 开源生态的重要性

DeepSeek的开源推动了开源生态的发展,促进了国产芯片和开源生态的协同进步。

关键观点4: AIInfra行业的洗牌

AIInfra行业正在经历洗牌,初创公司需要找到长期锚点,形成差异化竞争优势,并具备可落地和可复制的能力。

关键观点5: 未来展望

嘉宾们对AIInfra行业的未来表示乐观,认为这是一个有竞争但利好的时代,专注通信、聚焦集群将是发展的关键。


正文

请到「今天看啥」查看全文


王康曼: DeepSeek 发布 R1 后对国内 AI Infra 行业带来的冲击挺大的,从技术路线、成本结构和合作模式上看,对大家有什么具体影响吗?
徐凌杰: 去年 DeepSeek 就打响了 token 价格的第一枪,从 V2、V3 到 R1 都给了我们很大启示,他们这几个模型在结构上也有很大的延续性,对 AI Infra 是有挺大冲击的,之前都会说美国的就是最好的,大家投资OpenAI,OpenAI 买微软的云,微软云买 Nvidia 的 GPU,这是非常正向的循环。
DeepSeek 带来了全面冲击,从 Infra 角度最大的启示在于,他们在训练阶段就想好了怎么实现低成本的推理,他们手上只有 2000 张卡的 H800 集群,之前也有一部分 A100 但没有 NVLink 这种强互联的 Scale up 集群的卡,基于手上有的算力资源他们做出了一套模型。
之前互联网公司做搜索推荐时,往往会分两个团队,算法团队负责提升召回率、准确率和效果,工程团队则负责降本。DeepSeek 充分考虑了算法、工程及落地效应,把整条链路打通了。这对于 AI Infra 公司人才培养提出了更高要求,现在算法工程师也要考虑到工程的落地,工程落地的人要考虑到在集群方面有什么样的限制。
对于一个年轻人来说,未来不能只是一个写算子的工程师,要了解集群互联、文件系统,以及到底要做什么样的分布式,是把所有 expert 放在一台机器上,还是每个 expert 分散放在每张卡上面达到最好的效果,侧重于系统的吞吐和优化每个用户 TPS 的体验优化策略是不一样的。
我认为 DeepSeek 点燃了 AI Infra 的可能性,前几天 GTC 上黄仁勋画了个图,横轴是单个用户的 TPS,纵轴是整个系统的吞吐,根据不同的要求能够找到不同的体验点。这对于我们不同的业务来讲也是一样的,我们通过系统的组合、软件的优化有非常多的可能性,DeepSeek 已经做出了一个范式,其他厂商能否跟上且达到他们的效果,大方向上来讲既打开了可能性,也打开了竞争格局,大家都在追随甚至超越他们的范式,这是非常激动人心的时刻。
师天麾: 今年感觉 DeepSeek 带来最大的影响是让大家明白了 AI 真的很强,企业内部有机会用上,所以我们今年业务突然多了,企业要用上的话,首先他们会有买机器或租机器的算力需求,但他们更想知道 AI 有什么用,如果没用的话,他们不想付出太多成本,所以我们今年也增加了私有化部署的相关业务。
第二点感受是大家更重视 AI Infra 了,之前可能一些大模型厂商和投资人对 AI Infra 会更重视一些,DeepSeek 开源那一周持续不断给大家带来震撼,大家对 Infra 的重视程度更高了,现在也有很多几百上千卡的集群找过来问能不能也给我们弄个专家并行的方式,然后 PD 分离把成本打下来。
然后 DeepSeek 是对 H 系列的显卡做了很好优化,但其他比如国产显卡或者一些老的卡,他们并没有很好地支持 FP8,所以也有很多客户反馈说用 BF16 跑满血版使他们不得不用两倍的硬件成本。我们上周开源的赤兔推理引擎一大特色是计算还是用 BF16 来算,但是用 FP8 进行存储,这样可以让国产卡和英伟达老卡旧卡跑满血版的最低硬件成本直接砍半。
我们在 A800 上进行了一个实验,原来六台才能跑 BF16 满血版,现在三台就能跑,性能还提升了三倍多,所以非 H 的显卡还是有很多机会的,存量显卡非常多,用的人非常多,这件事还是蛮有意义的,开源之后关注的人很多,后续我们也会持续不断去做更好的适配。
刘学: 我的感受第一是 Deepseek 带来的惊喜是在 2048 个 GPU 组成集群的情况下突破了硬件的约束;第二是他们提出通信的重要性,把GPU与GPU间的通信做到了极致,首次提出将通信环节从GPU的SM核卸载出来的概念,整体从软硬件层有一个体验点,找到这个体验点进行更高层级的优化;第三是 DeepSeek 的 MLA 和 MoE 的方案使得 KVCache 在 GPU 和 GPU 之间的搬移要求更高,包括 PTX 层的计算实际上对数据传输和计算提出了很多要求。在高能效的计算和通信之下,包括通信和计算的堆叠并行化,是值得我们对 AI Infra 下一代硬件设计有更好思考的。
王康曼: 整个行业的成本因为 DeepSeek 也压缩得比较厉害,大家怎么看云厂商的价格战?会影响初创公司吗?
徐凌杰: 讲成本要面对特定市场,就以中国来讲有两个不同市场,一个是云上大规模、大并行,需要大集群做到极致 token per second 性价比,另一个是线下本地化部署,在预算有限的情况下,把 DeepSeek 满血、蒸馏版用起来。
这对于我们 AI Infra 公司来讲也就有两个选择,一是往更极致方向走,把成本打下去,壁垒相当高,算法工程师要懂工程的东西,软件工程师要懂硬件的东西,甚至要考虑网络、计算、存储一系列问题。
从具体数字来讲, DeepSeek 售价是百万 token 16 元,如果把所有 token 都转换成收入的话,潜在毛利率在 500% 以上,也就是说它的成本是 2 元左右,如果只用若干台机器在线下部署做一体机的话,单位token的成本可能是他们的几十倍,这取决于用什么机器。
然后也要讨论硬件演进,目前中美走的路径大同小异,就是要把芯片做大,芯片不够大的情况下,要做 Chiplet 封装,然后在集群里有大量的 HBM,再做 Scale up、Scale out。从这个路径上来看,大家还是在往更大的集群上走,美国大量的业务是上云的,他们看到的是云上大并发、大容量、大集群的市场,中国会有相当一部分业务留在线下,这是中国额外的机会点。
师天麾: 我非常认同,MaaS 有很多真实需求,国内外很多开发者都希望能用云上的 API,也确实很便宜,但 MaaS 的盈利空间整体还是要看算力规模、优化程度、客户付费能力等多个因素,算力成本也会随着更优的硬件架构和更好的硬件工艺进一步降低,模型价格未来也会持续变化,现在没法一概而论能否盈利。
中国也有很多本地化部署需求,前期可以简单在云上尝试,但很难真正放进业务中,因为存在太多敏感数据不好上云。所以有几种方案,预算有限可以先租个云,或者不买可以运行 FP8 满血版机器,而是先买几十万的机器跑蒸馏模型,在同样预算的情况下,大多数客户会做这种选择,在自己真实的业务场景里测试,我认为 MaaS 和本地化部署会长期共存。
王康曼: 国内 DeepSeek 之后也有了挺多一体机出现,大家认为初创企业在 DeepSeek 的成本压缩下,应该怎样面对或者给大家带来怎么样的机遇?
刘学: 我们在考虑成本时要对齐到硬件的使用成本,而硬件使用成本无论是 Transformer、DeepSeek 还是原来 CNN 卷积时代,有三个方面对于降本能起到很好的示范作用。第一是设计 ASIC 或者 GPGPU 能效比的问题,比如 1W 能够处理多少 T ops 算力,这直接决定了每单位瓦数能提供多大算力,这个算力影响到任务的 token 输出;
第二是利用率,在能效比一定的情况下进行计算、通信、互联等优化,提高利用率,这样在每瓦提供的功耗下能运算更多任务;第三是云端和端侧的结合,在云端和本地的推训,国内很多研究单位和中小型企业也和 CNN 时代一样,考虑了自身的私有数据隐秘性和及时性,所以更多投入本地购买。
王康曼: 从这些点上来看,初创企业是否能比大厂适配地更快?
刘学: 大厂的整体优势在于全方位构建能力,初创企业聚焦更底层,要选择自己具有优势的点集中突破,这也是我们选择 GPU 和 GPU scale up 的通信点的原因,有些大厂在 AI Infra 上层没有做调度器,我们做云侧的优化器、装 K8S 训练起来,这块是有发展空间的。
师天麾: 相比于大厂,创业公司也有自己的优势,我觉得有两点,一是反应速度快,我前段时间做了很多对接客户的工作,因为我们也推出了一体机,然后不断根据用户反馈来调整我们的产品细节。我们会总结之前对接客户的经验,当晚或者第二天就能开会调整策略,从上到下的决策链非常短。
二是我们更愿意提供定制化的端到端服务。去年我们也做了一些大模型厂商的性能优化单子,他们当时租的云可能是云大厂的,但没有找那边专门优化,因为大厂考虑到成本更喜欢卖标准化的东西,我们愿意给客户提供更深度的优化、更定制化的服务。今年也有很多企业想把 AI 用起来,我们也愿意帮这些客户从0到1将AI在自己的业务场景中使用起来。
徐凌杰: 小公司要成长起来有几个关键词,一是有壁垒,要有差异化竞争优势;二是可落地,不能只做得高大上,商业本质是卖货逻辑,无论是虚拟还是实际货品都要可落地;三是可复制,就像最近很多人讨论 MaaS,我认为无论接下来做线上生意还是结合硬件去做,甚至软硬件一体去做,MaaS 都是非常重要的能力。
从 DeepSeek 发布 V3 到现在三个月左右时间,绝大部分人都还没能在那么大的规模里复现他们那种极低的成本。这使 MaaS 能力变得非常核心,如果有个几十人的团队能实现媲美 DeepSeek 能力的话,在全世界范围内都非常值钱的,但是在没有足够的算力资源、优化能力的情况下,贸然出击往往会亏钱,因为没有庞大的用户、特别大的集群以及足够的并发。对于初创来讲,在资源有限、壁垒还在逐渐建立的过程中,落地要分不同阶段去作为。
另外也要找到长期锚点,我们团队的机会点在软硬协同,特别是以硬件为底座,从大的机会来讲,就像黄仁勋说的,未来模型变得更大、上下文变得更长,就需要先把 Scale up 做起来,集群变大后优化的搜索空间变得更大之后,想象空间就变得非常大,这当中不仅有软硬结合的调优技术,还有相当一部分是我们之前相对比较忽视,但又有非常强的工程壁垒的。
在过去一年当中 NVL72 落地遇到了很多问题,包括稳定性、漏液、冷量不足等,这和我们今天讲的调优没有特别强的关系,但它是整个工业的基础,也就是说今天要把这样非常强互联的集群,几百上千张卡集成在一起,从之前 CPU 集群的 6 千瓦到 8 千瓦的机柜,到单台服务器 H100 12 千瓦的功耗,到 NVL72 的 120 千瓦,再到未来 Rubin 系列 800 千瓦以上,上兆瓦级别的集成度当中有很多有挑战、有价值的工作可做。
英伟达过去两年投入了非常大的精力在做 NVL72,他们遇到了很多工程问题,但非常坚定不移地宣布了这个路线,未来还会持续投入去做得更大、更强,更加 Scale up,AMD 也收购了 ZT Systems 要往这方面追赶。这是我们作为初创公司看到的机会点,不仅要有软件层 MaaS 的世界一流能力,硬件也是基础。






请到「今天看啥」查看全文