正文
从未来趋势看,推理是大需求,训练是小需求,国内AI芯片如果能主攻推理(FP8/FP6/FP4),不追求训练核弹,未尝不是更好的出路。
当然低精度高速度反而对器件和工艺的要求更高,更难做
。所以千万不要小看N家的低精度推理优势。
❺
持续迭代创新:
英伟达已明确从两年一次的架构更新转向每年推出一款新芯片的节奏。
2025年下半年将推出Blackwell Ultra,2026年推出Vera Rubin,2027年推出Rubin Ultra,性能预计比Hopper架构提升数十倍,目标支持万亿参数模型的实时推理和训练。
这种节奏,谷歌跟不上,业内也没有厂商跟得上,不过N记的多芯片设计和先进制程依赖TSMC,有一定供应链风险(当然,国产芯片供应链风险更大,即便已经正在慢慢破局
)。
总而言之,虽然英伟达AI芯片面临AMD Instinct MI系列、Intel Gaudi 3和谷歌TPU等竞品在性能和成本上逐步追赶,客户可能转向多元化采购。
国内厂商也在不断蓄力,力求局部替代,但综合性能、生态、市场、场景、可持续性来看,每一步都任重道远。
Ironwood是谷歌首款专门针对推理优化的TPU,旨在满足生成式AI和复杂推理模型(比如MoE模型)的计算需求。关键技术亮点如下:
单芯片峰值性能为4,614 TFLOPs(FP8精度),集群规模可扩展至9,216个芯片,提供42.5 Exaflops的计算能力。
谷歌声称这一性能是全球最强大超级计算机El Capitan(1.7 Exaflops,FP64精度)的24倍以上。听起来很NB吧,但谷歌这里玩了数字游戏,拿FP8与FP64的比较,有点不讲武德。
Ironwood相比前代Trillium(第六代TPU),每瓦性能提升2倍,跟第一代TPU比,更是提升3,600倍,功耗效率提升近30倍。