你大爷还是你大爷！一文看懂AWS的大模型布局

特大号 · 公众号 · · 2024-12-20 11:45

正文

左滑查看Trn2芯片架构和实例互联架构

当然，还有更吊炸天的UltraServers，组合更多的Trainium2芯片，变身超级服务器，抱团扛更大的活，比如万亿参数级别的大模型。

UltraServer的互联还是采用A家自有的 NeuronLink，带宽达到2TB/s，延迟仅为1μs。

UltraServers可以进一步组合，形成更大的超级集群，让成千上万的Trainium2协同工作，超强算力、海量HBM内存、无阻塞互联。

不止如此，在大会现场，亚麻云还投下了一颗重磅算力炸弹，宣布将在2025年发布第三代训练专用芯片： Amazon Trainium3 。

Trainium3是Amazon首款3nm芯片， 性能是Trainium2的两倍，能效提升40% 。（预计是第一代的8倍）

Amazon为啥像那些半导体公司一样，狂卷算力芯片？

只因大模型、GenAI的计算负载，与传统云工作负载有很大不同，经典云计算的杀手锏是Scale out，你可以组合一堆“老破小”服务器，通过横向扩展的方式来干大活。

但是，大模型越来越卷的参数量，对算力带来了前所未有的挑战。

这些逆天的巨量算力需求，并不能完全通过“Scale out大法”来解决，对单个计算单元的能力要求非常高，既需要Scale out，也需要Scale up。

上面那些发布，展示了亚麻云对未来的预判和决心： ①构建单体能力更强的计算节点（Scale up）；②构建规模更大、效率更高的计算集群（Scale up）。

所以，才有了不断迭代的Trainium系列芯片、计算实例，和基于NeuronLink持续扩展的超级服务器（UltraServer）、超级集群（UltraCluster）。

这种“Scale out+up”架构能打吗，来看下面这个战例↓

Claude 模型的母公司 Anthropic，正在联合亚麻云构建Rainier项目：该项目基于UltraServer，组成包含数十万Trainium2芯片的超级集群，提供超过当前5倍的算力（EP级），用于训练下一代Claude模型。

还不止如此，不要忘了，除了 Trainium 系列，亚麻云还有算力芯片全家桶： Inferentia系列、Graviton系列，以及Nitro System 。

“全家”上阵，各施所长，各显其能，那才叫一个真能打。

连Apple这样的大佬，都跑来为之捧场，介绍他们基于Graviton3、Inferentia2和Trainium2来构建Apple Intelligence的实践经验。

当然，亚麻云也有这足够的号召力和生态能力。

除了基于自研芯片提供大模型的训推服务，还最新发布了基于N记Blackwell芯片P6系列实例，该实例比当前GPU快2.5倍，又是一个大提升。

跑GPU最爽的地方在哪儿？当然是亚麻云。

基础设施层

存储

Amazon S3，是亚麻云2006上线以来的第一款服务，这一次，针对大模型对数据的海量需求，S3又迎来了两项重磅更新。

第一项是Amazon S3 Tables，这是全新的存储桶（buckets）格式，相当于完全的Apache Iceberg数据湖服务，用于大型分析数据集。

这种“新桶”，可以大幅提高Iceberg表的性能和扩展性，相比以前，现在每个表都是一级资源，查询性能提升3倍，事务处理能力提升10倍。并提供表级安全性和更优的成本。

如何利用S3 Tables快速查询分析并与Amazon云上分析服务联动

第二项更新是Amazon S3 Metadata元数据服务，这项服务可以帮助用户从存储在S3中的PB甚至EB级数据中，大海捞针，迅速找到需要的数据。

S3 Metadata可以自动从对象中捕获元数据，并近实时地存储到S3 Tables中，便于后续查询，并能在对象发生变化时，分钟级更新对应元数据。

无论是应对海量数据的分析查询需求，还是为大模型训练准备和供应优质数据饲料，S3的这两项更新，都非常应景。

基础设施层

网络

网络我们不多说，但AI时代网络的重要性不容小觑：更大带宽、更低延迟、更高可靠性。

亚麻云怎么做的呢？节点内部，他们有NeuronLink高速互联，而节点之间，他们推出了“10p10u网络”，也就是第二代UltraCluster网络架构。

“10p10u”支持20000 ⁺ 卡集群规模，网络容量超过10PB，延迟低于10μs。