正文
当然,还有更吊炸天的UltraServers,组合更多的Trainium2芯片,变身超级服务器,抱团扛更大的活,比如万亿参数级别的大模型。
UltraServer的互联还是采用A家自有的
NeuronLink,带宽达到2TB/s,延迟仅为1μs。
UltraServers可以进一步组合,形成更大的超级集群,让成千上万的Trainium2协同工作,超强算力、海量HBM内存、无阻塞互联。
不止如此,在大会现场,亚麻云还投下了一颗重磅算力炸弹,宣布将在2025年发布第三代训练专用芯片:
Amazon Trainium3
。
Trainium3是Amazon首款3nm芯片,
性能是Trainium2的两倍,能效提升40%
。(预计是第一代的8倍)
Amazon为啥像那些半导体公司一样,狂卷算力芯片?
只因大模型、GenAI的计算负载,与传统云工作负载有很大不同,经典云计算的杀手锏是Scale out,你可以组合一堆“老破小”服务器,通过横向扩展的方式来干大活。
但是,大模型越来越卷的参数量,对算力带来了前所未有的挑战。
这些逆天的巨量算力需求,并不能完全通过“Scale out大法”来解决,对单个计算单元的能力要求非常高,既需要Scale out,也需要Scale up。
上面那些发布,展示了亚麻云对未来的预判和决心:
①构建单体能力更强的计算节点(Scale up);②构建规模更大、效率更高的计算集群(Scale up)。
所以,才有了不断迭代的Trainium系列芯片、计算实例,和基于NeuronLink持续扩展的超级服务器(UltraServer)、超级集群(UltraCluster)。
这种“Scale out+up”架构能打吗,来看下面这个战例↓
Claude
模型的母公司
Anthropic,
正在联合亚麻云构建Rainier项目:该项目基于UltraServer,组成包含数十万Trainium2芯片的超级集群,提供超过当前5倍的算力(EP级),用于训练下一代Claude模型。
还不止如此,不要忘了,除了
Trainium
系列,亚麻云还有算力芯片全家桶:
Inferentia系列、Graviton系列,以及Nitro System
。
“全家”上阵,各施所长,各显其能,那才叫一个真能打。
连Apple这样的大佬,都跑来为之捧场,介绍他们基于Graviton3、Inferentia2和Trainium2来构建Apple Intelligence的实践经验。
除了基于自研芯片提供大模型的训推服务,还最新发布了基于N记Blackwell芯片P6系列实例,该实例比当前GPU快2.5倍,又是一个大提升。
Amazon S3,是亚麻云2006上线以来的第一款服务,这一次,针对大模型对数据的海量需求,S3又迎来了两项重磅更新。
第一项是Amazon S3 Tables,这是全新的存储桶(buckets)格式,相当于完全的Apache Iceberg数据湖服务,用于大型分析数据集。
这种“新桶”,可以大幅提高Iceberg表的性能和扩展性,相比以前,现在每个表都是一级资源,查询性能提升3倍,事务处理能力提升10倍。并提供表级安全性和更优的成本。
如何利用S3 Tables快速查询分析并与Amazon云上分析服务联动
第二项更新是Amazon S3 Metadata元数据服务,这项服务可以帮助用户从存储在S3中的PB甚至EB级数据中,大海捞针,迅速找到需要的数据。
S3 Metadata可以自动从对象中捕获元数据,并
近实时
地存储到S3 Tables中,便于后续查询,并能在对象发生变化时,分钟级更新对应元数据。
无论是应对海量数据的分析查询需求,还是为大模型训练准备和供应优质数据饲料,S3的
这两项更新,都非常应景。
网络我们不多说,但AI时代网络的重要性不容小觑:更大带宽、更低延迟、更高可靠性。
亚麻云怎么做的呢?节点内部,他们有NeuronLink高速互联,而节点之间,他们推出了“10p10u网络”,也就是第二代UltraCluster网络架构。
“10p10u”支持20000
+
卡集群规模,网络容量超过10PB,延迟低于10μs。