专栏名称: 特大号
IT B2B 特大号!每日八卦最香艳2B绯闻!
目录
相关文章推荐
杭州发布  ·  杭州教育考试院发布重要提醒 ·  2 小时前  
杭州发布  ·  明天上班!下一轮节假日休8天! ·  昨天  
51好读  ›  专栏  ›  特大号

你大爷还是你大爷!一文看懂AWS的大模型布局

特大号  · 公众号  ·  · 2024-12-20 11:45

正文

请到「今天看啥」查看全文


左滑查看Trn2芯片架构和实例互联架构
当然,还有更吊炸天的UltraServers,组合更多的Trainium2芯片,变身超级服务器,抱团扛更大的活,比如万亿参数级别的大模型。
UltraServer的互联还是采用A家自有的 NeuronLink,带宽达到2TB/s,延迟仅为1μs。

UltraServers可以进一步组合,形成更大的超级集群,让成千上万的Trainium2协同工作,超强算力、海量HBM内存、无阻塞互联。

不止如此,在大会现场,亚麻云还投下了一颗重磅算力炸弹,宣布将在2025年发布第三代训练专用芯片: Amazon Trainium3
Trainium3是Amazon首款3nm芯片, 性能是Trainium2的两倍,能效提升40% 。(预计是第一代的8倍)
Amazon为啥像那些半导体公司一样,狂卷算力芯片?
只因大模型、GenAI的计算负载,与传统云工作负载有很大不同,经典云计算的杀手锏是Scale out,你可以组合一堆“老破小”服务器,通过横向扩展的方式来干大活。
但是,大模型越来越卷的参数量,对算力带来了前所未有的挑战。
这些逆天的巨量算力需求,并不能完全通过“Scale out大法”来解决,对单个计算单元的能力要求非常高,既需要Scale out,也需要Scale up。
上面那些发布,展示了亚麻云对未来的预判和决心: ①构建单体能力更强的计算节点(Scale up);②构建规模更大、效率更高的计算集群(Scale up)。
所以,才有了不断迭代的Trainium系列芯片、计算实例,和基于NeuronLink持续扩展的超级服务器(UltraServer)、超级集群(UltraCluster)。
这种“Scale out+up”架构能打吗,来看下面这个战例↓
Claude 模型的母公司 Anthropic, 正在联合亚麻云构建Rainier项目:该项目基于UltraServer,组成包含数十万Trainium2芯片的超级集群,提供超过当前5倍的算力(EP级),用于训练下一代Claude模型。

还不止如此,不要忘了,除了 Trainium 系列,亚麻云还有算力芯片全家桶: Inferentia系列、Graviton系列,以及Nitro System
“全家”上阵,各施所长,各显其能,那才叫一个真能打。
连Apple这样的大佬,都跑来为之捧场,介绍他们基于Graviton3、Inferentia2和Trainium2来构建Apple Intelligence的实践经验。
当然,亚麻云也有这足够的号召力和生态能力。
除了基于自研芯片提供大模型的训推服务,还最新发布了基于N记Blackwell芯片P6系列实例,该实例比当前GPU快2.5倍,又是一个大提升。
跑GPU最爽的地方在哪儿?当然是亚麻云。



基础设施层


存 储

Amazon S3,是亚麻云2006上线以来的第一款服务,这一次,针对大模型对数据的海量需求,S3又迎来了两项重磅更新。

第一项是Amazon S3 Tables,这是全新的存储桶(buckets)格式,相当于完全的Apache Iceberg数据湖服务,用于大型分析数据集。
这种“新桶”,可以大幅提高Iceberg表的性能和扩展性,相比以前,现在每个表都是一级资源,查询性能提升3倍,事务处理能力提升10倍。并提供表级安全性和更优的成本。

如何利用S3 Tables快速查询分析并与Amazon云上分析服务联动

第二项更新是Amazon S3 Metadata元数据服务,这项服务可以帮助用户从存储在S3中的PB甚至EB级数据中,大海捞针,迅速找到需要的数据。

S3 Metadata可以自动从对象中捕获元数据,并 近实时 地存储到S3 Tables中,便于后续查询,并能在对象发生变化时,分钟级更新对应元数据。

无论是应对海量数据的分析查询需求,还是为大模型训练准备和供应优质数据饲料,S3的 这两项更新,都非常应景。




基础设施层


网 络

网络我们不多说,但AI时代网络的重要性不容小觑:更大带宽、更低延迟、更高可靠性。

亚麻云怎么做的呢?节点内部,他们有NeuronLink高速互联,而节点之间,他们推出了“10p10u网络”,也就是第二代UltraCluster网络架构。

“10p10u”支持20000 + 卡集群规模,网络容量超过10PB,延迟低于10μs。







请到「今天看啥」查看全文