正文
对于国内来说,未来几年是算力部署的初始阶段,GPGPU算力的易用性将使其对客户更有吸引力,中国需要先用海量的,可用且易用的GPGPU算力堆砌出自己的模型与商业循环,在完全成熟以及业务颗粒度放大之后,ASIC在国内的市场才会慢慢显现。
当然在此过程中,对于GPGPU架构的优化也非常重要,例如可以同样通过对DCU中不同算力精度小核的取舍,来强化芯片的AI精度,也就是FP16精度的算力,实现更好的追赶,我们认为这才是对于中国算力来说当下更为合适的道路。
市场对于中国AI通信该如何发展理解较浅。
随着AI集群规模的扩大,自主可控的AI通信,将会变得更加重要。发展自主可控的AI通信,有两个领域,第一是Scale-Out领域,这个领域主要涉及到交换机芯片到整机的自主可控,第二个则是Scale-Up领域,这个从英伟达经验来看,更加封闭且垄断,但我们认为,国内芯片厂商不应该走与英伟达类似的纯自研道路。从海外最新发展来看,从UA-Link联盟的成立,到12月5日博通3.5D封装方案的发布,芯片设计与通信公司的分工正在愈发明确,我们认为,行业应该学习这种趋势,让芯片公司专注于设计,同时集合国内电信巨头的网络经验、封装巨头的技术积累,交换芯片公司的自主产品,从而建立自主可控的由封装到专用芯片再到通信协议的“Scale-Up”网络联盟。
行业催化:
1. 国内模型厂商业务推进加速。
2. 国产算力产品能力不断提升。
投资建议:
建议关注计算能力、通信能力、制造能力、基建能力的四大环节核心标的
计算能力:寒武纪-U
通信能力:中兴通讯、盛科通信-U、通富微电
制造能力:新易盛、中际旭创、天孚通信、光迅科技、德科立、华工科技、锐捷网络、菲菱科思、紫光股份
基建能力:润泽科技、光环新网、奥飞数据、英维克、麦格米特
近期,博通在财报电话会上给出指引,到2027财年,其AI业务的潜在市场规模约为600-900亿美元,我们认为,海外的ASIC的业务版图逐渐浮出水面,这也带动博通市值也一举突破万亿美金大关。
我们将视角拉回国内,许多投资者在这种背景下,认为ASIC作为AI专用芯片,其拥有更强的专用性,在同样的半导体制程下,将会拥有比英伟达为代表的通用GPU更强的理论性能,是实现制程限制下算力“弯道超车”的理想之选。但从当下的客户需求与全球ASIC芯片开发进程来看,
我们认为,在未来的2-3年内,GPGPU将依然凭借“能用”与“易用”,成为国产算力的主旋律。
2.1 GPGPU与ASIC的技术对比与优劣分析
为了进一步解释为何我们做出“GPGPU”先行的判断,我们需要从两种芯片的底层技术出发,来理解在进行AI计算时,两种芯片的运算特点,与各自设计,使用场景的优劣。
随着大模型训练需求的跃升,Transformer算法快速风靡,Transformer算法通过大量且单一的“矩阵乘法”运算,使得模型的参数,能力快速跃升,带动了AI的高速发展。这种通过单一,大量的矩阵乘法运算来实现“大力出奇迹”的运算特点,也给当下的芯片演进,带去了不一样的土壤。
(由于技术部分过于复杂,不是此篇报告论证的重点,因此在本篇报告中只做大概论述并给出主要结论,更详细的两者技术对比以及演进路线可以参考我们之前发布的报告《AI算力的ASIC之路——从以太坊矿机说起》)
我们先来看以英伟达为代表的GPGPU是如何在芯片微架构层面完成一次矩阵运算的。GPGPU构型的芯片,最大的特点是其芯片由两大部分组成,专门负责矩阵运算的TensorCore(TU)与负责其他运算如向量运算,加减乘除的小核部分(DCU)。
在GPGPU构型的芯片上,进行一次矩阵乘法运算的大体过程如下,DCU中的每一个小核心先从HBM中取出一个单独的数字,将其传送给TU,连续多个cycle后,将TU填满,进行一次矩阵乘法,并得出结果。
在ASIC芯片上,以当下主流的TPU架构为例,其底层原理是“脉动阵列取数法”,从微架构层面看,其抛弃了DCU小核的部分,只保留TU大核来进行矩阵乘法运算。CPU与编译器直接从HBM中取出数字灌入TU来进行运算。
这么做有两个好处,第一,省去了在实际运算中不参与矩阵乘法的“DCU”部分,可以将多余的面积堆积更多的TU,从而实现更高的“AI算力密度”。第二,由于采用了“脉动阵列取数法”作为填满TU的底层原理,其将TU装满运算一次,并得出矩阵乘法结果的速度也更快。两者相互结合,相同面积与制程下,此种原理的芯片相较于英伟达的GPGPU,可以拥有更好的理论算力。