专栏名称: 王剑的角度
投研就像摄影,永远胜在角度。分析师、摄影师王剑,欢迎交流。
目录
相关文章推荐
煮娱星球  ·  五月份煮娱最受欢迎明星 ·  22 小时前  
浙江新闻频道  ·  突发!男演员演出时坠落 ·  22 小时前  
1018陕广新闻  ·  知名演员去世!六小龄童发文悼念 ·  22 小时前  
梅特涅的信徒  ·  德国再武装,他们准备好战争了吗? ·  昨天  
51好读  ›  专栏  ›  王剑的角度

【国信海外】科技周期探索之七:2016-2030年:通用人工智能时代的到来

王剑的角度  · 公众号  ·  · 2025-03-23 17:09

正文

请到「今天看啥」查看全文



3、硬件优化的可行性:GPU是通用型处理器,虽然早期的AlphaGo版本使用了多个GPU后很快实现了强大的算力,但其功耗也是巨大的。按照单块CPU 100W,GPU 200W的功耗计算,2016年版本的AlphaGo使用了1920个CPU和280个GPU,每下一盘棋,成本就会超过3000美元(主要是电费)!而通过在设计,仅2-4块TPU就能完成类似的,甚至更好的成绩。


算力指数级进步:GPU接过接力棒


英伟达创始人兼CEO黄仁勋也多次提及摩尔定律已死,并提出黄氏定律(Huang's law):GPU的性能每两年将翻一番以上。他的证据是,2006年,英伟达GPU性能比其他CPU高出4倍,到了2018年英伟达GPU比同类CPU快20倍:即GPU每年快1.7倍。


实际上,黄仁勋的预测也经常改变。下图是2017年黄仁勋提及的未来英伟达GPU的速度是每年提升50%(1.5X)。也有人根据英伟达AI性能10年提升1000倍,认为黄氏定律应该是每年翻倍,即10年正好翻210即1000倍左右。

图片


2023年9月,英伟达首席科学家比尔·戴利(Bill Dally)提及,英伟达单个GPU在AI推理方面的性能大幅提升了1000倍,戴利还将这1000倍分成了4部分(1000=16×12.5×2.5×2),其中:


1、算法优化16倍(finding simpler ways to represent the numbers computers use to make their calculations);


2、指令优化12.5倍(crafting advanced instructions that tell the GPU how to organize its work);


3、结构优化2倍(structural sparsity);


4、制程进步2.5倍(从28nm迁移到5nm)。


可见,从这个案例来看,英伟达的性能提升,主体并非制程进步,而是算法与指令的优化。


图片


记者乔尔·赫鲁斯卡于2020年撰文称,“黄氏定律根本不存在”,称其为一种建立在摩尔定律带来的收益之上的“幻觉”,现在断定该定律是否存在还为时过早。非营利性研究机构Epoch发现,2006年至2021年间,GPU性价比(以FLOPS/$为单位)每2.5年翻一番,比黄氏定律预测的要慢得多。一个简单的现象是,尽管我们讨论英伟达的单个GPU性能提升是不假,但是其价格确实水涨船高,例如大模型出现之后,2023年的英伟达的H100最高炒到3-4万美元一块,这显然比曾经的价格要高出很多。


但无论是每年2倍,1.5倍,还是每两年1倍,GPU的确接过了CPU的接力棒,更有效率地推高了计算能力,这一点是毋庸置疑的。


早期的GPU是图像处理设备,或者叫显卡。1995年11月,3DFX公司的Voodoo显卡问世,Voodoo是当时市场占有率最高的3D显卡,市场份额高达85%。相较而言,英伟达在当时诸多显卡公司中不算显眼,但得益于当时英伟达快速追随了微软,发布了适配微软公司的Direct3D 7标准的Geforce256显卡,使得英伟达迅速成为显卡市场的佼佼者。


图片


2000年,英伟达收购了3DFX;而2006年,AMD收购了ATI。似乎行业就这样趋于平静,但很快技术上的变化打破了这种平静。


2003年,人们发现了基于GPU来解决一般线性代数问题,其运行速度比在CPU上更快。这些早期将GPU用作通用处理器的工作,需要根据图形重新表述计算问题,正如图形处理器的两个主要API,OpenGL和DirectX所支持的那样。于是人们思考,是否能够建立一种通用编程语言和API来减少其中的繁琐与转换。


这就出现了GPGPU概念(General-purpose GPU)。GPGPU的通用计算是使用图形处理单元(GPU)来执行传统上由中央处理器(CPU)处理的应用程序中的计算,而图形处理单元(GPU) 通常仅作计算机图形处理。在一台计算机中使用多个视频卡或大量图形芯片,使图形处理本来就并行的特性进一步并行化。本质上,GPGPU是一个或多个GPU与CPU之间的一种并行处理,可将数据视为图像或其他图形形式进行分析。虽然GPU以较低的频率运行,但它们的核心数量通常要多很多倍。因此,GPU每秒可以处理的图片和图形数据比传统CPU多得多。将数据迁移到图形形式,然后使用GPU对其进行扫描和分析可以大大提高速度。

图片

英伟达认为,GPGPU对于显卡公司来说,是个非常有前景的发展方向。在2006年,英伟达发布了CUDA架构(Compute Unified Device Architecture,统一计算设备架构)。CUDA是一个专有的并行计算平台和应用程序编程接口(API),允许软件使用某些类型的图形处理单元(GPU)进行加速通用处理。CUDA API是C语言的扩展,它增加了在C中指定线程级并行性的能力,以及指定GPU设备特定的操作。CUDA是一个软件层,它可直接访问GPU的虚拟指令集和并行计算元素,以执行计算内核。除了驱动程序和运行时内核之外,CUDA平台还包括编译器、库和开发人员工具,以帮助程序员加速他们的应用程序。CUDA旨在与C、C++、Fortran和Python等编程语言配合使用。这种可访问性使并行编程专家可以更轻松地使用GPU资源,而之前的Direct3D和OpenGL等API则需要高级图形编程技能。基于CUDA的GPU 还支持OpenMP、OpenACC和OpenCL等编程框架。


最初的CUDA SDK于2007年2月面向Microsoft Windows和Linux公开。后来在2.0版中添加了Mac OS X支持。CUDA适用于G8x系列及以后的所有英伟达GPU,包括GeForce、Quadro和Tesla系列。


此后,英伟达显卡中都包含了支持CUDA运算的核心。而这个核心数量,要比CPU的核心数量多得多。换句话说,在CPU无法通过先进制程去提速,而通过核心的扩展来实现提速这条路走的不顺畅时,GPU通过扩展核心来提速却容易得多。


下表列示了英伟达部分GPU与CUDA核心数,可以看出,从2008年以来,其核心数从240个增加到了2022年的18432个。

图片


另外一个角度,英伟达GPU经历了多年的演进,已经先后经历了10个主要架构(micro architectures),从2006年的Tesla架构,到2024年的Blackwell架构,即大约每2年就会有一个新的架构诞生。每一次架构的迭代,大都伴随制程工艺的进步,速度的提升,以及功能的改善(例如Volta架构引入Tensor核心、Turing架构引入RT核心)。


但值得注意的是,我们列举了重点型号GPU的功率,发现其并非保持不变的,而是大约在18年的时间里提升了4-5倍。例如,Telsa架构下的GeForce 8800 GTX功率仅为175W;到了Volta架构的Tesla V100,功率到了300W;而在Hopper架构下的H100,功率达到了700W。这也说明,英伟达比英特尔在扩展核心上技高一筹这并不假,或者说,GPU接替CPU,担负起推动人类算力革命的使命。


但此间也有个问题,即英伟达并未在算力扩张的情况下保持功率不变,这与我们理解的“摩尔定律”是不相符的:这好比摩尔定律定义的是一块CPU每18个月速度翻倍,而英伟达实现过程更像是把多块芯片做到一起(因为GPU核心可以很多)而宣称是一块芯片。从这个角度说,“黄氏定律”不宜称之为一个定律,只能代表英伟达追求速度的一种标榜。

图片


观察近百年来计算机发展的历史,可以得到计算机性能(FLOPS)与成本的关系。下表列示了提供最低每GFLOPS成本的平台,对应的成本(换算成2022年的美元计价)。可以看出,为了推动成本的下降,从2010年之后,表中开始频繁的出现了GPU以替代CPU,尤其是2020年之后,表中的方案都是以GPU实现的。


例如索尼PlayStation 4采用的是AMD美洲豹CPU但集成了GPU,PlayStation 5采用了定制版RDNA 2架构的AMD GPU,Xbox Series X包含了一个具备12TFLOPS算力的GPU,RTX 4090、镭龙RX 7600都是GPU。

图片


我们将调整后的成本(2022)与时间线绘制成图,可以清晰地观察出,它呈现的是一个指数曲线(图中为对数坐标系)。


图片


我们将调整后的成本(2022年)与时间线绘制成图,可以清晰地观察出,它呈现的是一个指数曲线(图中为对数坐标系)。


为了观察每GFLOPS成本的变化速度,我们再将时间分阶段来观察:


1、从1945年以来(拥有数据的最长历史),77年的时间里,单位算力(GFLOPS)的年复合成本下降幅度为40.24%;


2、1961年以来的61年里,1984年以来的38年里,1997年以来的25年里,2007年以来的16年里,年复合成本下降幅度介于39%-45%之间;说明技术推动相对顺利;


3、从2011年以来的12年里,年复合成本下降幅度为35.28%,以及2015年以来的8.3年里,年复合成本下降幅度仅为24.14%,这说明随着摩尔定律遇到极限挑战之后,技术推动效果也在明显放缓。

图片


这带来了一些深远的影响:


1、更大的资本投入:想要获得更大的算力,如果采用“时不我待”的态度,则需支付更高的成本;


2、体积不能更小,但能更大:由于GPU单卡功率变大,因此体积无法更小,例如在5年之内,目前似乎尚无法看到一个手持设备的算力可以赶上主流GPU的水平,则应用的方向朝着体积更大去演进,如云计算可以忽略设备的占地,如汽车也拥有相对较大的空间,如台式机相对可以配置较好的GPU显卡,而笔记本、手机、智能穿戴等设备,则短期较难享受到GPU算力革命的巨大成果;


3、有利于中国的追赶:由于年复合成本下降速度放缓,换句话说,先发者对于后来者的比较优势也在缩小,这给中国芯片业迎来宝贵的时间窗;


4、等待着新技术的突破:在技术瓶颈期,往往新技术才能冲破。例如硅半导体的可能替代品:碳化硅、石墨烯、金刚石、其他III-V族化合物(如砷化镓GaAs)、II-VI族化合物(如硫化镉CdS)等,或者量子计算等更前沿的技术。


应用的助力:比特币、云计算、新能源汽车


有三大应用场景对GPU的发展起到了重要的推动作用。它们分别是加密货币、云计算、新能源汽车。


加密币的诞生


1、比特币拉动了全网算力的提升


2008年10月,中本聪撰写的白皮书《比特币:一种点对点电子现金系统》(A Peer-to-Peer Electronic Cash System)问世了。比特币软件作为开源代码则是在2009年1月发布。2009年1月3日,中本聪挖出了比特币链的起始区块(即创世区块),比特币网络由此诞生。2010年5月22日,已知的第一笔比特币商业交易发生在程序员拉斯洛·汉耶茨以10,000比特币购买了两个帕帕约翰披萨时,这一天后来被称为“比特币披萨日”。


比特币从诞生之日起,就伴随着旷日持久的争论与非议。欧洲央行认为,比特币提供的货币去中心化理论根源于奥地利经济学派,尤其是哈耶克的《货币非国家化》(The Denationalization of Money)一书,他在书中主张在货币的生产、分配和管理方面建立完全的自由市场,以结束中央银行的垄断。 《比特币独立宣言》认为比特币意识形态的本质是将货币从社会和政府控制中解放出来。《经济学人》将比特币描述为“一个技术无政府主义项目,旨在创建现金的在线版本,让人们可以进行交易而不受恶意政府或银行干扰”。这些哲学思想最初吸引了自由主义者和无政府主义者。经济学家保罗·克鲁格曼认为,只有银行怀疑论者和犯罪分子才会使用比特币等加密货币。


不少经济学家、投资者都将比特币描述为潜在的庞氏骗局。巴菲特也持有类似的观点,他多次在公开场合表达对比特币的批评,‌他认为比特币没有生产能力,‌其价值完全依赖于市场投机和需求,‌而不是基于任何实际的生产或服务。‌他曾经比喻比特币为“老鼠药”,‌并指出比特币的价值波动巨大,‌缺乏稳定的现金流,‌这使得比特币难以被视为一种真正的资产。但法律学者埃里克·波斯纳 (Eric Posner)不同意这种观点,因为“真正的庞氏骗局需要欺诈;相比之下,比特币看起来更像是一种集体妄想”。2014年世界银行的一份报告也得出结论,比特币不是故意的庞氏骗局。

图片


由于比特币的产生机制是:


1、工作量证明:使用工作量证明(PoW,Proof of Work)机制来确定哪些节点有权将新的交易记录添加到区块链上。节点通过解决一个极其复杂的数学难题来达成这一目标,这个难题涉及到对新区块的头信息进行哈希运算,整个过程需要大量的计算尝试,因此需要消耗大量的计算资源;


2、网络难度:比特币网络通过调整挖矿难度来维持平均每10分钟产生一个新区块的速度。如果这段时间内区块生成速度过快,则难度会上升;如果过慢,则难度会下降。这样可以确保即使计算能力发生变化,区块生成速率也能保持相对稳定;


3、四年减半:成功挖出新区块的矿工将获得一定数量的比特币作为奖励,大约每四年减半一次。


这三个机制导致了先投入先得利,高算力高回报的竞争结果。因此它不可避免的触发了显卡(GPU)的抢购潮与军备竞赛。


例如,2010年7月,比特币的全网平均算力为172M h/s,2024年的12月(14年以后)比特币的全网平均算力为751E h/s(E=1000P,P=1000T,T=1000G,G=1000M),也就是说,14年全网算力增加了4万亿倍(4.4*10^12),每年复合增速6.4倍!或者说每4.1个月全网算力翻番。当然,由于早期的全网算力小的可怜,既没有人关注,也多用电脑(CPU)来挖矿,等到后期关注度较高且开始大量使用GPU之后,算力的上涨速度就降下来了。

图片


比特币价格几次大涨:


2011年:比特币的价格首次突破了10美元的大关,并在6月份迅速上涨至30美元左右,之后迅速回落。这是比特币早期的一次显著增长;


2013年:从2012年年底10元左右上涨到在2013年12月,比特币价格从10美元飙升至每枚1200美元左右。这次增长主要是由于市场对比特币作为一种新兴金融资产的兴趣增加;


2017年:比特币在2017年经历了非常显著的增长,价格从年初的约1000美元左右一路上涨,到了年底达到了近20000美元的历史高点。这次大涨的原因包括市场兴趣激增、更多的机构投资者进入市场以及全球经济不确定性的增加;


2020-2021年:受到新冠疫情的影响,美联储大放水,比特币被视为一种避险资产,吸引了大量投资。一些大型机构投资者和上市公司开始持有比特币作为资产储备,进一步推高了价格。2021年初,比特币价格突破了5万美元,并在接下来几个月内继续攀升,最高达到6万美元以上;


2023-2024年:全球央行开始增持黄金,比特币作为另类资产,也开始受到追捧。随着比特币基金的成立以及美国宣布要将比特币作为战略储备,价格从2022年底的14000美元来到了2024年底的10万美元。


比特币在每次大涨中,都会极大刺激对显卡(GPU)的需求。例如以17年矿潮为例,2个月挖矿(并除去电费)就可回本,年化收益率高达600%。


随着算力猛涨,到了2022年,全球比特币的矿机高峰耗电量达到了204TWh。

图片


而2022年,全球总用电量为24398Twh。也就是说,巅峰期矿机用电量接近全球用电量的0.8%,这大约是全球用电量排名第20名左右国家的水平,也有研究表明,矿机的平均用电量(而非峰值)占全球用电量的0.4-0.6%。


2017年12月,芝加哥商品交易所(CME)推出了首个比特币期货;2021年10月, ProShares的首只比特币ETF,BITO在芝加哥商品交易所上市;2024年1月,11只美国现货比特币ETF开始交易,首次在美国证券交易所提供对比特币的直接投资。其中规模最大的ETF是贝莱德管理的iShares比特币信托(IBIT),2024年上半年流入约200亿美元。


截至2023年6月,River Financial估计比特币拥有8170万用户,约占全球人口的1%,但在现货ETF发行之后,比特币流动性将明显改善,成为不可忽视的另类投资品种。


图片


2、非PoW机制提高了记账效率


比特币是去中心化的产物,那么去中心化也带来的效率上的妥协。一个中心化的网络交易速度可以很快(试想阿里巴巴在2020年双十一的交易量可达每秒58.3万笔)。而在比特币的网络里每秒可以处理的交易量非常有限,通常在每秒3-7笔交易左右。这是因为每个区块只能容纳有限的交易,并且区块的生成时间固定为10分钟。为了达到较高的安全性,通常建议等待6个区块的确认时间,即大约1小时。于是,比特币如果与黄金类比,可以免去实物搬运的麻烦;但和现代货币的快捷支付相比,这又成了它最大的掣肘。


以太坊的诞生主要是弥补比特币在交易功能上的不足。以太坊白皮书于2013年发布,公链于2015年7月启动。先以与比特币共同的工作量证明(PoW)的算法来增加可信度,再逐步转换成权益证明(PoS)以增加效率。经历了2015年的“边境”、2016年的“家园”、2017年的“都会”三个版本后,以太坊迎来了2020年的“宁静”版本。2022年9月,以太坊合并完成,主网与PoS共识层信标链(Beacon链)结合、将此前PoW工作量证明机制转变为PoS权益证明机制,宣布以太坊正式进入2.0时代。


以太坊最重要的技术贡献是智能合约。智能合约是存储在区块链上的程序,可以协助和验证合约的谈判和执行。纽约时报称以太坊平台是一台公共电脑,由众多用户构成的网络来运转,通过以太币来分配和支付这台电脑的使用权。经济学人则说明智能合约可以让众多组织的数据库得以用低廉的成本交互,并且让用户写下精密的合约,功能之一是产生去中心化自治组织,也就是一间只是由以太坊合约构成的虚拟公司。







请到「今天看啥」查看全文