专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

谷歌首次公布“人工智能芯片”细节，全球规模庞大的数据中心或将大幅减少

DeepTech深科技 · 公众号 · 科技媒体 · 2017-04-06 15:50

正文

搭载TPU的电路板

今天，谷歌首次发表论文深度剖析了TPU的详细架构及相关技术细节， 并将TPU在性能和效率上的表现与Haswell CPU和Nvidia Tesla K80 GPU做了详尽的比较， 也向外界揭开了这款处理器的神秘面纱。

论文链接：https://drive.google.com/file/d/0Bx4hafXDDq2EMzRNcy1vSUxtcEk/view

论文的作者Jouppi表示，在谷歌决定开发定制的ASIC（专用集成电路，即日后的TPU）之前，该硬件团队曾寄希望于用FPGA（现场可编程门阵列）实现廉价、高效、高性能的推理系统。

人们最初想到利用FPGA，主要在于看重其灵活性，但是相比于ASIC，其受到可编程性和一些其它因素的限制，导致最终这些设备在性能和功耗上的表现与人们的预期有很大差距。

该论文作者之一Norm Jouppi

TPU 像 CPU 和 GPU 一样，可以进行编程操作。它的设计也不仅仅是针对某种神经网络模型，而是能够在 多种神经网络 （CNN、LSTM，以及大型全连接网络模型等）中执行CISC（复杂指令计算机）的指令。所不同的是， 它将矩阵而不是矢量和标量作为原语 。

原语是机器指令的延伸，往往是为了完成某些特定的功能而编制的一段系统程序。

TPU整体框架，但不包括外接DDR3内存。左侧是主机接口，指令序列从主机发出（没有循环）。这些指令用于激活控制逻辑，控制逻辑可以基于指令（由于指令从主机传到芯片存在延迟，因此指令数量受到了限制）并反复运行该指令

不过，这并不意味着TPU有多复杂，它看起来更像雷达的信号处理引擎，而不是标准X86架构。此外“ 它与浮点单元协处理器更为神似 ，而跟GPU不太一样，”Jouppi表示，尽管TPU有较多矩阵乘法单元，它却没有任何储存程序，它仅仅执行主机下发的指令。

由于需要向矩阵乘法单元供给大量数据（通量在64000的数量级上），TPU上的动态随机存取存储器（DRAM）是 作为一个独立单元并行运行的 。Jouppi 说眼下还不知道TPU的扩展上限在哪里，只要你使用任何带有主机软件的加速器，就一定会有瓶颈。

推荐文章

新浪科技 · 【#研究称AI存在畏死情绪# #AI处理复杂情境会出现非理性反应-20250618145500

14 小时前

新浪科技 · 【#王兴再减持理想#：#王兴再减持理想套现超6亿港元#，持股比例-20250617163207

昨天

新浪科技 · 【#京东CEO称外卖订单量远超预期#：#京东外卖全职骑手突破12-20250617172246

昨天

新浪科技 · 【#执法干部体验当一天网约车司机#：到处都是无形的压力！】#多地-20250617153004

昨天

新浪科技 · 【#罗马仕宣布召回部分充电宝#】深圳罗马仕科技有限公司发布消息称-20250616222753

2 天前

庞门正道 · 爸爸边开车边唱歌被女儿偷拍传上网，结果网友们炸了，要不要这么好听~

8 年前

优设AIGC · 你离那些拿高薪、进大厂的设计师，还差多远？

8 年前

史事挖掘机 · 为一张古画倾家荡产，被绑架时宁遭撕票也不变卖，他才是中国最后的贵族

8 年前

优科豪马轮胎 · 来自优科豪马轮胎·切尔西粉丝社区的豪华礼包

8 年前

医药经济报 · 【大数据】WHO也出限抗举措，抗菌药市场现状如何？

8 年前