Google深度揭秘TPU：一文看懂内部原理，以及为何碾压GPU

量子位 · 公众号 · AI · 2017-05-13 13:18

正文

例如，对于有三个输入数据和两个全连接神经元的单层神经网络而言，需要把输入和权重进行六次相乘，并得出两组乘积之和。这个乘法和加法序列，可以写成一个矩阵乘法，然后通过激活函数进一步处理矩阵的输出。

在更复杂的神经网络架构中，乘法矩阵通常也是计算量最大的部分。

实际业务中需要多少次乘法运算？2016年7月，Google团队调查了实际业务中，六个有代表性的神经网络应用，结果如下表所示：

如上表所示，每个神经网络中的权重数量从500万到1亿不等。每一个预测，都需要许多步的输入数据和权重矩阵相乘，并输入到激活函数中。

总而言之，计算量超大。作为优化的第一步，Google应用了一种称为量化的技术进行整数运算，而不是在CPU或者GPU上对所有数学工作进行32位或者16位浮点运算。这能减少所需的内存容量和计算资源。

通常而言，神经网络的预测不需要32位或16浮点计算精度，通过一些方法，可以用8位整数对神经网络进行预测，并保持适当的准确度。

所谓量化，就是一种使用8位整数来近似预设的最小值和最大值之间任意数值的优化技术。

量化是降低神经网络预测成本的利器，同时带来的内存减少也很重要，特别是对于移动和嵌入式部署。举个例子，在Inception中应用量化之后，这个图像识别模型能从91MB压缩到23MB，成功瘦身四分之三。

使用整数而不是浮点计算，大大减小了TPU的硬件尺寸和功耗。一个TPU钟包含65,536个8位整数乘法器。云环境中使用的主流GPU，通常包含数千个32位浮点乘法器。只要能用8位满足精度需求，就能带来25倍以上的性能提升。

可编程性是TPU的另一个重要设计目标。TPU不是设计用来运行某一种神经网络，而是要能加速许多不同类型的模型。

大多数当代CPU都采用了精简指令集(RISC)。但Google选择复杂指令集(CISC)作为TPU指令集的基础，这一指令集侧重于运行更复杂的任务。

我们来看看TPU的结构图。

推荐文章

新机器视觉 · 为什么图像处理如此困难

8 小时前

爱可可-爱生活 · 【[2.4k星]Forge：AI增强型终端开发环境，让编程更高效-20250604140816

10 小时前

量子位 · 训练MoE足足提速70%！华为只用了3招

昨天

宝玉xp · //@翻译驴:按省分的指标，关分数啥事？//@霸气侧漏有木有:吃-20250603132043

昨天

爱可可-爱生活 · 【Anthropic 宣布了 Claude 的新功能 ——Int-20250603083524

昨天

解放军报 · 聚焦｜解放军报评论员文章：坚决反对假大虚空、追逐名利

8 年前

加拿大约克论坛 · 冰火两重天！加拿大热门&冷门房区盘点，投资房子主要看这5个城市！

8 年前

水木资管号 · 我们该怎样活着|再过六十年

7 年前

酷玩实验室 · 最科学的失眠统计来了，看看你中招了没丨精选评论

7 年前

扬子晚报 · 微信转错账怎么办？你可能还不知道这个功能，一招教你挽回损失！

7 年前