突破“冯诺依曼瓶颈”，一段存储与人工智能凝成的自由故事

悦智网 · 公众号 · · 2020-03-13 15:30

正文

请到「今天看啥」查看全文

图2：传统的冯·诺依曼计算架构

除了体系架构自身的限制外，处理器和存储器二者之间长期以来所采用的不同工艺路线，也是造成计算和存储分离，继而产生“存储墙”和“功耗墙”问题的重要原因之一。用户对处理器的高性能需求是无止境的，这使得半导体厂商不断通过提高晶体管内部的开关速度、使用更多的金属布线层和先进封装技术等手段来提升性能;但对于存储器来说，消费者和厂商更在意的是如何在更小的存储单元面积上获得更多的晶体管数量，用以增加存储密度，扩大存储容量。从图3可以看出，1980-2000年，处理器和存储器两者的速度失配以每年50%的速率在增加。

图3：1980-2000年，处理器和存储器两者的速度失配以每年50%的速率增加

与此同时，数据迁移需要的功耗在整个计算中的占比也在“水涨船高”。有研究显示，7nm工艺时代，访存功耗达到25pJ/bit(45.5%)，通信功耗达到10pJ/bit(18.2%)，数据传输和访问功耗占比达到了63.7%。

因此，学术界和产业界都希望尽快找到一种与人脑结构类似的创新架构的想法就不足为奇了，比如通过对DRAM的逻辑层和存储层进行堆叠，实现近数据存储计算(Near Memory Compute)，或者是最好能够将存储和计算有机地结合在一起(存储器颗粒本身的算法嵌入)，直接利用存储单元进行计算，最大程度的消除数据迁移所带来的功耗开销。

人工智能，“存内计算”的助推剂

在这一背景下，更聚焦存储的新型“存内计算”架构诞生了。从目前趋势来看，真正对“存内计算”架构起到决定性推动作用的，将是人工智能/物联网相关应用的加速落地。

之所以做出这样的判断，原因有二。其一，物联网中包含大量智能终端，其计算过程往往涉及浅层人工智能算法数据的预处理。存内计算由于硬件复用问题，在深层算法的加速方面应该不占优势，但在浅层算法的实现过程中，简化的存算结构更易于硬件实现。其二，存内计算方案由于无需频繁搬用数据，能耗将显著降低，更符合物联网对硬件低功耗的要求。

众所周知，算法(Algorithm)、数据(Big data)和计算能力(Computing)并称为新AI时代三大驱动力，如何在追求更好性能的同时实现低功耗、低延迟和低成本，逐渐成为摆在所有AI从业者面前的艰巨挑战之一。

在实际应用中，我们发现尽管很多AI硬件平台都展示了自身所具备的强大算力，然而当用户在真正运行一个应用时，却常常发现由于存储带宽和存储架构的限制，很难将所有的AI运算单元填满，从而导致硬件的计算效率低下。以谷歌第一代TPU为例，其平均硬件乘法阵列使用率只有28%，这意味着72%的硬件在大部分时间内是没有任何事情可做的。

而在设计AI平台的时候，大量运算引擎所带来的能量消耗也是不可忽视的。图4表明，如果将完成16位整数加法能量消耗定义为1，那么将32比特的数据从DDR内存传输到芯片中，就将花费1万倍的能量消耗。因此，过大的访问带宽将会直接导致AI芯片功耗高居不下。

图4：AI硬件的计算效率与功耗由访存带宽所主导(图片来源：深鉴科技)

另一方面，5G、物联网与工业4.0的发展让信息量呈现爆炸式增长，但把所有数据都放到云端去进行处理和传输、存储和分析是不适合的。比如在工业自动化领域，数据存储距离一定要近才有效率;5G移动设备制造商如果不强化终端侧人工智能并进行计算-存储架构更改，将会遭遇严重的电池寿命问题。