清华团队再获突破！研制出全球首款多阵列忆阻器存算一体系统，能效比GPU高两个数量级

AI科技评论 · 公众号 · AI · 2020-02-27 13:16

正文

请到「今天看啥」查看全文

他们提出用高能效比、高性能的均匀忆阻器交叉阵列实现 CNN，该实现共集成了 8个 PE ，每个 PE 包含2048 个单元的忆阻器阵列，以提升并行计算效率。此外，研究者还提出了一种高效的混合训练方法，以适应设备缺陷，改进整个系统的性能。研究者构建了基于忆阻器的五层 CNN 来执行 MNIST 图像识别任务，识别准确率超过 96%。

除了使用不同卷积核对共享输入执行并行卷积外，忆阻器阵列还复制了多个相同卷积核，以并行处理不同的输入。相较于当前最优的图形处理器（GPU），基于忆阻器的 CNN 神经形态系统的能效要高出一个数量级，且实验证明该系统可扩展至大型网络，如残差神经网络。该结果或可促进针对深度神经网络和边缘计算提供基于忆阻器的非冯诺伊曼（non-von Neumann）硬件解决方案，在处理卷积神经网络（CNN）时的能效比图形处理器芯片（GPU）高两个数量级，大幅提升了计算设备的算力，成功实现了以更小的功耗和更低的硬件成本完成复杂的计算。

1、首个完全基于忆阻器的 CNN 硬件实现

据介绍，当前国际上的忆阻器研究还停留在简单网络结构的验证，或者基于少量器件数据进行的仿真。基于忆阻器阵列的完整硬件实现仍然有很多挑战。

比如，器件方面，需要制备高一致、可靠的阵列；系统方面，忆阻器因工作原理而存在固有缺陷（如器件间波动、器件电导卡滞、电导状态漂移等），会导致计算准确率降低；架构方面，忆阻器阵列实现卷积功能需要以串行滑动的方式连续采样、计算多个输入块，无法匹配全连接结构的计算效率。