正文
美国橡树岭国家实验室的「Titan」超级计算机是「美洲虎」的继任者。它由 18688 块 AMD Opteron 6274 16 核 CPU 与 18688 块英伟达 Tesla K20X GPU 组成,在世界超级计算机性能排名中位列第三(17590 TFlop/s,2016 年 11 月排名)。在近几年的发展中,该实验室的研究小组一直致力于使用多 GPU 优化深度神经网络的计算,为深度学习任务提供优化。橡树岭实验室的探索为机器学习硬件架构的发展指出了一个方向,在 Titan 之后,这家实验室正计划在 2017 年底推出「Summit」超级计算机。
在单个 GPU 或在带有 4 到 8 个 GPU 的单个系统上部署(scale)神经网络是一件事;但是让其通过数千个节点,却完全是另外一件事。绝大多数深度学习研究中心具备用来训练的相对较小的 GPU 集群,但肯定没有橡树岭国家实验室的 Titan 超级计算机这样的庞然大物。
过去在单一模型的运行中,对机器学习部署性(scalability)的强调经常聚焦在节点数量上。这对一些应用有帮助,但是随着神经网路逐渐整合进现有工作流程(包括 HPC 工作流程在内),就会出现另一种看待部署性的方式。来自 HPC 应用领域的经验很有趣,比如天气预报模型,它不是通过整个(monolithic)模型预测天气,而是聚合大型超级计算机并行运算的总体结果以给出最佳预测。在神经网络中使用这种聚合方法可部署数千个节点,并从聚合的平均值中得到最终结果。这种聚合在不需要精确度(不止一种方式)的领域可以接受,但它不适用于 HPC 计算。
这一方法已经被用在橡树岭国家实验室的 Titan 超级计算机上,橡树岭有大量的 GPU,因而在深度学习训练方面实力强大。包含 18688 块 Tesla K20X GPU 的 Titan 超级计算机已被证明在大量的科学模拟方面很有用,并在深度学习框架(包括 Caffe)方面具备双重功能,以提升 HPC 模仿(分类、噪音过滤等)能力。实验室的下一代超级计算机「Summit」(预计于 2017 年底推出)配备有 Nvidia Volta Tesla 图像协处理器、高带宽内存、可更快速传递数据的 NVLink 以及 IBM Power9 CPU,从而使 GPU 更加强大。