正文
1. 迄今为止最先进的深度学习 GPU ——Tesla V100
当地时间10点,黄仁勋宣布将向观众介绍“下一个计算级别”的项目。他发布了 Tesla Volta V100,现场响起了热烈的掌声。
据黄仁勋介绍,
Tesla Volta V100
使用了 TSMC 12nm finfet 的工艺,达到了光刻的极限,拥有5,120 个 CUDA 内核,并具有 120 TeraFLOPS 的性能,配备新处理器 Tensor Core。 黄仁勋说能将这个 CD 大小的东西制造出来本身就是非凡的成就。
研发成本大概花了 30 亿美元,黄仁勋说。
与帕斯卡架构相比,TESLA V100 在HPC 通用目的FLOPS是1.5倍,在深度学习的训练上Tensor FLOPS 达12 倍,在深度学习的推理上
Tensor FLOPS 达6 倍。黄仁勋介绍,这款芯片是AI 和HPC的巨大飞跃。
新款Tensor Core是4×4矩阵阵列。它完全针对深度学习进行了优化。 我们觉得 Pascal 还不够快。新的 Tensor Cole 比Pascal晚了一年,但是它的张量运算速度却是 Pascal 的12倍,推理能力则提升了 6倍。
杜克大学陈怡然教授对新智元表示,V100的 12X training 主要就是靠 Tensor Core,Inference 还是低精度的,说明这个已经是标配。
但是,Tensor的出现实际上是以矩阵为单位计算,类似的想法在中科院大电脑系列和TPU,甚至以memristor crossbar为基础的硬件架构上都出现过。Tensor core的架构是很多startup的技术基础跟卖点,这对很多芯片创业公司来说不是一个好消息。
前富士通研发中心研究员吴春鹏告诉新智元,Google的TPU也是强调Tensor。机器学习中数据处理的基本单位是矩阵,所以在GPU/TPU中用Tensor等于实现了软硬件数据结构的统一。
会上,黄仁勋还宣布了为VOLTA 推出的新深度学习框架,其中包括Caffe2、Microsoft Cognitive Toolkit,MXnet。 使用Caff2来训练一个卷积神经网络,在8 k80s上需要花费40小时,在Pascals上需要花费20个小时,在8 Voltas上只需5小时。黄仁勋对MxNet的评价是:“难以置信地受欢迎”。
2. 面向TensorFlow的
TensorRT