这只一年翻二倍的人工智能股票后面的秘密

待字闺中 · 公众号 · 程序员 · 2017-05-11 09:13

正文

请到「今天看啥」查看全文

1. 迄今为止最先进的深度学习 GPU ——Tesla V100

当地时间10点，黄仁勋宣布将向观众介绍“下一个计算级别”的项目。他发布了 Tesla Volta V100，现场响起了热烈的掌声。

据黄仁勋介绍， Tesla Volta V100 使用了 TSMC 12nm finfet 的工艺，达到了光刻的极限，拥有5,120 个 CUDA 内核，并具有 120 TeraFLOPS 的性能，配备新处理器 Tensor Core。黄仁勋说能将这个 CD 大小的东西制造出来本身就是非凡的成就。

研发成本大概花了 30 亿美元，黄仁勋说。

与帕斯卡架构相比，TESLA V100 在HPC 通用目的FLOPS是1.5倍，在深度学习的训练上Tensor FLOPS 达12 倍，在深度学习的推理上 Tensor FLOPS 达6 倍。黄仁勋介绍，这款芯片是AI 和HPC的巨大飞跃。

新款Tensor Core是4×4矩阵阵列。它完全针对深度学习进行了优化。我们觉得 Pascal 还不够快。新的 Tensor Cole 比Pascal晚了一年，但是它的张量运算速度却是 Pascal 的12倍，推理能力则提升了 6倍。

杜克大学陈怡然教授对新智元表示，V100的 12X training 主要就是靠 Tensor Core，Inference 还是低精度的，说明这个已经是标配。

但是，Tensor的出现实际上是以矩阵为单位计算，类似的想法在中科院大电脑系列和TPU，甚至以memristor crossbar为基础的硬件架构上都出现过。Tensor core的架构是很多startup的技术基础跟卖点，这对很多芯片创业公司来说不是一个好消息。

前富士通研发中心研究员吴春鹏告诉新智元，Google的TPU也是强调Tensor。机器学习中数据处理的基本单位是矩阵，所以在GPU/TPU中用Tensor等于实现了软硬件数据结构的统一。

会上，黄仁勋还宣布了为VOLTA 推出的新深度学习框架，其中包括Caffe2、Microsoft Cognitive Toolkit，MXnet。使用Caff2来训练一个卷积神经网络，在8 k80s上需要花费40小时，在Pascals上需要花费20个小时，在8 Voltas上只需5小时。黄仁勋对MxNet的评价是：“难以置信地受欢迎”。

2. 面向TensorFlow的 TensorRT