专栏名称: 待字闺中
深度分析大数据、深度学习、人工智能等技术,切中实际应用场景,为大家授业解惑。间或,也会介绍国内外相关领域有趣的面试题。
目录
相关文章推荐
老刘说NLP  ·  GraphRAG遇上DeepResearch ... ·  昨天  
程序员的那些事  ·  黄仁勋回应任正非最新讲话 ·  3 天前  
程序猿  ·  离谱!一边裁员,一边60K*15薪招人 ·  2 天前  
逸言  ·  数据库选型对领域建模的影响 ·  2 天前  
51好读  ›  专栏  ›  待字闺中

这只一年翻二倍的人工智能股票后面的秘密

待字闺中  · 公众号  · 程序员  · 2017-05-11 09:13

正文

请到「今天看啥」查看全文



1. 迄今为止最先进的深度学习 GPU ——Tesla V100



当地时间10点,黄仁勋宣布将向观众介绍“下一个计算级别”的项目。他发布了 Tesla Volta V100,现场响起了热烈的掌声。


据黄仁勋介绍, Tesla Volta V100 使用了 TSMC 12nm finfet 的工艺,达到了光刻的极限,拥有5,120 个 CUDA 内核,并具有 120 TeraFLOPS 的性能,配备新处理器 Tensor Core。 黄仁勋说能将这个 CD 大小的东西制造出来本身就是非凡的成就。


研发成本大概花了 30 亿美元,黄仁勋说。


与帕斯卡架构相比,TESLA V100 在HPC 通用目的FLOPS是1.5倍,在深度学习的训练上Tensor FLOPS 达12 倍,在深度学习的推理上 Tensor FLOPS 达6 倍。黄仁勋介绍,这款芯片是AI 和HPC的巨大飞跃。



新款Tensor Core是4×4矩阵阵列。它完全针对深度学习进行了优化。 我们觉得 Pascal 还不够快。新的 Tensor  Cole 比Pascal晚了一年,但是它的张量运算速度却是 Pascal 的12倍,推理能力则提升了 6倍。


杜克大学陈怡然教授对新智元表示,V100的 12X training 主要就是靠 Tensor Core,Inference 还是低精度的,说明这个已经是标配。


但是,Tensor的出现实际上是以矩阵为单位计算,类似的想法在中科院大电脑系列和TPU,甚至以memristor crossbar为基础的硬件架构上都出现过。Tensor core的架构是很多startup的技术基础跟卖点,这对很多芯片创业公司来说不是一个好消息。


前富士通研发中心研究员吴春鹏告诉新智元,Google的TPU也是强调Tensor。机器学习中数据处理的基本单位是矩阵,所以在GPU/TPU中用Tensor等于实现了软硬件数据结构的统一。



会上,黄仁勋还宣布了为VOLTA 推出的新深度学习框架,其中包括Caffe2、Microsoft Cognitive Toolkit,MXnet。 使用Caff2来训练一个卷积神经网络,在8 k80s上需要花费40小时,在Pascals上需要花费20个小时,在8 Voltas上只需5小时。黄仁勋对MxNet的评价是:“难以置信地受欢迎”。


2. 面向TensorFlow的 TensorRT








请到「今天看啥」查看全文