专栏名称: 云头条
云计算领域科技媒体:传播观点,传播价值,连接商业与技术;Web:www.yuntoutiao.com ,欢迎互动~~~
目录
相关文章推荐
新浪科技  ·  【#OPPO将5G专利许可予大众#】OPPO ... ·  23 小时前  
新浪科技  ·  【#现货黄金日内跌1.02%#】#现货黄金跌 ... ·  2 天前  
新浪科技  ·  【#雷军回应YU7能否复刻SU7成功#:#雷 ... ·  2 天前  
51好读  ›  专栏  ›  云头条

FLOPS谬论:我们在机器学习中的内存需求方面所了解的一切也许是错误的

云头条  · 公众号  · 科技媒体  · 2020-03-23 22:55

正文

请到「今天看啥」查看全文



正如英伟达的首席科学家Bill Dally承认的那样:深度学习仍然“完全受制于硬件”。如果ImageNet中的图像其尺寸大于224×224,那么你就必须缩小批尺寸(batch size)、减少Resnet模型层的数量,或者将高分辨率图片缩小为较小的224×224图片。这任何一个方法都极有可能导致预测准确性因而降低。

当今庞大的GPU或TPU计算平台可以达到数十甚至数百teraflops(每秒万亿次浮点运算)的性能,但无法真正解决这个内存问题。假设DGX-2拥有500GB的高带宽内存(HBM)内存,该内存实际上被分配给了16个GPU。在训练期间,一份模型必须在每个GPU中32G昂贵的HBM内存中装得下(跨GPU的模型并行训练是鬼话)。谷歌TPU2 pod也是如此,它声称拥有4TB的共享HBM内存。这实际上意味着256个TPU2芯片中每个芯片都有16GB的内存,在训练过程中模型和参数在这16GB中必须装得下(加速就别指望了)。因此,在DGX-2或TPU pod上,你可以在ImageNet上训练Resnet 152,但仍无法训练Resnet 200。你可以运行224×224尺寸的图像,但绝对运行不了4K图像。

换句话说,随着我们的输入变得更庞大,随着我们增加视频,并且旨在训练更深更大的模型以便准确地分析模型,专用加速器硬件设备的内存限制会继续阻碍发现和创新。






请到「今天看啥」查看全文