专栏名称: AI科技评论
点评学术,服务 AI !
目录
相关文章推荐
湖南日报  ·  国家能源集团严正声明 ·  昨天  
湖南日报  ·  24小时内第二座!俄罗斯又一桥梁坍塌 ·  昨天  
51好读  ›  专栏  ›  AI科技评论

颠覆直觉!大模型重压缩,反到加速推理速度,加州伯克利分校的再思考

AI科技评论  · 公众号  ·  · 2020-03-10 08:15

正文

请到「今天看啥」查看全文



论文链接:https://arxiv.org/pdf/2002.11794.pdf


在论文中,他们还提出 “训练更大的模型,然后再压缩模型” 的思路来加速Transformer 模型训练和推理,能够兼顾训练效率和训练成本。


1


更大的模型,训练速度反而更快?

在论文《Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers》中,作者发现实践中通过减小模型大小来提高模型训练效率的这种常用做法,实际上与计算效率最佳的训练策略背道而驰。


研究者在计算预算内训练Transformer模型,无非是希望能够大幅增加模型大小,与此同时还能减少训练时长。换言之,即通过论证牺牲收敛性的同时增加模型大小的几率,重新考虑模型在收敛前必须训练的隐含假设。


发生这种现象的原因,是在较少的梯度更新中,较大的模型比较小的模型更能够收敛到较低的测试误差。此外,模型收敛性上的提高胜过使用更大模型的额外计算成本。因此,在考虑时钟训练时长时,较大的模型可以更快地实现较高的准确度。







请到「今天看啥」查看全文