专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
爱可可-爱生活  ·  本文通过将可验证奖励强化学习(RLVR)分解 ... ·  昨天  
宝玉xp  ·  #ai开源项目推荐# ... ·  昨天  
爱可可-爱生活  ·  从去年至今,Google在AI领域的追赶可谓 ... ·  2 天前  
51好读  ›  专栏  ›  AI科技评论

ICLR 2020 | 华为诺亚:巧妙思想,NAS与「对抗」结合,速率提高11倍

AI科技评论  · 公众号  · AI  · 2020-01-22 13:00

正文

请到「今天看啥」查看全文


  • 在分类子网络训练的过程中,policy 是静态、一成不变的。这样做可能也不是最优的。
  • 针对这些不足,本文就提出了一种新的方法,policy generator 和分类网络能同时并行训练;此外,在分类网络的训练过程中,还能动态调整 policy 。这种方法和 AutoAugment 相比,在 ImageNet 数据集上的计算开销减少了12倍,训练时间缩短了11倍。
    怎么做到的呢?作者引入了 GAN 里面的“对抗”思想,引入了 adversarial loss。整个网络可以看做两部分:一个是 policy generator,优化目标是生成那些让分类器的分类 loss 最大的数据增强 policy;一个是分类器,优化目标是在给定 policy 之后对应的分类 loss 最小。
    具体的网络结构如下图所示,就是一个分类网络 target network,和一个生成 policy 的 policy network。
    在训练的过程中,policy network 会生成 M 个不同的 policy,并把这 M 个 policy 作用于相同的数据上,得到 M 个分类 loss,并更新分类网络 target network 的权重。而这 M 个分类 loss 也会收集起来,根据 Williams的REINFORCE算法拿来更新 policy network 的权重,目的是最大化分类 loss。如此迭代进行。
    加入 adversarial loss 的好处可以看做是两方面:一方面是大大减少了训练所需的时间;另一方面,可以认为policy generator 在不断产生难样本,从而能帮助分类器学到 robust features,从而学的更好。
    作者也可视化了学到的 policy ,如下图。可以看出随着 epoch 数量的增加,policy generator 会倾向于产生更难的数据增强 policy,如 TranslateX, ShearY and Rotate 这些几何转换会被更多使用。






    请到「今天看啥」查看全文