正文
在计算机视觉的发展历史上,
ImageNet
中的图像分类任务一直是一个重要的基准。
Krizhevsky
等人使用卷积架构来参与
ImageNet
图像分类代表了深度学习最重要的突破之一。
通过架构工程的调整,基于卷积神经网络的方法在这一基准上不断获得突破,取得了令人印象深刻的进步。
本论文中,作者研究了如何从数据中直接学习卷积架构,并将这些架构应用到ImageNet的分类任务上。
作者在论文中写道:“我们之所以聚焦在ImageNet分类任务上,是因为从解决这一任务的网络中派生出来的特征在计算机视觉领域非常重要。例如,ImageNet分类任务上做得很好的网络中的特征,当被迁移到其他的视觉任务中时,也可以获得最佳的性能,虽然这些地方通常没有足够的标签数据。”
该论文的方法源于最近提出的神经架构搜索(NAS)框架,其使用策略梯度算法来优化架构配置。考虑到数据集的大小,直接在ImageNet数据集上运行NAS在计算上是昂贵的。因此,作者使用NAS在较小的CIFAR-10数据集上搜索良好的架构,并将架构迁移到ImageNet。通过设计搜索空间来实现这种可迁移性,使得架构的复杂性独立于网络的深度和输入图像的大小。更具体地说,搜索空间中的所有卷积网络由具有相同结构但权重不同的卷积单元组成。因此,可以搜索最佳卷积架构缩小到寻找最佳的单元结构。以这种方式搜索卷积单元要快得多,并且架构本身更可能推广到其他问题。特别地,这种方法显着加速了使用CIFAR-10(例如,4周至4天)的最佳架构的搜索,并学习了成功传输到ImageNet的架构。
该研究取得的主要结果是,CIFAR-10上发现的最佳架构在ImageNet分类上实现了最高精确度,并且无需太多修改。在ImageNet上,所学习的最好的单元组成的架构获得了最佳的性能。在ImageNet的 top-1任务上的准确率达到82.3%,top-5 准确率达96.0%。在top-1上,与人类创造的最佳架构相比,准确率提升了0.8%,同时,FLOPS少了90亿。