AI VGG

论文:https://arxiv.org/abs/1409.1556

译文:用于大规模图像识别的非常深的卷积网络

摘要

本文,我们研究,在大规模图像识别中,卷积网络的深度对准确度的影响。我们的主要贡献是,利用3*3的卷积核来增加网络的深度,并且做了全面的评估,当深度达到16~19个权值层时,已有最好网络的性能都能得到显著的提升。这些发现让我们在2014ImageNet挑战赛的定位和分类跟踪任务中,分别拿到了第一名和第二名的成绩。当然,我们的模型,在其他数据集上的表现也达到了当前最好的水平。我们已经公开了两种性能最好的网络模型,希望能促进深度视觉表达在计算机视觉领域之后的研究和应用。 

介绍

卷积网络最近在大规模图像和视频识别中取得了很大的成功,这得益于大型公开图像库(如ImageNet),和高性能计算系统(如GPU、大规模分布式集群)。特别是ImageNet Large-Scale Visual Recognition Challenge(简称ILSVRC),作为几代大规模图像分类系统(从高维浅层特征编码到深度卷积网络)的测试平台,在深度视觉识别架构的发展中扮演着很重要的角色。 

随着卷积网络在计算机视觉领域越来越重要,很多人尝试在原有架构上进行改进,以期提高准确度。例如,ILSVRC2013的冠军,在第一个卷积层使用更小的接受窗口和更小的步长。再例如,在整张图像以及多个尺寸上,稠密地训练和测试网络而我们关注网络深度,固定网络的其他参数,然后通过添加卷积层来增加网络的深度,这是可行的,因为我们的卷积核很小(3*3)

我们提出更准确的卷积网络,不仅在ILSVRC的分类和定位任务中表现最佳,而且可以应用到别的图像识别数据集上,甚至作为某些相对简单的pipeline(如没有微调的线性SVM深度特征分类)的一部分都能表现出优异的性能。我们已经公开两个性能最好的模型,以促进后续研究。

论文其余部分组织如下:第2节,描述我们卷积网络的配置;第3节,图像分类的训练和评估细节;第4节,对比ILSVRC分类任务中不同配置的网络;第5节,论文总结;附录A,描述我们在ILSVRC-2014中的目标定位系统;附录B,讨论“非常深的特征”在其他数据集上的泛化能力;附录C,本文的主要修订记录。

卷积网络配置

为了公平地衡量增加网络深度带来的提升,我们所有的卷积网络层设计都是根据相同的原则(受Ciresan2011和Krizhevsky2012启发)。本节中,我们首先描述卷积网络的通用结构,然后细化评估中用到的配置,再对比我们的设计和先前最好的网络。

- 架构

我们卷积网络的输入是固定尺寸的224*224RGB图像做的唯一预处理就是对输入图像的每个像素都减去训练集的RGB均值。图像经过一堆卷积核为3*3(获取上下左右中的最小尺寸)的卷积层。

- 配置

- 讨论

我们卷积网络的配置与ILSVRC-2012和ILSVRC-2013那些性能出众的网络有很大的不同,没有在第一个卷积层使用较大的接受域(如2012,步长为4的11*11;2013,步长为2的7*7),而是在整个网络使用3*3的接受域。

所有隐含层都使用ReLU 

分类框架

上一节,展示了我们网络配置的细节。这一节,我们描述分类卷积网络的训练和评估细节。

- 训练


- 测试 

- 实现细节 

分类实验

结论

本文,我们评估了非常深的卷积网络(达到19个权值层)在大规模图像分类中的性能表现。结果表明,深度有利于提高分类的准确度。传统卷积网络(如LeCun),增加深度也能在ImageNet数据集上取得更好的效果。附录中,展示了我们的模型在大范围的任务和数据集上的良好泛化能力,达到或者超越了较浅深度的图像表达在更复杂的识别pipeline中的效果,也再次证明了深度对视觉表达的重要性。

个人理解

1、16~19个权值层 

VGG(Visual Geometry Group,牛津大学的视觉几何组)

原文地址:https://www.cnblogs.com/yangwenhuan/p/10604090.html