速度与精度的结合

速度与精度的结合 - EfficientNet 详解

来自 google 的 EfficientNet，论文提出了一种多维度混合的模型放缩方法。论文链接(文末有代码)：

https://arxiv.org/pdf/1905.11946.pdfarxiv.org

作者希望找到一个可以同时兼顾速度与精度的模型放缩方法，为此，作者重新审视了前人提出的模型放缩的几个维度：网络深度、网络宽度、图像分辨率，前人的文章多是放大其中的一个维度以达到更高的准确率，比如 ResNet-18 到 ResNet-152 是通过增加网络深度的方法来提高准确率。

作者跳出了前人对放缩模型的理解，从一个高度去审视这些放缩维度。作者认为这三个维度之间是互相影响的并探索出了三者之间最好的组合，在此基础上提出了最新的网络 EfficientNet，该网络的表现如下：

模型表现对比图

图中红色的那条就是 EfficientNet 的曲线，横轴为模型大小，纵轴为准确率。光看这张图你就知道 EfficientNet 有多强悍了，看看那些我们熟悉的名字， Resnet，Xception，ResNeXt，可以说是被碾压了。在准确率上，EfficientNet 只比之前的 SOTA 模型 GPipe 提高了 0.1%，为了达到这个准确率 GPipe 用了 556M 参数而 EfficientNet 只用了 66M，恐怖如斯！在实际使用中这 0.1% 的准确率我们可能压根感受不到，但是速度的提升确是实打实的，8 倍的速度提升大大提高了网络的实用性以及工业落地可能。

问题抽象

下面要将这个问题用公式的方式表示出来，符号会比较多，不过并不难理解。我们将整个卷积网络称为 N，它的第 i 个卷积层可以看作是下面的函数映射：
$Y_i=F_i(X_i)$

$Y_i$ 为输出张量， $X_i$ 为输入张量，设其维度为 $<H_i, W_i, C_i>$ (这里为了方便叙述省略了 Batch 维度)，那么整个卷积网络 N，由 k 个卷积层组成，可以表示为：
$N=F_k odot ...odot F_2 odot F_1(X_1) = odot_{j=1...k} F_j(X_1)$

实际中，通常将多个结构相同的卷积层称为一个 stage，例如 ResNet 可以分为 5 个 stage，每个 stage 中的卷积层结构相同(除了第一层为降采样层)。以 stage 为单位可以将卷积网络 N 表示为：

image

其中，下标 i(从 1 到 s) 表示 stage 的序号， $F^{L_i}_i$ 表示第 i 个 stage ，它由卷积层 $F_i$ 重复 $L_i$ 次构成， $<H_i, W_i, C_i>$ 表示该 stage 输入 tensor 的维度。

为了减小搜索空间，作者固定了网络的基本结构，而只变动上面提到的三个放缩维度，网络深度(Li)，网络宽度(Ci)，输入分辨率大小(Hi, Wi)。然而就算只搜索这三个维度，搜索空间也很大，因此作者又加了一个限制，网络的放大只能在初识网络(就是后面的 EfficientNet-B0)的基础上乘上常数倍率，那么我们只需要优化那些倍率就好了，以此抽象出最终的数学模型：

image

其中，w、d、r 分别是网络宽度，网络高度，分辨率的倍率。

实验

上面这个问题的难点在于，三个倍率之间有内在联系，比如更高分辨率的图片就需要更深的网络来增大感受野捕捉特征。因此作者做了两个实验(实际应该多得多)来验证，第一个实验，对三个维度固定两个，只放大其中一个，得到结果如下：

image

图中从左至右分别是只放大网络宽度(width, w 为放大倍率)、网络深度(depth, d 为放大倍率)、图像分辨率(resolution, r 为放大倍率) 的结果，可以观察到单个维度的放大最高精度只在 80 左右。本次实验作者得出一个观点：三个维度中任一维度的放大都可以带来精度的提升，但随着倍率越来越大，提升却越来越小。

于是作者做了第二个实验，尝试在不同的 d, r 组合下变动 w，得到下图：

image

从实验结果可以看出最高精度比之前已经有所提升，且不同的组合效果还不一样，最高可以到 82 左右。作者又得到一个观点，得到更高的精度以及效率的关键是平衡网络宽度，网络深度，图像分辨率三个维度的放缩倍率(d, r, w)。

由此，作者提出了一种混合维度放大法(compound scaling method)，该方法使用一个混合系数 [图片上传失败...(image-70ab47-1570798285064)]

来决定三个维度的放大倍率：

image

其中， $alpha, eta,gamma$ 均为常数(不是无限大的因为三者对应了计算量)，可通过网格搜索获得。混合系数 $phi$ 可以人工调节。考虑到如果网络深度翻番那么对应计算量会翻番，而网络宽度或者图像分辨率翻番对应计算量会翻 4 番，即卷积操作的计算量(FLOPS) 与 $d,w^2,r^2$ 成正比，因此上图中的约束条件中有两个平方项。在该约束条件下，指定混合系数 $phi$ 之后，网络的计算量大概会是之前的 $2^phi$ 倍。

网络结构

网络结构作者主要借鉴了 MnasNet，采取了同时优化精度(ACC)以及计算量(FLOPS)的方法，由此产生了初代 EfficientNet-B0，其结构如下图：

image

有了初代的网络结构之后，放大就分为下面两步：

第一步，首先固定 $phi$ 为 1，即设定计算量为原来的 2 倍，在这样一个小模型上做网格搜索(grid search)，得到了最佳系数为 $alpha=1.2,eta=1.1,gamma=1.15$ 。
第二步，固定 $alpha=1.2,eta=1.1,gamma=1.15$ ，使用不同的混合系数 $phi$ 来放大初代网络得到 EfficientNet-B1 ～ EfficientNet-B7。

作者选择只在小模型上进行网络搜索，大大减少了计算量。因为在大模型上进行网格搜索的成本实在是太高了。

网络表现

跟其他网络的对比：

image

作者还用该方法放大了常用网络 MobileNets和 ResNets，在计算量相当的情况下都得到了比之前更高的精度。这一部分概括起来就是我比你快，还比你准。

总结

论文提出的新网络兼顾了速度和精度，非常实用，可以作为通用的 baseline，能换的就换上吧。

代码

pytorch：https://github.com/lukemelas/EfficientNet-PyTorch

tensorflow：https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet

keras: https://github.com/qubvel/efficientnet