【CafeNet】2021-ICLR-Locally Free Weight Sharing for Network Width Search-论文阅读

CafeNet

2021-ICLR-Locally Free Weight Sharing for Network Width Search

来源：ChenBong 博客园

Institute：University of Sydney，SenseTime，THU
Author：Xiu Su，Shan You，Chen Qian，Chang Xu
GitHub：/
Citation：2

Introduction

基于超网训练的网络通道宽度搜索；确定每层宽度后，不是 fix-pattern（固定选择 left n 个通道），而是local-free（一部分固定选择，一部分自由选择）：

Motivation

之前的超网训练都是 fix-pattern（取left n个通道），会降低超网对子网的评估性能

Contribution

超网训练在选取子网方式上的扩展，将 fix-pattern 扩展为 free-pattern
没有增加太多复杂度

Method

训练超网

考虑第 (i) 维（e.g. 第i层的宽度），fix-pattern 只需要宽度 (c_i) 就可以确定该层的结构。

local-free pattern 分为2部分（free+fix）：

free： (I_f(c) ⊂ [c − r : c + r]) ， (|I_f(c)|=r+1) ，其中 (r) 是 free 部分允许的 offset；
fix：除了free的部分，剩下的就是fix的部分： (I_b(c) = [0 : c_b]) ，其中 (c_b = max(c − r − 1, 0))

搜索子网

进化算法 CafeNet-E
随机 CafeNet-R

Experiments

ImageNet

CIFAR10

Other

Ablation

offset r

作者认为 r 增大带来采样空间的增大，进而导致训练时间增加（只有在要保证每个子网都能得到相同程度的训练的前提下，超网训练时间才会增加，否则训练时间应该是可以手动设置成相同的）

然而 r 增大虽然导致子网的采样空间增大，但不意味着训练时间的增加，感觉应该在同样的训练时间下，对不同r（0-3）的超网进行训练，并在相同的搜索时间下对比子网 rank 的相关性；如果在不增加超网训练/子网搜索时间的情况下，使用r>=1还可以提高 rank 的相关性，才说明本方法的有效性。

Training and Searching Epoch

表格里比较的是 fix-pattern 增加训练时间和搜索时间的 top-1 性能，想说明本文的方法不是依靠增加训练/搜索时间来提高性能的。

但本文的 motivation 是通过增大子网空间，来提高超网的预测准确性，即 rank 的相关性，应该直接比较增加训练/搜索时间后的 rank 相关性才对，而不是比较搜索到的子网 top-1。

Conclusion

Summary

pros：

想法简洁

cons：

motivation 是提高子网的采样空间，进而提高超网的预测能力（即提高子网 rank 的相关性），但全文都没有对 rank 相关性进行分析，而只对比了 top-1 的性能差异，但 top-1 更高不能说明超网的预测能力（子网 rank 相关性）更高
看到最后还是不清楚 left fix+right free 的pattern到底能不能提高超网的预测能力
方法很简单，但文章写得很长（附录11页），附录里讨论的感觉是一些不太重要的细节：缩写，更详细的实验结果，网络结构可视化等，有凑篇幅之嫌