【CafeNet】2021-ICLR-Locally Free Weight Sharing for Network Width Search-论文阅读

CafeNet

2021-ICLR-Locally Free Weight Sharing for Network Width Search

来源:ChenBong 博客园

  • Institute:University of Sydney,SenseTime,THU
  • Author:Xiu Su,Shan You,Chen Qian,Chang Xu
  • GitHub:/
  • Citation:2

Introduction

基于超网训练的网络通道宽度搜索;确定每层宽度后,不是 fix-pattern(固定选择 left n 个通道),而是local-free(一部分固定选择,一部分自由选择):

image-20210328133758057

Motivation

  • 之前的超网训练都是 fix-pattern(取left n个通道),会降低超网对子网的评估性能

Contribution

  • 超网训练在选取子网方式上的扩展,将 fix-pattern 扩展为 free-pattern
  • 没有增加太多复杂度

Method

训练超网

考虑第 (i) 维(e.g. 第i层的宽度),fix-pattern 只需要宽度 (c_i) 就可以确定该层的结构。

local-free pattern 分为2部分(free+fix):

  • free: (I_f(c) ⊂ [c − r : c + r])(|I_f(c)|=r+1) ,其中 (r) 是 free 部分允许的 offset;
  • fix:除了free的部分,剩下的就是fix的部分: (I_b(c) = [0 : c_b]) ,其中 (c_b = max(c − r − 1, 0))
image-20210328133758057

搜索子网

  • 进化算法 CafeNet-E
  • 随机 CafeNet-R

Experiments

ImageNet

image-20210328140215881

CIFAR10

image-20210328140305018

Other

image-20210328140335360

Ablation

offset r

image-20210328140408056

作者认为 r 增大带来采样空间的增大,进而导致训练时间增加(只有在 要保证每个子网都能得到相同程度的训练的前提下,超网训练时间才会增加,否则训练时间应该是可以手动设置成相同的)

然而 r 增大虽然导致子网的采样空间增大,但不意味着训练时间的增加,感觉应该在同样的训练时间下,对不同r(0-3)的超网进行训练,并在相同的搜索时间下对比子网 rank 的相关性;如果在不增加超网训练/子网搜索时间的情况下,使用r>=1还可以提高 rank 的相关性,才说明本方法的有效性。

Training and Searching Epoch

image-20210328140427561

表格里比较的是 fix-pattern 增加训练时间和搜索时间的 top-1 性能,想说明本文的方法不是依靠增加训练/搜索时间来提高性能的。

但本文的 motivation 是通过增大子网空间,来提高超网的预测准确性,即 rank 的相关性,应该直接比较增加训练/搜索时间后的 rank 相关性才对,而不是比较搜索到的子网 top-1。

Conclusion

Summary

pros:

  • 想法简洁

cons:

  • motivation 是提高子网的采样空间,进而提高超网的预测能力(即提高子网 rank 的相关性),但全文都没有对 rank 相关性进行分析,而只对比了 top-1 的性能差异,但 top-1 更高不能说明超网的预测能力(子网 rank 相关性)更高
  • 看到最后还是不清楚 left fix+right free 的pattern到底能不能提高超网的预测能力
  • 方法很简单,但文章写得很长(附录11页),附录里讨论的感觉是一些不太重要的细节:缩写,更详细的实验结果,网络结构可视化等,有凑篇幅之嫌

To Read

Reference

原文地址:https://www.cnblogs.com/chenbong/p/14589860.html