【PareCO】2020-ICMLw-PareCO: Pareto-aware Channel Optimization for Slimmable Neural Networks-论文阅读

PareCO

2020-ICMLw-PareCO: Pareto-aware Channel Optimization for Slimmable Neural Networks

This paper has been accepted at various non-archival workshops including

来源: Chenbong 博客园

Introduction

image-20210509172027498

Motivation

Contribution

Method

image-20210509184735467

只训练Pareto前沿的子网, 如何采样 pareto前沿的子网?

AttentiveNAS 和 GreedyNAS 都是对每个目标flops随机采样k个, 然后将这个k个中性能最好的子网认为属于Pareto前沿集合

这里评估性能可以用子网在验证集(的子集, greedynas)上的acc或直接用 batch loss (attentiveNAS) 代替, 或者使用acc predictor

这篇PareCO用的是数学的方式, 根据历史数据(预测)采样Pareto上的子网: Alg 1. 第8行

  • 高斯过程GP
  • 贝叶斯优化 Bayesian Optimization(BO)
  • acquisition function (Paria et al., 2019)
  • Upper Confidence Bound (UCB) (Srinivas et al., 2009)
  • Lemma 3.1 多目标优化 (Nakayama et al., 2009)
image-20210509172107765
  • |H| = 1000 (pareto前沿的模型池)
  • M=2

第8行替换为随机采样一个uniform宽度的子网, 将n=1(第13行), 则算法1退化为US Net的方法

基于历史的pareto采样数据, 使用BO+二分查找, 随机均匀分布的目标 flops:

该算法的作用其实就是给定一个目标flops, 找到一个该flops下的pareto前沿的子网

(其他的文章实现的方式还有: 随机采样 + with reject, 根据先验分布采样+with reject(提高效率)

image-20210509191949167

most 10 binary searches with (epsilon) set to 0.02, average 3.4 binary searches

image-20210509193354403

2个目标, 如果不是均匀采样的话, 很容易选中要么flops很小, 要么loss很低(flops很大)的子网

Experiments

C10 / C100 / ImageNet

image-20210509192643493

与USNet对比

image-20210509194346997 image-20210509194619220

OFARP:

image-20210504164251324

只对搜索宽度的提升有限(比不过剪枝), 加上分辨率可以在特定flops下有更大的提升(可以超越剪枝方法)

Conclusion

Summary

  • slimmable network 如果只对宽度搜索, 无法超过剪枝, 要超越剪枝只能增加维度(如分辨率)

To Read

Reference

多目标优化之帕累托最优 - 知乎 (zhihu.com)

非支配排序遗传算法2(NSGA-II) - 知乎 (zhihu.com)

Ting-wu Chin, Ari S. Morcos, Diana Marculescu · PareCO: Pareto-aware Channel Optimization for Slimmable Neural Networks · SlidesLive

原文地址:https://www.cnblogs.com/chenbong/p/14776097.html