DyNet

2020-arxiv-DyNet Dynamic Convolution for Accelerating Convolutional Neural Networks

来源: ChenBong 博客园

Introduction

和Google 的 CondConv，Microsoft 的 Dynamic Convolution 类似的工作，做的都是input-dependent的动态卷积核权重生成。

卷积层： (W_i: C_{out} × C_{in} × k × k) ； (hat W: C_{out} × C_{in} × k × k)

卷积层维度变化： (n × C_{out} × C_{in} × k × k ==> C_{out} × C_{in} × k × k)

变换方式：加权求和

加权系数： (α=r(x)=sigmoid(fc(avg pool(x))))

卷积层： (conv_i: C_{out} × C_{in} × k × k) ； (hat {conv}: C_{out} × C_{in} × k × k)

卷积层维度变化： (n × C_{out} × C_{in} × k × k ==> C_{out} × C_{in} × k × k)

变换方式：加权求和

加权系数： (pi=softmax(fc(relu(fc(avgpool(x))))))

卷积层维度变化：： ((g_t × C_{out}) × C_{in} × k × k ==> (C_{out}) × C_{in} × k × k)

单个卷积核维度变化：： ((g_t) × C_{in} × k × k ==> (1) × C_{in} × k × k)

变换方式：加权求和

加权系数： (eta_t=sigmoid(fc(avg pool(x))))

区别：

DyNet 从多套权重生成1套权重时，进行了分组；降低权重加权求和时的计算量( (widetilde{w}_{t}=sum_{i=1}^{g_{t}} eta_{t}^{i} cdot w_{t}^{i}) ，类似分组卷积降低计算量的原理)
CondConv 和 Dynamic Convolution 都是一个layer计算一次加权系数，DyNet是一个block计算一次加权系数；降低计算加权系数时的计算量(fc) 和参数量(fc)

经典网络中卷积核之间存在很高的相关性，即卷积核存在冗余的现象
剪枝无法完全去除这些冗余性，是由于网络需要学习噪声无关的特征（例如对于人脸识别来说，光照，背景等就是噪声特征），需要多个相似的卷积核来协同提取这些噪声无关的特征 &&，因此fine-tune后冗余性会重新回来，称为内在的/固有的冗余性
发现通过对固定的卷积核，基于输入做线性组合，可以无需多个相似的卷积核协同，就可以提取噪声无关的特征 &&