FSC

2020-CVPR-Fast Sparse ConvNets

来源：ChenBong 博客园

Introduction

在FLOPs相同的情况下，稀疏卷积网络性能要高于密集卷积网络，大约相当于一代的改进（MobileNet V1 => MobileNet V2 => EfficientNet）。通过定制稀疏卷积算法，实现了对稀疏权重的卷积加速。推理时间加速1.3-2.4x，参数压缩率2x，FLOPs压缩率3x。

CNN的效率一般由以下几个 metrics 定义：

以上三者不是独立的，FLOPs 和 Params 对实际加速比的影响是一个复杂且与硬件高度相关的问题

Efficient CNN的方法有以下几种：

我们想纠正“稀疏化卷积核不能带来实际加速”的偏见，通过使用我们提出的稀疏卷积算法来替换原始的密集卷积算法，可以在稀疏卷积上实现实际的加速

To prune, or not to prune: Exploring the efficacy of pruning for model compression.

在MobileNet Family model中，dw卷积只占用很小的FLOPs，Params和推理时间，在MBv1中 dw FLOPs <2%，在MBv2中 dw FLOPs < 3%，以下以1×1卷积为例。

对于MBv1, MBv2, EN，对第一个卷积层不剪枝，对最后一个全连接层不剪枝。

一般卷积计算的矩阵格式是 HW C，我们的SpMM使用的矩阵格式是 C HW

以 1×1 卷积为例：

HW C 与 C HW 的在内存中存储的区别：

我们的SpMM可以实现高性能的原因是：

使用top-1性能相当的模型进行比较，要达到同样的性能，因此Sparse版本的网络width会比dense版本更大。

具体来说，MBv1 稀疏率90%；MBv2 稀疏率85%

block形状的影响：

在MBv1中，在最后2层，当通道数(1024)导致 “strip” 的大小超过L1缓存的大小时，模型的最后两层性能就会明显下降（16×4表示 spatial vectorization width=16，block size=2 ）：