INTERSPEECH 2015 | Scalable Distributed DNN Training Using Commodity GPU Cloud Computing

一般来说，全连接层的前向和后向传递所需的计算量与权重的数量成正比。此外，数据并行训练中所需的带宽与可训练权重的数量成比例。因此，随着每个节点计算速度的提高，所需的网络带宽也随之增加。这篇文章主要是根据阈值进行梯度的稀疏化和量化操作，从而降低分布式训练中的通信开销。稀疏化指的是只传输那些比较重要的梯度（例如绝对值较大的梯度），而量化则是使用较少的比特来表示原始梯度，二者的差别由下图描述[1]：

本文提出的梯度压缩方法基于以下两个观点：（1）很多加速SGD的方法，包括minibatch SGD、动量法、双缓冲以及异步SGD，都可以在某种程度上视为延迟更新的变体；（2）节点上的子梯度是非常稀疏的，这就意味着只有少量的权值需要更新，换句话说，我们只需要传递那些对权值更新产生较大作用的梯度，而不再传输其余的梯度，这样就能降低带宽占用。

因为只传输那些大于某一阈值的梯度，所以我们必须记住这些梯度的索引，以在接收端对其进行重构。在实现上，我们可以使用字典存储索引和对应的梯度值。为了保证精度，我们并不直接在原始梯度上进行操作，而是操纵一个名为梯度残差的东西。在处理每个minibatch时，我们首先将上一次迭代的梯度残差与本次迭代的原始梯度相加，得到本次迭代的梯度残差。随后，对于残差向量中的每个元素，如果该元素大于正阈值，就将该元素的索引与正阈值编码进字典中，再从对应的残差元素中减去阈值；如果该元素小于负阈值，就将该元素的索引与负阈值编码进字典中，再从对应的残差元素中加上阈值。对于那些绝对值小于阈值的残差元素，我们不再传输它们。但是，随着迭代次数的增加，这些元素可能在某次迭代时就超过了阈值，从而完成一次更新。在某种程度上来说，这就是一种延迟更新策略。算法伪代码如下所示：

在实现中，我们将每个梯度（残差）元素编码为两个数字：整数元素索引和浮点梯度元素。为了进一步降低通信开销，本文使用1比特来编码梯度元素，使用31比特编码元素索引，这样就使用4个字节编码了1个整数和1个浮点数。为了保证模型精度，同样需要使用1 Bit SGD中提到的误差补偿技术。需要注意的是，本文使用的是对等结构而非参数服务器架构，而且整个训练过程中只进行梯度的传输，不进行权值的传输。为了降低GPU与OS之间的I/O瓶颈，作者还使用了CUDA中的某些字符串压缩函数。

参考资料
[1] Tang Z, Shi S, Chu X, et al. Communication-Efficient Distributed Deep Learning: A Comprehensive Survey[J]. arXiv preprint arXiv:2003.06307, 2020.