《DistilBERT,adistilledversionofBERT:smaller, faster,cheaperandlighter》阅读心得

该文主要采用“知识蒸馏”方法对BERT（预训练语言模型）精简、优化，将较大模型压缩成较小的模型，最终目的是：提高模型推理的效率，让运行在智能手机等硬件设备上的深度学习模型具有轻量级、响应快及能源利用率高等特性。

在2019年的NLP领域预训练+微调的模型训练思路百家争鸣，ElMo、GPT、BERT、Mass、ULMFit等模型陆续登台成为当前领域最闪耀的星星，纵览全局能够真正快速用于产品化落地的model也唯有BERT了，虽说GPT-2被传的神乎其神，但其未公开的预训练模型还是不能让广大粉丝热捧。既然如此，我不妨在BERT上做做研究，以其在产品落地上进一步发挥威力。

虽然各类BERT的衍生模型频繁霸榜，但由于其block堆叠实在太多，在实际任务推理时性能瓶颈是一个很大的问题。不得不承认使用BERT确实比其它的传统DL方法效果要好，而且简单、快速、易操作，既然坚持要用它，就要面对它的瓶颈-推理速度慢，慢到什么程度？使用一个12层的model，对单个句子（不超过30个字）的预测耗时在100ms-200ms，如果这个时间你能够承受，可以满足你的业务要求，那很ok，你可以直接使用BERT完成任务。。。如果无法接受，就得想办法在影响性能的地方搞事情了。

在模型这块，精简参数，加快推理的方法有：1）量化：使用更小的精度模型替换全精度模型；2）权重剪枝：合理去除网络中的部分连接；3）知识蒸馏：算法层面的提速方式，且成本较低。

2015年hinton等人将知识蒸馏方法进一步发扬光大，可进一步参看《Distilling the Knowledge in a Neural Network》细节之处，大体思路是：使用两个网络（teacher model 和 student model），用teacher model 指导 student model的生成，最终蒸馏出来的student model就是我们需要的精简model。在这里teacher model是海量数据集下预训练得到的大模型，目的是将大模型的eval结果soft label 指导student model 学习；而student model 是由soft label和hard label组成，如下图所示：

有基础知识的看图就一目了然了，有几个重要的地方：1）文章指出，对计算性能影响较大的不是隐含层节点的个数而是隐含层的层数，所以在大模型每两层去掉一层，之后再指导小模型；2）也要去掉token type embedding；3）小模型的初始化用的是大模型预训练好的参数

损失的计算：

KLDivLoss: teacher model 和student model的soft label损失两者的KL散度，之所以称之为soft label是在softmax中引入了温度参数T
Cos: teacher hidden state 和 student hidden state 的余弦相似度，也好理解，约束两个模型的相似性
Cross-entropy: hard label 损失函数，传统BERT 的 MLM 损失

以上求权重和计算整个网络的损失：Loss = 5.0*KLDivLoss + 2.0*Cross-entropy + 1.0*Cos

性能比较如下图：

1）DistilBERT拥有BERT的99%性能；2）在下游任务中也不差；3）DistilBERT相比较推理速度更快（基线BERT的61.4%），模型容量更小，只有66M

总结：作者使用知识蒸馏方法，提出了一个通用的BERT版本-DistilBERT，其更小、更快并保留有BERT 99%的语言理解能力

本质：知识蒸馏相当于引入先验知识，提供强有力的指导，即名师出高徒！

BERT之后思路的确定：语义表示的框架已基本确定，短期内不会有大的变革，之后就是以提升模型的精度和速度两个方面，现今主要以多任务、知识蒸馏、优化网络结构、提升算力四个方向来做。那么，以后就有选择的侧重这个几个方向。