《比 Bert 体积更小速度更快的 TinyBERT》腾讯技术工程

文章地址：https://zhuanlan.zhihu.com/p/94359189

笔记：

模型size=1/7；
推理耗时=1/9；
性能会轻微损失；GLUE下降3个点（BERT-PKD，DistilBERT下降7/8个点）；
三个loss：embedding loss（输入，mes），transformer loss（每隔几个，attention和hidden states，两部分mse），prediction loss（根据任务定制，通常是softmax交叉熵）
也可以二阶段：General/Domain-specific Learning，Task-specific Learning

论文地址： https://arxiv.org/abs/1909.10351

代码地址：https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERT

一些讨论：https://github.com/huawei-noah/Pretrained-Language-Model/issues

找我内推：字节跳动各种岗位
作者： ZH奶酪(张贺)
邮箱： cheesezh@qq.com
出处： http://www.cnblogs.com/CheeseZH/
* 本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。