《比 Bert 体积更小速度更快的 TinyBERT》腾讯技术工程

文章地址:https://zhuanlan.zhihu.com/p/94359189

笔记:

模型size=1/7;
推理耗时=1/9;
性能会轻微损失;GLUE下降3个点(BERT-PKD,DistilBERT下降7/8个点);
三个loss:embedding loss(输入,mes),transformer loss(每隔几个,attention和hidden states,两部分mse),prediction loss(根据任务定制,通常是softmax交叉熵)
也可以二阶段:General/Domain-specific Learning,Task-specific Learning

论文地址: https://arxiv.org/abs/1909.10351

代码地址:https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERT

一些讨论:https://github.com/huawei-noah/Pretrained-Language-Model/issues

字节跳动内推

找我内推: 字节跳动各种岗位
作者: ZH奶酪(张贺)
邮箱: cheesezh@qq.com
出处: http://www.cnblogs.com/CheeseZH/
* 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

原文地址:https://www.cnblogs.com/CheeseZH/p/14473021.html