论文阅读 | RoBERTa: A Robustly Optimized BERT Pretraining Approach

RoBERTa: A Robustly Optimized BERT Pretraining Approach. Yinhan Liu, Myle Ott, Naman Goyal, et al. 2019

BERT提出之后,有很多后续工作XLNet、ALICE、XLM、MT-DNN相继被提出,成绩都在BERT的基础上往上提升了一点点。然而本文认为那是因为BERT其实根本没有得到充分的训练(否则成绩和这些后来居上者相当),为此本文从模型设计选择(design choice)、训练策略、语料等方面入手,重新对BERT进行了预训练,得到RoBERTa,实验结果表明RoBERTa在GLUE、RACE和SQuAD都达到了SOTA.

主要工作

RoBERTa在每个部分都做了一点点修改,除了Text Encoding外其他的小修改都得到了轻微的提升,最后它将所有的修改合在一起得到最佳模型。具体修改包括:

  • 修改了超参数:将adam的(eta_2)参数从0.999改为0.98
  • 加入了混合精度
  • 加大batch size:从BERT的256改为2K甚至8K,训练步数从1M降到500K
  • 在更长的序列上训练,修改输入格式:FULL-SENTENCES+移除NSP任务
  • 将BERT静态遮掩改为动态遮掩
  • 增加新的预训练数据集CC-NEWS,语料从16G文本到160G文本
  • Text Encoding:采用更大的byte-level的BPE词典

实验结果

在SQuAD、MNLI-m和SST-2上的实验结果:

RoBERTa对比BERT有明显的提升,但是和XLNet差距不大。

在GLUE上的结果:

对于单任务单模型,RoBERTa九个任务均达到SOTA;

在SQuAD上的结果:

RoBERTa的成绩还可以。

在RACE上的对比结果:

从实验结果上看,RoBERTa均达到了SOTA.

总结

RoBERTa其实本质上只是一个调参达到最优的BERT,和XLNet不相上下。

这篇paper带给我们的意义就是:RoBERTa再一次证明BERT才是众多预训练模型中的首选和扛鼎之作,也是那个真正引起质变的模型。

原文地址:https://www.cnblogs.com/YoungF/p/13437251.html