了解一下BigBird

BigBird:用于更长序列的 Transformer
Big Bird: Transformers for Longer Sequences

Zaheer, M., Guruganesh, G., Dubey, A., Ainslie, J., Alberti, C., Ontanon, S., Pham, P., Ravula, A., Wang, Q., Yang, L., & Ahmed, A. (2020). Big Bird: Transformers for Longer Sequences. 1–51. http://arxiv.org/abs/2007.14062


BERT的主要缺点是全注意力机制的二次方依赖,本文提出BigBird,一个稀疏注意力机制,将依赖降低为线性。我们证明了BigBird是序列函数的通用逼近器,且图灵完备。8倍512
可提高问答和摘要任务的性能。

BigBird 运行在稀疏注意力机制上,克服 BERT 的二次依赖性,同时又保持了完全注意力模型的属性。(突破全注意力机制的局限)

BigBird 的主要亮点:

  • 稀疏注意力机制
  • 可以处理多达 8 倍长的输入序列
  • 针对大数据集进行预训练

可能的应用领域:

  • 基因组学处理
  • 长文档摘要与问答系统
  • 用于搜索
  • Web 和移动应用程序开发

可以完成的任务:
分类(长文本)、问答、摘要、基因语言模型实验



未见代码

参考:

  1. https://mp.weixin.qq.com/s/qAfKvbBUSaiqPThGTyTl3Q
  2. https://mp.weixin.qq.com/s/MPGF3tkNn3PBA_7S-fo9eg
  3. https://blog.csdn.net/mengzhengnan/article/details/108689270
  4. https://zhuanlan.zhihu.com/p/64114978
  5. https://zhuanlan.zhihu.com/p/165509102
  6. https://zhuanlan.zhihu.com/p/215847627
  7. https://zhuanlan.zhihu.com/p/256119575
  8. https://arxiv.org/abs/2007.14062
原文地址:https://www.cnblogs.com/xuehuiping/p/13728113.html