了解一下BigBird

BigBird：用于更长序列的 Transformer
Big Bird: Transformers for Longer Sequences

Zaheer, M., Guruganesh, G., Dubey, A., Ainslie, J., Alberti, C., Ontanon, S., Pham, P., Ravula, A., Wang, Q., Yang, L., & Ahmed, A. (2020). Big Bird: Transformers for Longer Sequences. 1–51. http://arxiv.org/abs/2007.14062

BERT的主要缺点是全注意力机制的二次方依赖，本文提出BigBird，一个稀疏注意力机制，将依赖降低为线性。我们证明了BigBird是序列函数的通用逼近器，且图灵完备。8倍512
可提高问答和摘要任务的性能。