Transformer

1.Stand-Alone Self-Attention in Vision Models
url：https://arxiv.org/abs/1906.05909
做了一个纯attention的网络，这里的attention是局部的，并且带了一个全局共享的relative position encoding。在分类和目标检测上取得了与ConvNets差不多的结果，但是parameters和flops都更低。还得出的一些比较有趣的结论：在网络的较后的位置加attention更好。虽然para和flops都更低，但是跑的慢。
2.Fastformer: Additive Attention Can Be All You Need
url：https://arxiv.org/pdf/2108.09084.pdf
这篇paper真对把self-attention做到的线性复杂度。主要方法是，放弃计算两两之间的关系，转而使用一个全局的q，k。这样就把计算量降下来了。最终的结果就是，计算量掉下来了。但是性能没咋掉。这个方法是基于NLP的sequence的，可能对CV有用。