Geo-localization论文阅读list5

1. Self-supervising Fine-grained Region Similarities for Large-scale Image Localization

ECCV2020

1.1 Thinkings

这篇论文的motivation就在于目前公开的benchmarks 仅能提供带有噪声的GPS坐标标签，以提供learning image-to-image similarities的弱监督。为了解决这个问题，论文的作者提出了一种自监督、细粒度的image-to-region similarities的学习方式，去充分挖掘difficult positive images和其子区域的潜力。

整篇论文的亮点有二：首先是这篇论文将self-supervision、self-knowledge distillation成功地扩展到了geo-localization的领域，其提出的自监督标签Query-gallery similarities of top ranking gallery images强调了difficult positive images对于网络训练的重要性；其次是这篇论文通过更进一步研究，将自监督标签从image-to-image换成了更细粒度的image-to-region。这样能够很好地缓解仅靠noisy GPS labels划分positive和negative images，而由于视角原因可能GPS很近的图像有区域并没有重合这种弱监督标签的问题。

总体来说论文的contributions如下：

将自监督和自我知识蒸馏扩展到geo-localization领域，提出了一种self-supervised similarities可以在不断地迭代中自我蒸馏网络，提高网络性能。
更进一步地将这个自监督的标签从image-to-image扩展到了更细粒度的image-to-region。
性能达到了sota，并且拥有很强的泛化能力（仅在Pitts30k-train上训练，就能在Tokyo 24/7和 Pitts250k-test上分别达到85.4和90.7R@1）

1.2 Principle Analysis

在这里插入图片描述
上图便是整个网络的训练过程，初始的时候考benchmarks提供的GPS label提供弱监督以训练网络，然后再用训练完成的网络输出自监督的image-to-region similarities labels去训练下一代的网络，然后就这样一代一代的自我蒸馏，最终完成训练。

1.2.1 Self-supervising Query-gallery Similarities

有了上面整个网络训练的过程，我们只需要知道作者提出的这个自监督标签如何计算，就能明白整篇论文的原理了，这里博主先介绍论文提出的image-to-image的自监督标签。

$S_{ heta_1}(q,p_1,cdots,p_k; au_1) = softmax([<f^q_{ heta_1}, f^{p1}_{ heta_1}>/ au_1, cdots, <f^q_{ heta_1}, f^{pk}_{ heta_1}>/ au_1)$

其中， $<, >$ 代表向量点乘， $p^1 cdots p^k$ 代表topk的positive images， $au_1$ 代表第一代训练的蒸馏温度， $heta_1$ 代表第一代训练的网络参数。

训练下一代的损失函数项如下：

$L_{soft}( heta_2) = l_{ce}(S_{ heta_2}(q, p1, cdots, pk;1), S_{ heta_1}(q, p_1, cdots, p_k; au_1))$

其中， $l_{ce}(,)$ 代表交叉熵。

1.2.2 Self-supervising Fine-grained Image-to-region Similarities

在这里插入图片描述
从image-to-image到更细粒度的image-to-region公式都是一样的，就多加入了几个region，从 $r_1cdots r_8$ 分别是图像的 4 half regions and 4 quarter regions，所以公式博主就直接截图上去了，不再手敲了。

1.3 Trash Talk

这篇论文成功的将自监督和自我知识蒸馏扩展到geo-localization领域，这个创意是真滴比较可以。但是，后文提出将image-to-image扩展到image-to-region的region划分属实有点随意了，用一张图像的4 half regions and 4 quarter regions很难代表真正有意义的区域，并且有些有意义的区域形状还不一定是矩形。这一点如下图所示，从后面消融实验就能看出来，这样一张Query Image让两种方法都出错了，这就是因为这幅图的有意义区域除了那个墙以外，还有被树遮挡住了一部分的房子，而两者均对房子没啥兴趣。
在这里插入图片描述
这一点mark一下，我感觉我后续可以把这种自监督和自蒸馏的过程融合到空间attention之中去进行改进。