CV-NetVLAD

1.运用场景

用于大规模视觉场景识别，即给定一个地标图像，准确识别图像位置。

提出端到端训练的卷积网络用于场景识别任务，使用VLAD层用于图像召回；
提出弱监督排序损失。

NetVLAD是一种特征编码的方式，主要用于图像特征提取。首先定义聚类中心，然后计算图像像素点到聚类中心的距离，之后累加作为图像特征。NetVLAD就是在VLAD的基础上，动态可学习的为每个像素到各个聚类中心赋予权重。