论文-Retrieving Aerial Scene Images with Learned Deep Image-Sketch Features

论文阅读

Retrieving Aerial Scene Images with Learned Deep Image-Sketch Features

关键词： sketch， aerial image retrieval， multi scale， deep cross-domain model

论文的数据库来自作者的一个团队：an aerial sketch-image database Aerial-SI,已经有了一个素描-航拍的图像数据库。

Multi-scale deep model for cross-domain feature extraction，使用多个scale来从deep model里面得到 cross-domain feature。

2, Data Augmentation

关于预处理数据集，因为 the size of database is too small, data augmentation to reduce over-fit.

将所有的image都resize到固定的大小，256X256，然后在上面采9个227X227 的patches，同时对每一个patch进行翻转。通过这种方法，可以从一张图就可以获取18张image。

Resize method is bilinear interpolation.

3，Training Cross-Domain Model

利用神经网络来建立sketch 与 aerial image之间的gap之间的联系是一件困难的事。

使用在imagenet上pretrain的model AlexNet，因为数据的有限，所以在实验中只是fine-tune fc 到 conv5 之间的layers。

4， Building a Multi-Scale Network

对于一张给定的素描image，首先使用AlexNet提取出strokes，根据不同levels的得到top 20%，40%，和80%的sketch images。

使用 rolling guidance filter(RGF) 得到不同模糊比例大小的边界保留image。

5， sketch-based aerial image retrieval 。其中从Aerial-SI选择10个categories，为了简单的实验。

使用 edgelink tool来获取 sketch 的 strokes。

Experiment Baseline

（1）， GIST

使用GIST描述算子，来表示aerial image和query sketches，然后比较它们之间的欧几里得距离。

（2）BoW

Bag-of-words是一个高效提取信息的描述算子，使用Dense-SIFT来结合BoW来表示图片，然后对于使用 histogram intersection pyramid matching kernels来比较。

（3）， SIFT+ SPM

使用三层level的Dense-SIFT描述算子来得到features，使用200虚拟词汇，所以那些images可以表示为4200维度的feature，

同样，相似度使用histogram intersection来衡量。

（4），GF-HOG

HOG(histogram of oriented gradients) 是一种很强的特征提取算法。使用gradient field HOG结合 BoW来表示images，就是 GF-HOG，

（5），GoogleNet

使用GoogleNet的average pool layer拿来作为 cross-domain feature.

最后的实验比较：

总结：这个方向是适用性很强。根据素描图像，来从航拍图像中找到结果。

但是：整篇论文的创新性较小。没有很大的亮点。