论文-Retrieving Aerial Scene Images with Learned Deep Image-Sketch Features

论文阅读

Retrieving Aerial Scene Images with Learned Deep Image-Sketch Features

关键词: sketch, aerial image retrieval, multi scale, deep cross-domain model

论文的数据库来自作者的一个团队:an aerial sketch-image database  Aerial-SI,已经有了一个 素描-航拍的图像数据库。

Multi-scale deep model for cross-domain feature extraction, 使用多个scale来从deep model里面得到 cross-domain feature。 


2, Data Augmentation

关于预处理数据集,因为 the size of database is too small, data augmentation to reduce over-fit.

将所有的image都resize到固定的大小,256X256, 然后在上面采9个227X227 的patches, 同时对每一个patch进行翻转。通过这种方法,可以从一张图就可以获取18张image。

Resize method is bilinear interpolation.

3,Training Cross-Domain Model

利用神经网络来建立sketch 与 aerial image之间的gap之间的联系是一件困难的事。

使用 在imagenet上pretrain的model AlexNet,因为数据的有限,所以在实验中只是fine-tune fc 到 conv5 之间的layers。

 

4, Building a Multi-Scale Network

 

对于一张给定的素描image,首先使用AlexNet提取出strokes,根据不同levels的得到top 20%,40%,和80%的sketch images。

使用 rolling guidance filter(RGF) 得到不同模糊比例大小的边界保留image。

5, sketch-based aerial image retrieval 。 其中从Aerial-SI选择10个categories,为了简单的实验。

使用 edgelink tool来获取 sketch 的 strokes。

 

Experiment Baseline

 (1), GIST

使用GIST描述算子,来表示aerial image和query sketches,然后比较它们之间的欧几里得距离。

(2)BoW

Bag-of-words是一个高效提取信息的描述算子,使用Dense-SIFT来结合BoW来表示图片,然后对于使用 histogram intersection pyramid matching kernels来比较。

(3), SIFT+ SPM

使用三层level的Dense-SIFT描述算子来得到features,使用200虚拟词汇,所以那些images可以表示为4200维度的feature,

同样,相似度使用histogram intersection来衡量。

(4),GF-HOG

HOG(histogram of oriented gradients) 是一种很强的特征提取算法。使用gradient field HOG结合 BoW来表示images,就是 GF-HOG,

  

(5),GoogleNet

使用GoogleNet的average pool layer拿来作为 cross-domain feature.

 最后的实验比较:

总结: 这个方向是适用性很强。根据素描图像,来从航拍图像中找到结果。

但是: 整篇论文的创新性较小。没有很大的亮点。

原文地址:https://www.cnblogs.com/zhang-yd/p/7711696.html