基于Pre-Train的CNN模型的图像分类实验

MatConvNet工具包提供了好几个在imageNet数据库上训练好的CNN模型，可以利用这个训练好的模型提取图像的特征。本文就利用其中的 “imagenet-caffe-ref”的模型，提取图像特征(softmax前一层的输出，4096维)，在几个常用的图像分类的数据库中进行了相应的分类实验。这实验的过程中，有对图片进行左右翻转用于增加训练数据。下面结果的表格中：Original原始结果，Flip增加翻转后的结果。

需要用到的toolbox及模型：

MatConvNet：http://www.vlfeat.org/matconvnet/

imagenet-caffe-ref: http://www.vlfeat.org/matconvnet/pretrained/

liblinear: 用于训练SVM, 实验中采用linear SVM 以及 c=1

数据库及相应的实验结果:

1. Caltech-101以及Caltech-256

随机的重复进行10次实验，取分类的结果的平均值，Training Images是每一个类别使用的训练图片数目。

Caltech-101

Training Images	5	10	15	20	25	30
Original	76.73 ± 0.79	82.06 ± 0.36	84.10 ± 0.69	85.32 ± 0.50	86.26 ± 0.44	86.96 ± 0.89
Flip	76.60 ± 0.49	82.09 ± 0.45	83.91 ± 0.49	85.46 ± 0.38	86.11 ± 0.34	86.98 ± 0.93

Caltech-256

Training Images	15	30	45	60
Original	63.76 ± 0.41	67.81 ± 0.56	69.71 ± 0.48	70.84 ± 0.69
Flip	63.72 ± 0.51	67.74 ± 0.54	69.65 ± 0.76	70.75 ± 0.59

2. Oxford flowers-102

flowers-102是一个用于花卉精细分类的数据库，数据库提供了Train，Validation，Test的集合。在实验过程中，直接使用（Train+Validation）进行训练，Test进行测试。

Original	84.50
Flip	85.14

3. Scene-15

Scene-15是一个包含15类场景的数据，实验采用的每一场景取100张图片做训练，其余的做测试。重复进行10次实验

Original	86.87 ± 0.75
Flip	87.00 ± 0.41

4. UC Merced Land Use Dataset

UC Merced Land Use Dataset是一个包含21类场景遥感卫星图像分类数据库(每个类别100张图片)，实验采用的80训练，20测试，重复10次。

Original	94.90 ± 0.95
Flip	95.14 ± 1.05

5. Flickr Material

Flickr Materia是一个关于材料的数据库，包含10种不同的材料（每种100张图片），实验采用50张做训练，剩下的50张做测试，重复10次实验。数据库还提供每一张图片的Mask，本实验没有考虑Mask

Original	64.04 ± 2.20
Flip	62.96 ± 1.54

6. UIUC Sports

UIUC Sports是一个包含8中运动类别的数据集，实验过程中，每一个类别取100张图片做训练，其余的做测试。重复进行10次。

Original	94.88 ± 1.02
Flip	95.34 ± 0.83

7. MIT Scene

MIT Scene包含有67个室内场景，实验过程中，每一个类别取80张图片做训练，其余的做测试。重复进行10次。

Original	57.30 ± 1.18
Flip	57.45 ± 0.72