论文： YOLO9000-Better,Faster,Stronger

论文阅读： YOLO9000-Better,Faster,Stronger

YOLOv2 是经过改造之后的YOLO

Batch Normalization：在所有的conv layer后加了BN之后提高了2% mAP，BN可以帮助regularize模型，这样的话就可以放弃 dropout。

High Resolution Classifier：之前的 YOLO是基于224X224，将resolution提高到448，首先在imagenet 上fine tune Network 10 epochs。

Convolutional With Anchor Boxes：对于之前的YOLO，conv layers之后的 FC layer，YOLOv2 将FC layer移除之后，使用anchor boxes来预测 bounding boxes。
使用了anchor boxes在accuracy有了微小的提高，YOLO只有98 (7 x 7 x 2) 个bboxs，在anchor boxes下可以产生上千个box。

Diminsion Cluster：使用k-means来自动挑选box dimensions，选择非Euclidean distance，而是 distance metric：

在VOC和COCO上的表现：

Direct Location Prediction：在YOLOv2中不直接regression计算offsets，而是predict location of the grid cell，利用 logistic activation来选择 predictions，限制predictions落在range之内。

所以，prediction为：

如图：

Fine-Grained Features
13 x 13 feature map , good for finer grained features for localizing smaller objects.

multi-scale training: change the network every few iterations. (Every 10 batches our network randomly chooses a new image dimension size)

为了Faster，重新修改了网络结构：

YOLO9000, 利用细粒度分类 fine grained, wordTree 来帮助分类。

在train YOLO9000时候使用了 data combination，将COCO和ImageNet两个数据集合并。

ImageNet的WordTree representation为图像分类提供了更加丰富更加细致的输出空间。

本人观点：之前的YOLO出的早，网络结构是很不错，但是这两年的classification、Detection领域发展太快，有太多好的trick和method，作者重新取长补短，将那些好的思想融入到YOLO中。实现了题目中的 Better，Faster， Stronger的特点。不错的paper。