MS COCO 数据集学习笔记（Common Objects in COntext）

一、数据来源

COCO中图片资源均引用自Flickr图片网站

进行图像识别训练，主要针对以下三个方向：

（1）object instances

（2）object keypoints

（3） image captions

每个方向均包含训练和验证集两个标注文件

三个方向均共享基本类型信息，包括info、image、license三个字段，而annotation字段则各不相同。

例：

例：

例：

iscrowd=0：表示这是一个单独的物体，轮廓用Polygon(多边形的点)表示，即segmentation字段用Polygon表示

iscrowd=1：表示两个或多个没有分开的物体，轮廓用RLE编码表示，即segmention字段用RLE编码形式表示

相比于object Instance标注，增加了两个字段：Keypoints和num_keypoints

keypoints是一个长度为3*k的数组，其中k是keypoints的总数量。

keypoints[i][0] 和keypoints[i][1]为（x,y）,keypoints[i][2]为标志位v

v=0-关键点未标注，v=2-关键点已标注且不可见，v=3-关键点已标注且可见

category字段：

keypoints字段记录了关键点名字数组，skeleton定义了各个关键点之间的连接性（如手腕和肘）。keypoints的supercategory只标注了person 。

Image Caption类型的标注相对于上面来说很简单，这里就略过不表了