转-深度学习视觉领域常用数据集汇总

［导读］ “大数据时代”，数据为王！无论是数据挖掘还是目前大热的深度学习领域都离不开“大数据”。大公司们一般会有自己的数据，但对于创业公司或是高校老师、学生来说，“Where can I get large datasets open to the public?”是不得不面对的一个问题。

本文结合笔者在研究生学习、科研期间使用过以及阅读文献了解到的深度学习视觉领域常用的开源数据集，进行介绍和汇总。

1 MNIST

深度学习领域的“Hello World!”，入门必备！MNIST是一个手写数字数据库，它有60000个训练样本集和10000个测试样本集，每个样本图像的宽高为28*28。此数据集是以二进制存储的，不能直接以图像格式查看，不过很容易找到将其转换成图像格式的工具。

最早的深度卷积网络LeNet便是针对此数据集的，当前主流深度学习框架几乎无一例外将MNIST数据集的处理作为介绍及入门第一教程，其中Tensorflow关于MNIST的教程非常详细。

数据集大小：~12MB
下载地址：
http://yann.lecun.com/exdb/mnist/index.html

2 Imagenet

MNIST将初学者领进了深度学习领域，而Imagenet数据集对深度学习的浪潮起了巨大的推动作用。深度学习领域大牛Hinton在2012年发表的论文《ImageNet Classification with Deep Convolutional Neural Networks》在计算机视觉领域带来了一场“革命”，此论文的工作正是基于Imagenet数据集。

Imagenet数据集有1400多万幅图片，涵盖2万多个类别；其中有超过百万的图片有明确的类别标注和图像中物体位置的标注，具体信息如下：
1）Total number of non-empty synsets: 21841
2）Total number of images: 14,197,122
3）Number of images with bounding box annotations: 1,034,908
4）Number of synsets with SIFT features: 1000
5）Number of images with SIFT features: 1.2 million

Imagenet数据集是目前深度学习图像领域应用得非常多的一个领域，关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细，有专门的团队维护，使用非常方便，在计算机视觉领域研究论文中应用非常广，几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。

与Imagenet数据集对应的有一个享誉全球的“ImageNet国际计算机视觉挑战赛(ILSVRC)”，以往一般是google、MSRA等大公司夺得冠军，今年（2016）ILSVRC2016中国团队包揽全部项目的冠军。

Imagenet数据集是一个非常优秀的数据集，但是标注难免会有错误，几乎每年都会对错误的数据进行修正或是删除，建议下载最新数据集并关注数据集更新。

数据集大小：~1TB（ILSVRC2016比赛全部数据）
下载地址：
http://www.image-net.org/about-stats

3 COCO

COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集，它有如下特点：
1）Object segmentation
2）Recognition in Context
3）Multiple objects per image
4）More than 300,000 images
5）More than 2 Million instances
6）80 object categories
7）5 captions per image
8）Keypoints on 100,000 people

COCO数据集由微软赞助，其对于图像的标注信息不仅有类别、位置信息，还有对图像的语义文本描述，COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展，也几乎成为了图像语义理解算法性能评价的“标准”数据集。

Google开源的开源了图说生成模型show and tell就是在此数据集上测试的，想玩的可以下下来试试哈。

数据集大小：~40GB
下载地址：http://mscoco.org/

4 PASCAL VOC

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录：人类；动物（鸟、猫、牛、狗、马、羊）；交通工具（飞机、自行车、船、公共汽车、小轿车、摩托车、火车）；室内（瓶子、椅子、餐桌、盆栽植物、沙发、电视）。PASCAL VOC挑战赛在2012年后便不再举办，但其数据集图像质量好，标注完备，非常适合用来测试算法性能。

数据集大小：~2GB
下载地址：
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

5 CIFAR

CIFAR-10包含10个类别，50,000个训练图像，彩色图像大小：32x32，10,000个测试图像。CIFAR-100与CIFAR-10类似，包含100个类，每类有600张图片，其中500张用于训练，100张用于测试；这100个类分组成20个超类。图像类别均有明确标注。CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集。

数据集大小：~170MB
下载地址：
http://www.cs.toronto.edu/~kriz/cifar.html

6 Open Image

过去几年机器学习的发展使得计算机视觉有了快速的进步，系统能够自动描述图片，对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司，自然也要做出些表示，于是乎就有了Open Image。

Open Image是一个包含~900万张图像URL的数据集，里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet（1000类）包含更真实生活的实体存在，它足够让我们从头开始训练深度神经网络。

谷歌出品，必属精品！唯一不足的可能就是它只是提供图片URL，使用起来可能不如直接提供图片方便。

此数据集，笔者也未使用过，不过google出的东西质量应该还是有保障的。

数据集大小：~1.5GB（不包括图片）
下载地址：
https://github.com/openimages/dataset

7 Youtube-8M

Youtube-8M为谷歌开源的视频数据集，视频来自youtube，共计8百万个视频，总时长50万小时，4800类。为了保证标签视频数据库的稳定性和质量，谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库，谷歌对视频进行了预处理，并提取了帧级别的特征，提取的特征被压缩到可以放到一个硬盘中（小于1.5T）。

此数据集的下载提供下载脚本，由于国内网络的特殊原因，下载此数据经常断掉，不过还好下载脚本有续传功能，过一会儿重新连接就能再连上。可以写一个脚本检测到下载中断后就sleep一段时间然后再重新请求下载，这样就不用一直守着了。（截至发文，断断续续的下载，笔者表示还没下完呢……）

数据集大小：~1.5TB
下载地址：https://research.google.com/youtube8m/

以上是笔者根据学习科研和文献阅读经历总结的目前深度学习视觉领域研究人员常用数据集。由于个人学识有限，难免有疏漏和不当的地方，望读者朋友们不吝赐教。

如果以上数据集还不能满足你的需求的话，不妨从下面找找吧。

1.深度学习数据集收集网站

http://deeplearning.net/datasets/**
收集大量的各深度学习相关的数据集，但并不是所有开源的数据集都能在上面找到相关信息。

2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
包含8000万的32x32图像，CIFAR-10和CIFAR-100便是从中挑选的。

3、CoPhIR
http://cophir.isti.cnr.it/whatis.html
雅虎发布的超大Flickr数据集，包含1亿多张图片。

4、MirFlickr1M
http://press.liacs.nl/mirflickr/Flickr数据集中挑选出的100万图像集。

5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/Flickr的一个子集，包含100万的图像集。

6、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htmFlickr中的27万的图像集。

7、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/机器标注的一个超大规模数据集，包含2亿图像。

8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/包含13万的图像的数据集。

9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/ 包含100万的图像，23000视频；微软亚洲研究院出品，质量应该有保障。

中国是一个“数据大国”，中国的数据开放在政府部门以北京、上海等地为首，陆续开放了交通、天气等数据集；在企业中以新浪微博等为首，开放了真实、有效的数据给研究人员提供了极大的便利；但就计算机视觉领域来说，国内数据集的开放水平和国外相比仍有一定差距。希望国内相关企业和组织能够开放更多优秀的数据集，促进相关行业研究进展，提升中国在相关研究领域的影响力，为推动全人类科学技术的进步贡献自己的一份力量。

参考文献：
[1] http://yann.lecun.com/exdb/mnist/index.html
[2] http://www.image-net.org/about-stats
[3] http://mscoco.org/
[4] http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html
[5] http://www.cs.toronto.edu/~kriz/cifar.html
[6] https://github.com/openimages/dataset
[7] https://research.google.com/youtube8m/
[8] http://blog.csdn.net/qq_26898461/article/details/50593328

作者介绍：
刘念宏：清华大学微电子系在读硕士研究生，清华大学“大数据硕士”，现任清华大学学生大数据协会会长。
主要研究方向：深度学习图像检测。
联系方式：
lnh15@mails.tsinghua.edu.cn。

付睿：清华大学自动化系在读硕士研究生，清华大学“大数据硕士”，前任清华大学学生大数据协会会长。
主要研究方向：智能交通。
联系方式：freefor_ever@163.com。

作者：刘念宏、付睿
校对：洪舒越
编辑：刘文清、张梦

转载须知
如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：datapi），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。
发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

——————————————————分割————————————————

二维码啥的没看到不太懂这个简书是二次转载还是啥……总之作者信息都放上去了，侵权的话我就删除……唉

一些其他参考：

深度学习数据集汇总

计算机视觉相关数据集和比赛人脸识别数据集，后期可能用到

以下转自：数据集大全：25个深度学习的开放数据集

介绍

深度学习的关键是训练。无论是从图像处理到语音识别，每个问题都有其独特的细微差别和方法。

但是，你可以从哪里获得这些数据？现在你看到的很多研究论文都使用专有数据集，而这些数据集通常不会向公众发布。如果你想学习并应用你新掌握的技能，数据就成为一个问题。

在本文中，我们列出了一些高质量的数据集，每个深度学习爱好者都可以使用并改善改进他们模型的性能。拥有这些数据集将使你成为一名更好的数据科学家，并且你将从中获得无可估量的价值。我们还收录了具有最新技术（SOTA）结果的论文，供你浏览并改进你的模型。

如何使用这些数据集？

首先要做的事——下载这些数据集，这些数据集的规模很大！所以请确保你有一个快速的互联网连接。

数据集分为三类——图像处理、自然语言处理和音频/语音处理。

让我们开始我们的数据集之旅吧！

图像数据集

1.MNIST

d232ec9c62087f6060aac961678344187aca3140

MNIST是最受欢迎的深度学习数据集之一，这是一个手写数字数据集，包含一组60,000个示例的训练集和一个包含10,000个示例的测试集。这是一个很好的数据库，用于在实际数据中尝试学习技术和深度识别模式，同时可以在数据预处理中花费最少的时间和精力。

大小： 50 MB

记录数量： 70,000张图片被分成了10个组。

SOTA： Capsules之间的动态路由。

2.MS-COCO

17c48f5075d912d34d36f716a918876f3993e629

COCO是一个大型的、丰富的物体检测，分割和字幕数据集。它有几个特点：

· 对象分割；

· 在上下文中可识别；

· 超像素分割；

· 330K图像（> 200K标记）；

· 150万个对象实例；

· 80个对象类别；

· 91个类别；

· 每张图片5个字幕；

· 有关键点的250,000人；

大小：25 GB（压缩）

记录数量： 330K图像、80个对象类别、每幅图像有5个标签、25万个关键点。

SOTA：Mask R-CNN

3.ImageNet

aa1b7a49b2af4736d0cadc4bb997498f8820bcaa

ImageNet是根据WordNet层次结构组织的图像数据集。WordNet包含大约100,000个单词，ImageNet平均提供了大约1000个图像来说明每个单词。

大小：150GB

记录数量：总图像是大约是1,500,000，每个都有多个边界框和相应的类标签。

SOTA：深度神经网络的聚合残差变换。

4.Open Images数据集

该数据集是一个包含近900万个图像URL的数据集，这些图像跨越了数千个类的图像级标签边框并且进行了注释。该数据集包含9,011,219张图像的训练集，41,260张图像的验证集以及125,436张图像的测试集。

大小：500 GB（压缩）

记录数量：9,011,219张超过5k标签的图像

SOTA：Resnet 101图像分类模型（在V2数据上训练）：模型检查点，检查点自述文件，推理代码。

5.VisualQA

5d8a664b459fa0c7861de72e185b4e8c0709e215

VQA是一个包含相关图像的开放式问题的数据集，这些问题需要理解视野和语言。这个数据集的一些有趣的特点是：

· 265,016张图片（COCO和抽象场景）；

· 每张图片至少有3个问题（平均5.4个问题）；

· 每个问题有10个基本事实答案；

· 每个问题有3个似乎合理（但可能不正确）的答案；

· 自动评估指标。

大小：25 GB（压缩）

记录数量：265,016张图片，每张图片至少3个问题，每个问题10个基本事实答案。

SOTA：视觉问答的技巧和诀窍：从2017年的挑战中学习

6.街景房屋号码（SVHN）

这是用于开发对象检测算法的真实世界的图像数据集，它需要最少的数据预处理。它与本列表中提到的MNIST数据集类似，但具有更多标签数据（超过600,000个图像），这些数据是从谷歌街景中查看的房屋号码中收集的。

大小：2.5 GB

记录数量：6,30,420张图片被分布在10个类中。

SOTA：虚拟对抗训练的分布平滑

7.CIFAR-10

d3ea65e5cd106dc02dae823d703a4fea8b33ff8e

该数据集是图像分类的另一个数据集，它由10个类的60,000个图像组成（每个类在上面的图像中表示为一行）。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分：5个训练批次和1个测试批次，每批有10,000个图像。

大小：170 MB

记录数量：60,000张图片被分为10个类。

SOTA：ShakeDrop正则化

8.Fashion--MNIST

e36ccb028a0302f3ae4e88bc4cff7b42010250a2

Fashion-MNIST包含60,000个训练图像和10,000个测试图像，它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用，因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示，并与10个类别的标签相关联。

大小：30 MB。

记录数量：70,000张图片被分为10个类。

SOTA：随机擦除数据增强

自然语言处理

9.IMDB评论

这是电影爱好者的梦幻数据集，它意味着二元情感分类，并具有比此领域以前的任何数据集更多的数据。除了训练和测试评估示例之外，还有更多未标记的数据供你使用。原始文本和预处理的单词格式包也包括在内。

大小：80 MB。

记录数量： 25,000个电影评论训练，25,000个测试

SOTA：学习结构化文本表示

10.二十个新闻组（Twenty Newsgroups）

顾名思义，该数据集包含有关新闻组的信息。为了管理这个数据集，从20个不同的新闻组中获取了1000篇Usenet文章。这些文章具有典型特征，如主题行，签名和引号。

大小：20 MB

记录数量：来自20个新闻组的20,000条消息。

SOTA：用于文本分类的非常深的卷积网络，

11.Sentiment140

Sentiment140是一个可用于情感分析的数据集。它是一个流行的数据集，它能让你的NLP旅程更加完美。情绪已经从数据中预先删除，最终的数据集具有以下6个特征：

· 推文的极性（polarity of the tweet）。

· 推文的ID。

· 推文的日期。

· 查询。

· 推文的文本。

大小：80 MB（压缩）。

记录数量：160,000条推文。

SOTA：评估最先进的情感数据集的最新情绪模型

12.WordNet

在上面的ImageNet数据集中提到，WordNet是一个包含英文synsets的大型数据库。Synsets是同义词组，每个描述不同的概念。WordNet的结构使其成为NLP非常有用的工具。

大小：10 MB

记录数量：通过少量“概念关系”将117,000个同义词集与其他同义词集相关联。

SOTA：Wordnet：现状和前景

13.Yelp评论

这是Yelp为了学习目的而发布的一个开放数据集。它由数百万用户评论，商业属性和来自多个大都市地区的超过20万张照片组成。这是一个非常常用的全球NLP挑战数据集。

大小：2.66 GB JSON，2.9 GB SQL和7.5 GB照片（全部压缩）

记录数：5,200,000条评论，174,000条商业属性，20万张照片。

SOTA：细心卷积(Attentive Convolution)

14.维基百科语料库

该数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿字。这个强大的NLP数据集你可以通过单词，短语或段落本身的一部分进行搜索。

大小：20 MB。

记录数：4,400,000篇文章，19亿字。

SOTA：打破Softmax Bottelneck：高级RNN语言模型

15.博客作者身份语料库

此数据集包含从数千名博主收集的博客帖子，并且已从blogger.com收集。每个博客都作为一个单独的文件提供，每个博客至少包含200次常用英语单词。

大小：300 MB

记录数：681,288个帖子，超过1.4亿字。

SOTA：用于大规模作者归属的字符级和多通道卷积神经网络

16.欧洲语言的机器翻译数据集

该数据集包含四种欧洲语言的训练数据，它存在的任务是改进当前的翻译方法。你训练以下任何语言对：

· 法语——英语；

· 西班牙语——英语；

· 德语——英语；

· 捷克语——英语。

大小：15 GB

记录数量：约30,000,000个句子及其翻译。

SOTA：Attention就是你所需要的

音频/语音数据集

17.免费口语数字数据集

此列表中的另一项是由MNIST数据集启发！这是为了解决识别音频样本中的口头数字的任务而创建的。这是一个开放的数据集，所以希望随着人们继续贡献更多样本，它会不断增长。目前，它包含以下特点：

· 3个扬声器；

· 1500个录音（每个扬声器每个数字50个）；

· 英语发音；

大小：10 MB。

记录数量：1500个音频样本。

SOTA：使用采样级CNN架构的基于原始波形的音频分类

18.免费音乐档案（FMA）

FMA是音乐分析的数据集，该数据集由full-length和HQ音频、预先计算的特征以及音轨和用户级元数据组成。它是一个开放数据集，用于评估MIR中的几个任务。以下是数据集连同其包含的csv文件列表：

· tracks.csv：106,574首曲目的每首曲目元数据，如ID，标题，艺术家，流派，标签和播放次数。

· genres.csv：163种风格的ID与他们的名字和父母（用于推断流派层次和顶级流派）。

· features.csv：用librosa提取的共同特征。

· echonest.csv：由Echonest （现在的 Spotify）为13,129首音轨的子集提供的音频功能。

大小：1000 GB

记录数量：约100,000 tracks

SOTA：学习从音频中识别音乐风格

19.舞厅（Ballroom）

该数据集包含舞厅跳舞音频文件，以真实音频格式提供了许多舞蹈风格的一些特征摘录。以下是数据集的一些特征：

· 实例总数：698；

· 持续时间：约30秒；

· 总持续时间：约20940秒；

大小： 14GB（压缩）

记录数量：约700个音频样本

SOTA：考虑到不同类型音乐风格的多模型方法来打败追踪

20.百万歌曲数据集

在百万歌曲数据集是音频功能和元数据的一百万当代流行音乐曲目可自由可用的集合。其目的是：

· 鼓励对扩大到商业规模的算法进行研究；

· 为评估研究提供参考数据集；

· 作为使用API创建大型数据集的捷径（例如Echo Nest的）；

· 帮助新研究人员在MIR领域开始工作；

数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频，只包含派生的功能。示例音频可以通过使用哥伦比亚大学提供的代码从7digital等服务中获取。

大小： 280 GB

记录数量：一百万首歌曲！

SOTA：百万歌曲数据集挑战推荐系统的初步研究

21.LibriSpeech

该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐，如果你正在寻找一个起点，请查看已准备好的声学模型，这些模型在kaldi-asr.org和语言模型上进行了训练，适合评估，网址为：http://www.openslr.org/11/。

大小：60 GB

记录数： 1000小时的演讲。

SOTA：基于信件的语音识别与门控通信