25个深度学习开源数据集

简介

学习深度学习最重要的就是数据集啦。小编在刚开始学习深度学习的时候最头疼的一件事就是没有数据，徒有很多想法，但却无法实现，这里小编给大家介绍25个常用的深度学习开源数据集，这是从国外的一篇博客中看到的，参见https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/。

第一部分图像类

1、MNIST

链接 http://yann.lecun.com/exdb/mnist/

描述：手写数字识别，深度学习入门级数据集。包含60000个训练数据及10000个测试数据，可分为10类

大小：50MB

文献：Dynamic Routing Between Capsules

2、MS-COCO

链接 http://cocodataset.org/#home

描述：各个论文中常用数据集之一，可用于图像分割，边缘检测，关键点检测及图像捕获

大小：25GB

文献：Mask R-CNN

3、ImageNet

链接 http://www.image-net.org/

描述：最有名的图像数据集之一，目前比较常用的模型如VGG、Inception、Resnet都是基于它训练的。

大小：150GB

文献：Aggregated Residual Transformations for Deep Neural Networks

4、Open Image Dataset

链接 https://github.com/openimages/dataset#download-the-data

描述：一个包含近900万个图像URL的数据集。这些图像拥有数千个类别及边框进行了注释。该数据集包含9,011219张图像的训练集，41,260张图像的验证集以及125,436张图像的测试集。

大小：500GB

项目：Resnet 101 image classification model (trained on V2 data): Model checkpoint, Checkpoint readme, Inference code.

5、VisualQA

链接 http://www.visualqa.org/

描述：关于图像的问答系统数据集

大小：25GB

文献：Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

6、The Street View House Numbers(SVHN)

链接 http://ufldl.stanford.edu/housenumbers/

描述：门牌号数据集，可用来做物体检测与识别

大小：2.5GB

文献：Distributional Smoothing With Virtual Adversarial Training

7、CIFAR-10

链接 http://www.cs.toronto.edu/~kriz/cifar.html

描述：有名的图像识别数据集，包含 50000张训练数据，10000张测试数据，可分为10类

大小：170MB

文献：ShakeDrop regularization

8、Fashion-MNIST

链接 https://github.com/zalandoresearch/fashion-mnist

描述：包含60000训练样本和10000测试样本的用于服饰识别的数据集，可分为10类。

大小：30MB

文献：Random Erasing Data Augmentation

第二部分自然语言处理类

1、IMDB 影评数据

链接 http://ai.stanford.edu/~amaas/data/sentiment/

描述：可以实现对情感的分类，除了训练集和测试集示例之外，还有更多未标记的数据。原始文本和预处理的数据也包括在内。

大小：80MB

文献：Learning Structured Text Representations

2、Twenty Newsgroups数据

链接 https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups

描述：包含20类新闻的文章信息，内类包含1000条数据

大小：20MB

文献： Very Deep Convolutional Networks for Text Classification

3、Sentiment140

链接 http://help.sentiment140.com/for-students/

描述：一个用于情感分析的数据集

大小：80MB

文献：Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets

4、WordNet

链接 https://wordnet.princeton.edu/

描述：根据单词的意义将单词组成的一个“单词网络”。

大小：10MB

文献：Wordnets: State of the Art and Perspectives

5、Yelp 点评数据集

链接 https://www.yelp.com/dataset

描述：数据集包括470万条用户评价，15多万条商户信息，20万张图片，12个大都市。此外，还涵盖110万用户的100万条tips，超过120万条商家属性（如营业时间、是否有停车场、是否可预订和环境等信息），随着时间推移在每家商户签到的总用户数。

大小：2.66GB JSON文件 2.9GB SQL文件 7.5GB图片数据

文献：Attentive Convolution

6、维基百科语料库（英语）

链接 http://nlp.cs.nyu.edu/wikipedia-data/

描述：包含4400000篇文章及19亿单词，可用来做语言建模

大小：20MB

文献：Breaking The Softmax Bottelneck: A High-Rank RNN language Model

7、博客作者身份语料库

链接 http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

描述：从blogger.com收集到的19,320名博主的博客，其中博主的信息包括博主的ID、性别、年龄、行业及星座。

大小：300MB

文献：Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution

8、各种语言的机器翻译数据集

链接 http://statmt.org/wmt18/index.html

描述：包含英-汉、英-法、英-捷克、英语- 爱沙尼亚、英 - 芬兰、英-德、英 - 哈萨克、英 - 俄、英 - 土耳其之间互译的数据集

大小：15GB

文献：Attention Is All You Need

第三部分语音类

1、Free Spoken Digit Dataset

链接 https://github.com/Jakobovski/free-spoken-digit-dataset

描述：数字语音识别数据集，包含3个人的声音，每个数字说50遍，共1500条数据

大小：10MB

文献：Raw Waveform-based Audio Classification Using Sample-level CNN Architectures

2、Free Music Archive (FMA)

链接 https://github.com/mdeff/fma

描述：一个可以用于对音乐进行分析的数据集，数据集中包含歌曲名称、音乐类型、曲目计数等信息。

大小：1000GB

文献：Learning to Recognize Musical Genre from Audio

3、Ballroom

链接 http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html

描述：舞厅舞曲数据集，可对舞曲风格进行识别。

大小：14GB

文献：A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles

4、Million Song Dataset

链接 https://labrosa.ee.columbia.edu/millionsong/

描述：由Echo Nest提供的一百万首歌曲的特征数据。该数据集不包含任何音频，但是可以使用他们提供的代码音频

大小：280GB

文献： Preliminary Study on a Recommender System for the Million Songs Dataset Challenge

5、LibriSpeech

链接 http://www.openslr.org/12/

描述：包含1000小时采样频率为16Hz的英语语音数据及所对应的文本，可用作语音识别

大小：60GB

文献：Letter-Based Speech Recognition with Gated ConvNets

6、VoxCeleb

链接 http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

描述：VoxCeleb是一个大型的说话人识别数据集。它包含约1,200名来自YouTube视频的约10万个话语。数据在性别是平衡的（男性占55％）。说话人跨越不同的口音，职业和年龄。可用来对说话者的身份进行识别。

大小：150MB

文献：VoxCeleb: a large-scale speaker identification dataset

第四部分 Analytics Vidhya实践问题

这部分是Analytics Vidhya（原博客所在网站）在解决实际问题中所收集的数据，有兴趣的可以参见他们的竞赛。

1、Twitter情绪分析

链接 https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/register

描述：识别是否包含种族歧视及性别歧视的推文。

大小：3MB

2、印度演员的年龄识别数据集

链接 https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/

描述：根据人的面部属性，识别人的年龄的数据集。

大小：48MB

3、城市声音分类数据集

链接 https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/

描述：该数据集包含来自10个类的城市声音的8732个标记的声音片段，每个片段时间小于4秒。

大小：训练数据集3GB，训练数据集2GB。

信用卡申请