业界常用数据集

mnist手写数字体:http://yann.lecun.com/exdb/mnist/ (28*28*1,60000train,10000test)

cifar-10数据集:http://www.cs.toronto.edu/~kriz/cifar.html (32*32*3,50000train,10000test)
10类物品:飞机,汽车,鸟,猫,鹿,狗,青蛙,马,船,卡车
data_batch1~5是划分好的训练数据,每个文件中包含10000张图像,test_batch测试集数据,10000张图像;

cifar-100数据集:60000张32*32*3,分为20大类,每大类5小类,共100小类,一个小类600张图像,500train,100test

图像数据集:

1. 图像(JPG文件)数据集转化为二进制文件(或者gz文件)操作步骤,其中涉及到numpy,os,Image,尤其numpy和tensorflow的结合使用,制作数据集时源数据是按标签顺序排列的,需要将图像打乱n次,以增强其泛化能力;

2.学习经典的手写数字数据集读取脚本(可以运用在其他数据集读取中),从二进制文件中获取矩阵形式的图片数据以及标签矩阵,通过flat操作将原有的密集的标签向量转化为稀疏的标签矩阵,进行one_hot编码,以增强可读性;注意:在神经网络的数据集读取代码中调用read_data_sets()函数时必须制定参数one_hot=True;

3.dng数据格式(遵循TIFF6.0格式结构,统一不同厂商的raw格式,原始图像,有IFH图像文件头,IFD图像文件目录,DE图像的属性这三部分组成)

原文地址:https://www.cnblogs.com/xiaowa/p/13347475.html