sklearn中的数据集

具体看原文：点击这里

datasets数据集

sklearn的数据集库datasets提供很多不同的数据集，主要包含以下几大类：

玩具数据集
真实世界中的数据集
样本生成器
样本图片
svmlight或libsvm格式的数据
从http://openml.org下载的数据
从外部加载的数据
用的比较多的就是1和3，这里进行主要介绍，其他的会进行简单介绍，但是不建议使用。

玩具数据集

scikit-learn 内置有一些小型标准数据集，不需要从某个外部网站下载任何文件，用datasets.load_xx()加载。

(一) 波士顿房价

统计了波士顿506处房屋的13种不同特征（包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等）以及房屋的价格，适用于回归任务。

from sklearn import datasets  # 导入库

boston = datasets.load_boston()  # 导入波士顿房价数据
print(boston.keys())  # 查看键(属性)     ['data','target','feature_names','DESCR', 'filename'] 
print(boston.data.shape,boston.target.shape)  # 查看数据的形状 (506, 13) (506,)
print(boston.feature_names)  # 查看有哪些特征 这里共13种
print(boston.DESCR)  # described 描述这个数据集的信息 
print(boston.filename)  # 文件路径

View Code

(二) 鸢尾花

这个数据集包含了150个鸢尾花样本，对应3种鸢尾花，各50个样本，以及它们各自对应的4种关于花外形的数据，适用于分类任务。

from sklearn import datasets  # 导入库

iris = datasets.load_iris()  # 导入鸢尾花数据
print(iris.data.shape,iris.target.shape)  # (150, 4) (150,)
print(iris.feature_names)  # [花萼长，花萼宽，花瓣长，花瓣宽]

View Code

还可以在sklearndatasets_base.py文件中查看信息：3类，每类50个，共150个样本，维度（特征）为4，特征的数值是真实的，并且都是正数。

(三) 手写数字

共有1797个样本，每个样本有64的元素，对应到一个8x8像素点组成的矩阵，每一个值是其灰度值， target值是0-9，适用于分类任务。