sklearn中的数据集

具体看原文:点击这里

datasets数据集

​ sklearn的数据集库datasets提供很多不同的数据集,主要包含以下几大类:

    1. 玩具数据集
    2. 真实世界中的数据集
    3. 样本生成器
    4. 样本图片
    5. svmlight或libsvm格式的数据
    6. 下载的数据
    7. 从外部加载的数据
      用的比较多的就是1和3,这里进行主要介绍,其他的会进行简单介绍,但是不建议使用。

玩具数据集

​ scikit-learn 内置有一些小型标准数据集,不需要从某个外部网站下载任何文件,用datasets.load_xx()加载。

(一) 波士顿房价

​ 统计了波士顿506处房屋的13种不同特征( 包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等 )以及房屋的价格,适用于回归任务。

from sklearn import datasets  # 导入库

boston = datasets.load_boston()  # 导入波士顿房价数据
print(boston.keys())  # 查看键(属性)     ['data','target','feature_names','DESCR', 'filename'] 
print(boston.data.shape,boston.target.shape)  # 查看数据的形状 (506, 13) (506,)
print(boston.feature_names)  # 查看有哪些特征 这里共13种
print(boston.DESCR)  # described 描述这个数据集的信息 
print(boston.filename)  # 文件路径 
View Code

(二) 鸢尾花

​ 这个数据集包含了150个鸢尾花样本,对应3种鸢尾花,各50个样本,以及它们各自对应的4种关于花外形的数据 ,适用于分类任务。

from sklearn import datasets  # 导入库

iris = datasets.load_iris()  # 导入鸢尾花数据
print(iris.data.shape,iris.target.shape)  # (150, 4) (150,)
print(iris.feature_names)  # [花萼长,花萼宽,花瓣长,花瓣宽]
View Code

​ 还可以在sklearndatasets_base.py文件中查看信息:3类,每类50个,共150个样本,维度(特征)为4,特征的数值是真实的,并且都是正数。

(三) 手写数字

​ 共有1797个样本,每个样本有64的元素,对应到一个8x8像素点组成的矩阵,每一个值是其灰度值, target值是0-9,适用于分类任务。

原文地址:https://www.cnblogs.com/2020zxc/p/13449038.html