sklearn.datasets中的数据集案例（集合）

一、sklearn.datasets数据集介绍

机器学习sklearn中的datasets模块提供了一些自带的小数据集。数据集是一个类似字典的对象，特征数据存储在 .data 成员中，它是 n_samples, n_features 数组。在监督问题的情况下，一个或多个响应变量存储在 .target中，小白在入门时可以利用这些小数据集做一些简单的算法模型，初步感受下sklearn，随后再逐步深入。

1、常见的小数据集：

鸢尾花：load_iris()

乳腺癌：load_breast_cancer()

手写数字：load_digits()

糖尿病：load_diabetes()

波士顿房价：load_biston()

体能训练：load_linnerud()

图像数据：load_sample_image(name)

2、数据集引入流程：

二、利用数据集构建算法模型

1、使用波士顿房价数据做线性回归，预测房价

2、使用乳腺癌数据集做逻辑回归，预测癌症

3、使用鸢尾花数据集进行分类模型(KNN)构建

(1)数据集特征

(2)代码

三、算法深入

利用这些小数据集敲几个模型之后，大概懂个所以然，然后深入了解每个算法的原理，公式推导，相关代码实现以及实际应用场景，知其然便会是一个很明朗的过程啦~

至于算法深入部分，待续。。。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/kkdaddd/p/8018988.html