sklearn数据集

数据集划分：

　　机器学习一般的数据集会划分为两个部分

训练数据：

　　用于训练，构建模型

测试数据：

　　在模型检验时使用，用于评估模型是否有效

sklearn数据集划分API：

代码示例文末！

scikit-learn数据集API：

获取数据集的返回类型：

数据集进行分割：

代码示例：

 1 import os
 2 from sklearn.datasets import load_iris, fetch_20newsgroups, load_boston
 3 from sklearn.model_selection import train_test_split
 4 
 5 
 6 li = load_iris()  # sklearn库具有获取数据的接口
 7 
 8 print(li.data)  # 获取特征值
 9 print()
10 # 0、1、2分别代表鸾尾花的三个类别
11 print(li.target)  #获取目标值
12 
13 print(li.DESCR)  # 打印描述，150个样本，四个特征，三个类别
14 
15 print(li.feature_names)  # 特征明
16 print(li.target_names)  # 标签类别名
17 
18 
19 
20 # 注意返回值： 训练集train，x_train，y_train，测试集test，x_test，y_test
21 # x_train为训练集的特征值，y_train为训练集的目标值，x_test为测试集的特征值，y_test为测试集的目标值
22 # 注意，接收参数的顺序固定
23 # 训练集占75%，测试集占25%
24 x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)
25 print('训练集的特征值和目标值：', x_train, y_train)
26 print('测试集的特征值和目标值：', x_test, y_test)
27 
28 
29 
30 # 获取新闻数据，all代表下载所有，训练集和测试集都下载,data_home保存的路径
31 news = fetch_20newsgroups(data_home=os.path.curdir, subset='all')
32 print(news.data)
33 print(news.target)
34 
35 
36 lb = load_boston()  # 回归数据
37 print('获取特征值')
38 print(lb.data)
39 print('目标值')
40 print(lb.target)
41 print(lb.DESCR)