sklearn数据集

数据集划分:

  机器学习一般的数据集会划分为两个部分

训练数据:

  用于训练,构建模型

测试数据:

  在模型检验时使用,用于评估模型是否有效

sklearn数据集划分API:

代码示例文末!

scikit-learn数据集API:

 获取数据集的返回类型:

 数据集进行分割:

 代码示例:

 1 import os
 2 from sklearn.datasets import load_iris, fetch_20newsgroups, load_boston
 3 from sklearn.model_selection import train_test_split
 4 
 5 
 6 li = load_iris()  # sklearn库具有获取数据的接口
 7 
 8 print(li.data)  # 获取特征值
 9 print()
10 # 0、1、2分别代表鸾尾花的三个类别
11 print(li.target)  #获取目标值
12 
13 print(li.DESCR)  # 打印描述,150个样本,四个特征,三个类别
14 
15 print(li.feature_names)  # 特征明
16 print(li.target_names)  # 标签类别名
17 
18 
19 
20 # 注意返回值: 训练集train,x_train,y_train,测试集test,x_test,y_test
21 # x_train为训练集的特征值,y_train为训练集的目标值,x_test为测试集的特征值,y_test为测试集的目标值
22 # 注意,接收参数的顺序固定
23 # 训练集占75%,测试集占25%
24 x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)
25 print('训练集的特征值和目标值:', x_train, y_train)
26 print('测试集的特征值和目标值:', x_test, y_test)
27 
28 
29 
30 # 获取新闻数据,all代表下载所有,训练集和测试集都下载,data_home保存的路径
31 news = fetch_20newsgroups(data_home=os.path.curdir, subset='all')
32 print(news.data)
33 print(news.target)
34 
35 
36 lb = load_boston()  # 回归数据
37 print('获取特征值')
38 print(lb.data)
39 print('目标值')
40 print(lb.target)
41 print(lb.DESCR)
原文地址:https://www.cnblogs.com/springionic/p/11782800.html