总体<导学>

有一些奇奇怪怪的数据集##

波士顿房价数据集###

使用sklearn.datasers.load_boston

加载相关的数据集

重要参数 return_X_y 表示是否返回target (价格) 默认为False

 print(data.shape)

同时返回data和target

鸢尾花数据集###

类别分为三类
Iris Setosa,Iris Versicolour Iris Virginica
该数据集和以用于测试多分类器
加载鸢尾花数据集
sklearn.datasets.load_iris
重要参数同上

手写数据数集###

加载方式
sklearn.datasets.load_digits
重要参数同上
n_class 为类别数如果等于5 那么只返回0-4的数据

可以使用plt.matshow()来展示其中的数据

sklearn的主要功能##

包括六大部分

  1. 分类任务
  2. 回归任务
  3. 聚类任务
  4. 降维任务
  5. 模型选择
  6. 数据预处理
    主要介绍前四部分任务

Classifier###

  1. neighbors.NearestNeighbors
    2.svm.SVM
    3.naive_bayes.GaussianNB
    4.tree.DecisionTreeClassifier
    5.ensemble.BaggingClassifier
    6.neural_network.MLPClassifier

Regression###

1.linear_model.Ridge
2.linear_model.Lasso
3.linear_model.ElasticNet
4.linear_model.Lars
5.linear_model.BayesianRidge
6.linear_model.LogisticRegression
7.preprocessing.PolynomialFeatures

Cluster###

1.cluster.KMeans
2.AP聚类 cluster.AffinityPropagation
3.均值漂移cluster.MeanShift
4.层次聚类cluster.AgglomerativeClustering
5.DBSCAN cluster.DBSCAN
6.BIRCH cluster.Brich
7.谱聚类cluster.SpectralCluster

decomposition###

1.decomposition.PCA
2.decomposition.TruncateSVD
3.decomposition.SparseCoder
4.decomposition.FatcorAnalysis
5.decomposition.FastICA
6.decomposition.NMF
7.decomposition.LatentDirichletAllocation

原文地址:https://www.cnblogs.com/sfzyk/p/6867510.html