sklearn工具-python数据集操作API

一、python科学计算环境

  • Python库: pandas、numpy、scipy、Scikit-Image、Scikit-Learn、matplotlib

  • 功能介绍

二、SKlearn算法库的顶层设计

  • SKlearn监督学习的各个模块

  • SKlearn无监督学习模块

  • SKlearn数据变换模块

  • SKlearn算法类顶层设计图

  • SKlearn算法类继承关系图

svm--以支持向量机为例

cluster--以K-Means和MeanShift为例

feature_extraction--以FeatureHasher和DictVectorizer为例

三、SKlearn统一API调用接口

  • 六大板块统一API

    • 分类、回归、聚类、维数约简、特征抽取选择、数据预处理

* 监督学习工作流程

* 无监督学习工作流程

* 数据预处理工作流程

* 无监督工作流程:聚类

  • 学习顺序

四、SKlearn数据集操作API

  • 自带的小数据集--鸢尾花

  * from sklearn.datasets import load_iris
        iris = load_iris()
  • 手写数字识别

  • 乳腺癌数据集

  • 糖尿病数据集

  • 波士顿房价数据集

  • 体能训练数据集

  • 图像数据集

  • svmlight/libsvm格式的数据集

  • 可在线下载的数据集

  • 计算机生成的数据集:用于分类任务、回归任务、聚类、流形学习、因子分解

原文地址:https://www.cnblogs.com/linyk/p/13096126.html