数据挖掘导论(完整版)

一 分类算法

  KNN

    

  神经网络

    

  支持向量机

    适用于高维数据

  决策树

    gini系数

    熵系数

二 聚类算法

  K-均值

    基于原型,划分类型

    不适用密度差别大,形状差异大

  DBSCAN

    基于密度

三 关联方法

  apriori

    剪枝

    支持度

    置信度

  FR-growth

四 组合方法

  bagging

    原理:有放回抽样,63%

    random forest

  

  boosting

    原理:迭代,修改权重

五 数据预处理

  缺失值

  重复值

  异常值 -- 离群点

  特征提取(维归约)  -- PCA

  特征选择

  离散化&二元化  -- 某些分类算法的要求

  变量变换

    标准化 -- 某些算法的要求,KNN 

    简单函数变化(log)

四 变量特征

  连续/离散

  定量/定性

  nominal 标称、ordinal  序数、internal 区间 、 ratio 比率

原文地址:https://www.cnblogs.com/654321cc/p/13084454.html