数据挖掘导论(完整版)

数据挖掘导论(完整版)

一分类算法

　　KNN

　　　　

　　神经网络

　　　　

　　支持向量机

　　　　适用于高维数据

　　决策树

　　　　gini系数

　　　　熵系数

二聚类算法

　　K-均值

　　　　基于原型，划分类型

　　　　不适用密度差别大，形状差异大

　　DBSCAN

　　　　基于密度

三关联方法

　　apriori

　　　　剪枝

　　　　支持度

　　　　置信度

　　FR-growth

四组合方法

　　bagging

　　　　原理：有放回抽样，63%

　　　　random forest

　　

　　boosting

　　　　原理：迭代，修改权重

五数据预处理

　　缺失值

　　重复值

　　异常值 -- 离群点

　　特征提取（维归约） -- PCA

　　特征选择

　　离散化&二元化 -- 某些分类算法的要求

　　变量变换

　　　　标准化 -- 某些算法的要求，KNN

　　　　简单函数变化（log）

四变量特征

　　连续/离散

　　定量/定性

　　nominal 标称、ordinal 序数、internal 区间、 ratio 比率

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/654321cc/p/13084454.html