数据挖掘三大方向回归、分类、聚类的区别及应用场景

读完python数据分析与挖掘实战，对于监督学习、非监督学习这两个概念算是明白了，这里总结下三个方向算法的优缺和使用场景

1、回归算法

回归算法是对一种数值型连续变量进行预测和建模的监督学习算法，运用在股票走势，房价走势预测上，每一个样本都有标注真值进行监督算法

1.1 线性回归

　　适用条件：线性回归的理解与解释都十分直观，在变量是非线性关系的时候表现很差

1.2 回归树

1.3 深度学习

1.4 最近邻算法

2、分类算法（监督学习）

对离散型随机变量建模或预测的监督学习算法，运用在邮件过滤，金融欺诈等输出为分类的场景中

2.1 Logistic回归

　　适用条件：因变量一般只有1和0两种取值（自变量是线性可分效果明显）

2.2 决策树

　　基于“分类讨论、逐步细化”思想的分类模型，模型直观，易解释

2.3 svm

　　根据选择不同的核函数，模型可以是线性和非线性

2.4 随机深林

　　精度比决策树高，缺点是由于随机性，丧失了决策树的可解释性

2.5 朴素贝叶斯

2.6 神经网络

2.7 深度学习

3、聚类

聚类是无监督学习，该算法基于数据的内部结构寻找观察样本的自然族群（即集群）。使用案例包括细分客户、新闻聚类、文章推荐等。

3.1 K-Means聚类

　　将数据划分为预定的类数K，原理简单便于处理大数据

3.2 K-中心聚类

3.3 系统聚类（多层次聚类）

记录下三个方向常用的算法，只有最好的算法吗，只有最适合的算法，算法的优化和调参，下次补充