数据分析第六篇：机器学习分类

1. 监督学习，非监督学习，半监督学习和增强学习

机器学习方法分类标准一：

监督学习：分类、回归

给机器的训练数据拥有“标记”或“答案”

有监督机器学习方法可以分为生成方法和判别方法（常见的生成方法有LDA主题模型、朴素贝叶斯算法和隐式马尔科夫模型等，常见的判别方法有SVM、LR等），生成方法学习出的是生成模型，判别方法学习出的是判别模型。

非监督学习：

给机器的训练数据没有“标记”或“答案”

对没有“标记”的数据进行分类 - 聚类分析

非监督学习的意义：

1.对数据进行降维处理

- 特征提取：信用卡的信用评级和人的胖瘦无关

- 特征压缩：PCA（尽量少损失数据的情况下，将高维的特征压缩到低维）

2.异常检测

半监督学习：

一部分数据有“标记”，另一部分没有

更常见：各种原因产生的标记缺失

通常先使用无监督学习手段对数据做处理，之后使用监督学习手段做模型的训练和预测

增强学习：（AlphaGo、无人驾驶、机器人）

根据周围环境的情况，采取行动，根据采取行动的结果，学习行动的方式。

1.在线学习和批量学习（离线学习）：

1.1 批量学习

优点：简单，只需要学习算法的本身，新数据来了，不需要重新学习

问题：如何适应环境的变化？

解决方案：定时重新批量学习

缺点：每次重新批量学习，运算量巨大；在环境变化非常快的话，基本是不可能

1.2在线学习

每次输入样例，马上就会拿到正确的结果（股市），然后马上将数据迭代到机器学习算法中

优点：及时反映新的环境变化

问题：新的数据带来不好的变化？

解决：需要加强对数据的监控，非监督学习（可以检测异常数据）

其他：使用于数据量巨大，完全无法批量学习的环境

2.参数学习和非参数学习：

2.1参数学习（线性回归）简单线性回归、多项式线性回归、逻辑回归

参数学习的特点：

一旦学习到可参数，就不需要原有的数据集，比如说线性回归

2.2非参数学习KNN、决策树、随机森林

不对模型进行过多假设

非参数不等于没参数