数据分析第六篇:机器学习分类

1. 监督学习,非监督学习,半监督学习和增强学习

机器学习方法分类标准一:

监督学习:分类、回归

给机器的训练数据拥有“标记”或“答案”

有监督机器学习方法可以分为生成方法和判别方法(常见的生成方法有LDA主题模型朴素贝叶斯算法隐式马尔科夫模型等,常见的判别方法有SVMLR等),生成方法学习出的是生成模型,判别方法学习出的是判别模型。

非监督学习:

给机器的训练数据没有“标记”或“答案”

对没有“标记”的数据进行分类 - 聚类分析

非监督学习的意义:

1.对数据进行降维处理

- 特征提取:信用卡的信用评级和人的胖瘦无关

- 特征压缩:PCA(尽量少损失数据的情况下,将高维的特征压缩到低维)

2.异常检测

半监督学习:

一部分数据有“标记”,另一部分没有

更常见:各种原因产生的标记缺失

通常先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测

增强学习:(AlphaGo、无人驾驶、机器人)

根据周围环境的情况,采取行动,根据采取行动的结果,学习行动的方式。

2. 批量学习,在线学习,参数学习和非参数学习

1.在线学习和批量学习(离线学习):

1.1 批量学习

优点:简单,只需要学习算法的本身,新数据来了,不需要重新学习

问题:如何适应环境的变化?

解决方案:定时重新批量学习

缺点:每次重新批量学习,运算量巨大;在环境变化非常快的话,基本是不可能

1.2在线学习

每次输入样例,马上就会拿到正确的结果(股市),然后马上将数据迭代到机器学习算法中

优点:及时反映新的环境变化

问题:新的数据带来不好的变化?

解决:需要加强对数据的监控,非监督学习(可以检测异常数据)

其他:使用于数据量巨大,完全无法批量学习的环境

2.参数学习和非参数学习:

2.1参数学习(线性回归)简单线性回归、多项式线性回归、逻辑回归

参数学习的特点:

一旦学习到可参数,就不需要原有的数据集,比如说线性回归

2.2非参数学习KNN、决策树、随机森林

不对模型进行过多假设

非参数不等于没参数

原文地址:https://www.cnblogs.com/leijing0607/p/7723615.html