机器学习

机器学习的基本概念

数据

数据集

数据的整体叫做数据集 ( data set )

样本

每一行数据被称为一个样本 ( sample )

标记

最后一列, 称为标记 ( label )

特征

表中的每个列都是一个特征, 用特征向量来表示一个特征值

特征空间

特征进行数据表示后的范围空间

此图中的形式是一个二维的特征空间, 高维的话则基于低维进行推导即可

抽象特征

很多的特征并不一定非要具体, 比如图像识别像素点

机器学习的基本任务

分类任务

二分类

多分类

多标签分类

回归任务

什么是机器学习

机器学习方法的分类

监督学习

给机器的训练数据拥有 "标记" 或者 "答案"

监督学习的应用场景

监督学习的算法

非监督学习

给机器的训练数据没有 "标记" 或者 "答案"

聚类分析

对没有 "标记" 的数据进行分类 - 聚类分析

降维处理

特征提取　　

信用卡的评级和人的身高如何关系?

特征压缩　　

PCA, 如下图这种二维的特征表示呈现出一种一维的线性表现, 这时可进行特征压缩

在尽量少损失特征信息的情况下, 将高维的特征向量压缩成低纬的特征向量, 大大提高效率而且不会降低质量

方便可视化

高维有点不好处理, 降维自然容易理解

异常检测

如下图中的两个红点就很不适合整体的状态, 因此检测出后进行干预即可

半监督学习

给机器的训练数据一部分有 "标记" 或者 "答案", 另一部分没有

在现实中更常见, 各种原因都会产生标记的缺失

增强学习

无人驾驶, 机器人等应用场景

机器学习方法的其他分类

批量学习 - Batch Learning

进行一个批次的数据样本进行学习以及辨识, 训练出的算法线上投入使用

不会对新的数据样本来更新自己的学习能力, 运算识别能力基于最初的效率和质量

优点　　简单

如何适应环境变化 ? 　　- 定时重新批量学习

缺点　　每次重新批量学习, 运算量巨大, 某些环境变化快的情况下, 基本无望

在线学习 - Online Learning

进行一个批次的数据样本进行学习以及辨识, 训练出的算法线上投入使用

会对新的数据样本来更新自己的学习能力, 运算识别能力会基于最初的版本不断的自动优化提升适应当前的样本情景

优点　　及时反映新的环境变化

新数据带来不好的变化 ? 　　- 加强对数据的监控

其他　　也适用于数据量巨大, 完全无法批量学习的环境

参数学习

假设存在某个参数, 大量的数据集都是基于此参数存在的一个具体实例