(1)机器学习的基本概念

1.传统算法与机器学习的区别

机器学习：让机器去学习

传统算法：让机器去执行

2.人类学习的过程

人类的学习过程是一个典型的经验学习的过程。

3.机器学习的过程

机器学习的过程和人类学习的过程是极为相似的。

4.机器学习发展的两个前提:

(1)数据资料的大量产生与获取。

(2)计算机运算速度提高，计算能力越来越强。

5.人工智能，机器学习和深度学习的关系

6.学习机器学习需要关注的问题

7.对于调库的态度

8.机器学习世界的数据

鸢尾花数据集的一部分:

数据整体叫数据集(data set)

每一行数据称为一个样本(sample)

除最后一列，每一列表达样本的一个特征/属性(feature) 每一个样本由不同的特征进行描述

最后一列称为标记(label) （机器学习要学习的内容）

数学上常用大写字母表示矩阵，小写字母表示向量。

X是一个矩阵

X有多少行说明有多少样本，有多少列说明有多少特征。

y是一个向量

每个样本的特征都可以表示为一个特征向量。

在数学上，向量通常都用列向量表示(特征向量x(i)为列向量)

以上的鸢尾花数据集可以用向量表示为:

样本的本质是在特征所组成的空间中的一个点: (在高维空间同理)

该空间称为特征空间(feature space)

分类任务的本质就是在特征空间进行切分:

特征可能是有具体语义的，也可能是抽象的。

9.机器学习的主要任务

机器学习的基本任务分为分类任务和回归任务。更准确地说，是监督学习这种方式处理的是分类问题和回归问题。

分类任务: 将给定的数据进行分类

(1) 二分类

(2) 多分类

很多复杂的问题可以转换为多分类问题

一些算法只支持完成二分类的任务，但多分类的任务可以转换为二分类的任务，使得这些算法也能够胜任。

有些算法天然就可以完成多分类任务。

(3) 多标签分类

把一样事物分到多个类别当中

回归任务: 结果是一个连续数字的值，而不是一个类别。

有一些算法只能解决回归问题，有一些算法只能解决分类问题，还有一些算法既能解决回归问题又能解决分类问题

一些情况下，回归任务可以简化成分类任务

可以把模型理解成是一个函数f(x)

x为样本资料，函数的值即为结果(类别[分类问题]或连续数值[回归问题])

机器学习的本质就是找出这样的一个函数

10.监督学习，半监督学习，非监督学习和增强学习

可以把机器学习算法分为监督学习，半监督学习，非监督学习和增强学习四个大类

(1) 监督学习

给机器的训练数据集拥有”标记”或者”答案”

监督学习主要处理分类问题和回归问题

(2) 非监督学习（辅助监督学习的进行）

给机器的训练数据没有任何“标记”或”答案”

非监督学习的意义:

对没有标记的数据进行分类(聚类分析)
对数据进行降维处理(包括特征提取【忽略与判断无关的特征】和特征压缩【若干个特征联系紧密，可以用一个特征来表达。在尽量少的损失信息的情况下，将高维的特征向量压缩成低维的特征向量，大大提高机器学习算法的运行效率且不影响机器学习最终的准确率】)

特征压缩使用的主要手段：PCA

数据降维处理的意义:方便可视化

3.异常检测检测出异常的样本并去除

(3)半监督学习

半监督学习是监督学习和无监督学习的结合

一部分数据有”标记”或”答案”,另一部分数据没有

半监督学习在实际生活中是更常见的，因为会有各种原因导致数据集中的标记缺失。

对于半监督学习，通常先使用无监督学习手段对数据做处理，使得数据变成监督学习的模式，之后使用监督学习手段做模型的训练和预测。

(4)增强学习

Agent:机器学习算法

机器学习算法(agent)根据周围的环境(environment)采取行动(action)，采取行动之后，算法会收到环境的反馈(采用奖赏的机制或惩罚的机制)，根据反馈改进自己的行为模式,然后再根据环境采取行动，环境再反馈，以此类推。

Agent在循环往复的行动-反馈中逐渐增强自己的智能。

监督学习和半监督学习是增强学习的基础。

11.批量学习（离线学习 Offline Learning）Batch Learning和在线学习 Online Learning:

(1)批量学习模型训练完毕后就不会再发生变化

优点：简单

会产生的问题: 无法适应环境的变化

解决方法: 定时重新批量学习

缺点: 每次重新批量学习，运算量巨大。

在某些环境变化非常快的情况下（如股市），甚至是不可能的。

(2)在线学习即时将新产生的数据用于改进机器学习模型

每次对输入数据产生产生输出结果时，同时也得到了输入数据对应的正确结果，将这一组新的样本实时地用于改进模型。

优点: 能够及时地反映新的环境变化。

可能产生的问题：新的数据若是异常数据，可能带来不好的变化

解决方法: 需要加强对数据进行监控。（使用非监督学习进行异常数据检测）

在线学习不仅适用于需要及时反映新的环境变化的情况，还适用于数据量巨大，无法完全进行批量学习的情况。

12.参数学习(Parametric Learning)和非参数学习(Nonparametric Learning):

(1)参数学习

a和b即为参数

机器学习过程的本质就是找到合适的a和b,从而建立模型

一旦学到了参数，就不再需要原有的数据集

(2)非参数学习

不对模型进行参数上的假设

原有的数据集也要参与到预测的过程中

非参数学习不代表没有参数。

13.在机器学习领域，算法和数据都非常重要。

算法的重要性是毋庸置疑的。

数据也非常重要。现今的大多数机器学习任务是数据驱动（高度依赖数据本身的质量）的。

因此我们需要收集更多的数据，提高数据的质量，提高数据的代表性，研究更重要的特征。

14.如何选择机器学习算法

（1）简单的就是好的(问题:在机器学习领域，什么叫"简单"?)

(2) 没有一种算法，绝对比另一种算法好。但具体到某个特定的问题，有些算法可能更好。

脱离具体问题，谈哪个算法好是没有意义的。

在面对一个具体问题的时候，尝试使用多种算法进行对比试验，是必要的。

。。。