机器学习算法详解（一）—

机器学习算法详解（一）——基础知识

本篇针对以下几个问题进行总结：

01.了解机器学习的基本概念，能说清楚几个和空间相关的概念。从该角度解释机器学习的实质。

02.经验风险和结构风险有何不同？

03.为什么要引入正则项？和经验风险、结构风险有何关系？

04.说明损失函数的意义。并列出几个常见的损失函数，说明其异同。并去了解常见的算法分别选用了什么损失函数？

现解答如下：

问题一：了解机器学习的基本概念，能说清楚几个和空间相关的概念。从该角度解释机器学习的实质。

首先，和空间相关的概念有：输入空间（将输入的所有可能取值的集合称作输入空间）、输出空间（将输出的所有可能取值的集合称作输出空间）、特征空间（将特征向量存在的空间称作特征空间）、假设空间（假设空间指的是问题所有假设组成的空间，它是由输入空间到输出空间的映射的集合，我们可以把学习过程看作是在假设空间中搜索的过程，搜索目标是寻找与训练集“匹配”的假设）。而机器学习的实质其实就是一个最优化问题，也就是通过某种算法策略从假设空间中寻找模型参数，从而使得损失函数最小，找出模型的最优解。

问题二：经验风险和结构风险有何不同？

经验风险：损失函数度量了单个样本的预测结果，要想衡量整个训练集的预测值和真实值的差异，将整个训练集的所有记录均进行一次预测，求取损失函数，将所有值累加，即为经验风险

结构风险：在经验风险的基础上，增加一个正则化项或者叫做惩罚项，公式为：R_srm(f)=(1/N)Σ^N_i=1L(Y , f(x)) + λJ(f)，其中λ为一个大于0的系数，J(f)表示模型f(x)的复杂度。

不同：

1）经验风险越小，模型决策函数越复杂，其包含的参数越多

2）当经验风险函数小到一定程度就出现了过拟合现象

3）防止过拟合现象的方式，就要降低决策函数的复杂度，让惩罚项J(f)最小化

4）需要同时保证经验风险函数和模型决策函数的复杂度都达到最小化

5）把两个式子融合成一个式子得到结构风险函数然后对这个结构风险函数进行最小化

问题三：为什么要引入正则项？和经验风险、结构风险有何关系？

正则化项主要是在降低经验风险的同时能够降低最小化训练误差的过拟合风险。正则化项+经验风险 = 结构风险

问题四：说明损失函数的意义。并列出几个常见的损失函数，说明其异同。并去了解常见的算法分别选用了什么损失函数？

损失函数是用来衡量预测结果和真实结果之间的差距的函数，其值越小，说明预测结果和真实结果越一致。通常它是一个非负实值函数。通过各种方式缩小损失函数的过程就叫做优化。

常见的损失函数如下：

1）0-1损失函数：预测值和真实值之间的差距小于T为0，否则为1（其中T可以自定义）

2）绝对值损失函数：预测结果与真实结果的绝对值

3）平方损失函数：预测结果与真实结果差的平方

4）对数损失函数/对数似然损失函数：对数函数具有单调性，在求最优化问题时，结果与原始目标一致。可将乘法转化为加法，简化计算

5）指数损失函数：具有单调性、非负性的优良性质，使得越接近正确结果误差越小

6）折叶损失函数：也称铰链损失，对于判定边界附近的点的惩罚力度较高

相同：各损失函数多事非负的，其原因在于，若存在负数，则会和一部分正的数值抵消掉，影响最终结果。不同：平方函数对于大误差的惩罚大于小误差，且数学计算简单、友好，导数为一次函数；0-1损失函数适用于理想状况模型，而对数适合于逻辑回归交叉熵

常见的利用损失函数的算法：神经网络（上述损失函数均有使用），SVM（常使用折叶损失函数），交叉熵、逻辑回归（常使用对数损失函数），线性回归（常使用平方损失函数）