统计学习方法第一章

一、统计学习三要素

1.模型：要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。例如：假设决策函数是输入变量的线性函数，那么模型的假设空间就是所有这些线性函数构成的函数集合，此时为无穷个。
这也就是为什么说：条件概率分布(P(y|x))和函数(y=f(x))可以相互转换。
条件概率分布最大化后得到函数：决策准则是最大可能性时，决策函数自然取条件概率的最大值。
函数归一化后得到条件概率分布：决策函数归一化之后满足概率公理，当然可以看作条件概率。决策函数的定义域通常是有限点集。
2. 策略：统计学习的目的是从假设空间中选取最优模型，需要损失函数和风险函数。
3. 算法：用什么样的算法求解最优模型。比如梯度下降

二、正则化的作用是选择经验风险与模型复杂度同时较小的模型

从贝叶斯估计角度看，正则化项对应于模型的先验概率。假设复杂的模型有较小的先验概率。简单的模型有较大的先验概率。

三、生成模型和判别模型

生成模型：由数据学习联合概率分布(P(X,Y))，然后求出条件概率分布(P(Y|X))作为预测的模型

[P(Y|X)=frac{P(X,Y)}{P(X)} ]

典型的生成模型：朴素贝叶斯，HMM.
判别模型：由数据直接学习决策函数(f(X))或者条件概率分布(P(Y|X))作为预测的模型。
典型的判别模型：k近邻，感知机，决策树，LR，SVM，条件随机场。

四、第一章习题

1.2通过经验风险最小化推导极大似然估计，证明模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。
经验风险最小化即求解下列最优化问题：

当模型是条件概率分布，损失函数是对数损失函数时，上述问题等价于：

考虑到N是常数，因此，上述上述问题又等价于：

这就是极大似然估计。