机器学习基础

统计学习关于数据的基本假设是同类数据具有一定的统计规律性，同类数据指的是具有某种共同性质的数据，所以可用概率统计方法加以处理。比如，可用随机变量描述数据中的特征，用概率分布描述数据的统计规律。

统计学习总的目标是考虑学习什么样的模型和如何学习模型，以使模型能对数据进行准确的预测与分析，同时也要考虑尽可能的提高学习效率。

统计学习方法的步骤：

l 得到一个有限的训练数据集合

l 确定包含所有可能模型的假设空间，即学习模型的集合

l 确定模型选择的准则，即学习的策略

l 实现求解最优模型的算法

l 通过学习方法选择最优的模型

l 利用最优模型对新数据进行预测或分析

统计学习包括监督学习、非监督学习、半监督学习和强化学习。

训练误差和测试误差与模型复杂度的关系：当模型复杂度增大时，训练误差会逐渐减小并趋向于0，测试误差会先减小，达到最小值后又增大。当模型的复杂度过大时，过拟合现象就会发生。

生成模型与判别模型

生成方法：由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y/X)作为预测的模型。典型的生成模型有朴素贝叶斯法和隐马尔科夫模型。

判别方法：由数据直接学习决策函数f(X)或者条件概率分布P(Y/X)作为预测的模型。判别方法往往学习的准确率更高。