机器学习中的生成模型和判别模型

1、生成模型和判别模型的定义

　　对于输入数据集X，输出类别Y，生成模型和判别模型可以这样定义

　　判别模型：由数据集直接学习决策函数y = f(x) 或者条件概率分布P(y|x) 作为预测的模型（决策函数事实上是可以用条件概率表示的，例如在逻辑回归中的决策函数和转换成条件概率），这样的模型称为判别模型。基本思想就是在有限样本条件下建立判别函数，不考虑样本的产生模型，直接研究预测模型。典型的判别模型包括K近邻，感知机，决策树，支持向量机等。

　　生成模型：由数据学习联合概率密度分布P(x, y)，然后求出条件概率分布P(y|x)作为预测的模型。即生成模型：P(y|x) = P(x, y)/P(x)。典型的生成模型包括朴素贝叶斯，高斯混合模型，隐马尔科夫模型等。

2、生成模型和判别模型的优缺点

　　判别模型：判别模型是寻找不同类别之间的最优分类面，反映的是异类数据之间的差异。判别模型不能反映数据本身的特性。但是判别模型简单易懂，而且可以对数据进行各种抽象、定义特征并使用特征，可以简化学习问题。

　　生成模型：生成模型能反映数据之间的关系，而且可以做增量学习，生成模型的学习收敛速度更快，而且对于存在隐变量的问题，仍可以使用生成模型（如隐马尔科夫，混合高斯模型等）。但是生成模型学习和计算过程更加复杂。