"模式识别与机器学习"读书笔记——2 Probability Distributions

由于概率论在模式识别中占有举足轻重的位置，所以这章就专门讲一讲几个典型的概率分布和它们的性质。另外还涉及一些简单的统计学概念。

概率分布就是给p(x)建立模型，又称为密度估计（density estimation）。说到底也就是个建模，所以每一个模型都是不适定的，模型也有无限多可能性，选取合适的模型就成立模式识别中的一个重要议题。

这无限多的模型可以被分成两大类：parametric distribution与nonparametric distribution

parametric distribution:
之所以这么叫是因为它们的表现好坏是由一系列参数控制的，比如高斯分布中的u与那个方差。
确定这种分布要由给定数据确定参数值。

常见的做法有：
找到参数使某某值最小等（likelihood function），最优化那个做法。
贝叶斯做法，通过给定数据、先验分布确定后验分布。
其中贝叶斯做法中一类特殊情况可以大大简化分析过程，即为conjugate priors。都属于exponential family of distribution

缺点：参数分布的缺点是提前已经确定了分布函数的框架了，对一些特定的情况不合适。有局限性。

nonparametric distribution：

分布的模式只与数据集的大小有关，其中的参数也只是确定复杂度用的。