从统计学statistics的观点看概率分布

已知数据x，希望得到未知label y，即得到映射x-->y:

几个概念：

1）p(x): data distribution 数据分布

2）p(y): prior distribution 先验分布

a priori: Knowable without appeal to particular experience
a priori distribution: special meaning, do not misuse

3）p(x, y): join distribution 联合分布

4）p(x|y = i): class conditional distribution 类条件分布

5）p(y|x): posterior distribution 后验分布

如何表示/估计概率密度：

1）参数估计 - parametric estimation

Parametric:假设PDF服从某种函数形式（functional form）

如高斯分布的函数形式，包含若干参数。当指定参数值之后，PDF就完全确定。

不同的概率分布由不同的参数值决定。估计PDF就是估计参数parameter estimation

2）非参数估计 - non-parametric estimation

不假设PDF是任何已知形式的函数。

如何估计？

使用训练数据直接估计空间中任意点的密度；p(x|D)

非参数不代表无参数！！！！

实际上是允许有无穷多的参数，而参数估计的参数个数是有限的。

统计学习方法的粗略分类：

1）生成模型Generative(probabilistic) models:估计p(x|y=i)和p(x)，然后用贝叶斯定理求p(y=i|x).

2）判别模型Discriminative(probabilistic) models:直接估计p(y=i|x)。

3）判别函数Discriminant function:直接求一个把各类分来的边界。不假设概率模型，如FLD，SVM等。

其中。生成模型和判别模型分为两个步骤：

a. 推理inference：估计各种密度函数；

b. 决策decision：根据估计得到的PDF对任意的x给出输出。