从统计学statistics的观点看概率分布

已知数据x,希望得到未知label y,即得到映射x-->y:

几个概念:

1)p(x): data distribution 数据分布

2)p(y): prior distribution 先验分布

a priori: Knowable without appeal to particular experience
a priori distribution: special meaning, do not misuse

3)p(x, y): join distribution 联合分布

4)p(x|y = i): class conditional distribution 类条件分布

5)p(y|x): posterior distribution 后验分布

如何表示/估计概率密度

1)参数估计 - parametric estimation

Parametric:假设PDF服从某种函数形式(functional form)

如高斯分布的函数形式,包含若干参数。当指定参数值之后,PDF就完全确定。

不同的概率分布由不同的参数值决定。估计PDF就是估计参数parameter estimation

2)非参数估计 - non-parametric estimation

不假设PDF是任何已知形式的函数。

如何估计?

    使用训练数据直接估计空间中任意点的密度;p(x|D)

非参数不代表无参数!!!!

实际上是允许有无穷多的参数,而参数估计的参数个数是有限的。

统计学习方法的粗略分类:

1)生成模型Generative(probabilistic) models:估计p(x|y=i)和p(x),然后用贝叶斯定理求p(y=i|x).

2)判别模型Discriminative(probabilistic) models:直接估计p(y=i|x)。

3)判别函数Discriminant function:直接求一个把各类分来的边界。不假设概率模型,如FLD,SVM等。

其中。生成模型和判别模型分为两个步骤:

    a. 推理inference:估计各种密度函数;

    b. 决策decision:根据估计得到的PDF对任意的x给出输出。

原文地址:https://www.cnblogs.com/little-YTMM/p/5303347.html