(转)最大似然估计&贝叶斯估计

最大似然估计&贝叶斯估计

与传统计量模型相对的统计方法，存在

1）参数的解释不同:经典估计:待估参数具有确定值它的估计量才是随机的。如果估计量是无偏的，该估计量的期望等于那个确定的参数。bayes待估参数服从某种分布的随机变量。

2）利用的信息不同:经估:只利用样本信息，bayes要求事先提供一个参数的先验分布，即人们对有关参数的主观认识，是非样本信息。在参数估计中它们与样本信息一起被利用。

3）对随机误差项的要求不同，经典估计除了最大似然法在参数估计中不要求知道随机误差项的具体分布形式在假设检验与区间估计时是需要的。bayes要知道随机误差项的具体分布形式。

4）选择参数估计量的准则不同:经典估计以ols最大似然为准则求解参数估计量。bayes要构造一个损失函数并以损失函数最小化为准则求得参数估计量.

最大似然/ 贝叶斯分类

与分布有关的统计分类方法主要有最大似然/ 贝叶斯分类。最大似然分类是图像处理中最常用的一种监督分类方法,它利用了遥感数据的统计特征,假定各类的分布函数为正态分布,在多变量空间中形成椭圆或椭球分布,也就是和中个方向上散布情况不同,按正态分布规律用最大似然判别规则进行判决,得到较高准确率的分类结果。否则,用平行六面体或最小距离分类效果会更好。

最大似然/ 贝叶斯分类公式如下:

其中:

D :加权距离(可能性)；

c :某一特征类型；

X :象素的测量矢量；

:类型C 的样本平均矢量；

:任一象素属于类型C 的百分概率(缺省为110 ,或根据先验知识输入)；

:类型C 的样本中的象素的协方差矩阵；

| | : 的行列式；

| |：的逆矩阵；

ln:自然对数函数；

T :转置函数；

分类步骤:

①确定需要分类的地区和使用的波段和特征分类数,检查所用各波段或特征分量是否相互已经位置配准；

②根据已掌握的典型地区的地面情况,在图像上选择训练区；

③计算参数,根据选出的各类训练区的图像数据,计算和 ,确定先验概率；

④分类,将训练区以外的图像像元逐个逐类代入公式,对于每个像元,分几类就计算几次,最后比较大小,选择最大值得出类别；

⑤产生分类图,给每一类别规定一个值,如果分10 类,就定每一类分别为1 ,2 ……10 ,分类后的像元值便用类别值代替,最后得到的分类图像就是专题图像. 由于最大灰阶值等于类别数,在监视器上显示时需要给各类加上不同的彩色；

⑥检验结果,如果分类中错误较多,需要重新选择训练区再作以上各步,直到结果满意为止。

这种方法的优点是,对符合正态分布的样本P聚类组而言,是监督分类中较准确的分类器,因为考虑的因素较多；与Mahalanobis 距离一样. 通过协方差矩阵考虑了类型内部的变化。缺点是,扩展后的等式计算量较大,当输入波段增加时,计算时间相应增加；最大似然是参数形式的,意味着每一输入波段必须符合正态分布；在协方差矩阵中有较大值时,易于对模板分类过头,如果在聚类组或训练样本中的象素分布较分散,则模板的协方差矩阵中会出现大值。

贝叶斯学习、最大似然度分类

无监督分类方法还有贝叶斯学习、最大似然度分类。无监督的贝叶斯方法和最大似然度方法与有监督的贝叶斯学习以及最大似然度方法基本相同，唯一的区别在于无已确知类别的样本可供参。

平行体分类

通过设定在各轴上的一系列分割点,将多维特征划分成分别对应不同分类类别的互不重叠的特征子空间的分类方法。这种方法要求通过选取训练区,详细了解分类类别(总体) 的特征,并以较高的精度设定每个分类类别的光谱特征上限值和下限值,以便构成特征子空间。对于一个未知类别的像素来说,它的分类取决于它落入哪个类别特征子空间中。如落入某个特征子空间中,则属于该类,如落入所有特征子空间中,则属于未知类型,因此平行体分类方法要求训练区样本的选择必须覆盖所有的类型,在分类过程中,需要利用待分类像素光谱特征值与各个类别特征子空间在每一维上的值域进行内外判断,检查其落入哪个类别特征值方体中,直到完成各像素的分类.这种方法的优点是, 快捷简单,因为对每一个模板的每一波段与数据文件值进行对比的上下限都是常量；对于一个首次进行的跨度较大的分类,通常比较有用,这一判别规则可以很快缩小分类数,从而避免了更多的耗时计算,节省了处理时间(如最小距离、Mahalanobis 距离或最大似然)。缺点是由于平行六面体有“角”,因此象素在光谱意义上与模板的平均值相差很远时也被分类。

贝叶斯 Thomas Bayes，英国数学家.1702年出生于伦敦，做过神甫。1742年成为英国皇家学会会员。1763年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论，并创立了贝叶斯统计理论，对于统计决策函数、统计推断、统计的估算等做出了贡献.1763年发表了这方面的论著，对于现代概率论和数理统计都有很重要的作用。贝叶斯的另一著作《机会的学说概论》发表于1758年。贝叶斯所采用的许多术语被沿用至今。　　贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。　　贝叶斯决策就是在不完全情报下，对部分未知的状态用主观概率估计，然后用贝叶斯公式对发生概率进行修正，最后再利用期望值和修正概率做出最优决策。　　贝叶斯决策理论方法是统计模型决策中的一个基本方法，其基本思想是： 1、已知类条件概率密度参数表达式和先验概率。 2、利用贝叶斯公式转换成后验概率。 3、根据后验概率大小进行决策分类。他对统计推理的主要贡献是使用了"逆概率"这个概念，并把它作为一种普遍的推理方法提出来。贝叶斯定理原本是概率论中的一个定理，这一定理可用一个数学公式来表达，这个公式就是著名的贝叶斯公式。贝叶斯公式是他在1763年提出来的：假定B1,B2,……是某个过程的若干可能的前提，则P(Bi)是人们事先对各前提条件出现可能性大小的估计，称之为先验概率。如果这个过程得到了一个结果A，那么贝叶斯公式提供了我们根据A的出现而对前提条件做出新评价的方法。P(Bi∣A)既是对以A为前提下Bi的出现概率的重新认识，称 P(Bi∣A)为后验概率。经过多年的发展与完善，贝叶斯公式以及由此发展起来的一整套理论与方法，已经成为概率统计中的一个冠以“贝叶斯”名字的学派，在自然科学及国民经济的许多领域中有着广泛应用。

【贝叶斯决策理论分析】 （1）如果我们已知被分类类别概率分布的形式和已经标记类别的训练样本集合，那我们就需要从训练样本集合中来估计概率分布的参数。在现实世界中有时会出现这种情况。（如已知为正态分布了，根据标记好类别的样本来估计参数，常见的是极大似然率和贝叶斯参数估计方法）　　（2）如果我们不知道任何有关被分类类别概率分布的知识，已知已经标记类别的训练样本集合和判别式函数的形式，那我们就需要从训练样本集合中来估计判别式函数的参数。在现实世界中有时会出现这种情况。（如已知判别式函数为线性或二次的，那么就要根据训练样本来估计判别式的参数，常见的是线性判别式和神经网络）　　（3）如果我们既不知道任何有关被分类类别概率分布的知识，也不知道判别式函数的形式，只有已经标记类别的训练样本集合。那我们就需要从训练样本集合中来估计概率分布函数的参数。在现实世界中经常出现这种情况。（如首先要估计是什么分布，再估计参数。常见的是非参数估计）　　（4）只有没有标记类别的训练样本集合。这是经常发生的情形。我们需要对训练样本集合进行聚类，从而估计它们概率分布的参数。（这是无监督的学习）　　（5）如果我们已知被分类类别的概率分布，那么，我们不需要训练样本集合，利用贝叶斯决策理论就可以设计最优分类器。但是，在现实世界中从没有出现过这种情况。这里是贝叶斯决策理论常用的地方。　　问题：假设我们将根据特征矢量x提供的证据来分类某个物体，那么我们进行分类的标准是什么？decide wj， if（p(wj|x)>p(wi|x)）(i不等于j)应用贝叶斯展开后可以得到p(x|wj)p(wj)>p(x|wi)p(wi)即或然率p(x|wj)/p(x|wi)>p(wi)/p(wj)，决策规则就是似然率测试规则。　　结论：对于任何给定问题，可以通过似然率测试决策规则得到最小的错误概率。这个错误概率称为贝叶斯错误率，且是所有分类器中可以得到的最好结果。最小化错误概率的决策规则就是最大化后验概率判据。

【贝叶斯决策判据】

贝叶斯决策理论方法是统计模式识别中的一个基本方法。贝叶斯决策判据既考虑了各类参考总体出现的概率大小，又考虑了因误判造成的损失大小，判别能力强。贝叶斯方法更适用于下列场合：　　(1) 样本(子样)的数量(容量)不充分大，因而大子样统计理论不适宜的场合。　　(2) 试验具有继承性，反映在统计学上就是要具有在试验之前已有先验信息的场合。用这种方法进行分类时要求两点：　　第一，要决策分类的参考总体的类别数是一定的。例如两类参考总体(正常状态Dl和异常状态D2)，或L类参考总体D1，D2，…，DL(如良好、满意、可以、不满意、不允许、……)。　　第二，各类参考总体的概率分布是已知的，即每一类参考总体出现的先验概率P(Di)以及各类概率密度函数P(x／Di)是已知的。显然，0≤P(Di)≤1，(i=l，2，…，L)，∑P(Di)=1。　　对于两类故障诊断问题，就相当于在识别前已知正常状态D1的概率户(D1)和异常状态0：的概率P(D2)，它们是由先验知识确定的状态先验概率。如果不做进一步的仔细观测，仅依靠先验概率去作决策，那么就应给出下列的决策规则：若P(D1)>P(D2)，则做出状态属于D1类的决策；反之，则做出状态属于D2类的决策。例如，某设备在365天中，有故障是少见的，无故障是经常的，有故障的概率远小于无故障的概率。因此，若无特B，j明显的异常状况，就应判断为无故障。显然，这样做对某一实际的待检状态根本达不到诊断的目的，这是由于只利用先验概率提供的分类信息太少了。为此，我们还要对系统状态进行状态检测，分析所观测到的信息。

最大似然估计&贝叶斯估计

概率空间的定义为(Omega, F, P)。在概率图模型中，一个问题是从已知的抽样中估计概率测度P。通常，有两种估计的方法：一是最大似然估计，一是贝叶斯估计。比如，投硬币的问题，30上，20下，就估计上的概率为3/5，这样的估计可以使似然度最大。而贝叶斯主义者认为还应该有更多的先验知识，比如我们早就知道这样的概率取值为1/2的概率相对最大，加入这样的知识后运用贝叶斯公式估计出来的概率就与最大似然法的结果不同。可以想像当先验知识可靠的时候，这样的估计会更准确的。　　形式化一点，投硬币的概率空间为({正, 反}, {{正}, {反}},{(正, p), (反, 1-p)})。最大似然直接在这样的空间上估计p。而贝叶斯主义者将所有p决定的测度P看成是另一个Omega*，即概率本身是另一个概率空间中的一个采样。这另一个空间有自己的另一套测度P*。比如投币问题中Omega*是所有可能拿到的硬币，显然P*会告诉我们不同的硬币会有不同的p。如果这样的P*能够很好的得到，那么这样估计的概率会更有说服力。　　　　那么我想做一些引申，既然一个正反面的概率测度P可以是一个更大的空间中依P*的采样，那么P*本身为什么不是从另一个更大空间中采样出来的呢。比如考虑温度、湿度、表面粗糙度、重力加速度等条件，会得到另一个概率空间Omega**，不同的环境条件决定了各个硬币正面概率的变化，故是这样的空间采样了P*。如果我们同样能够清晰描述P**，这显然也是合理且有说服力的。

最大似然的模型，可以叫做零阶模型（名字是我自己杜撰的），而贝叶斯方法的模型可以叫做一阶模型，用同样的方法可以产生二阶、三阶以及更高阶的模型。前提是我们能够清晰的描述这些概率分布是如何从另一个概率分布中采样出来的。　　一个问题是，这样的过程可以无限进行吗，任何实际的概率空间都可以这样吗，这样的过程都合理且有意义吗。　　　　我这里想说的是，至少有一种实际的测度，不需要再做这样的泛化了。这样的测度就是“宇宙的本质规律”，它赋予任何实在的事件以概率，而它不再是根据某个P*采样出来的了。解释有两点：第一，这些规律有唯一的取值，如果某个规律每次测量会变化，那么必有更高的不变的规律解释这样的变化，从而前者不是“本质规律”，后者才是；第二，如果非要假想有另一种赋值的宇宙规律，而由于我们只可能知道P下的一切，对这样的P*我们不可能有任何认识，所以这样的泛化是无意义的。　　　　形而上学会讨论可能宇宙，会讨论或然宇宙中是否有必然存在物，会讨论宇宙的常数是被如何精巧的设定以至于很幸运地产生了现在的宇宙的样子。我想得出的结论是，除了现在的宇宙外我们一无所知，连宇宙之外的这个规律P*都不知道哪怕一点点，又如何谈论它和他所测量的空间Omega*的性质呢。在这个范围内的任何设定都不会与现实宇宙中的任何现象概率相关，在概率图中他们被我们“宇宙的本质规律”这个节点阻断了。可能有可能宇宙，但我们的宇宙与这个宇宙无关。