NNPRChap1 统计模式识别(8)贝叶斯准则

这里聊聊统计模式识别中的基本概念。

首先,考虑字符识别的问题(图1),目标是最小化错分概率。当收集大量数据(如图像)之后,可以算出某字符图像所占的比例,且这个玩意可以表示为先验概率image 。 当我们猜一个图像(未看到图像)对应字符时,如果image,一般会将其归为类image 对应的字符。这会最小化误分概率,基本我们知道会存在错分的情况。

                                                   image 图1

进一步,将图像转换为特征变量image (字符高度与宽度比值),这会给分类决策带来更多信息(如图2)。C2类字符image 值大,两类概率直方图有重叠。对与A点,它更有可能属于类C1。

image 图2:横坐标为image ,纵坐标为类隶属概率

关键是如何构造一种机制,将特征变量信息同先验概率有效结合。首先将image离散化为集合image ,然后将图2信息转换为单元阵列形式(图3),其中

1)联合概率image :图像的特征变量值为image 且属于类Ck的概率。这等于一个图像掉到某个单元(蓝色框)的比例

2)先验概率image:等于图像掉到单元阵列某行的比例(红色框)

3)条件概率image :限定Ck对应单元矩阵行(红色框)情况下,图像掉到某单元(绿色框)的比例

                      image图3

上面图像其实也告诉了我们联合概率与先验概率和条件概率的关系。从图可见,图像掉到某单元image 的比例(联合概率)=它掉到某行比例(先验概率)*限定为某行下掉到某单元image的比例(条件概率),即

                           image

同样,有image 。因为前面两式相等,因此得到著名的贝叶斯定理

                         image    (1)

1)image 后验概率:之所以叫这个名字,是因为它表示了当我们知道事物的表达(图像的特征值)后,它属于某类的概率

2)image 类条件概率;image先验概率;image 归一化常量

后验概率可是关键东东(月光宝盒机),有了它我们可以分析新数据隶属某类概率,进而作出合理决策。比如,将新图像归为最大后验概率类可最小化误分概率。

1.推断和决策(Inference and decision)

很多时候,训练数据中概率分布与新数据中概率分布不同。比如,考虑用X光图像识别的是“正常组织”(类C1)还是“腫瘤”(类C1)的问题。从医学统计来看P(C1)=0.99,P(C2)=0.01。当收集训练数据时,总是收集数量相等的两类图像以保障能充分反应肿瘤图像的特点,而不是去收集非常大量的图像。这时候,应该使用医学统计结果来构造先验,而不是从训练数据中计算。

因而,统计模式识别方法之一就是分别计算先验概率和类条件概率,然后用贝叶斯准则将它们结合起来构造出后验概率(这就是generative methods);另一种方法就是直接计算后验概率(即distriminative methods)

  

正确区分分类过程的两个阶段很重要(这里关注错分概率最小):

1)首先是推断(inference):利用数据确定后验概率

2)然后是决策(decision making):利用后验概率做决策

2.贝叶斯统计VS频率统计

关于此主题的讨论很多,请看下面资料

1)Jordan非常精彩的论述,他的建议是充分理解两者,并合理利用。(该报告本人未完全听懂,有贤人能理解的请发表见解)

2)其他

http://www.sciencenet.cn/m/Print.aspx?id=11526

http://zhidao.baidu.com/question/81895295.html

http://www.cppblog.com/sosi/archive/2010/09/25/127624.aspx

3.概率密度

前面通过将连续值变量离散化为有限值集合来计算概率,但这样并不方便。对于连续值变量通过概率密度来描述。

基本的概念这里就不费口舌了。

4.贝叶斯定理

一公式以蔽之

                image

对应前面介绍的两类问题

               image

               image

             image

扩展到多类问题

            image

           image

          image

原文地址:https://www.cnblogs.com/pegasus/p/1879892.html