NNPRChap10 贝叶斯技术(3)分类

考虑两类问题。数据的似然函数为

                image  (1),G是交叉熵误差函数image

选择logistic sigmoid为输出激励函数imageimage 。这种激励函数可将网络输出解释为x属于类的概率image

然后同前面一样,贝叶斯框架下对分类问题处理步骤也是三步:

1)权重先验:基于正则化项image 引入网络权重先验

2)权重的后验:基于1)可推出image ,同样可以通过中心在image 的单高斯分布近似

        image    (2)

3)输出的分布:x属于类C1的概率通过对权重分布的积分得到

       image    (3)

但是分类和回归问题中处理细节稍有不同:

1)回归问题:网络输出是均值为image 的高斯分布,这样式(3)的预测结果就等于直接采用image进行预测的结果(条件是后验概率足够窄,这样可将y近似为image附近的权重W的线性函数

2)分类问题:由于采用sigmoid为输出激励函数,因此无法将y近似为权重W的线性函数。

由于上面的区别,在分类中,按式(2)进行积分时需要进行重要变化。具体有哪些变化呢?

1)因为y无法近似处理,所以要摆弄的对象就变了。MacKay (1992b)假设a(而不是y)是一个关于权重的局部线性函数

             imageimage

      a的分布为

             imageimageDirac delta function

2)权重后验概率采用式(2)。因为image要求image 与a是线性的,且权重后验是高斯的,因此a的分布也是高斯分布

       imageimage

3)从而得到

      image   (4)

4)由于式(4)无解析解,MacKay (1992b)建议采用下面的近似

imageimageimage

到这里,学到两中分类方法

1)通过式4积分得到的分类结果,

2)通过取权重为某一固定值时,直接进行分类。如取权重为image得到的分类结果image

关键是需要进一步思考这两种方法有什么本质区别。Show图来点直观的感受吧。

                      image                       image

                      图1:权重后验概率分布示意图                图2:单层、输出为logistic sigmoid函数神经网络的输出等高线(同条线上输出相同)

1)图2-(a):对应采用分类方法2,且中权重为图1中image网络的决策面。三条线对应输出为0.1,0.5和0.9时的决策面。点C(新数据)远离训练数据区域,且其被分类是具有较高置信度(0.9)

2)图2-(b和c):对应采用分类方法2,且中权重为图1中权重为W1和W2网络的决策面。注意,此时点C被分为不同类别。

3)图2-(d):对应采用分类方法1,通过对整个权重空间积分进行分类。注意,等高线在数据点少的地方向远处延伸,且此时点C赋给某类概率值为0.5(这才是所期望的结果)

4)图2中d和c图中决策边界(对应中间y=0.5的那条线)是相同的

原文地址:https://www.cnblogs.com/pegasus/p/1880917.html