神经网络与机器学习 笔记—核方法和径向基函数网络(上)

    对于神经网络的监督学习有多种不同方法。之前一直总结整理的多层感知器反向传播算法,可以看做是递归技术的应用,这种技术在统计学中通称为随机逼近。

这次是采用不同的途径,通过包含如下两个阶段的混合方式解决非线性可分模式的分类问题:

  1. 将一个给定的非线性可分模式的集合转换为新的集合,在一定的条件下,转换后的模式变为线性的可能性很高;关于这一转换的数学证明可以追溯到Cover的早期论文。
  2. 通过最小二乘估计来借给定的分类问题。

首先通过插值问题的讨论来描述关于这一混合方式对模式分类问题的一种知性方式:

使用径向基函数RBF,该网络结构由三层组成:

输入层由一些源节点(感知单元)组成,它们将网络与外界环境连接起来。

第二层由隐藏单元组成,它的作用是从输入空间到隐藏(特征)空间进行非线性变换。在大多情况下网络仅有的隐藏层具有较高的维数,这一层是利用混合学习过程的第一阶段在非监督方式下训练的。

输出层是线性的,它是为提供网络的响应而专门设计的,该响应提供给应用于输入层的激活模式。这一层是利用混合过程的第二阶段在监督方式下训练的。

从输入空间到隐藏空间的非线性变换以及隐藏空间的高维数满足Cover定理仅有的两个条件。RBF网络的多数理论建立在高斯函数之上,这一类中一个重要的成员是径向基函数。高斯函数可以看做是一个核,因此基于高斯函数的两阶段过程的设计可看成是核方法。

 

模式可分性的Cover定理

假设看空间不是稠密分布的,将复杂的模式分类问题非线性地投射到高维空间将比投射到低维空间更可能是线性可分的。

一组随机指定的输入模式(向量)的集合在m1维空间中线性可分,它的元素数目的最大期望等于2m1。

 

插值问题

考虑一个由输入层、一个隐藏层和只有一个输出单元的输出层组成的前馈网络。选择只有一个输出单元的输出层的目的主要是为了简化说明而又不失一般性。设计这个网络实现从输入空间到隐藏空间的一个非线性映射,随后从隐藏空间到输出空间则是线性映射。令m0为输入空间的维数。这样从总体上看这个网络就相当于一个从m0维输入空间到一维输出空间的映射:

 

插值问题可以叙述如下:

给定一个包含N个不同点的集合{xi∈R^m0 | i=1,2,...,N}和相应的N个实数的一个集合{di∈R^1 | i=1,2,...,N},寻找一个函数F:R^n → R^1 满足下述插值条件:

F(xi) = di  ,i = 1 ,2 ,... ,N  (A)

对于这里所述的严格插值来说,插值曲面(即函数F)必须通过所有的训练数据点。

径向基函数(RBF)技术就是要选择一个函数F具有如下形式:

(B)

其中{φ(||x-xi||)} | i = 1 ,2 ,...,N}是N个任意(一般是线性)函数的集合,称为径向基函数;|| * || 表示范数,通常是欧几里得范数。一直数据点xi∈R^m0(i = 1,2,...,N)是径向基函数的中心。

式A和式B结合,可以得到一组关于位置系数(权值)的展开{wi}的线性方程:

 

上式中的N x 1向量d和w分别表示期望相应向量和线性权值向量,其中N表示训练样本的长度。令O表示元素为φij的N x N阶的矩阵:

O = {φij} ^ N i,j=1 称该矩阵为插值矩阵。紧凑形式为 Ow=x

假设O为非奇异矩阵,因此存在逆矩阵O^-1,这样w=O^-1 x    所以保证O为非奇异的也是非常重要的。

 

原文地址:https://www.cnblogs.com/csnd/p/12061893.html