机器学习技法 之 深度学习(Deep Learning)


浅层与深层(Shallow versus Deep Neural Networks)

浅(shallow)层以为着较少(few)的隐含层(hidden layers)。其意味着:

  • 训练效率高
  • 简单的结构设计
  • 理论上如果神经元足够多,那么就足够强,拟合任何问题

深层(deep)层以为着较少(few)的隐含层(hidden layers)。其意味着:

  • 训练时间消耗大
  • 复杂的结构设计
  • 非常有力,可以拟合任何问题
  • 更有意义


深度学习的挑战和关键技术(Challenges and Key Techniques)

difficult structural decisions:

  • subjective with domain knowledge: like convolutional NNet for

high model complexity:

  • no big worries if big enough data
  • regularization towards noise-tolerant: like
    • dropout (tolerant when network corrupted),对网络出现问题导致噪声的容忍度
    • denoising (tolerant when input corrupted),对输入噪声的容忍度

hard optimization problem:

  • careful initialization to avoid bad local minimum: called pre-training

huge computational complexity (worsen with big data):

  • novel hardware/architecture: like mini-batch with GPU


二阶段深度学习框架(A Two-Step Deep Learning Framework)


[ ext { for } ell = 1 , ldots , L . ext { pre-train } left{ w _ { i j } ^ { ( ell ) } ight} ext { assuming } w _ { * } ^ { ( 1 ) } , ldots w _ { * } ^ { ( ell - 1 ) } ext { fixed } ]



[ ext { train with backprop on pre-trained NNet to fine-tune all } left{ w _ { i j } ^ { ( ell ) } ight} ]



信息保留式编码(Information-Preserving Encoding)

实际上每一层神经元的特征转换类似于编码过程(或者说转换表现形式),如果经过编码后,表现形式改变(different representation),但是代表的信息不变(same info)的话,便将之称为信息保留式编码(Information-Preserving Encoding)。所以经过信息保留式编码后的可以准确的解码为原来的表现形式。


信息保留式神经网络(Information-Preserving Neural Net)

这种以 (d - ilde { d } - d ext { NNet with goal } g _ { i } ( mathbf { x } ) approx x _ { i }) 为结构形式的神经网络叫做自编码器(Autoencoder)。实际上就是在学习一个逼近恒等(自身)的函数(approximate identity function),identity 意思为将某个东西对应到它本身。

那么这次称编码权重(encoding weights)为:(mathbf{w}^{(1)}_{ij}),解码权重(decoding weights)为:(mathbf{w}^{(2)}_{ij})

逼近恒等函数(Approximating Identity Function)

这种函数的意义是:这种逼近过程会使用到(仰赖)一些已获得样本数据(observed data)中的隐藏结构(hidden structures),

对于监督学习,这种潜在的结构(hidden structure,比如说进行文字识别时学到的笔画)可以用于作为合理的特征转换 (Phi(mathbf{x}))( reasonable transform)。这种潜在结构等于是原数据的信息表示(‘informative’ representation)。

对于无监督学习,自编码器更像是在学习数据的类型表示(‘typical’ representation of data)。在密度估计(density estimation)中,如果这类数据越多,那么这类数据的逼近越好,也就是自编码器的误差越少。在异常检测(outlier detection)中,如果自编码器的误差很小,那么代表该数据属于原来的训练数据。

所以说自编码器(autoencoder)是通过逼近恒等函数实现的一种表示学习(representation-learning through approximating identity function)。

基本的自编码器(Basic Autoencoder)

Basic Autoencoder 的表现形式为:

[d - ilde { d } - d ext { NNet with error function } sum _ { i = 1 } ^ { d } left( g _ { i } ( mathbf { x } ) - x _ { i } ight) ^ { 2 } ]


  1. backprop easily applies; shallow and easy to train
  2. usually (d > ilde { d }) : compressed representation
  3. 数据的格式为:(left{ left( mathbf { x } _ { 1 } , mathbf { y } _ { 1 } = mathbf { x } _ { 1 } ight) , left( mathbf { x } _ { 2 } , mathbf { y } _ { 2 } = mathbf { x } _ { 2 } ight) , ldots , left( mathbf { x } _ { N } , mathbf { y } _ { N } = mathbf { x } _ { N } ight) ight}),所以也被用于无监督学习(categorized as unsupervised learning technique)。
  4. 有时候加入约束条件 (w _ { i j } ^ { ( 1 ) } = w _ { j i } ^ { ( 2 ) }) 作为一种正则化,但是在计算梯度时会更复杂。

其中 (w _ { i j } ^ { ( 1 ) }) 用作预训练权重。



[ ext { for } ell = 1 , ldots , L . ext { pre-train } left{ w _ { i j } ^ { ( ell ) } ight} ext { assuming } w _ { * } ^ { ( 1 ) } , ldots w _ { * } ^ { ( ell - 1 ) } ext { fixed } ]


[ ext { by training basic autoencoder on } left{ mathbf { x } _ { n } ^ { ( ell - 1 ) } ight} ext { with } ilde { d } = d ^ { ( ell ) } ]



[ ext { train with backprop on pre-trained NNet to fine-tune all } left{ w _ { i j } ^ { ( ell ) } ight} ]

当然自编码的实现由正则化规则和不同的结构( different architectures and regularization schemes)而丰富多样。

降噪自编码器(Denoising Autoencoder)





[egin{array} { c } left{ left( ilde { mathbf { x } } _ { 1 } , mathbf { y } _ { 1 } = mathbf { x } _ { 1 } ight) , left( ilde { mathbf { x } } _ { 2 } , mathbf { y } _ { 2 } = mathbf { x } _ { 2 } ight) , ldots , left( ilde { mathbf { x } } _ { N } , mathbf { y } _ { N } = mathbf { x } _ { N } ight) ight} \ ext { where } ilde { mathbf { x } } _ { n } = mathbf { x } _ { n } + ext { artificial noise } end{array} ]


[g ( ilde { x } ) approx x ]

人工的噪声或者说 hint(例如旋转图像,缩小图像) 常常用于神经网络或者其他模型。

主成分分析(Principal Component Analysis)

线性自编码器假设函数(Linear Autoencoder Hypothesis)

对于一个线性神经网络模型来说,这里则不需要 tanh 函数了,也就是说

[h _ { k } ( mathbf { x } ) = sum _ { j = 0 } ^ { ilde { d } } w _ { j k } ^ { ( 2 ) } left( sum _ { i = 0 } ^ { d } w _ { i j } ^ { ( 1 ) } x _ { i } ight) ]


  1. 为了简化,先不考虑 (x_0),让输入和输出个数一样 ,也就是

[h _ { k } ( mathbf { x } ) = sum _ { j = 0 } ^ { ilde { d } } w _ { j k } ^ { ( 2 ) } left( sum _ { i = 1 } ^ { d } w _ { i j } ^ { ( 1 ) } x _ { i } ight) ]

  1. 假设 ( ilde { d } < d),以确保非零解(non-trivial solution),因为当 ( ilde { d } >= d) 可以想象出权重向量是非常稀疏的。

  2. 加入前面提及的正则化约束条件 (w _ { i j } ^ { ( 1 ) } = w _ { j i } ^ { ( 2 ) } = w _ { i j })

[h _ { k } ( mathbf { x } ) = sum _ { j = 0 } ^ { ilde { d } } w _ { k j } left( sum _ { i = 1 } ^ { d } w _ { i j } x _ { i } ight) ]

同时可以获取权重矩阵 (mathrm { W } = left[ w _ { i j } ight] ext { of size } d imes ilde { d }),那么线性自编码器的假设函数为:

[mathbf { h } ( mathbf { x } ) = mathrm { WW } ^ { T } mathbf { x } ]

线性自编码器的误差函数(Linear Autoencoder Error Function)


[E _ { mathrm { in } } ( mathbf { h } ) = E _ { mathrm { in } } ( mathrm { W } ) = frac { 1 } { N } sum _ { n = 1 } ^ { N } left| mathbf { x } _ { n } - mathrm { WW } ^ { T } mathbf { x } _ { n } ight| ^ { 2 } ext { with } d imes ilde { d } ext { matrix } mathrm { W } ]

但是这里有一点,需要计算关于 (mathrm { W }) 的四次多项式。


[mathrm { WW } ^ { T } = mathrm { V } Gamma mathrm { V } ^ { T } ]

(mathrm { W }) 是正规矩阵的充要条件是:存在酉矩阵,使得 (mathrm { W }) 酉相似于对角矩阵


  1. (mathrm { V })(d imes d) 的正交(orthogonal)矩阵(又叫酉矩阵),并且 (mathrm { VV } ^ { T } = mathrm { V } ^ { T } mathrm { V } = mathrm { I } _ { d })
  2. (Gamma) 为对角矩阵,且只有 (leq ilde d) 个非零项。

(mathrm { WW } ^ { T } mathbf { x } _ { n } = mathrm { V } Gamma mathrm { V } ^ { T } mathbf { x } _ { n }) 中的各个参数的物理意义:

  1. (mathrm { V } ^ { T }) :将数据 (mathbf { x } _ { n }) 进行坐标转换(旋转和镜像)。
  2. (Gamma) :令上一步获取的矩阵中 (geq d - ilde d) 个参数为零,并缩放其他参数。
  3. (mathrm { V }) :将上一步获取的数据,根据系数和基向量进行坐标重构(反旋转和反镜像)。


[mathbf { x } _ { n } = mathrm { VIV } ^ { T } mathbf { x } _ { n } ]


那么误差函数最小化问题便转换为了 (Gamma)(mathrm { V }) 的优化问题。


[min _ { mathbf { V } } min _ { Gamma } frac { 1 } { N } sum _ { n = 1 } ^ { N } | underbrace { operatorname { VIV } ^ { T } mathbf { x } _ { n } } _ { mathbf { x } _ { n } } - underbrace { operatorname { V } Gamma mathbf { V } ^ { T } mathbf { x } _ { n } } _ { mathbf { W } mathbf { W } ^ { op } mathbf { x } _ { n } } | ^ { 2 } ]

直观上来说由于 (mathrm { V }) 只是做了一个旋转动作,所以并不会影响向量的长度,所以将其拿掉。

[min _ { mathbf { V } } min _ { Gamma } frac { 1 } { N } sum _ { n = 1 } ^ { N } | left( I - Gamma ight) {mathbf { V } ^ { T } mathbf { x } _ { n } } | ^ { 2 } ]

先不考虑 (mathrm { V }),可以改写为:

[min _ { Gamma } sum | ( mathrm { I } - Gamma ) ( ext { some vector } ) | ^ { 2 } ]

由于 (mathrm { I }-Gamma) 是一个对角矩阵,那么为了满足上述优化问题,那么该对角矩阵应该有尽可能多的零值。由于 (Gamma) 中有 (leq ilde d) 非零值,那么也就是说最多有 ( ilde d) 个 1 使得 (mathrm { I }-Gamma) 零值最多。


[Gamma = left[ egin{array} { c c } mathrm { I } _ { ilde { d} } & 0 \ 0 & 0 end{array} ight] ]

然后在求取 (mathrm { V }) 的值来满足这一条件,那么根据 (mathrm { I }-Gamma = left[ egin{array} { c c } 0 & 0 \ 0 & mathbf { I } _ { d - ilde { d } } end{array} ight]) 的最优解将优化问题改为:

[min _ { mathbf { V } } sum _ { n = 1 } ^ { N } left| left[ egin{array} { c c } 0 & 0 \ 0 & mathbf { I } _ { d - ilde { d } } end{array} ight] mathbf { V } ^ { T } mathbf { x } _ { n } ight| ^ { 2 } equiv max _ { mathbf { v } } sum _ { n = 1 } ^ { N } left| left[ egin{array} { c c } mathbf { I } _ { ilde { alpha } } & 0 \ 0 & 0 end{array} ight] mathbf { V } ^ { T } mathbf { x } _ { n } ight| ^ { 2 } ]

首先假设 ( ilde d = 1),那么只有 (mathrm { V }^{T}) 的第一行 (mathrm{v}^T) 被用到了:

[max _ { mathbf { v } } sum _ { n = 1 } ^ { N } mathbf { v } ^ { T } mathbf { x } _ { n } mathbf { x } _ { n } ^ { T } mathbf { v } ext { subject to } mathbf { v } ^ { T } mathbf { v } = 1 ]


[sum _ { n = 1 } ^ { N } mathbf { x } _ { n } mathbf { x } _ { n } ^ { T } mathbf { v } = lambda mathbf { v } ]

可以看出 (mathbf { v })(X ^ { T } X) 的一个特征向量,其中 (X^T = [mathbf x_1,cdots,mathbf x_N])。那么最优的 (mathbf { v }) 应该是最大特征值对应的特征向量。

那么对于任意的 ( ilde d)(left{ mathbf { v } _ { j } ight} _ { j = 1 } ^ { ilde { d} }) 应该是 Top ( ilde d) 特征值对于的特征向量,而 (mathbf { w }_j) 的组成基本上就是这些特征向量,也就是说:

[ ext { optimal } left{ mathbf { w } _ { j } ight} = left{ mathbf { v } _ { j } ext { with } left[ kern-0.15emleft[ gamma _ { j } = 1 ight] kern-0.15em ight] ight} = ext { top eigenvectors } ]

线性自编码器:实际上就是投影到这些与数据 (left{ mathbf { x } _ { n } ight}) 最匹配的几个正交向量。


[ ext { maximize } sum ( ext { maginitude after projection } ) ^ { 2 } ]


[egin{array} { l }qquad ext { 1. calculate } ilde { d } ext { top eigenvectors } mathbf { w } _ { 1 } , mathbf { w } _ { 2 } , ldots , mathbf { w } _ { ilde { d } } ext { of } mathbf { X } ^ { T } mathbf { X } \ qquad ext { 2. return feature transform } mathbf { Phi } ( mathbf { x } ) = mathbf { W } ( mathbf { x } ) end{array} ]


[ ext { maximize } sum ( ext { variance after projection } ) ]

所以 PCA 经常用于降维。

PCA的具体实现流程 :

[egin{array} { l }qquad ext { 1. let }overline { mathbf { x } } = frac { 1 } { N } sum _ { n = 1 } ^ { N } mathbf { x } _ { n } , ext { and let } mathbf { x } _ { n } leftarrow mathbf { x } _ { n } - overline { mathbf { x } } \ qquad ext { 2. calculate } ilde { d } ext { top eigenvectors } mathbf { w } _ { 1 } , mathbf { w } _ { 2 } , ldots , mathbf { w } _ { ilde { d } } ext { of } mathbf { X } ^ { T } mathbf { X } \ qquad ext { 3. return feature transform } mathbf { Phi } ( mathbf { x } ) = mathbf { W } ( mathbf { x } - overline { mathbf { x } } ) end{array} ]


以图片压缩为例,比如说,有下面这么一副 (512 imes512) 的图片(方阵才有特征值,所以找了张正方形的图):


这个图片可以放到一个矩阵里面去,就是把每个像素的颜色值填入到一个 (512 imes512) 的 A 矩阵中。


[A = P Lambda P ^ { - 1 } ]

其中,(Lambda) 是对角阵,对角线上是从大到小排列的特征值。

(Lambda) 中只保留前面50个的特征值(也就是最大的50个,其实也只占了所有特征值的百分之十),其它的都填0,重新计算矩阵后,恢复为下面这样的图像:

