MXNET：多层神经网络

多层感知机（multilayer perceptron，简称MLP）是最基础的深度学习模型。
多层感知机在单层神经网络的基础上引入了一到多个隐藏层（hidden layer）。隐藏层位于输入层和输出层之间。隐藏层中的神经元和输入层中各个输入完全连接，输出层中的神经元和隐藏层中的各个神经元也完全连接。因此，多层感知机中的隐藏层和输出层都是全连接层。

仿射变换

在描述隐藏层的计算之前，我们看看多层感知机输出层是怎么计算的。输出层的输入是隐藏层的输出，通常我们将隐藏层的输出称为隐藏层变量或隐藏变量。

给定一个小批量样本，其批量大小为n，输入个数为x，输出个数为y。假设多层感知机只有一个隐藏层，其中隐藏单元个数为h，隐藏变量(oldsymbol{H} in mathbb{R}^{n imes h})。假设输出层的权重和偏差参数分别为(oldsymbol{W}_o in mathbb{R}^{h imes y}, oldsymbol{b}_o in mathbb{R}^{1 imes y})，多层感知机输出

[oldsymbol{O} = oldsymbol{H} oldsymbol{W}_o + oldsymbol{b}_o ]

实际上，多层感知机的输出(oldsymbol{O})是对上一层的输出(oldsymbol{H})的仿射变换（affine
transformation）。它包括一次通过乘以权重参数的线性变换和一次通过加上偏差参数的平移。

那么，如果隐藏层也只对输入做仿射变换会怎么样呢？设单个样本的特征为(oldsymbol{x} in mathbb{R}^{1 imes x})，隐藏层的权重参数和偏差参数分别为(oldsymbol{W}_h in mathbb{R}^{x imes h}, oldsymbol{b}_h in mathbb{R}^{1 imes h})。假设

[oldsymbol{h} = oldsymbol{x} oldsymbol{W}_h +oldsymbol{b}_h$$$$oldsymbol{o} = oldsymbol{h} oldsymbol{W}_o + oldsymbol{b}_o ]

联立两式可得(oldsymbol{o} = oldsymbol{x} oldsymbol{W}_h oldsymbol{W}_o + oldsymbol{b}_h oldsymbol{W}_o + oldsymbol{b}_o)：它等价于单层神经网络的输出(oldsymbol{o} = oldsymbol{x} oldsymbol{W}^prime + oldsymbol{b}^prime)，其中(oldsymbol{W}^prime = oldsymbol{W}_h oldsymbol{W}_o, oldsymbol{b}^prime = oldsymbol{b}_h oldsymbol{W}_o + oldsymbol{b}_o)。因此，仅使用仿射变换的隐藏层使多层感知机与前面介绍的单层神经网络没什么区别。

激活函数

由上面的例子可以看出，我们必须在隐藏层中使用其他变换，例如添加非线性变换，这样才能使多层感知机变得有意义。我们将这些非线性变换称为激活函数（activation function）。激活函数能对任意形状的输入按元素操作且不改变输入的形状。

ReLU函数

ReLU（rectified linear unit）函数提供了一个很简单的非线性变换。给定元素x，该函数的输出是( ext{relu}(x) = max(x, 0))，ReLU函数只保留正数元素，并将负数元素清零。

Sigmoid函数

Sigmoid函数可以将元素的值变换到0和1之间：( ext{sigmoid}(x) = frac{1}{1 + exp(-x)})，我们会在后面“循环神经网络”一章中介绍如何利用sigmoid函数值域在0到1之间这一特性来控制信息在神经网络中的流动。

Tanh函数

Tanh（双曲正切）函数可以将元素的值变换到-1和1之间：( ext{tanh}(x) = frac{1 - exp(-2x)}{1 + exp(-2x)})。当元素值接近0时，tanh函数接近线性变换。值得一提的是，它的形状和sigmoid函数很像，且当元素在实数域上均匀分布时，tanh函数值的均值为0。

from mxnet import ndarray as nd
X = nd.array([[[0,1], [-2,3], [4,-5]], [[6,-7], [8,-9], [10,-11]]])
print X.relu(), X.sigmoid(), X.tanh()

多层感知机

现在，可以给出多层感知机的矢量计算表达式了。

[egin{split}oldsymbol{H} = phi(oldsymbol{X} oldsymbol{W}_h + oldsymbol{b}_h),\ oldsymbol{O} = oldsymbol{H} oldsymbol{W}_o + oldsymbol{b}_o,end{split}]

在分类问题中，我们可以对输出O做Softmax运算，并使用Softmax回归中的交叉熵损失函数。在回归问题中，我们将输出层的输出个数设为1，并将输出O直接提供给线性回归中使用的平方损失函数。

我们可以添加更多的隐藏层来构造更深的模型。需要指出的是，多层感知机的层数和各隐藏层中隐藏单元个数都是超参数。

随机初始化模型参数

在神经网络中，我们需要随机初始化模型参数。
MXNet的默认随机初始化，我们使用net.initialize(init.Normal(sigma=0.01))令模型net的权重参数采用正态分布的随机初始化方式。如果不指定初始化方法，例如net.initialize()，我们将使用MXNet的默认随机初始化方法。在默认条件下的初始化时，权重参数每个元素随机采样于-0.07到0.07之间的均匀分布，偏差参数全部元素清零。

Xavier随机初始化

还有一种比较常用的随机初始化方法叫做Xavier随机初始化，假设某全连接层的输入个数为:math:a，输出个数为b，Xavier随机初始化将该层权重参数的每个元素随机采样于均匀分布

[left(-sqrt{frac{6}{a+b}}, sqrt{frac{6}{a+b}} ight). ]

它的设计主要考虑到，模型参数初始化后，每层输出的方差不该被该层输入个数所影响，且每层梯度的方差不该被该层输出个数所影响。这两点与我们之后将要介绍的正向传播和反向传播有关。