SIGAI深度学习第三集人工神经网络2

讲授神经网络的理论解释、实现细节包括输入与输出值的设定、网络规模、激活函数、损失函数、初始化、正则化、学习率的设定、实际应用等

大纲：

实验环节：

理论层面的解释：两个方面，1.数学角度，映射函数h(x)理论分析；2.和动物神经网络的区别。

实现细节问题：输入输出值该怎么设置，神经网络该建多少层，每层多少个神经元，选择什么样的激活函数和损失函数。

面临的挑战与改进措施：梯度消失，局部最小值，鞍点等。

实际应用情况：

实验环节：（通过代码实现）

设置网络的层数和各层神经元数量。设置激活函数和参数。设置训练参数，包括最大迭代次数，迭代终止阈值，学习率，动量项系数等。生成训练样本（用MINST数据集，全连接FC神经网络训练，96%以上准确率），关键是设置样本标签值（多分类，One-hot编码）。调用训练函数。

定义网络结构，设置好网络参数，直接调用train函数（caffe，tensorflow，opencv，或pytorch）训练就可以了。

理论层面的解释：数学特征（映射函数h(x)具有哪些性质）；与动物神经网络系统的关系

映射函数h(X)——>Y，为一个多层复合函数。

万能逼近定理：证明了至少有一个隐藏层的神经网络，映射函数的可以拟合函数的可能性，要有多接近真实函数就有多接近。

可以构造出上面这样的函数，逼近定义在单位立方体空间中的任何一个连续函数到任意指定的精度。

另一种说法：

人工神经网络是对生物神经系统的模拟，但只是简单的模拟，在多个方面两者的机理是不同的。

人脑的单个神经元有很多复杂的结构，各个神经元在结构和功能上不是完全相同的，另外神经元之间的连接关系非常复杂。

在训练方式上，人脑的神经网络没有反向传播算法这种机制，在外界刺激下建立神经元之间连接通路的机制远比反向传播复杂。

前馈型人工神经网络本质上来说只是一个多层复合函数。

实现细节问题：对网络跑出来的精度影响非常大

输入与输出值的设定。网络的规模。激活函数的选择。损失函数的选择。权重的初始化。正则化。学习率的设定。动量项梯度下降法。

输入值与输出值设定：

类别型变量（如小学、初中、高中、本科...）、多分类问题（手写数字识别0,1,...）的类标签，都建议使用One-hot编码形式，而不要直接用整数标号。

输入值，输出值都建议做归一化，尤其是输入值一定要归一化，因为在激活函数计算值时，输入值太大或太小会造成浮点数上溢或下溢。

网络的规模：

神经元的层数，早期很小，现在很深。太深会梯度消失。样本太少网络不能太深，否则模型太复杂样本太少会出现过拟合问题，层数根据问题规模和训练样本的规模来定。

各层神经元数量。输入层与输出层是确定的（输入层神经元个数等于输入样本的维数，回归问题需要几个输出分量的向量就设置几个神经元，k分类输出层神经元为k个），隐含层根据经验而定，一般情况下，设置为2的n次方，以提高计算与存储效率。

层数、每一层的尺寸经过“试”验确定。

激活函数：

保证神经网络是一个非线性的映射（线性：n元一次函数），去掉激活函数，不管怎么复合都是线性映射。

激活函数应该是非线性、几乎处处可导、单调函数（一般是单调增），并且尽量避免饱和（f'(x)==0）。

常用的激活函数：sigmoid（sigmoid和逻辑斯蒂回归中的映射函数是一样的）、tanh（和sigmoid和相互推导）、ReLU、其他改进型。

饱和函数容易出现梯度消失问题。

损失函数：

回归问题用欧式距离（又叫均方误差）（||y*-y||_2²）损失函数，分类问题用交叉熵损失函数。

逻辑斯蒂回归和softmax回归用交叉熵损失函数，因为欧氏距离损失函数不能保证是凸函数，存在局部最小值点或鞍点，会收敛到不好的值，用交叉熵损失函数可以保证是凸函数，收敛到一个很好的值。

交叉熵损失 y是样本的标签向量真实值，ont-hot编码，只有一个为1其他都为0（[0,1,0,0,0,...]T），是一个列向量，预测出来的向量值y*，神经网络最后一层一般是softmax（概率向量，每个分量0~1，和为1），因为y^T中只有yi为1，所以L=-logy_i*。当y和y*分布相同时，L达到最小值，即最好的情况。