一、结构

一个有向拓扑，每层有若干节点，节点间有边，边上有权值。

二、组成

输入层
隐藏层：多层；后层是前层各节点值的线性组合的函数，即Y=f(x0+w1x1+w2x2+...+wnxn)，线性组合的系数就是边的权值，为免计算量复杂，规定最多只能对线性组合做一次非线性变换，如sgn函数（0个隐藏层，此时即感知机）、Sigmoid函数（1个隐藏层）、ReLU函数（更多个隐藏层）等；
输出层：对于一次输入，输出层各节点都有一个值，把模式归为输出点值大的那一类

三、设计

设计神经网络通常要做的就是设计网络有几层、每层有几个节点、以及节点间边的权值，权值通过神经网络训练调整得到。主要的任务是训练权值，因此实现一个神经网络最需要的是线性代数库。

BP算法

　　在训练权值上，有BP反向传播算法

主要思想

反向逐层传播输出层的误差，以间接计算隐藏层的误差并基于此修正权值。

核心步骤

　　正向传播：信息从输入层经隐藏层逐层计算各单元的输出值；反向传播：由输出层误差逐层向前计算隐藏层各单元的误差，并基于此修正前层权值。

不足
- 用梯度法求非线性函数极值，因而有可能陷入局部极小点，不能保证收敛到全局极小点。
- 权值初始值：如果权值初始值都为零或都相同，隐层各单元不能出现差异，运算不能正常进行。因此，通常用较小的随机数(例如在-0.3～0.3之间的随机数)作为权值初始值。初始值对收敛有影响，当计算不收敛时，可以改变初始值试算。

四、分类

注：图中的单层指一个计算层，所以整个网络有两层（此时即感知机）；类似，两层网络指两个计算层，所以整个网络有三层。

五、其他

隐藏层的参数矩阵的作用就是使得数据的原始坐标空间从线性不可分，转换成了线性可分，后一层是前一层的线性组合的函数，即是对前一层的线性分类，因此就达到了总体效果——对原始数据进行非线性分类。

理论证明，三层神经网络（一个隐藏层）可以实现任意的逻辑运算，在激活函数为Sigmoid函数的情况下，可以逼近任何非线性多元函数。

优化问题只是训练中的一个部分。机器学习问题之所以称为学习问题，而不是优化问题，就是因为它不仅要求数据在训练集上求得一个较小的误差，在测试集上也要表现好。因为模型最终是要部署到没有见过训练数据的真实场景。提升模型在测试集上的预测效果的主题叫做泛化（generalization），相关方法被称作正则化（regularization）。神经网络中常用的泛化技术有权重衰减等。

尽管使用了BP算法，一次神经网络的训练仍然耗时太久，而且困扰训练优化的一个问题就是局部最优解问题，这使得神经网络的优化较为困难。同时，隐藏层的节点数需要调参，这使得使用不太方便，工程和研究人员对此多有抱怨。

在单层（一个计算层，即总共两层）神经网络时，我们使用的激活函数是sgn函数。到了两层神经网络时，我们使用的最多的是sigmoid函数。而到了多层神经网络时，通过一系列的研究发现，ReLU函数在训练多层神经网络时，更容易收敛，并且预测性能更好。因此，目前在深度学习中，最流行的非线性函数是ReLU函数。ReLU函数不是传统的非线性函数，而是分段线性函数。其表达式非常简单，就是y=max(x,0)。简而言之，在x大于0，输出就是输入，而在x小于0时，输出就保持为0。这种函数的设计启发来自于生物神经元对于激励的线性响应，以及当低于某个阈值后就不再响应的模拟。

神经网络的发展背后的外在原因可以被总结为：更强的计算性能，更多的数据，以及更好的训练方法，只有满足这些条件时，神经网络的函数拟合能力才能得已体现。

人工神经网络（ANN）