Deep Learning 激活函数

常用：Sigmoid，tanh，Relu

神经网络中，运算特征是不断进行循环计算，所以在每代循环过程中，每个神经元的值也是在不断变化的。tanh特征相差明显时的效果会很好，在循环过程中会不断扩大特征效果显示出来。

但有时候，特征相差比较复杂或是相差不是特别大时，需要更细微的分类判断的时候，sigmoid效果就好了。

数据有很多的冗余，而近似程度的最大保留数据特征，可以用大多数元素为0的稀疏矩阵来实现。而Relu，它就是取的max(0,x)，因为神经网络是不断反复计算，实际上变成了它在尝试不断试探如何用一个大多数为0的矩阵来尝试表达数据特征，结果因为稀疏特性的存在，反而这种方法变得运算得又快效果又好了。ReLU在0点不可微，大部分情况下由于导数清晰，比sigmoid的边界导数要清晰很多，所以学习效率会高很多。

(1)Sigmoid函数

sigmoid及其梯度（红色曲线为梯度）

sigmoid将输入挤压进0到1区间（这和概率的取值范围一致），这正是分类任务中sigmoid很受欢迎的原因
(2)Tanh函数
tanh就是乔装打扮的sigmoid。tanh的形状和sigmoid类似，只不过tanh将“挤压”输入至区间(-1, 1)。因此，中心为零，（某种程度上）激活值已经是下一层的正态分布输入了

tanh及其梯度（红色曲线为梯度）

tanh的形状和sigmoid类似，只不过tanh将“挤压”输入至区间(-1, 1)。因此，中心为零，激活值已经类似下一层的正态分布输入了。
至于梯度，它有一个大得多的峰值1.0（同样位于z = 0处），但它下降得更快，当|z|的值到达3时就已经接近零了。这是所谓梯度消失（vanishing gradients），会导致网络的训练进展变慢。

(3)ReLU
只保留正值，并将所有负值转化为零。

ReLU及其梯度（红色折线为梯度）

不存在梯度消失，收敛极快，但是，持续输入为负就会造成“死亡神经元”。

3.损失函数
损失函数（loss function）是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数可以大致分为两类：分类损失（Classification Loss）和回归损失（Regression Loss）

(1)回归模型的损失函数
回归模型是预测连续因变量的
①L1正则损失函数（即绝对值损失函数）：
L1正则损失函数是对预测值与目标值的差值求绝对值，函数在目标值附近不平滑，会导致模型不能很好地收敛。

②L2正则损失函数（即欧拉损失函数）：
L2正则损失函数是预测值与目标值差值的平方和

当对L2取平均值，就变成均方误差（MSE, mean squared error）

L2正则损失函数在目标值附近有很好的曲度，离目标越近收敛越慢
③Pseudo-Huber 损失函数
Huber损失函数经常用于回归问题，它是分段函数

当残差（预测值与目标值的差值，即y-f(x) ）很小的时候，损失函数为L2范数，残差大的时候，为L1范数的线性函数。
Peseudo-Huber损失函数是Huber损失函数的连续、平滑估计，在目标附近连续

该公式依赖于参数delta，delta越大，则两边的线性部分越陡峭。

(2)分类模型的损失函数
分类损失函数主要用于评估预测分类结果，重新定义预测值（-3至5的等差序列）和目标值（目标值为1）
①Hinge损失函数
Hinge损失常用于二分类问题，主要用来评估向量机算法，但有时也用来评估神经网络算法。当预测值离越近，则损失函数越小

②两类交叉熵（Cross-entropy）损失函数
交叉熵来自于信息论，是分类问题中使用广泛的损失函数。交叉熵刻画了两个概率分布之间的距离，当两个概率分布越接近时，它们的交叉熵也就越小，给定两个概率分布p和q，则距离如下

对于两类问题，当一个概率p=y，则另一个概率q=1-y，因此代入化简后

Cross-entropy损失函数主要应用在二分类问题上，预测值为概率值，取值范围为[0,1]

③Sigmoid交叉熵损失函数
将预测值y_pred值通过sigmoid函数进行转换，再计算交叉熵损失。在TensorFlow中有内置了该函数。
由于sigmoid函数会将输入值变小很多，从而平滑了预测值，使得sigmoid交叉熵在预测值离目标值比较远时，其损失的增长没有那么的陡峭

④加权交叉熵损失函数
加权交叉熵损失函数是Sigmoid交叉熵损失函数的加权，是对正目标的加权
⑤Softmax交叉熵损失函数
Softmax交叉熵损失函数是作用于非归一化的输出结果，只针对单个目标分类计算损失。
通过softmax函数将输出结果转化成概率分布，从而便于输入到交叉熵里面进行计算（交叉熵要求输入为概率）

结合前面的交叉熵定义公式，则Softmax交叉熵损失函数公式

实际使用中，对于回归问题经常会使用MSE均方误差（L2取平均）计算损失，对于分类问题经常会使用Sigmoid交叉熵损失函数