《深度学习之TensorFlow》（机械工业出版社）第六、七章（笔记）

1. P103：激活函数总结（激活函数更像是“斩波器”）

1）Tanh：特征相差明显时，效果好

2）Sigmoid：特征的相差不是特别大时，Sigmoid效果好

3）ReLU：用ReLU处理后的数据有更好的稀疏性，可以用大多数是0的系数矩阵实现

4）Softmax是Sigmoid激活函数的扩展

2. P106：Loss函数

1）Sigmoid激活函数取得的预测值hat{y}范围在0~1之间，那么真实值（Label）也要归一化

2）交叉熵值越小，代表预测越准确

3）注意：任意无界值使用均值平方差（MSE），位矢量（分类标准）使用交叉熵

4）每种激活函数都有与之对应的交叉熵：Sigmoid --> Sigmoid交叉熵，softmax --> softmax交叉熵……

5）（P109）：无需将softmax_cross_entropy_with_logits的logits进行softmax化

3. P112：梯度向下

1）批量梯度下降：要把所有样本看一遍，计算速度慢

2）随机梯度下降：速度快，收敛效果不好，震荡厉害

3）小批量梯度下降：按批量更新参数

4. P113：退化学习率

1）学习率大：速度提升，精度不够

2）学习率小：精度提升，速度太慢

3）推荐方法：学习率衰减

5. P116：maxout

1）找到隐藏层输出最大的那个，代表特征响应最敏感

6. P129：非线性问题

1）非线性问题：无法使用直线将其分开，因此非线性问题需要用多层神经元网络

2）多层（隐藏层）：可以使很多层，也可以一层很多个神经元

3）理论上：层数或节点增多，效果更好

4）实际上：并不是这样的

7. P141：欠拟合与过拟合

1）欠拟合：结果不理想时，可以增加节点或层

2）过拟合：避免方法有early stopping，数据集扩增，正则化，dropout

3）欠拟合时，希望正则化对误差的影响越小越好

4）过拟合时，希望正则化对误差的影响越大越好

第七章总结：

1）隐藏层（1层）：神经元个数多，导致泛化能力差

2）倾向：更深的模型