《深度学习之TensorFlow》(机械工业出版社)第六、七章(笔记)

1. P103:激活函数总结(激活函数更像是“斩波器”)

1)Tanh:特征相差明显时,效果好

2)Sigmoid:特征的相差不是特别大时,Sigmoid效果好

3)ReLU:用ReLU处理后的数据有更好的稀疏性,可以用大多数是0的系数矩阵实现

4)Softmax是Sigmoid激活函数的扩展

2. P106:Loss函数

1)Sigmoid激活函数取得的预测值hat{y}范围在0~1之间,那么真实值(Label)也要归一化

2)交叉熵值越小,代表预测越准确

3)注意:任意无界值使用均值平方差(MSE),位矢量(分类标准)使用交叉熵

4)每种激活函数都有与之对应的交叉熵:Sigmoid --> Sigmoid交叉熵,softmax --> softmax交叉熵……

5)(P109):无需将softmax_cross_entropy_with_logits的logits进行softmax化

3. P112:梯度向下

1)批量梯度下降:要把所有样本看一遍,计算速度慢

2)随机梯度下降:速度快,收敛效果不好,震荡厉害

3)小批量梯度下降:按批量更新参数

4. P113:退化学习率

1)学习率大:速度提升,精度不够

2)学习率小:精度提升,速度太慢

3)推荐方法:学习率衰减

5. P116:maxout

1)找到隐藏层输出最大的那个,代表特征响应最敏感

6. P129:非线性问题

1)非线性问题:无法使用直线将其分开,因此非线性问题需要用多层神经元网络

2)多层(隐藏层):可以使很多层,也可以一层很多个神经元

3)理论上:层数或节点增多,效果更好

4)实际上:并不是这样的

7. P141:欠拟合与过拟合

1)欠拟合:结果不理想时,可以增加节点或层

2)过拟合:避免方法有early stopping,数据集扩增,正则化,dropout

3)欠拟合时,希望正则化对误差的影响越小越好

4)过拟合时,希望正则化对误差的影响越大越好

第七章总结:

1)隐藏层(1层):神经元个数多,导致泛化能力差

2)倾向:更深的模型

原文地址:https://www.cnblogs.com/Yi-920259020/p/12673995.html