深度学习概念

神经元:函数

神经网络(模型)的本质:函数网络

深度学习的本质:反向传播求偏导

梯度:向量(有大小和方向),函数在该点的方向导数取得最大值的方向,在该点处梯度的方向为函数变化最快的方向

梯度下降:梯度的负方向是函数下降最快的方向

收敛:取得最小值

权重:输入进入神经元前乘的数

偏置:乘完权重加的数

激活函数:将线性输入转化为非线性输出

全连接层:该层的每个神经元与前一层的所有神经元进行全连接

学习率:损失函数下降到最小值的速率,大了容易错过最佳方案甚至不收敛,小了会使网络训练的时间过长

batch与epoch

批量归一化:把输入值拉回到正态分布

原因:1、输入的数据与输出的数据的分布不一致,导致模型训练困难(因为模型学的是数据的分布)

   2、使输出逐渐靠近激活函数梯度较小的地方,造成梯度消失。

卷积神经网络:广泛应用于图像数据,目的是为了减少参数数量,有多少个卷积核卷积之后就有多少层

滤波器:在CNN中与输入图像相乘的部分

池化:对矩阵进行压缩,减少一些参数,防止过拟合(参数多了就容易过拟合),max操作将原来的4*4的矩阵转化成2*2

数据增强:提高数据的质量,如旋转增亮

feather map 每一个通道就是一个feather map

预测的值是连续的是回归问题,预测的值是离散的是分类问题

线性回归:基于x预测y并且x与y符合线性关系

卷积:用于特征提取,全连接:用于分类

正则化:以增大训练误差为代价来减少测试误差,换句话说就是防止过拟合

L2正则化:在损失函数后加一个L2范数,所以说正则化是以增大误差为代价

L2范数:其实就是欧氏距离,别名:权重衰减

L1范数:各元素绝对值之和,可进行特征选择,即让特征系数为0

信息熵:衡量系统的不确定性。它的大小为消除系统不确定性所付出最小努力

 

交叉熵:衡量在给定真实分布的情况下,用非真实分布所指定的策略消除系统中的不确定性所付出的努力

     p_k 表示真实分布, q_k 表示非真实分布

原文地址:https://www.cnblogs.com/liujianing/p/12304482.html