对于J(W,b),L(y^i,yi),sigmoid(z)的理解

sigmoid(z):

sigmoid(z)=1/(1+exp(-z))

z为通过神经网络对样本i的计算值

样本i的最终答案要么是0,要么是1

sigmoid的函数图像为

可以看到其值域为(0,1)

sigmoid(z)表示这个样本为正样本的概率

在大部分情况下,我们的概率要么特别趋近与0,特别趋近与1。

接下来是L(y^i,yi)=L(y^i,yi)=-yi*log(y^i)+(1-yi)*log(1-y^i)

这个函数是表示y^i与yi的差距

虽然我们可以简单的用abs(y^i-yi)来表示,或者再算一个方差什么的但是这样没有放大差距

但是yi要么是0,要么是1

若yi=0

  L(y^i,yi)=L(y^i,yi)=log(1-y^i)

若yi=1

  L(y^i,yi)=L(y^i,yi)=-log(y^i)

这样就放大了差距

最后的函数J(W,b)=1/n*( L(y^1,y1) + L(y^2,y2) + .....+L(y^n,yn))

其实就是对训练集的每个样本求一个平均值而已这个没什么说的

原文地址:https://www.cnblogs.com/shensobaolibin/p/7873746.html