神经网络与深度学习[邱锡鹏] 第二章习题解析

2-1

视角1：
一般平方损失函数的公式如下图所示：

h表示的是你的预测结果，y表示对应的标签，J就可以理解为用二范数的方式将预测和标签的差距表示出来，
模型学习的过程就是优化权重参数，使得J达到近似最小值。
理论上这个损失函数是很有效果的，但是在实践中却又些问题。
它这个h是激活函数激活后的结果，激活函数通常是非线性函数，
例如sigmoid之类的，这就使得这个J的曲线变得很复杂，并不是凸函数，不利于优化，很容易陷入到局部最优解的情况。

视角2：
在使用One-Hot编码表示分类问题的真实标签的情况下，
我们使用平方损失函数计算模型的预测损失时会计算预测标签中每一个类别的可能性与真实标签之间的差距。
若我们想要得到更小的损失，则需要模型预测得到的预测标签整体与One-Hot编码的真实标签相近，这对于模型来说计算精度要求过高、
在分类我们上我们往往只关注模型对数据的真实类别的预测概率而不关注对其他类别的预测概率。
所以对分类问题来说，平方损失函数不太适用。