【caffe】loss function、cost function和error

@tags: caffe 机器学习

在机器学习（暂时限定有监督学习）中，常见的算法大都可以划分为两个部分来理解它

一个是它的Hypothesis function，也就是你用一个函数f，来拟合任意一个输入x，让预测值t(t=f(x))来拟合真实值y
另一个是它的cost function，也就是你用一个函数E，来表示样本总体的误差。

而有时候还会出现loss function，感觉会和cost function混淆。

上quora看了下，有个同名问题，回答的人不多，upvote更少。。回答者里面，普遍认为cost function就是loss function，一个意思。

anyway，还是有个答案提到了区别，我更支持这种看法，参考这里：http://image.diku.dk/shark/sphinx_pages/build/html/rest_sources/tutorials/concepts/library_design/losses.html

简单说，loss function是对于单个样本而言的，比如对于0-1分类问题，当前预测样本x的输出为t，实际值为y，那么loss function就是y-t，或者abs(y-t)；对于连续型数据的预测，也就是回归问题，loss function可以是差值的平方：(y-t)^2
而cost function是对于样本总体而言的，对于0-1分类问题，loss function是n个样本的loss function取值的均值；而对于回归问题，cost function是n个样本的平方误差的平均，俗称均方误差(mean square error)

总结：cost function是各个样本的loss funcion的平均

========== 那么caffe下的loss又是怎么一回事？===========

caffe通常是视觉任务用的深度学习框架，处理的原始数据是图片。每次处理一张图片，这本身可以run，算是OK，但不够好。

每次处理多张图片，称为一个batch（批次），比如训练图片一共有4000张，每个batch处理50张。

按照batch来处理图片后，每个batch算出一个loss，也就是这50张图片的loss平均。当然这个loss其实并不是重点。重点是，用这50个样本，在做梯度下降来更新权值的时候，梯度是根据这50个样本算出来的均值，而不是用某一个图片的梯度：

这也就是要使用batch的原因。

=========== error又是什么 ============
error是说，一个预测结果和实际标签比较，一样的话不算错，不一样就算错（仅考虑分类问题）。
那么我在一个miniBatch之内，比如100张图，每张图对应一个分类的标签，以及一个预测出来的结果，这个预测结果和标签做比较，如果不一致说明“预测错了”。统计所有100张图上“预测错误的结果”的数量，比如有3个，那么error就认为是3，或者表示为3%。
也就是说，error表示的是“累计错误数量的占比”。从这一点来看，error关注的是“是否正确”的累计，而不是“单个结果上错误的程度”，error关注的是“质”，而loss关注的是“错误的程度”（根据loss函数来决定），这一点上，error和loss是有所不同的。