信息检索X科普一：查准与召回（Precision & Recall），F1 Measure

信息检索X科普一：查准与召回（Precision & Recall），F1 Measure

好吧，其实我也不是IR专家，但是我喜欢IR，最近几年国内这方面研究的人挺多的，google和百度的强势，也说明了这个方向的价值。当然，如果你是学IR的，不用看我写的这些基础的东西咯。如果你是初学者或者是其他学科的，正想了解这些科普性质的知识，那么我这段时间要写的这个“信息检索X科普”系列也许可以帮助你。（我可能写的不是很快，见谅）

至于为什么名字中间带一个字母X呢？不告诉你...

为什么先讲Precision和Recall呢？因为IR中很多算法的评估都用到Precision和Recall来评估好坏。所以我先讲什么是“好人”，再告诉你他是“好人”

查准与召回（Precision & Recall）

先看下面这张图来理解了，后面再具体分析。下面用P代表Precision，R代表Recall

通俗的讲，Precision 就是检索出来的条目中（比如网页）有多少是准确的，Recall就是所有准确的条目有多少被检索出来了。

下面这张图介绍True Positive，False Negative等常见的概念，P和R也往往和它们联系起来。

我们当然希望检索的结果P越高越好，R也越高越好，但事实上这两者在某些情况下是矛盾的。比如极端情况下，我们只搜出了一个结果，且是准确的，那么P就是100%，但是R就很低；而如果我们把所有结果都返回，那么必然R是100%，但是P很低。

因此在不同的场合中需要自己判断希望P比较高还是R比较高。如果是做实验研究，可以绘制Precision-Recall曲线来帮助分析（我应该会在以后介绍）。

F1 Measure

前面已经讲了，P和R指标有的时候是矛盾的，那么有没有办法综合考虑他们呢？我想方法肯定是有很多的，最常见的方法应该就是F Measure了，有些地方也叫做F Score，都是一样的。

F Measure是Precision和Recall加权调和平均：

F = (a^2+1)P*R / a^2P +R

当参数a=1时，就是最常见的F1了：

F1 = 2P*R / (P+R)

很容易理解，F1综合了P和R的结果。

引用请注明：http://blog.csdn.net/xbinworld/article/details/6742095

end

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/yihaha/p/7265356.html