PR曲线和ROC曲线间的关系

The Relationship Between Precision-Recall and ROC Curves

http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf

An introduction to ROC analysis 

https://ccrma.stanford.edu/workshops/mir2009/references/ROCintro.pdf

Receiver Operator Characteristic (ROC) curves are commonly used to present results for binary decision problems in machine learning. However, when dealing with highly skewed datasets, Precision-Recall
(PR) curves give a more informative picture of an algorithm’s performance. We show that a deep connection exists between ROC space and PR space, such that a curve dominates in ROC space if and only if it dominates in PR space. A corollary is the notion of an achievable PR curve, which has properties much like the convex hull in ROC space; we show an efficient algorithm for computing this curve. Finally, we also note differences in the two types of curves are significant for algorithm design. For example, in PR space it is incorrect to linearly interpolate between points. Furthermore, algorithms that optimize the area under the ROC curve are not guaranteed to optimize the area under the PR curve.

受试工作者特性曲线 (ROC) 通常用于呈现机器学习中二元决策问题的结果。 然而,在处理高度倾斜(不平衡)的数据集时,Precision-Recall (PR) 曲线给出了算法性能的更多信息。我们证明了 ROC 空间和 PR 空间之间存在深层联系,一条曲线在 ROC 空间中占主导地位当且仅当它在 PR 空间中占主导地位。推论是可实现 PR 曲线的概念,它具有与 ROC 空间中的凸包非常相似的特性; 我们展示了一种计算这条曲线的有效算法。 最后,我们还注意到两种曲线的差异对于算法设计很重要。 例如,在 PR 空间中,在点之间进行线性插值是不正确的。 此外,优化 ROC 曲线下面积的算法并不能保证 PR 曲线下面积也得到优化。

使用场景

  1. ROC曲线由于兼顾正例与负例,所以适用于评估分类器的整体性能,相比而言PR曲线完全聚焦于正例。

  2. 如果有多份数据且存在不同的类别分布,比如信用卡欺诈问题中每个月正例和负例的比例可能都不相同,这时候如果只想单纯地比较分类器的性能且剔除类别分布改变的影响,则ROC曲线比较适合,因为类别分布改变可能使得PR曲线发生变化时好时坏,这种时候难以进行模型比较;反之,如果想测试不同类别分布下对分类器的性能的影响,则PR曲线比较适合。

  3. 如果想要评估在相同的类别分布下正例的预测情况,则宜选PR曲线。

  4. 类别不平衡问题中,ROC曲线通常会给出一个乐观的效果估计,所以大部分时候还是PR曲线更好。

  5. 最后可以根据具体的应用,在曲线上找到最优的点,得到相对应的precision,recall,f1 score等指标,去调整模型的阈值,从而得到一个符合具体应用的模型。

机器学习之类别不平衡问题 (1) —— 各种评估指标

机器学习之类别不平衡问题 (2) —— ROC和PR曲线

机器学习之类别不平衡问题 (3) —— 采样方法

https://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-classification-in-python/

Reference:

  1. Tom Fawcett. An introduction to ROC analysis
  2. Jesse Davis, Mark Goadrich0 The Relationship Between Precision-Recall and ROC Curves
  3. Haibo He, Edwardo A. Garcia. Learning from Imbalanced Data
  4. 周志华. 《机器学习》
  5. Pang-Ning Tan, etc. Introduction to Data Mining
  6. https://stats.stackexchange.com/questions/7207/roc-vs-precision-and-recall-curves
快去成为你想要的样子!
原文地址:https://www.cnblogs.com/jiangkejie/p/15269291.html