基石- 评价指标

AUC

  • 定义:随机抽一个正样本和一个负样本,正样本排在负样本前面的概率。
  • 计算
    • 假设正样本总个数为 M,负样本总个数为 N
    • 分数从高到底排序。 第一位代表 rank 数为 n,第二位代表 rank 数为 n-1,以此类推,最小的为1。
    • 将所有正样本对应的 rank 进行累加,然后去除掉正样本相互之间大小的情况,所以 m*(m-1)/2。
  • 优点
    • 不在乎具体分数,只在乎顺序,因此天然适合排序任务
    • 对正负样本是否均衡不敏感。
      • 因此适用于因为正负样本量悬殊,降采样后的任务也可以用。
  • 缺点
    • 只反映了模型的整体性能,看不出在不同

 

原文地址:https://www.cnblogs.com/toonice/p/15479203.html