【CCF202012-2】期末预测之最佳阈值

时间限制：	1.0s
内存限制：	512.0MB

题目背景

考虑到安全指数是一个较大范围内的整数、小菜很可能搞不清楚自己是否真的安全，顿顿决定设置一个阈值 θ，以便将安全指数 y 转化为一个具体的预测结果——“会挂科”或“不会挂科”。

因为安全指数越高表明小菜同学挂科的可能性越低，所以当 y≥θ 时，顿顿会预测小菜这学期很安全、不会挂科；反之若 y<θ，顿顿就会劝诫小菜：“你期末要挂科了，勿谓言之不预也。”

那么这个阈值该如何设定呢？顿顿准备从过往中寻找答案。

问题描述

具体来说，顿顿评估了 m 位同学上学期的安全指数，其中第 i（1≤i≤m）位同学的安全指数为 y_i，是一个 [0,10⁸] 范围内的整数；同时，该同学上学期的挂科情况记作 result_i∈0,1，其中 0 表示挂科、1 表示未挂科。

相应地，顿顿用 predict_θ(y) 表示根据阈值 θ 将安全指数 y 转化为的具体预测结果。
如果 predict_θ(y_j) 与 result_j 相同，则说明阈值为 θ 时顿顿对第 j 位同学是否挂科预测正确；不同则说明预测错误。

predict_θ(y)={0(y<θ)，1(y≥θ)}

最后，顿顿设计了如下公式来计算最佳阈值 θ^∗：

θ^∗=maxargmax_θ∈yi⁡∑^j=1_m(predict_θ(y_j)==result_j)

该公式亦可等价地表述为如下规则：

最佳阈值仅在 y_i 中选取，即与某位同学的安全指数相同；
按照该阈值对这 m 位同学上学期的挂科情况进行预测，预测正确的次数最多（即准确率最高）；
多个阈值均可以达到最高准确率时，选取其中最大的。

输入格式

从标准输入读入数据。

输入的第一行包含一个正整数 m。

接下来输入 m 行，其中第 i（1≤i≤m）行包括用空格分隔的两个整数 y_i 和 result_i，含义如上文所述。

输出格式

输出到标准输出。

输出一个整数，表示最佳阈值 θ^∗。

样例1输入

6

0 0

1 0

1 1

3 1

5 1

7 1

样例1输出

样例1解释

按照规则一，最佳阈值的选取范围为 0,1,3,5,7。

θ=0 时，预测正确次数为 4；

θ=1 时，预测正确次数为 5；

θ=3 时，预测正确次数为 5；

θ=5 时，预测正确次数为 4；

θ=7 时，预测正确次数为 3。

阈值选取为 1 或 3 时，预测准确率最高；
所以按照规则二，最佳阈值的选取范围缩小为 1,3。

依规则三，θ^∗=max1,3=3。

样例2输入

8
5 1
5 0
5 0
2 1
3 0
4 0
100000000 1
1 0

样例2输出

`100000000`

子任务

70% 的测试数据保证 m≤200；

全部的测试数据保证 2≤m≤10⁵。

题解

最佳阈值从y_i中选取，那么可以枚举y_i，计算预测正确的次数，就能找到最佳阈值。但是这样的时间复杂度是O（n²），会超时

注意到阈值和y有一定的关系。若阈值为y_i，则对于y_j<y_i,预测结果一定是挂科，对于y_j>y_i，预测结果一定是未挂科。于是考虑对y排序，我们就可以知道，以y_i为分界线，排在y_i前面的预测结果都是相同的，排在y_i后面的预测结果也是相同的。

对y_i从小到大排，则当j<i时，预测结果为挂科，那么result==0预测成功，result==1预测失败。令pf[i]表示阈值为y_i时，安全指数小于y_i的同学中预测成功的次数，则pf[i]=pf[i-1]+(result==0)；令sf[i]表示阈值为y_i时，安全指数不小于y_i的同学中预测成功的次数，同理可得sf[i]=sf[i+1]+(result==1).于是当阈值为y_i时，预测成功的总次数就是安全指数小于y_i的同学中预测成功的次数和安全指数不小于y_i的同学中预测成功的次数之和。

考虑到存在y相等的情况，所以pf[i-1]+sf[i]并不能满足要求。

设阈值为y_i时预测成功的总次数为pf[j]+sf[k]，其中，k满足y_k>=y_i，所以k==i；而j满足y_j<y_i，所以，若y_i-1==y_i，那么pf[i-1]就是错的。我们需要记录y_j<y_i的最大的j，预测成功的总次数即为pf[j]+sf[i].

 1 #include <algorithm>
 2 #include <cstdio>
 3 int n,rnk[100005],pf[100005],sf[100005];
 4 struct node{
 5     int y,x;
 6 }a[100005]; 
 7 bool cmp(node x,node y)
 8 {
 9     return x.y<y.y;
10 }
11 int main()
12 {
13     int i,j,s,ans,t,p;
14     scanf("%d",&n);
15     for (i=1;i<=n;i++)
16       scanf("%d%d",&a[i].y,&a[i].x);
17     std::sort(a+1,a+n+1,cmp);
18     for (i=1;i<=n;i++)
19       pf[i]=pf[i-1]+(a[i].x==0);
20     for (i=n;i>=1;i--)
21       sf[i]=sf[i+1]+(a[i].x==1);
22     rnk[1]=p=1;
23     for (i=2;i<=n;i++)
24       if (a[i].y!=a[i-1].y) rnk[i]=p=i;
25       else rnk[i]=p;
26     s=sf[1];  ans=a[1].y;
27     for (i=n;i>1;i--)
28     {
29         t=sf[i]+pf[rnk[i]-1];
30         if (t>s) s=t,ans=a[i].y;
31     } 
32     printf("%d",ans);
33     return 0;
34 }