【CCF202012-2】期末预测之最佳阈值

时间限制: 1.0s
内存限制: 512.0MB

题目背景

考虑到安全指数是一个较大范围内的整数、小菜很可能搞不清楚自己是否真的安全,顿顿决定设置一个阈值 θ,以便将安全指数 y 转化为一个具体的预测结果——“会挂科”或“不会挂科”。

因为安全指数越高表明小菜同学挂科的可能性越低,所以当 y≥θ 时,顿顿会预测小菜这学期很安全、不会挂科;反之若 y<θ,顿顿就会劝诫小菜:“你期末要挂科了,勿谓言之不预也。”

那么这个阈值该如何设定呢?顿顿准备从过往中寻找答案。

问题描述

具体来说,顿顿评估了 m 位同学上学期的安全指数,其中第 i(1≤i≤m)位同学的安全指数为 yi,是一个 [0,108] 范围内的整数;同时,该同学上学期的挂科情况记作 resulti∈0,1,其中 0 表示挂科、1 表示未挂科。

相应地,顿顿用 predictθ(y) 表示根据阈值 θ 将安全指数 y 转化为的具体预测结果。
如果 predictθ(yj) 与 resultj 相同,则说明阈值为 θ 时顿顿对第 j 位同学是否挂科预测正确;不同则说明预测错误。

predictθ(y)={0(y<θ),1(y≥θ)}

最后,顿顿设计了如下公式来计算最佳阈值 θ

θ=maxargmaxθ∈yi⁡j=1m(predictθ(yj)==resultj)

该公式亦可等价地表述为如下规则:

    1. 最佳阈值仅在 yi 中选取,即与某位同学的安全指数相同;

    2. 按照该阈值对这 m 位同学上学期的挂科情况进行预测,预测正确的次数最多(即准确率最高);

    3. 多个阈值均可以达到最高准确率时,选取其中最大的。

输入格式

从标准输入读入数据。

输入的第一行包含一个正整数 m。

接下来输入 m 行,其中第 i(1≤i≤m)行包括用空格分隔的两个整数 yi 和 resulti,含义如上文所述。

输出格式

输出到标准输出。

输出一个整数,表示最佳阈值 θ

样例1输入

6

0 0

1 0

1 1

3 1

5 1

7 1

样例1输出

3

样例1解释

按照规则一,最佳阈值的选取范围为 0,1,3,5,7。

θ=0 时,预测正确次数为 4;

θ=1 时,预测正确次数为 5;

θ=3 时,预测正确次数为 5;

θ=5 时,预测正确次数为 4;

θ=7 时,预测正确次数为 3。

阈值选取为 1 或 3 时,预测准确率最高;
所以按照规则二,最佳阈值的选取范围缩小为 1,3。

依规则三,θ=max1,3=3。

样例2输入

8
5 1
5 0
5 0
2 1
3 0
4 0
100000000 1
1 0

样例2输出

100000000

子任务

70% 的测试数据保证 m≤200;

全部的测试数据保证 2≤m≤105

题解

最佳阈值从yi中选取,那么可以枚举yi,计算预测正确的次数,就能找到最佳阈值。但是这样的时间复杂度是O(n2),会超时

注意到阈值和y有一定的关系。若阈值为yi,则对于yj<yi,预测结果一定是挂科,对于yj>yi,预测结果一定是未挂科。于是考虑对y排序,我们就可以知道,以yi为分界线,排在yi前面的预测结果都是相同的,排在yi后面的预测结果也是相同的。

对yi从小到大排,则当j<i时,预测结果为挂科,那么result==0预测成功,result==1预测失败。令pf[i]表示阈值为yi时,安全指数小于yi的同学中预测成功的次数,则pf[i]=pf[i-1]+(result==0);令sf[i]表示阈值为yi时,安全指数不小于yi的同学中预测成功的次数,同理可得sf[i]=sf[i+1]+(result==1).于是当阈值为yi时,预测成功的总次数就是安全指数小于yi的同学中预测成功的次数和安全指数不小于yi的同学中预测成功的次数之和。

考虑到存在y相等的情况,所以pf[i-1]+sf[i]并不能满足要求。

设阈值为yi时预测成功的总次数为pf[j]+sf[k],其中,k满足yk>=yi,所以k==i;而j满足yj<yi,所以,若yi-1==yi,那么pf[i-1]就是错的。我们需要记录yj<yi的最大的j,预测成功的总次数即为pf[j]+sf[i].

 1 #include <algorithm>
 2 #include <cstdio>
 3 int n,rnk[100005],pf[100005],sf[100005];
 4 struct node{
 5     int y,x;
 6 }a[100005]; 
 7 bool cmp(node x,node y)
 8 {
 9     return x.y<y.y;
10 }
11 int main()
12 {
13     int i,j,s,ans,t,p;
14     scanf("%d",&n);
15     for (i=1;i<=n;i++)
16       scanf("%d%d",&a[i].y,&a[i].x);
17     std::sort(a+1,a+n+1,cmp);
18     for (i=1;i<=n;i++)
19       pf[i]=pf[i-1]+(a[i].x==0);
20     for (i=n;i>=1;i--)
21       sf[i]=sf[i+1]+(a[i].x==1);
22     rnk[1]=p=1;
23     for (i=2;i<=n;i++)
24       if (a[i].y!=a[i-1].y) rnk[i]=p=i;
25       else rnk[i]=p;
26     s=sf[1];  ans=a[1].y;
27     for (i=n;i>1;i--)
28     {
29         t=sf[i]+pf[rnk[i]-1];
30         if (t>s) s=t,ans=a[i].y;
31     } 
32     printf("%d",ans);
33     return 0;
34 }
原文地址:https://www.cnblogs.com/rabbit1103/p/14377054.html