西瓜书课后习题—

西瓜书课后习题——第二章

2.1

数据集包含500正例和500反例，按照70%的比例划分训练集和验证集，则验证集需要有150个正例、150个反例，

则共有$ left ( C_{500}^{150} ight )^{2}$ 种划分方式。

2.2

数据集包含100个样本，10折交叉验证时，每个训练集应该有45正例、45反例，验证集应该有5正例、5反例，由于训练集中正例、反例比例为1:1，则按照题目的预测算法，预测时会进行随机预测（因为训练样本数比例相同），所以错误率的期望为50%

留一法时，留下来做验证集的样本有两种情况：正例、反例。当留下来的是正例时，训练集中反例比正例多一个，按照题目的算法会将验证集预测为反例，预测错误；留下来的是反例时同理，会将验证集预测为正例。所以错误率的期望为100%

2.3

F1的大小与BEP的大小没有明确的关系。

根据公式 $F1=frac{2*P*R}{P+R}$ ，而BEP是查准率和查全率相等的点，即BEP=P=R，带入前式有$F1=frac{2*P*R}{P+R}=frac{2*P*P}{P+P}=P=BEP$，可以认为F1=BEP吗？显然不可以。可以构造反例进行验证，容易构造BEP相同的两个分类器的F1值并不相同，分类器将所有训练样本按自己认为是正例的概率排序，排在越前面分类器更可能将它判断为正例。按顺序逐个把样本标记为正，当查准率与查全率相等时，BEP=P=R。当然分类器的真实输出是在这个序列中的选择一个位置，前面的标记为正，后面的标记为负，这时的查准率与查全率用来计算F1值。可以看出有同样的BEP值的两个分类器在不同位置截断可能有不同的F1值，F1的大小与BEP的大小没有明确的关系。

2.4

查全率：真正的正例被预测为正例的比率

真正例率：真正的正例被预测为正例的比率

显然查全率=真正例率

查准率：预测的正例中真正的正例所占的比率

假正例率：真正的反例被预测为正例的比率

查准率与假正例率没有数值上的关系

2.5

$R O C$

2.6

$R O C$

2.7

参考图2.5

由定义可以知道TPR与FPR都是由0上升到1，那么FNR则是由1下降到0。
每条ROC曲线都会对应一条代价曲线，由于第一条代价线段的是(0，0)到(1，1)，最后是(0，1)到(1，0)，
所有代价线段总会有一块公共区域，这个区域就是期望总体代价，而这块区域的边界就是代价曲线，且肯定从(0，0)到(1，0)
在有限个样本情况下，ROC是一条折线，此时根据代价曲线无法还原ROC曲线。但若是理论上有无限个样本，ROC是一条连续的折线，代价曲线也是连续的折线，每个点的切线可以求出TPR与FNR，从而得到唯一的ROC曲线

2.8

Min−max规范化方法简单，而且保证规范化后所有元素都是正的，每当有新的元素进来，只有在该元素大于最大值或者小于最小值时才要重新计算全部元素。但是若存在一个极大(小)的元素，会导致其他元素变的非常小(大)。
z−score标准化对个别极端元素不敏感，且把所有元素分布在0的周围，一般情况下元素越多，0周围区间会分布大部分的元素，每当有新的元素进来，都要重新计算方差与均值。

2.9

2.10