西瓜书学习笔记（一）

序言

1、符号主义、贝叶斯派、联结主义、进化主义、行为类比主义（机器学习的五大流派）：

参考：本书1.5节及https://blog.csdn.net/rogerchen1983/article/details/79681463；

第一章绪论

1、1997年，Tom Mitchell对机器学习的定义引入了三个概念：经验Experience（E）、任务Task（T）、任务完成效果的衡量指标Performance measure（P）。将机器学习定义为：假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们说关于T和P，该程序对E进行了学习。即在有了经验E的帮助后，机器完成任务T的衡量指标P变得更好了。

2、奥卡姆剃刀原理：“如无必要，勿增实体”，即“简单有效原理”。周志华西瓜书中描述为：“若有多个假设与观察一致，则选择最简单的那个”。

3、没有免费的午餐定理：没有免费午餐定理(No Free Lunch，简称NFL)，该定理的结论是，由于对所有可能函数的相互补偿，最优化算法的性能是等价的。即脱离具体的问题，空泛地谈论“什么学习算法最好”毫无意义。

第二章模型评估与选择

1、P问题、NP问题、NPC问题 NP hard问题

在计算机领域，一般可以将问题分为可解问题和不可解问题。不可解问题也可以分为两类：一类如停机问题，的确无解；另一类虽然有解，但时间复杂度很高。可解问题也分为多项式问题(Polynomial Problem，P问题)和非确定性多项式问题(NondeterministicPolynomial Problem，NP问题)。

2.、评估模型泛化误差的方法

　　2.1、留出法

　　2.2、交叉验证法（k次交叉验证、p次k折交叉验证、留一法）

　　　　适用于数据量足够的情况；

　　　　任何评估方法不一定比其他评估方法更准确，“没有免费的午餐”定理对实验评估方法同样适用。

　　2.3、自助法

　　　　适用于数据集较小、难以进行有效划分训练/测试集的情况。能从初始数据中产生多个不同的训练集，对集成学习有较大好处。但自助法产生的数据集改变了初始数据的分布，会引入估计偏差。

3.、评估不同模型泛化性能（分隔出验证集进行调参，并在测试集上进行测试）

　　将样本数据集分为测试集和训练数据，训练数据进一步分为训练集和验证集。使用验证集进行模型的选择和调参，使用测试集来估计模型在实际使用时的泛化能力。

　　训练集、验证集、测试集：

4、性能度量（评估模型的泛化性能）

　　4.1、回归任务：将模型预测结果与真实值进行比较，计算“误差”，如：

　　　　　　　　　　①：欧式、曼哈顿、切比雪夫距离、闵可夫斯基距离，如：回归任务中常用均方误差；

　　　　　　　　　　②：余弦距离；

　　　　　　　　　　③：汉明距离；

　　　　　　　　　　④：马哈拉诺斯比斯距离；

　　　　　　　　　　⑤：相关系数；

　　4.2、分类任务： ①：错误率、精度；

　　　　　　　　　　②：二分类任务：混淆矩阵、查准率、查全率、P-R曲线（查准率-查全率曲线）图、面积度量标准（度量学习器的查准率、查全率性能）、平衡点（BEP）性能度量标准、F1度量标准、Fβ度量标准；

　　　　　　　　　　③：多分类任务：两两类别之间组建n个混淆矩阵、宏查准率、宏查全率、宏F1、微查准率、微查全率、微F1；

　　　　　　　　　　④：ROC曲线（真正例TPR率-假正例FPR率曲线）、AUC面积度量法；

　　　　　　　　　　⑤：代价敏感错误率、代价曲线；

5、比较检验（以错误率为例，分析学习器的泛化性能是否良好？有多大的把握（显著度）？）

　　5.1、概率论知识补充

　　常用离散型分布：单点分布（退化分布）、(0-1)分布（两点分布或伯努利分布）、二项分布、负二项分布（帕斯卡分布）、几何分布、超几何分布、泊松分布；

　　常用连续型分布：均匀分布、正态分布（高斯分布）、对数正态分布、逆高斯分布、Γ分布( 伽玛分布 ) 、指数分布（负指数分布）、卡方分布、非中心卡方分布、韦布尔分布、

拉普拉斯分布、瑞利分布、帕雷托分布、极值分布、逻辑斯蒂分布、β分布、柯西分布、t 分布（学生氏分布）、非中心 t 分布、F分布、非中心 F分布；

　　5.2、常用的分布

　　参考：https://zhuanlan.zhihu.com/p/47609519

　　5.3、常用的分布所解决的问题

　　大数定理：在随机事件的大量重复出现中，往往呈现几乎必然的规律，这个规律就是大数定律。

　　0-1分布（两点分布或伯努利分布）、均匀分布：一次随机事件发生某一结果的概率；

　　二项分布、超几何分布：n次伯努利试验（或有放回抽样试验）中事件A恰好发生k次的概率。超几何分布为不放回抽样时的概率；

　　几何分布、负二项分布：前k-1次皆失败，第k次成功的概率。负二项分布为r次失败（成功）前成功（失败）的次数；

　　泊松分布：特定时间里发生n个事件的机率。当二项分布的n很大而p很小时，泊松分布可作为二项分布的近似，其中λ为np。通常当n≧20,p≦0.05时，就可以用泊松分布近似计算。事实上，泊松分布正是由二项分布推导而来的；

　　指数分布：要等到一个随机事件发生，需要经历多久时间。给定一个某段时间内发生次数遵循泊松分布的事件，那么事件间隔时间遵循参数λ相同的指数分布。

　　正态分布：

　　　　中心极限定理：①：独立同分布的中心极限定理：在实际工作中，只要n足够大，便可以把独立同分布的随机变量之和当作正态变量；

　　　　　　　　　　　②：棣莫佛－拉普拉斯定理：正态分布是二项分布的极限分布；

　　　　　　　　　　　③：不同分布的中心极限定理：随机变量如果是有大量独立的而且均匀的随机变量相加而成，那么它的分布将近似于正态分布。

　　t分布、卡方分布：t分布用于推断正态分布的均值。检验基于观测值和理论值的差（假定差遵循正态分布）的平方和；

　　伽玛分布和贝塔分布：伽玛分布可以用来建模接下来第n个事件发生前的时间。Beta分布是一个定义在[0,1]区间上的连续概率分布族，它有两个正值参数，称为形状参数，一般用 $α$

　　5.4、常用区间估计与假设检验公式表

　　参考：https://wenku.baidu.com/view/1ae0a2b8a56e58fafab069dc5022aaea998f41ef.html

　　5.5、常用假设检验

　　参考：https://www.cnblogs.com/hust-chen/p/8643973.html

　　5.6、不同学习器，相同测试集，交叉验证t检验

　　5.7、不同学习器，相同测试集，McNemar

　　5.8、不同学习器，不同测试集，Friedman检验与Nemenyi后验

6、偏差与方差

　　偏差刻画了学习算法本身的拟合能力；（欠拟合）；

　　方差刻画了数据扰动所造成的影响；（过拟合）；

　　噪声刻画了学习问题本身的难易程度；

附录常用概率分布间的关系

　　参考：http://www.math.wm.edu/~leemis/chart/UDR/UDR.html

　　　　　http://www.math.wm.edu/~leemis/2008amstat.pdf

西瓜书学习笔记（一）

序言

第一章 绪论

第二章 模型评估与选择

附录 常用概率分布间的关系

第一章绪论

第二章模型评估与选择

附录常用概率分布间的关系