关于 PAC 学习理论的一点思考

来自 2019年7月对机器学习理论整理时的思考：

第一章中给出了轴平行矩形这一概念类，并且推导出了样本复杂度，从而说明了是 PAC 可学习的。但后面 VC维章节可以分析一下这一概念类的VC 维，在泛化界章节，可以给出基于VC维的泛化界，并且与这里的泛化界进行对比。
在泛化界章节，最好再强调一下泛化误差界和 PAC 可学习的关系。有了泛化界，并没有完全解决 PAC 可学习这一问题。泛化界是假设以及假设空间的性质，只是给出了经验误差逼近泛化误差的衡量,也即假设的泛化误差的上界和对整个假设类都成立的一致上界。但 PAC 可学习需要刻画输出假设的泛化误差和最优假设的泛化误差的差别。因此通常 PAC 可学习是 ERM + 泛化误差界。
可以参考 Understanding ML 一书把 approximate error, estimation error, excess risk 写进去
在稳定性一章也要强调一下， PAC 可学习是算法的稳定性 + 算法的ERM+ 算法的损失函数有上界联合导致的。另外稳定性隐含要求了假设空间不会太大。
Understanding Machine Learning 上要求了稳定性等价于不会过拟合，这相当于另一种解释，可以想办法结合进去。
可以写一点统计学习理论，各种 risk 的理论，以及结构风险极小化，SRM
可以写 PAC model for noisy label ,PAC model for semi-supervised learning
可以写一点主动学习的理论
在 PAC理论中，把 stochestical learning scenario 以及 bayes risk 写进去

另外还有很多思考记录在了纸质材料上，例如

有限可分情况下其实也是可以用 Hoeffding 不等式bound，但此 bound 则太松了，从 O(1/m) 变为 O(1/sqrt{m})，or O(1/epsion) 变为 O(1/epsilon^2)
P(|E-hat{E}|) 与 P(E-hat{E}) 差一个 2 的关系，(Union Bound)
approximate error, estimation error, excess risk 而泛化界是用来 bound 经验误差与期望误差的
PAC 学习理论中有所谓的经验误差和泛化误差，而一般算法有训练集误差，测试集误差，那是训练集误差对应经验误差，还是测试集误差对应经验误差？

样本复杂度是指训练集的样本的大小，因此这里的经验误差应该是指训练集误差。在训练时，通常是搜索并保留训练误差小的假设，因为泛化误差 < 训练误差 + 复杂度项，如果假设复杂度项是不变的，则基于优化上界的原则，确实是应该选择训练误差小的假设，当然这一上界并不紧，因此可能会导致过拟合的现象: 某个假设的训练误差较小，但其泛化误差反而较大。

但若另外进行比较，例如比较两种不同的算法，则此时训练误差没有意义，因为很可能不同的算法（模型）考虑的假设空间所对应的复杂度项不一样大。
但另一方面，测试误差是泛化误差的估计值，也可以用 test set 上的测试误差来比较两个算法(模型)的好坏。读电子版 Understanding ML P67 页突然想到。