AdaBoost 和 Real Adaboost 总结

AdaBoost

Real AdaBoost

AdaBoost

AdaBoost, Adaptive Boosting(自适应增强), 是一种集成学习算法(ensemble learning)，由Yoav Freund 和 Robert Schapire 于1995年提出。其思想是通过多个简单的弱分类器集成一个具有较高准确率的强分类器。

经典AdaBoost算法过程

输入：训练数据,其中分别对应着样本特征和样本标签
输出：最终的强分类器
初始化：样本权重分布
循环:t=1,...,T
....-针对权重样本训练弱分类器
....-计算弱分类器的错误率,是示性函数
....-计算弱分类器的权重
....-使用当前的弱分类器更新样本的分布 ,其中是归一化常数
最终的前分类器为:

AdaBoost过程示意图

AdaBoost.png

更新迭代原理

从直观上理解，首先，当错误率$epsilon$越大时，分类器的权重$alpha$越小，这符合一般解释及分类器性能越高置信度也就越大，在最终的表决中所占比重也就越大。其次，在新样本分布的更新过程中，分类正确的样本在下次分类器学习中作用越小，而分错的样本在下次分类器学习中的作用越大，这样可以是新的分类器设计更集中在之前错分的样本分类上，使整体的分类性能提高。
从理论上推导:
AdaBoost采用的是指数误差函数,其中D是样本的分布，表示样本的标签，表示在分布D上计算期望。

i. 首先是权重的更新，希望分类器产生的总体指数误差最小，则

其中表示某个分布上的概率分布函数。于是得到

即分类器权重的更新公式

ii. 接下来将推导分布的更新:
已获得前个分类器，我们希望获得第t个分类器能纠正之前错误分类，使指数误差函数最小。

泰勒展开:

这是因为

令表示一个新的分布，则上式可以写作：

类似的

于是得到分布的更新公式。

AdaBoost的误差上界

在更新分布时有归一化常数

指数误差函数:

AdaBoost分析

虽然在AdaBoost中对弱分类器没有限制，可以是基于多维特征的决策树，SVM等，但通常每个弱分类器都是基于所有特征中某一维构建的，并且输出结果只有+1，-1两种(二分类问题)，所以在训练时每一轮迭代相当于挑选最好的特征。

Real AdaBoost

Real AdaBoost 过程:

给定训练集:
训练集样本的初始分布:
循环t=1,2,...,T: (T是弱分类器的个数)
.... - 将每一维特征的取值空间划分为若干个不相交的
.... - 计算在每个子空间上上正负样本的权重

.... - 计算每一个弱分类器的输出，,其中是一个很小的正常量用于平滑。
.... - 计算归一化因子
.... - 选择Z最小的的弱分类器作为该轮迭代选出的弱分类器
.... - 更新样本分布
最终的强分类器为：, b是阈值。

Real AdaBoost 的理解
相对于AdaBoost而言，Real AdaBoost中弱分类器不再仅输出{+1，-1}，而是输出[-1,1]间的实数，所以称为Real AdaBoost，我们可以认为输出的值其实就是AdaBoost里的权重加权后的结果，即,所以Real AdaBoost也符合AdaBoost的框架