7. Bagging & Random Forest

通过前面集成学习的介绍我们知道，欲得到泛化性能强的集成学习器，集成中个体学习器应尽量相互独立；虽然“独立”在现实任务中无法做到，但可以设法使基学习器尽可能具有较大差异。

1. Bagging

自助采样（bootstrap sampling）：给定包含$m$个样本的数据集，我们有放回地取$m$次放入采样集中，得到包含$m$个样本的采样集。这样，初始训练集中大概会有 63.2%的样本出现在采样集中。

Bagging并行式集成学习方法以bootstrap sampling 方式采样出 $T$ 个含 $m$ 个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些学习器进行结合。在对预测输出进行结合时，Bagging常对分类任务使用简单投票法，对回归任务使用简单平均。

随机森林是 Bagging 的一种拓展，RF在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。

传统decision tree在选择划分属性时是当前结点的属性集合（假定有$K$个属性）中选择一个最优属性；而RF中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含$k$个属性的子集，然后再从这个子集中选择一个最优属性用于划分，一般推荐 $k=log_2^K$。