Bagging and Random Forest

Bagging和随机森林RF。

随机森林是最受欢迎和最强大的机器学习算法之一。它是一种称为Bootstrap Aggregation或bagging的集成机器学习算法。

bootstrap是一种强大的统计方法，用于从数据样本中估计数量，比如均值。可以取大量的数据样本，计算平均值，然后平均所有的平均值，以便更好地估计真实的平均值。

在bagging中，使用了相同的方法。but instead for estimating entire statistical models, most commonly decision trees.

它会训练数据进行多重抽样，然后为每个数据样本构建模型。当你需要对新数据进行预测时，每个模型都会进行预测，并对预测结果进行平均，以更好地估计真实的输出值。

随机森林是对决策树的一种调整，相对于选择最佳分割点，随机森林通过引入随机性来实现次优分割。

因此，为每个数据样本创建的模型之间的差异性会更大，但就自身意义来说依然准确无误。结合预测结果可以更好地估计正确的潜在输出值。

如果你使用高方差算法（如决策树）获得良好结果，那么加上这个算法后效果会更好。

随机森林其实算是一种集成算法。它首先随机选取不同的特征(feature)和训练样本(training sample)，生成大量的决策树，然后综合这些决策树的结果来进行最终的分类。

随机森林在现实分析中被大量使用，它相对于决策树，在准确性上有了很大的提升，同时一定程度上改善了决策树容易被攻击的特点。

RF适用情景：