Boosting Ensemble and GBDT Algorithm

Boosting Ensemble: 机器学习中,Ensemble model除了Bagging以外，更常用的是Boosting。与Bagging不同，Boosting中各个模型是串行的。其思想是，后面的model，要从前面models的预测中结果中，试图将错误纠正。下面两张图可以看出二者的异同：

在第一个模型训练之前，各个Training Examples出现在本次训练中的概率相同；训练后的模型，如果在某些数据的预测上出现错误，则这些数据点出现在下个模型中的概率将会被提升，反之预测正确的数据点的概率将会被下调。最终，再将各个模型的输出做合并，给出最终Ensemble模型的预测。该算法的关键点是去设定‘何时停止迭代’，因为无休止的纠错最终将导致Overfitting.

Gradient Boosting Decision Tree(GBDT): 该算法改版自Boosting Ensemble，每个model采用的都是Decision Tree，同时融入了Gradient Descent的思想。首先，我们想象在最基础的Boosting Ensemble中，当第一个模型训练后，得到一个预测值h₁(X)，而期望的输出output为Y，则二者的差值（残差：Residual）为：

R₁(X)=Y-h₁(X)

那如果，我们能够构建一个模型model2，去输出R₁(X)，那么Model1与Model2的输出之和为Y：

Y=h₁(X)+R₁(X)

当然，拟合出R₁(X)是最理想的情况，但实际中却只能输出近似值r₁(X)，将其累加到第一个model的输出上，我们就得到了model2的输出：

h₂(X)=h₁(X)+r₁(X)

这是我们又得到了R₂(X)为Y与h₂(X)的差值。循环往复，最终的输出将会不断逼近Y。但，这和Gradient有什么关系呢？

该模型在第n个模型上输出的hypothesis是：

h_n(X)=h_n-1(X)+r_n-1(X)

如果把残差Residual展开：

h_n(X)=h_n-1(X)+(y-h_n-1(X))

在Gradient Descent里面，我们知道，Cost Function被定义为：

当m为1时，我们很容易看出，h_n(X)的值是在h_n-1(X)的基础上，减去了一倍的梯度（learning rate α=1），所以该算法被冠上了Gradient的名字，不无道理哦。