gbdt决策树的理解

参考:1、https://www.cnblogs.com/pinard/p/6053344.html

   2、https://www.cnblogs.com/pinard/p/6140514.html

          3、https://en.wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting

 CART回归树建立节点时,是最小化均方误差来求,CART回归树的度量目标是,对于任意划分特征A,对应的任意划分点s两边划分成的数据集D1和D2,求出使D1和D2各自集合的均方差最小,同时D1和D2的均方差之和最小所对应的特征和特征值划分点。所以最后求的值为均值。   

gbdt在建立单棵树时,划分节点的标准是根据损失函数最小,不是基尼系数来确定,损失函数不一样,确定方式不一样,所以最后预测的叶子节点可能不是均值。同时在gbdt的推导过程中参考2、3(有个参数本来控制的是针对模型的,其对每个叶子都一样,而优化后的模型,其是每个叶子都选出了最适配的Ctj,这个参数就是3中的伽马。),所以会有不一样的表达方式。

gbdt各个基模型的累加意义,对于回归问题,相当于拟合残差,对于分类问题,会把值映射成一个概率值,然后具有了累加意义。

原文地址:https://www.cnblogs.com/jianglinliu/p/10521122.html