ctr中的GBDT+LR的优点

1 为什么gbdt+lr优于gbdt？

　　其实gbdt+lr类似于做了一个stacking。gbdt+lr模型中，把gbdt的叶子节点作为lr的输入，而gbdt的叶子节点相当于它的输出y'，用这个y'作为lr的x，和stacking是类似的。但是这里和一般的stacking有些差别，stacking的话是多个模型的y'作为stacking模型的输入，训练出这个stacking模型，然后stacking模型的输出作为最终结果。gbdt+lr是每个叶子节点作为这个y'。

　　另外gbdt的每棵树其实是拟合上一颗树的残差上求得的局部最优解，把所有局部最优解的输出通过lr训练得到一个全局最优解。这里出现一个疑问：gbdt最后集成所有树时每棵树的权重是怎么计算的？

2 为什么gbdt+lr优于lr？

　　（1）lr算法简单，能够处理超高纬度稀疏问题。但是lr需要人工进行特征组合。gbdt+lr相当于对原始特征通过gbdt进行了特征组合

　　（2）gbdt对连续特征划分能力强，可以帮助lr处理连续特征，避免了人工对连续特征分箱操作。这里又涉及到另一个问题：

3 为什么lr不能处理连续特征（为什么要把连续特征转化为离散特征后送进lr？）

　　因为这样可以增加lr的鲁棒性，比如如果把年龄送进lr，那么23和24岁本来相差不大，但是却变成了完全不同的变量，也就是所23岁和24岁的区别程度和23岁和50岁的区别程度是一样的，显然不符合。或者加入一个300岁的偏差特征也可能会影响模型，但对年龄分箱之后就可以避免上述问题，增加模型鲁棒性。