【机器学习】Boosting和Bagging的差别

boosting和bagging的差别：

bagging中的模型是强模型，偏差低，方差高。目标是降低方差。在bagging中，每个模型的bias和variance近似相同，但是互相相关性不太高，因此一般不能降低Bias，而一定程度上能降低variance。典型的bagging是random forest。

boosting中每个模型是弱模型，偏差高，方差低。目标是通过平均降低偏差。boosting的基本思想就是用贪心法最小化损失函数，显然能降低偏差，但是通常模型的相关性很强，因此不能显著降低variance。典型的Boosting是adaboost，另外一个常用的并行Boosting算法是GBDT（gradient boosting decision tree）。这一类算法通常不容易出现过拟合。

过拟合的模型，通常variance比较大，这时应该用bagging对其进行修正。

欠拟合的模型，通常Bias比较大，这时应该可以用boosting进行修正。使用boosting时，每一个模型可以简单一些。

金融常见的问题，是只用linear regression，这样一般来讲是欠拟合的，因此需要引入一些非线性的特征，欠拟合的模型可以先使用boosting尝试一下，如果效果不好，再使用其他的方法。过拟合的方法，通常使用bagging是会有一定的作用的。