机器学习面试问题整理(4) — Emsenble learning集成学习

概述

基本推导和理论还是以看李航老师的《统计学习方法》为主。
各种算法的原理,推荐理解到可以手撕的程度。
以下为通过网络资源搜集整理的一些问题及答案,准备的有些仓促,没能记录所有资料的来源(侵删)

集成学习
  • 优点:具有较高的准去率
  • 缺点:模型的训练过程比较复杂,效率不是很高。
  • 类别:
    • Boosting (提高弱分类), 易受噪声干扰
      • Adaboost, GBDT, XGBOOST
    • Bagging (bootstrap aggregating, 随机有放回) 简单理解,就是分段函数的概念:用不同的模型拟合不同部分的训练集
      • 随机森林
树集成模型有哪几种形式?

Boosting和bagging

Boosting和bagging的区别

https://www.cnblogs.com/liuwu265/p/4690486.html

Bagging为什么能减小方差

对回归问题,计算上述模型的均值作为最后的结果
Var(X/N) = 1/N Var(X)

原文地址:https://www.cnblogs.com/lestatzhang/p/10611331.html