集成学习

bagging

数据集:有放回地随机抽取m个样本组成一个训练集
分类器:多个训练集生成多个分类器,这个过程可以并行
聚合:最终决策通过多个分类器投票表决产生

  • 多数表决的理论说明:(统计学习方法中用来分析最近邻的多数表决)
    若分类的损失函数为0-1损失函数,分类函数为

[it{f}: mathbb{R}^n ightarrow {c_1,c_2,...,c_k} ]

误分类的概率为

[P\,(Y eqit{f}\,(X)) = 1 - P(Y = it{f}\,(X)) ]

k个分类器投票表决的误分类概率

[frac{1}{k}sumlimits_{x_i in N_{\,k}(x)} I(y_i eq c_j) = 1 - frac{1}{k}sumlimits_{x_i in N_{\,k}(x)}I(y_i = c_j) ]

要使误分类率最小即经验风险最小,即使(sumlimits_{x_i in N_{\,k}(x)}I(y_i = c_j))最大,所以多数表决规则等价于经验风险最小化

boosting

stacking

Ref:

《统计学习方法》

-------------------------------------------------------------逆水行舟,不进则退。
原文地址:https://www.cnblogs.com/alilliam/p/11504473.html