集成学习

数据集:有放回地随机抽取m个样本组成一个训练集
分类器:多个训练集生成多个分类器，这个过程可以并行
聚合:最终决策通过多个分类器投票表决产生

[it{f}: mathbb{R}^n ightarrow {c_1,c_2,...,c_k} ]

误分类的概率为

[P\,(Y eqit{f}\,(X)) = 1 - P(Y = it{f}\,(X)) ]

k个分类器投票表决的误分类概率

[frac{1}{k}sumlimits_{x_i in N_{\,k}(x)} I(y_i eq c_j) = 1 - frac{1}{k}sumlimits_{x_i in N_{\,k}(x)}I(y_i = c_j) ]

要使误分类率最小即经验风险最小，即使(sumlimits_{x_i in N_{\,k}(x)}I(y_i = c_j))最大，所以多数表决规则等价于经验风险最小化

《统计学习方法》

-------------------------------------------------------------逆水行舟，不进则退。