bagging
数据集:有放回地随机抽取m个样本组成一个训练集
分类器:多个训练集生成多个分类器,这个过程可以并行
聚合:最终决策通过多个分类器投票表决产生
- 多数表决的理论说明:(统计学习方法中用来分析最近邻的多数表决)
若分类的损失函数为0-1损失函数,分类函数为
[it{f}: mathbb{R}^n
ightarrow {c_1,c_2,...,c_k}
]
误分类的概率为
[P\,(Y
eqit{f}\,(X)) = 1 - P(Y = it{f}\,(X))
]
k个分类器投票表决的误分类概率
[frac{1}{k}sumlimits_{x_i in N_{\,k}(x)} I(y_i
eq c_j) = 1 - frac{1}{k}sumlimits_{x_i in N_{\,k}(x)}I(y_i = c_j)
]
要使误分类率最小即经验风险最小,即使(sumlimits_{x_i in N_{\,k}(x)}I(y_i = c_j))最大,所以多数表决规则等价于经验风险最小化
boosting
stacking
Ref:
《统计学习方法》