集成学习理解

1.集成学习概述

集成学习的思想是：对于训练数据集，我们通过训练若干个个体学习器，通过一定的结合策略，就可以最终形成一个强学习器，以达到博采众长的目的。
集成学习有两个主要的问题需要解决，第一是如何得到若干个个体学习器，第二是如何选择结合策略，将这些个体学习器集合成一个强学习器。

2. 个体学习器

个体学习器有两种选择，第一种是所有个体学习器是同一种类的，比如都是决策数学习器或者都是神经网络学习器，这种称之为同质学习器。第二种即学习器不是同一种类的，即异质学习器。
同质个体学习器应用最为广泛，一般的集成方法都是同质个体学习器。同质个体学习器使用较为广泛的是决策数和神经网络。同质个体学习器按照之间是否存在依赖关系可以分为两类： 第一类是个体学习器之间存在强依赖关系，一系列个体学习器基本都需要串行生成，代表算法是 boosting系列算法；第二个是个体学习器之间不存在强依赖关系，个体学习器之间并行生成，代表算法是bagging和随机森林算法。

3.集成学习之boosting

Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1，根据弱学习的学习误差率表现来更新训练样本的权重，使得之前弱学习器1学习误差率高的训练样本点的权重变高，使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2.，如此重复进行，直到弱学习器数达到事先指定的数目T，最终将这T个弱学习器通过集合策略进行整合，得到最终的强学习器。

4.集成学习之bagging

Bagging的算法原理和 boosting不同，它的弱学习器之间没有依赖关系，可以并行生成。bagging的个体学习器的训练集是通过随机采样得到的，对于n个采样集得到n个弱学习器，再对这些学习器通过结合策略来得到最终的强学习器。
随机森林是bagging的一个特化进阶版所谓的特化是因为随机森林的弱学习器都是决策树，所谓的特化是指随机森林在bagging的样本随机采样基础上，有加上了额特征的随机的选择，其基本思想没有脱离bagginge的范畴。

5.集成学习的策略

1.平均法

对于回归问题，将预测结果求平均值

2.投票法

对于预测问题，常采用投票法。简单的相对多数投票法和略复杂的绝对多数投票法。

3.学习法

如果有一天我们淹没在茫茫人海中庸碌一生，那一定是我们没有努力活得丰盛