决策树

1970年代，一个叫昆兰的大牛找到了用信息论中的熵来度量决策树的决策选择过程，方法一出，它的简洁和高效就引起了轰动，昆兰把这个算法叫做ID3。

熵

越不确定的事物，它的熵就越大，类似方差。公式：

[ H(X) = -sum_{i=1}^{n}p_{i}log(p_{i}) ]

联合熵：

[H(X，Y) = -sum_{i=1}^{n}p(x_{i},y_{i})log(p(x_{i},y_{i})) ]

条件熵，条件熵类似于条件概率,它度量了我们的X在知道Y以后剩下的不确定性,也叫信息增益：

特征数越多的特征对应的特征熵越大，它作为分母，可以校正信息增益容易偏向于取值较多的特征的问题。

[H(X|Y) = -sum_{i=1}^{n}p(x_{i},y_{i})log(p(x_{i}|y_{i}))=sum_{i=1}^{n}p(y_i)H(X|y_i) ]

ID3算法思路

输入的是m个样本，样本输出集合为D，每个样本有n个离散特征，特征集合即为A，输出为决策树T。

1.初始化信息增益的阈值ϵ
2.判断样本是否为同一类输出Di，如果是则返回单节点树T。标记类别为Di。
3.判断特征是否为空，如果是则返回单节点树T，标记类别为样本中输出类别D实例数最多的类别。
4.计算A中的各个特征（一共n个）对输出D的信息增益，选择信息增益最大的特征Ag。
5.如果Ag的信息增益小于阈值ϵ，则返回单节点树T，标记类别为样本中输出类别D实例数最多的类别。
6.否则，按特征Ag的不同取值Agi将对应的样本输出D分成不同的类别Di。每个类别产生一个子节点。对应特征值为Agi。返回增加了节点的数T。
7.对于所有的子节点，令D=Di,A=A−{Ag}递归调用2-6步，得到子树Ti并返回。

决策树ID3算法的不足

ID3没有考虑连续特征，比如长度，密度都是连续值，无法在ID3运用。这大大限制了ID3的用途。
ID3采用信息增益大的特征优先建立决策树的节点。很快就被人发现，在相同条件下，取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值，各为1/2，另一个变量为3个值，各为1/3，其实他们都是完全不确定的变量，但是取3个值的比取2个值的信息增益大。如果校正这个问题呢？
ID3算法对于缺失值的情况没有做考虑
没有考虑过拟合的问题

ID3 算法的作者昆兰基于上述不足，对ID3算法做了改进，这就是C4.5算法.

决策树C4.5算法

对于第一个问题，不能处理连续特征， C4.5的思路是将连续的特征离散化。比如m个样本的连续特征A有m个，从小到大排列为a_1,a_2,...,a_m,则C4.5取相邻两样本值的平均数，一共取得m-1个划分点，其中第i个划分点Ti表示Ti表示为：Ti=(a_i+a_i+1)/2。对于这m-1个点，分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。比如取到的增益最大的点为a_t,则小于a_t的值为类别1，大于a_t的值为类别2，这样我们就做到了连续特征的离散化。要注意的是，与离散属性不同的是，如果当前节点为连续属性，则该属性后面还可以参与子节点的产生选择过程。
信息增益作为标准容易偏向于取值较多的特征的问题。我们引入一个信息增益比的变量I_R(X,Y)，它是信息增益和特征熵的比值。表达式如下：

[I_{R}(D，A) = frac {I(A,D)}{H_{A}(D)} ]
其中D为样本特征输出的集合，A为样本特征，对于特征熵H_A(D)表达式如下：

[H_{A}(D) = -sum_{i-1}^{n} frac {|D_i|}{|D|}log_2 frac {|D_i|}{|D|} ]

；信息增益：

[I(A,D) = H(A) - H(A|D) ]

其中n为特征A的类别数,Di为特征A的第i个取值对应的样本个数,|D|为样本个数。

对于某一个有缺失特征值的特征A。C4.5的思路是将数据分成两部分，对每个样本设置一个权重（初始可以都为1），然后划分数据，一部分是有特征值A的数据D1，另一部分是没有特征A的数据D2. 然后对于没有缺失特征A的数据集D1来和对应的A特征的各个特征值一起计算加权重后的信息增益比，最后乘上一个系数，这个系数是无特征A缺失的样本加权后所占加权总样本的比例。....将缺失特征的样本同时划分入所有的子节点，不过将该样本的权重按各个子节点样本的数量比例来分配。比如缺失特征A的样本a之前权重为1，特征A有3个特征值A1,A2,A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则a同时划分入A1，A2，A3。对应权重调节为2/9,3/9, 4/9。
对于第4个问题，C4.5引入了正则化系数进行初步的剪枝。

C4.5算法的不足与思考

C4.5虽然改进或者改善了ID3算法的几个主要的问题，仍然有优化的空间。

由于决策树算法非常容易过拟合，因此对于生成的决策树必须要进行剪枝。剪枝的算法有非常多，C4.5的剪枝方法有优化的空间。思路主要是两种，一种是预剪枝，即在生成决策树的时候就决定是否剪枝。另一个是后剪枝，即先生成决策树，再通过交叉验证来剪枝。CART树主要采用的是后剪枝加上交叉验证选择最合适的决策树。
C4.5生成的是多叉树，即一个父节点可以有多个节点。很多时候，在计算机中二叉树模型会比多叉树运算效率高。如果采用二叉树，可以提高效率。
C4.5只能用于分类，如果能将决策树用于回归的话可以扩大它的使用范围。
C4.5由于使用了熵模型，里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算。如果能够加以模型简化可以减少运算强度但又不牺牲太多准确性的话，那就更好了。

CART分类树算法

CART分类树算法使用基尼系数来代替信息增益比，基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。这和信息增益(比)是相反的。计算量比计算熵更小。

具体的，在分类问题中，假设有K个类别，第k个类别的概率为pk, 样本为D,, 第k个类别的数量为Ck则基尼系数的表达式为

[Gini(p)=sum_{k=1}^{K}p_k(1-p_{k}) = 1-sum_{k=1}^{K}p_k^2=1-sum_{k=1}^{K}(frac {C_k}{D})^2 ]

特别的，对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分，则在特征A的条件下，D的基尼系数表达式为：

[Gini(D,A) = frac{|D_1|}{|D|}Gini(D_1) + frac{|D_2|}{|D|}Gini(D_2) ]

为了进一步简化，CART分类树算法每次仅仅对某个特征的值进行二分，而不是多分，这样CART分类树算法建立起来的是二叉树，而不是多叉树。这样一可以进一步简化基尼系数的计算，二可以建立一个更加优雅的二叉树模型。

CART分类树建立算法的具体流程

算法输入是训练集D，基尼系数的阈值，样本个数阈值。输出是决策树T。

我们的算法从根节点开始，用训练集递归的建立CART树。

对于当前节点的数据集为D，如果样本个数小于阈值或者没有特征，则返回决策子树，当前节点停止递归。
计算样本集D的基尼系数，如果基尼系数小于阈值，则返回决策树子树，当前节点停止递归。
计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数，对于离散值和连续值的处理方法和基尼系数的计算见第二节。缺失值的处理方法和上篇的C4.5算法里描述的相同。
在计算出来的各个特征的各个特征值对数据集D的基尼系数中，选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值，把数据集划分成两部分D1和D2，同时建立当前节点的左右节点，做节点的数据集D为D1，右节点的数据集D为D2.
对左右的子节点递归的调用1-4步，生成决策树。

对于生成的决策树做预测的时候，假如测试集里的样本A落到了某个叶子节点，而节点里有多个训练样本。则对于A的类别预测采用的是这个叶子节点里概率最大的类别。

CART回归树建立算法

CART回归树和CART分类树的建立和预测的区别主要有下面两点：

1)连续值的处理方法不同

2)决策树建立后做预测的方式不同。

对于连续值的处理，我们知道CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型，但是对于回归模型，我们使用了常见的和方差的度量方式，CART回归树的度量目标是，对于任意划分特征A，对应的任意划分点s两边划分成的数据集D1和D2，求出使D1和D2各自集合的均方差最小，同时D1和D2的均方差之和最小所对应的特征和特征值划分点。表达式为：

[underbrace{min}_{A,s}Bigg[underbrace{min}_{c_1}sumlimits_{x_i in D_1(A,s)}(y_i - c_1)^2 + underbrace{min}_{c_2}sumlimits_{x_i in D_2(A,s)}(y_i - c_2)^2Bigg] ]

其中，c1为D1数据集的样本输出均值，c2为D2数据集的样本输出均值。

对于决策树建立后做预测的方式，上面讲到了CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别，它采用的是用最终叶子的均值或者中位数来预测输出结果。

CART树算法的剪枝

CART树的剪枝算法可以概括为两步，第一步是从原始决策树生成各种剪枝效果的决策树，第二部是用交叉验证来检验剪枝后的预测能力，选择泛化预测能力最好的剪枝后的数作为最终的CART树。

首先我们看看剪枝的损失函数度量，在剪枝的过程中，对于任意的一刻子树T,其损失函数为：

[C_{alpha}(T_t) = C(T_t) + alpha |T_t| ]

其中，α为正则化参数，这和线性回归的正则化一样。C(Tt)C(Tt)为训练数据的预测误差，分类树是用基尼系数度量，回归树是均方差度量。|Tt|是子树T的叶子节点的数量。

当α=0时，即没有正则化，原始的生成的CART树即为最优子树。当α=∞时，即正则化强度达到最大，此时由原始的生成的CART树的根节点组成的单节点树为最优子树。当然，这是两种极端情况。一般来说，α越大，则剪枝剪的越厉害，生成的最优子树相比原生决策树就越偏小。对于固定的α，一定存在使损失函数)Cα(T)最小的唯一子树。

看过剪枝的损失函数度量后，我们再来看看剪枝的思路，对于位于节点t的任意一颗子树TtTt，如果没有剪枝，它的损失是:

[C_{alpha}(T_t) = C(T_t) + alpha |T_t| ]

如果将其剪掉，仅仅保留根节点，则损失是:

[C_{alpha}(T) = C(T) + alpha ]

最后我们看看CART树的交叉验证策略。上面我们讲到，可以计算出每个子树是否剪枝的阈值αα，如果我们把所有的节点是否剪枝的值αα都计算出来，然后分别针对不同的α所对应的剪枝后的最优子树做交叉验证。这样就可以选择一个最好的α，有了这个α，我们就可以用对应的最优子树作为最终结果。

剪枝算法过程如下：

1）初始化αmin=∞，最优子树集合ω={T}。

2）从叶子节点开始自下而上计算各内部节点t的训练误差损失函数Cα(Tt)（回归树为均方差，分类树为基尼系数）, 叶子节点数|Tt|，以及正则化阈值

[alpha= min{frac{C(T)-C(T_t)}{|T_t|-1}, alpha_{min}} ]

, 更新αmin=α;

得到所有节点的α值的集合M。

4）从M中选择最小的值αk，自上而下的访问子树t的内部节点，如果

[frac{C(T)-C(T_t)}{|T_t|-1} leq alpha_k ]

时，进行剪枝。并决定叶节点t的值。如果是分类树，则是概率最高的类别，如果是回归树，则是所有样本输出的均值。这样得到αk对应的最优子树Tk

5）最优子树集合ω=ω∪Tk， M=M−{αk}。

如果M不为空，则回到步骤4。否则就已经得到了所有的可选最优子树集合ω.
采用交叉验证在ω选择最优子树Tα.

CART缺点

1）应该大家有注意到，无论是ID3, C4.5还是CART,在做特征选择的时候都是选择最优的一个特征来做分类决策，但是大多数，分类决策不应该是由某一个特征决定的，而是应该由一组特征决定的。这样决策得到的决策树更加准确。这个决策树叫做多变量决策树(multi-variate decision tree)。在选择最优特征的时候，多变量决策树不是选择某一个最优特征，而是选择最优的一个特征线性组合来做决策。这个算法的代表是OC1，这里不多介绍。

2）如果样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习里面的随机森林之类的方法解决。　

随机森林

集成算法

Bagging 并行训练，取平均
Boosting 从弱学习器开始加强，通过加权进行训练，前面分类输出作为后面输入。
Stacking 聚合多个分类或回归模型，第一阶段得到各分类器结果，第二阶段根据结果再做分类器，得到最终结果。

目前较好算法均为集成算法，但计算量较大。

随机森林就是决策树的Bagging。

随机： 数据采样随机，特征选择随机。

优点：

可以用来解决分类和回归问题：随机森林可以同时处理分类和数值特征。
抗过拟合能力：通过平均决策树，降低过拟合的风险性。
只有在半数以上的基分类器出现差错时才会做出错误的预测：随机森林非常稳定，即使数据集中出现了一个新的数据点，整个算法也不会受到过多影响，它只会影响到一颗决策树，很难对所有决策树产生影响。

缺点：

据观测，如果一些分类/回归问题的训练数据中存在噪音，随机森林中的数据集会出现过拟合的现象。
比决策树算法更复杂，计算成本更高。
由于其本身的复杂性，它们比其他类似的算法需要更多的时间来训练。

决策树回归

用决策树，做回归问题时，可以通过叶子节点平均数的方式来作为输出。