机器学习之决策树

一、熵、条件熵、信息增益

数学概念：https://zhuanlan.zhihu.com/p/41134986

二、决策树分类

我们在构造决策树的时候，会基于纯度来构建。而经典的 “不纯度”的指标有三种，分别是信息增益（ID3 算法）、信息增益率（C4.5 算法）以及基尼指数（Cart 算法）。
信息增益：加入的某种特征可以减少的信息熵
　　计算公式，是父亲节点的信息熵减去所有子节点的信息熵

1.ID3:使用的分类标准是信息增益

缺点:

ID3 没有剪枝策略，容易过拟合 (过拟合/欠拟合解释：https://blog.csdn.net/xuaho0907/article/details/88649141)
信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于 1。因为每一个样本的编号都是不同的，也就是说，来了一个预测样本，你只要告诉我编号，其它特征就没有用了，这样生成的决策树显然不具有泛化能力。
只能用于处理离散分布的特征；
没有考虑缺失值。

https://www.cnblogs.com/yonghao/p/5096358.html 中写道：

　　对于连续型数据，ID3原本是没有处理能力的，只有通过离散化将连续性数据转化成离散型数据再进行处理。可以直接采用等距离数据划分的离散化方法。该方法先对数据进行排序，然后将连续型数据划分为多个区间，并使每一个区间的数据量基本相同

举例：

Q1：为什么“对可取值数目较多的特征有所偏好”？

2. C4.5

C4.5 算法最大的特点是克服了 ID3 对特征数目的偏重这一缺点，引入信息增益率来作为分类标准。
但是，增益率可能对取值较小的属性有所偏好。因此，C4.5不是直接用增益率最大的作为划分属性，而是用启发式：先从候选划分属性中找出【信息增益】高于平均水平的属性，再从中选择【信息增益率】最高的。

Q2：为什么可以 "克服了 ID3 对特征数目的偏重" 这一缺点?

更详细可以参考：https://blog.csdn.net/u013164528/article/details/44359677

特点：

信息增益率
悲观剪枝
可以对连续属性进行处理
可以处理缺失值

3. CART分类树：基尼系数