初级算法梳理 -【任务3 决策树算法梳理】

任务内容

1.信息论基础（熵联合熵条件熵信息增益基尼不纯度）
2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景
3.回归树原理
4.决策树防止过拟合手段
5.模型评估
6.sklearn参数详解Python绘制决策树

具体解释

信息论基础（熵联合熵条件熵信息增益基尼不纯度）

熵表示的是随机变量不确定性的度量。熵越大，随机变量的不确定性也就越大。
联合熵和条件熵
两个随机变量X，Y的联合分布形成联合熵。
即在已知一个变量的前提下，另一个变量的不确定性。
信息增益
熵值减去条件熵值，代表了在一个条件下，信息复杂度（不确定性）减少的程度。
基尼不纯度
基尼不纯度为这个样本被选中的概率乘以它被分错的概率；可以作为衡量系统混乱程度的标准,值越小，代表分类效果越好，值为0，表示只有一个类别。

2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景
决策树概念：所谓决策树，顾名思义，就是一种树，一种依托于策略抉择而建立起来的树。在机器学习中，决策树是一种预测模型，代表的是一种对象特征属性与对象目标值之间的一种映射关系。决策树仅有单一输出，如果有多个输出，可以分别建立独立的决策树以处理不同的输出。

ID3算法
原理：
ID3算法是J. Ross Quinlan于1975提出的一种贪心算法，用来构造决策树。其建立在“奥卡姆剃刀”的基础上，即越是小型的决策树越优于大的决策树。ID3算法中根据特征选择和信息增益评估，每次选择信息增益最大的特征作为分支标准。
应用场景：
ID3算法可用于划分标称型数据集，没有剪枝的过程，为了去除过度数据匹配的问题，可通过裁剪合并相邻的无法产生大量信息增益的叶子节点（例如设置信息增益阀值）。
C4.5
原理：C4.5算法是对ID3算法的改进，C4.5克服了ID3的2个缺点：
用信息增益选择属性时偏向于选择分枝比较多的属性值，即取值多的属性
不能处理连续属性
对于离散特征，C4.5算法不直接使用信息增益，而是使用“增益率”（gain ratio）来选择最优的分支标准。
应用场景：
CART分类树
原理：不同于前两种算法预测结果为分类结果，CART的预测结果为概率值。并且改进了前两种算法中的一个缺点：使用信息增益或信息增益比时，可选值多的特征往往有更高的信息增益。所以在CART树中，不再采用信息增益或信息增益比，而是在做回归时采用平方误差最小化准则，在做分类时采用基尼指数最小化准则。

3.回归树原理
https://www.jiqizhixin.com/articles/2017-07-31-3

4.决策树防止过拟合手段
剪枝是决策树学习算法对付“过拟合”的主要手段。决策树剪枝的基本策略有“预剪枝”和“后剪枝”。
预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点；后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

5.模型评估
https://blog.csdn.net/qq_26898461/article/details/50639880

sklearn参数详解，Python绘制决策树
https://cloud.tencent.com/developer/article/1146079

初级算法梳理 -【任务3 决策树算法梳理】

任务内容

具体解释

信息论基础（熵 联合熵 条件熵 信息增益 基尼不纯度）

信息论基础（熵联合熵条件熵信息增益基尼不纯度）