初级算法梳理 -【任务3 决策树算法梳理】

任务内容

1.信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)
2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景
3.回归树原理
4.决策树防止过拟合手段
5.模型评估
6.sklearn参数详解Python绘制决策树

具体解释

信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)

  • 熵表示的是随机变量不确定性的度量。熵越大,随机变量的不确定性也就越大。
  • 联合熵和条件熵
    两个随机变量X,Y的联合分布形成联合熵。
    即在已知一个变量的前提下,另一个变量的不确定性。
  • 信息增益
    熵值减去条件熵值,代表了在一个条件下,信息复杂度(不确定性)减少的程度。
  • 基尼不纯度
    基尼不纯度为这个样本被选中的概率乘以它被分错的概率;可以作为衡量系统混乱程度的标准,值越小,代表分类效果越好,值为0,表示只有一个类别。

2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景
决策树概念:所谓决策树,顾名思义,就是一种树,一种依托于策略抉择而建立起来的树。在机器学习中,决策树是一种预测模型,代表的是一种对象特征属性与对象目标值之间的一种映射关系。决策树仅有单一输出,如果有多个输出,可以分别建立独立的决策树以处理不同的输出。

  • ID3算法
    原理:
    ID3算法是J. Ross Quinlan于1975提出的一种贪心算法,用来构造决策树。其建立在“奥卡姆剃刀”的基础上,即越是小型的决策树越优于大的决策树。ID3算法中根据特征选择和信息增益评估,每次选择信息增益最大的特征作为分支标准。
    应用场景:
    ID3算法可用于划分标称型数据集,没有剪枝的过程,为了去除过度数据匹配的问题,可通过裁剪合并相邻的无法产生大量信息增益的叶子节点(例如设置信息增益阀值)。

  • C4.5
    原理:C4.5算法是对ID3算法的改进,C4.5克服了ID3的2个缺点:
    用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性
    不能处理连续属性
    对于离散特征,C4.5算法不直接使用信息增益,而是使用“增益率”(gain ratio)来选择最优的分支标准。
    应用场景:

  • CART分类树
    原理:不同于前两种算法预测结果为分类结果,CART的预测结果为概率值。并且改进了前两种算法中的一个缺点:使用信息增益或信息增益比时,可选值多的特征往往有更高的信息增益。所以在CART树中,不再采用信息增益或信息增益比,而是在做回归时采用平方误差最小化准则,在做分类时采用基尼指数最小化准则。

3.回归树原理
https://www.jiqizhixin.com/articles/2017-07-31-3

4.决策树防止过拟合手段
剪枝是决策树学习算法对付“过拟合”的主要手段。决策树剪枝的基本策略有“预剪枝”和“后剪枝”。
预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点;后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。

5.模型评估
https://blog.csdn.net/qq_26898461/article/details/50639880

  1. sklearn参数详解,Python绘制决策树
    https://cloud.tencent.com/developer/article/1146079
原文地址:https://www.cnblogs.com/everfight/p/ML_task3.html