决策树复习思路

1,信息增益和信息增益比(熵和经验熵)

2,ID3算法思路,缺点

  1,ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3的用途。

  2,ID3采用信息增益大的特征优先建立决策树的节点

  3,ID3算法对于缺失值的情况没有做考虑

  4,没有考虑过拟合的问题

3,C4.5如何解决连续值的问题

4,样本缺失数据处理,一是在样本某些特征缺失的情况下选择划分的属性,二是选定了划分属性,对于在该属性上缺失特征的样本的处理。

6,C4.5缺点

  1,C4.5生成的是多叉树,即一个父节点可以有多个节点。很多时候,在计算机中二叉树模型会比多叉树运算效率高。如果采用二叉树,可以提高效率。

  2,C4.5只能用于分类,如果能将决策树用于回归的话可以扩大它的使用范围。

  3,C4.5由于使用了熵模型,里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算。如果能够加以模型简化可以减少运算强度但又不牺牲太多准确性的话,那就更好了。

  4,由于决策树算法非常容易过拟合,因此对于生成的决策树必须要进行剪枝。

7,GINI系数

8,CART处理连续值,该属性还可以参与子节点的产生的过程

9,CART离散特征也参与多次决策树的建立

10,CART回归树(1,连续纸值的处理方式不同,预测方式不同)

11,CART树剪枝

12,CART缺点

13,决策树算法小结

14,参考决策树算法原理(上) 决策树算法原理(下)

15,实战源参考:https://blog.csdn.net/cxjoker/article/details/79501887

原文地址:https://www.cnblogs.com/xueyunqing/p/10405026.html