机器学习--决策树

  • 决策树 decision tree ,是一种监督式,非参数的机器学习算法,它可以用作分类器,也可以用作回归。当然,也可以从最终生成的书中学习规则。
  • 决策树的构建,就是在寻找一种最简单的特征安排的拓扑结构,即在树中如何安置各个属性的位置。
  • 决策树的基本思想:在构造书的每一步,选择导致“不纯度(impurity measure)降低最多”的划分方式。
  • 决策树的三类具体算法:CART算法,ID3算法和C4.5算法

这三种算法的主要区别就在于对不纯度的定义不同:

CART算法:Gini指数

ID3算法:熵,熵(entropy)是一种不确定度的度量,在这里也可以用来表示不纯度,不纯度的降低就是熵增益,又叫做信息增益。

              但是,单纯只用信息增益来进行划分会出现问题:偏向选择“具有多值属性”的划分,为了解决这个问题,出现了C4.5算法。

C4.5算法:利用信息增益来代替ID3中的信息增益。

 

     

原文地址:https://www.cnblogs.com/ivywenyuan/p/4372302.html