机器学习-决策树概念、信息熵、信息增益

决策树概念:

  决策树是在已知各种情况发生概率的基础上,通过构成决策树求取净现值的期望值大于等于零的概率,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一颗树的枝干,故称决策树

  三个关键点:

  1. 已知的各种情况的概率分布
  2. 求解最大期望
  3. 决策树是一种求解方法

信息熵概念:

  表示信息的不确定度

  信息学之父香农引入了信息熵的概念,并给出了计算信息熵的数学公式:

p(i|t) 代表了节点 t 为分类 i 的概率,其中 log2 为取以 2 为底的对数。这里我们不是来介绍公式的,而是说存在一种度量,它能帮我们反映出来这个信息的不确定度。当不确定性越大时,它所包含的信息量也就越大,信息熵也就越高。

举个例子,假设有 2 个集合:

  • 集合 1:5 次去打篮球,1 次不去打篮球;
  • 集合 2:3 次去打篮球,3 次不去打篮球。

在集合 1 中,有 6 次决策,其中打篮球是 5 次,不打篮球是 1 次。那么假设:类别 1 为“打篮球”,即次数为 5;类别 2 为“不打篮球”,即次数为 1。那么节点划分为类别1的概率是 5/6,为类别2的概率是1/6,带入上述信息熵公式可以计算得出:

同样,集合 2 中,也是一共 6 次决策,其中类别 1 中“打篮球”的次数是 3,类别 2“不打篮球”的次数也是 3,那么信息熵为多少呢?我们可以计算得出:

从上面的计算结果中可以看出,信息熵越大,纯度越低。当集合中的所有样本均匀混合时,信息熵最大,纯度最低。

 信息增益:

  通过划分带来纯度的提高,降低信息熵。

  计算公式:父节点的信息熵减去所有子节点的信息熵。

公式中,D代表父节点,Di代表子节点,Gain(D,a) 中的a作为D节点的属性选择。

假设,D 天气=晴的时候,会有5次去打球,5次不打球。其中,D1 刮风=是:2次打篮球,1次不打篮球;D2 刮风 = 否:3次打篮球,4次不打篮球。那么,a代表节点的属性:即天气=晴。

针对上图这个例子,D作为节点的信息增益为:

转自:https://www.cnblogs.com/molieren/articles/10664954.html

原文地址:https://www.cnblogs.com/gengyufei/p/14034898.html