香农信息熵(entropy)初步认识

首先区分自信息量和源信息量。一个随机变量有多个取值,每个取值的信息量为自信息量,所有取值信息量的加权平均(即数学期望)即是这个随机变量(源)的信息量。

什么是信息量?可以近似地将不确定性视为信息量。一个消息带来的不确定性大,就是带来的信息量大。比如,带来一个信息:x=sun raise in east,其概率p(x)=1,那么是一句废话,信息量视为0。带来另一个信息:y=明天有一个老师要抽查作业------带来了很多不确定性——8个老师,其中一个要抽查,另外7个不抽查,那么就值得我去思索判断推理这其中的信息了------高不确定性,高信息量。

如何量化自信息量?用公式了 I(x)= -p(x)*log2(p(x))  【采用负的log2,使得整个函数其范围0<=I(x)<=1,符合直观感受,具体的就不累述了,忘了就看资料】

如何量化源信息量(熵)?将所有自信息量取数学期望即可,表示为H(x),公式就不写了。

那么,可以认为熵小的信息量少,确定性大。而这,正是我们在决策树中确定根特征的因素——选择熵小的特征做分类依据,可以更加确定地圈定待分数据的类别——这真是我们监督学习中分类的目的。(误;下文更更正)

选择熵小的做根特征后,按这个特征分出branch,每个branch再选择另外熵小的做第二个根特征,以此类推,最后比较准确地确定类别。

但 note:不需要按所有特征来生成树,因为这样会有"过度匹配"、‘高射炮打蚊子’问题,反而不准(具体的以后会设计)。

加油吧!

------------------------------------------------------------更正1---------------------------------------------------------------

根特征的选择,是靠信息增益而不是熵。信息增益=熵-条件熵,也就是给出一个条件后,信息不确定性的减小程度!当我们给出一个特征来分类时,若信息增益大也就是分类的不确定性减少程度大,那么我们就选它来做根特征,从而更快确定分类。

从这出错误可以看出b站appanch团队对《machine learning in action》的解读可信度很低,不可信赖,但当做辅助尚可。

另外,补充有关决策树的几个名词,叶节点:分支的最末端,在决策树里反映为类;内部节点,branch后任可branch的节点,反映为另外一个特征属性。

原文地址:https://www.cnblogs.com/dumbbirds/p/7589573.html