Data Minig --- Decision Tree & ID3 & C4.5 & Gini Index

一、决策树学习（适用于“属性-值”实例且输出值离散）

决策树学习是一种逼近离散值目标函数的方法，这个方法学到的函数称为一棵决策树。学到的决策树可表示为多个if-then过程以提高可读性。主要算法有：ID3、ASSISTANT、C4.5。决策树的节点表示某个属性，每个分支对应一个属性值，叶子结点为实例所属的分类，整个决策树是实例属性值的合取析取式。图例如下：

该决策树的表达式：

二、ID3算法（每次选信息增益最大的属性）

ID3算法步骤：

a.对当前例子集合，计算各属性的信息增益

b.选择信息增益最大的属性Ai

c.在Ai处取相同值的例子归于同一个子集，Ai取几个值就得几个子集

d.依次对每种取值情况下的子集,递归调用建树算法，即返回步骤a

e.若子集的class目标属性相同，则分支为叶子节点，并标上class标签，然后返回调用处。

信息增益Gain(S,A)表示A带来的信息量（熵降低），v∈Values(A)中v是属性A的某个可能值，S_v为该属性值的集合：

[例]决策是否买了电脑，训练数据如下：

其中Gain(age)=0.94-[(5/14)*0.971+(4/14)*0+(5/14)*0.971)=0.246>Gain(student)=0.151>Gain(income)=0.029的信息增益，因此选择age属性。从age节点开始继续迭代选择信息增益最大的属性，直到分到某类时class标签一致为止。