决策树

决策树是应用最广的归纳推理算法之中的一个,它是一种逼近离散函数方法,对噪声数据有非常好的鲁棒性,可以学习析取表达式,广为应用的算法有ID3,ASSISTANT和C4.5。

通常决策树代表实例属性值约束的合取(conjunction)的析取式(disjunction)。树根到树叶的每一条路径相应一组属性測试的合取,而整棵树是这些合取的析取。

主要的ID3算法是通过自顶向下构造决策树进行学习的。首先考虑的问题是哪一个属性将在树的根节点測试。为解决这一问题,使用统计測试来确定每个实例属性单独分类训练样本的能力。将分类能力最好的属性作为树的跟节点,之后根节点属性的每个可能值会产生一个分支,然后把训练例子排列到适当的分支下,反复整个过程,用每个分支结点关联的训练样本来选择最佳属性。这是对合格决策树的贪婪搜索,也就是说算法从不回溯又一次考虑曾经的选择。

那么,怎样确定哪一个属性具有最佳分类能力呢?衡量属性价值的好的定量标准是什么?我们使用“信息增益(information gain)”来作为衡量标准。用来衡量属性分类样本的能力。ID3算法在增长树的每一步使用这个标准来选择最佳分类的属性。

为精确定义信息增益。我们先定义信息论中广泛使用的一个度量标准——熵(entropy),它刻画了随意样本集的纯度。

给定包括关于某个目标概念的正反样本的样本集S  。那么S