分类模型之决策树

决策树是基于树结构来进行决策的，一般的，决策树包含一个根结点，若干个内部结点和若干个叶结点，叶结点对应于决策结果，其他每个结点则对应于一个属性测试，每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集。从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一颗泛化能力强，即处理未见示例能力强的决策树。

剪枝处理：

剪枝是决策树学习算法对付过拟合的手段，基本策略有预剪枝和后剪枝。预剪枝是指在决策树生成的过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点；后剪枝则是先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

决策树：

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。对数据的离群点具有稳健性，算法可以接受不同类型和不同取值范围的数据，不需要将数据转化成同一类型，或是将数据规范化到特定的值域。

缺点：可能会产生过度匹配问题。

适用数据类型：数值型和标称型。

信息增益：

在划分数据集之前之后信息发生的变化称谓信息增益，知道如何计算信息增益，我们就可以计算每个特征值划分数据集获得的信息增益，获得信息增益最高的特征就是最好的选择。

参考资料：

1、机器学习实战

2、机器学习