分类模型之决策树

决策树是基于树结构来进行决策的,一般的,决策树包含一个根结点,若干个内部结点和若干个叶结点,叶结点对应于决策结果,其他每个结点则对应于一个属性测试,每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一颗泛化能力强,即处理未见示例能力强的决策树。

剪枝处理:

剪枝是决策树学习算法对付过拟合的手段,基本策略有预剪枝和后剪枝。预剪枝是指在决策树生成的过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点;后剪枝则是先从训练集生成一颗完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。

决策树:

优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。对数据的离群点具有稳健性,算法可以接受不同类型和不同取值范围的数据,不需要将数据转化成同一类型,或是将数据规范化到特定的值域。

缺点:可能会产生过度匹配问题。

适用数据类型:数值型和标称型。

信息增益:

在划分数据集之前之后信息发生的变化称谓信息增益,知道如何计算信息增益,我们就可以计算每个特征值划分数据集获得的信息增益,获得信息增益最高的特征就是最好的选择。

参考资料:

1、机器学习实战

2、机器学习

原文地址:https://www.cnblogs.com/enhaofrank/p/12656620.html