决策树

1 将决策树看作条件概率分布

  决策树可表示为给定特征条件下类的条件概率分布。即,将特征空间划分为互不相交的单元,每个单元对应于决策树中一条从根节点到叶节点的路径。每个单元对应一个条件概率分布。一个好的决策树在叶节点上的条件概率(即一个单元内的条件概率)应该偏向某个类,即保证叶子节点内的数据的熵很小。

2 决策树的学习

  决策树的学习包括三步:特征选择,决策树的生成,决策树的剪枝。

  不同的决策树算法有不同的特征选择的方式;

  决策树的生成是为了与训练数据很好的拟合,相当于求局部最优;

  决策树的剪枝是为了降低模型复杂度,使模型对未知数据有更好的预测能力,相当于求全局最优。

  2.1 特征选择

    2.1.1 以信息增益为准则的特征选择

           (1)信息增益的定义

       (2)理解为什么信息增益能够作为特征选择的准则

       (3)给出数据集D和特征A,如何计算信息增益?(公式)

    2.1.2 以信息增益比为准则的特征选择

           (1) 信息增益比的定义(公式)

      (2)原文中写:使用信息增益的来选择特征,会存在偏向于选择取值较多的特征的问题,使用信息增益比可以对这一问题校正。问题是为什么信息增益会偏向于选择取值较多的特征?又为什么信息增益比可以校正?

       2.1.3 以基尼指数为准则的特征选择

      (1) 基尼指数的定义(公式)

      (2)给定样本集合D,如何计算基尼指数?(公式)

      (3)如何计算特征A条件下集合D的基尼指数?(公式)(注意这里是根据特征A是否取某一值a来划分的)

      (3)基尼指数、熵之半、分类误差率的对比图

  2.2 决策树的生成

      (1)ID3生成算法流程(注意什么时候终止递归)

      (2)C4.5生成算法流程(与(1)的区别:使用了不同方法选择特征)

      (3)CART生成算法流程(与(1)的区别:使用了不同方法选择特征,除了选择最优特征,还要选择最优切分点;每次只生成两个子节点,最终生成的是一颗二叉树)

  2.3 决策树的剪枝

      (1)决策树学习的损失函数的定义(公式):训练数据的误差+模型复杂度

      (2)CART剪枝算法:

        注意点:为什么要减去g(t)最小的节点Tt,得到子树T1,并把g(t)作为α?

        因为当α为g(t)时,最优子树一定是T1,原因是其他节点的g(t)都大于α,减去以后损失函数反而增大。

        问题是:剪枝前后的损失函数值都是一样的,为什么还要剪枝。

      (3)ID3和C4.5的剪枝书中没有细讲,但是算法基本类似,只是C(t)计算有差异。

3 CART回归树

  3.1 回归树的模型

    (1)回归树的模型定义(公式)

      (2)平方误差表示对训练数据的预测误差(公式)

  3.2 最小二乘回归树的生成算法

     注意点:a 对于一个给定的划分单元,这个单元上的最优c值等于这个单元内所有输入实例对应的输出y的均值(公式),这步要会推(二次函数求最值)

         b 算法相当于尝试所有的切分变量和切分点,可以算出每种切分方案对应的最优c值,进而算出每种方案对应的平方误差(公式),然后选择最小误差的切分方案。

         c 递归进行

原文地址:https://www.cnblogs.com/coldyan/p/6049432.html