决策树

　　决策树可表示为给定特征条件下类的条件概率分布。即，将特征空间划分为互不相交的单元，每个单元对应于决策树中一条从根节点到叶节点的路径。每个单元对应一个条件概率分布。一个好的决策树在叶节点上的条件概率（即一个单元内的条件概率）应该偏向某个类，即保证叶子节点内的数据的熵很小。

　　决策树的学习包括三步：特征选择，决策树的生成，决策树的剪枝。

　　不同的决策树算法有不同的特征选择的方式；

　　决策树的生成是为了与训练数据很好的拟合，相当于求局部最优；

　　决策树的剪枝是为了降低模型复杂度，使模型对未知数据有更好的预测能力，相当于求全局最优。

　　　　（1）信息增益的定义

　　　　　　（2）理解为什么信息增益能够作为特征选择的准则

　　　　　　（3）给出数据集D和特征A，如何计算信息增益？（公式）

　　　　 (1) 信息增益比的定义（公式）

　　　　　　（2）原文中写：使用信息增益的来选择特征，会存在偏向于选择取值较多的特征的问题，使用信息增益比可以对这一问题校正。问题是为什么信息增益会偏向于选择取值较多的特征？又为什么信息增益比可以校正？

　　　　　　(1) 基尼指数的定义（公式）

　　　　　（2）给定样本集合D，如何计算基尼指数？（公式）

　　　　　（3）如何计算特征A条件下集合D的基尼指数？（公式）（注意这里是根据特征A是否取某一值a来划分的）

　　　　　（3）基尼指数、熵之半、分类误差率的对比图

　　　　　（1）ID3生成算法流程（注意什么时候终止递归）

　　　　　（2）C4.5生成算法流程（与（1）的区别：使用了不同方法选择特征）

　　　　　（3）CART生成算法流程（与（1）的区别：使用了不同方法选择特征，除了选择最优特征，还要选择最优切分点；每次只生成两个子节点，最终生成的是一颗二叉树）

　　　　　（1）决策树学习的损失函数的定义（公式）：训练数据的误差+模型复杂度

　　　　　（2）CART剪枝算法：

　　　　　　　　注意点：为什么要减去g(t)最小的节点Tt，得到子树T1，并把g(t)作为α？

　　　　　　　　因为当α为g(t)时，最优子树一定是T1，原因是其他节点的g(t)都大于α，减去以后损失函数反而增大。

　　　　　　　　问题是：剪枝前后的损失函数值都是一样的，为什么还要剪枝。

　　　　　（3）ID3和C4.5的剪枝书中没有细讲，但是算法基本类似，只是C(t)计算有差异。

　　3.1 回归树的模型

　　　　（1）回归树的模型定义（公式）

　　　（2）平方误差表示对训练数据的预测误差（公式）

　　3.2 最小二乘回归树的生成算法

　　　　　注意点：a 对于一个给定的划分单元，这个单元上的最优c值等于这个单元内所有输入实例对应的输出y的均值（公式），这步要会推（二次函数求最值）

　　　　　　　　　b 算法相当于尝试所有的切分变量和切分点，可以算出每种切分方案对应的最优c值，进而算出每种方案对应的平方误差（公式），然后选择最小误差的切分方案。

　　　　　　　　　c 递归进行