决策树及随机森林（笔记）

决策树就是一层一层的if-else, 数据最好是离散型的

决策树是有监督学习。利用训练集，最终训练为一棵树（叶子节点是类别，中间是属性）

————————————————————————————————————————————————————————————————

决策树的构建方法 id3方法

信息熵的概念：

ID3构建决策树的思想：

分布越均匀，越混乱，熵越大。结点上的数据类值都相同（毫无悬念，系统一点也不混乱，熵最小）

因此一个好的决策树划分，应该是每次都找一个属性划分，这个属性划分完，结点尽量聚集在一类，即划分完以后熵很小。

因此计算熵增益（信息增益）。

用原系统的熵减去划分后系统的熵，找到差距最大的那个属性。

ID3如何终止：

ID3性质，不会回溯，已经选择过的属性，不会被重新计算和考虑。

————————————————————————————————————————————————————————————————————————————————————————————————————————————————————

过拟合及剪枝算法

数据划分法，就是用训练集和测试集。用训练集生成决策树，使用测试集测试，当错误率最小时，停止树的生长。

后减枝，就是合并分支。

C4.5和CART算法，这种决策树建立方法已经包含了减枝。

——————————————————————————————————————————————————————

随机森林，就是决策树的森林。

1. 有放回的随机抽取，构成训练子集，对N个子训练集分别构建决策树

2. 也可以对特征进行采样（类似于用来进行特征筛选）

3、投票。