决策树如何对连续性特征进行分段?

特征离散化处理

问题抽象
假设训练样本集合D中有n个样本,考察对连续属性a的最佳分段点/划分点。
若属性a在这n个样本中有m个不同的取值(m<=n),对这m个值两两之间取中点,可获得m-1个中点作为候选划分点。

选择过程
接下来的选择最佳划分点过程和离散属性的虚选择过程类似,以基尼系数或信息增益作为度量,选择使度量值最大的候选划分点作为最佳划分点。

假设我把这0~5的值分成5份,0~1,1~2,2~3,3~4,4~5,那么,我们就有5个离散化的范围了,对每个分类点计算信息增益,(也就是一共计算五次),取最大的一个作为分段点。

原文地址:https://www.cnblogs.com/mdumpling/p/8627275.html