初识机器学习_03 决策树

  决策树也是最经常适用的数据挖掘算法

  决策树可以适用不熟悉的数据集合,并从中提取一系列规则,机器学习算法最终将使用这些规则(ps:专家系统中常用决策树)

  

  优点:计算复杂度不高,输出易于理解,中间值缺失不敏感,可处理不相关特征数据

  缺点:可能产生过度匹配

  适用:数值型,标称型

  原理:找到当前数据集在划分数据分类时 起决定作用的特征 ,为了找到这个特征,必须评估每个特征,再完成测试后,原始数据被分为几个子集,-->递归次过程,直到根分支上都是统一类型

  评估方法:1求得信息熵,根据获取最大信息增益的原则划分数据集    ref:信息论度量信息方法。

         2基尼不纯度。 

原文地址:https://www.cnblogs.com/govin/p/3687287.html