算法部分

算法原则之一:优先尝试简单原则。

1,朴素贝叶斯分类:

算法使用前提:所有变量对分类均是有用的,即输出依赖于所有的属性;这些变量是相互独立的,即不相关的。之所以称为“朴素”,就是因为这些假设从未被证实过。

http://www.cnblogs.com/zhangchaoyang/articles/2586402.html

(1)如果出现0频现象的话,就违背了基本假设,输出依赖于所有属性,此时需要进行平滑处理

(2)如果属性取值为连续数值变量(数值属性的时候),假定服从正太分布。

(3)朴素贝叶斯可以用于文档分类

(上述公式怎么看?)

朴素贝叶斯未必不优于其他方法。

2,归纳决策树ID3:

http://www.cnblogs.com/zhangchaoyang/articles/2196631.html

(随着树深度增加,节点的熵值迅速降低,目标是得到一棵高度最矮的决策树?)

选择信息增益最大的作为决策树的根节点,直到所有的叶子节点为纯节点

问题:分类问题为什么能够转换为一刻决策树,朴素贝叶斯公式解读?

3,C4.5十大算法之首

http://www.cnblogs.com/zhangchaoyang/articles/2842490.html

不过说句实话,看不大明白

原文地址:https://www.cnblogs.com/bobodeboke/p/3351646.html