朴素贝叶斯

 1.贝叶斯公式

2. 从机器学习的角度理解朴素贝叶斯公式

 3. 垃圾邮件识别

 4. 分词

 

  对于二分类比较器,分母一样,只要比较分子即可:

 5. 条件独立假设

 

 6. 朴素贝叶斯

   加上独立假设的贝叶斯方法就是朴素贝叶斯方法。弊端是语句没有顺序。

 

 7. 处理重复词语的三种方式

7.1 多项式模型

 7.2 伯努利模型

7.3 混合模型

8. 去除停用词与选择关键词

 9. 平滑技术

 10. 总结

 11. 实际工程的tricks

11.1 trick1 :取对数, 对于多项式相乘,精度会有很大误差

  这里的C是朴素贝叶斯公式中的分子部分。

 

  比较logC(垃圾邮件的概率)和log^C正常邮件的概率, 

  将log计算出的结果保存到字典中,供下次查询。

  

11.2 trick2:转换为权重

 

11.3 trick3:选取topk的关键词

  只选取topk个关键词作为计算。

 11.4 trick4:分割样本

 11.5 trick5:位置权重

11.6 蜜罐

1

end

原文地址:https://www.cnblogs.com/zhuxiang1633/p/10205279.html