分类(注意数据的格式化处理)

1.  朴素贝叶斯公式

P(C|D)=P(D|C)P(C)/P(D)=P(D|C)P(C)/{求和c属于C,P(D|C=c)P(C=c)}

可以利用朴素贝叶斯公式计算文档d属于哪一个类别Ci,可以将该文档归类于概率最大的那一类,用于文档分类,垃圾处理

概率空间模型;

多重伯努力模型,

P(w|c)=DFw,c/Nc;这里DFw,c类别C中包含w的文本数量,Nc:表示训练样本中类别c的文本数量,通过最大似然估计,通过将文档拆分成词项,求解概率,通过乘积。

多项式模型,

考虑了此项的数量问题,计算概率,使贝叶斯分类其器成为一般的分类算法的最好选择;

支持向量机:

与基于概率论原理的朴树贝叶斯完全不同,是基于几何学原来,SVM,将输入文本看作几何空间中的一个点,将SVM用于二值分类,SVM的目标是发现能够分割正例和反例的超平面。对于SVM不是定义基础的事件空间,而是定义文本作为输入并生成成为特征值的特征函数,

原文地址:https://www.cnblogs.com/csxf/p/3439914.html