朴素贝叶斯模型(废)

是什么

考虑如下文本分类问题：训练集为n条文本特征^[1]，文本类别对，({(mathbf{t}^i,c^i)}_{i=1}^n)^[2]
现给定文本特征(mathbf{t})，要求判定它的类别。
朴素贝叶斯做法就是算使得(p(mathbf{t},c))最大的(c^*)作为(mathbf{t})的类别：

[c^*=arg max p(mathbf{t},c) ]

其中，

[p(mathbf{t},c)=p(c)prod_{j=1}^{m} p(t_j|c) ]

而右边的(p(c)),(p(t_j|c))则是由训练数据估计值代替，则估计值为：

[p(c=class quad A)=frac{#{c^i=class quad A}}{n} ]

[p(t_j|c^i=class quad A)=frac{#{c^i=class quad Aquad ext{and}quad t^i_j=t_j} }{#{c^i=class quad A}} ]

[p(c)=frac{#{c^i=c}}{n} ]

[p(t_j|c^i=c)=frac{#{c^i=cquad ext{and}quad t^i_j=t_j} }{#{c^i=c }} ]

考虑如下文本分类问题：训练集为n条文本特征^[1:1]，文本类别对，({(mathbf{t}^i,c^i)}_{i=1}^n)^[2:1]
现给定文本特征(mathbf{t})，要求判定它的类别。
朴素贝叶斯做法就是算使得(p(mathbf{t},c))最大的(c^*)作为(mathbf{t})的类别：

[c^*=arg max p(mathbf{t},c) ]

其中，

[p(mathbf{t},c)=p(c)prod_{j=1}^{m} p(t_j|c) ]

朴素贝叶斯做法就是算使得(p(mathbf{t},c))最大的(c^*)作为(mathbf{t})的类别：

[egin{align} c^*=arg max p(mathbf{t},c) end{align} ]

朴素贝叶斯做法就是算使得(p(mathbf{t},c))最大的(c^*)作为(mathbf{t})的类别：

[egin{align} c^*=arg max p(mathbf{t},c) end{align} ]

假设每条文本特征有m个属性 ↩︎ ↩︎
用上标表示整条记录，用下标表示这条记录一部分,即(mathbf{t}^i=[t_1^i,t_2^i,...,t_m^i]) ↩︎ ↩︎