是什么
考虑如下文本分类问题:训练集为n条文本特征[1],文本类别对,({(mathbf{t}^i,c^i)}_{i=1}^n)[2]
现给定文本特征(mathbf{t}),要求判定它的类别。
朴素贝叶斯做法就是算使得(p(mathbf{t},c))最大的(c^*)作为(mathbf{t})的类别:
[c^*=arg max p(mathbf{t},c)
]
其中,
[p(mathbf{t},c)=p(c)prod_{j=1}^{m} p(t_j|c)
]
而右边的(p(c)),(p(t_j|c))则是由训练数据估计值代替,则估计值为:
[p(c=class quad A)=frac{#{c^i=class quad A}}{n}
]
[p(t_j|c^i=class quad A)=frac{#{c^i=class quad Aquad ext{and}quad t^i_j=t_j} }{#{c^i=class quad A}}
]
[p(c)=frac{#{c^i=c}}{n}
]
[p(t_j|c^i=c)=frac{#{c^i=cquad ext{and}quad t^i_j=t_j} }{#{c^i=c }}
]
考虑如下文本分类问题:训练集为n条文本特征[1:1],文本类别对,({(mathbf{t}^i,c^i)}_{i=1}^n)[2:1]
现给定文本特征(mathbf{t}),要求判定它的类别。
朴素贝叶斯做法就是算使得(p(mathbf{t},c))最大的(c^*)作为(mathbf{t})的类别:
[c^*=arg max p(mathbf{t},c)
]
其中,
[p(mathbf{t},c)=p(c)prod_{j=1}^{m} p(t_j|c)
]
朴素贝叶斯做法就是算使得(p(mathbf{t},c))最大的(c^*)作为(mathbf{t})的类别:
[egin{align}
c^*=arg max p(mathbf{t},c)
end{align}
]
朴素贝叶斯做法就是算使得(p(mathbf{t},c))最大的(c^*)作为(mathbf{t})的类别:
[egin{align}
c^*=arg max p(mathbf{t},c)
end{align}
]