朴素贝叶斯分类器初探

从期末复习开始颓废了有一阵…………

开始接触机器学习，今天读了一些博客……整理一下思路……主要是自己的理解……所以可能没那么准确……

首先分类器指的是根据一个事物的一些特征来判断事物的类别。

对于一个事物x有类别{y₁,y₂,...,y_n}，那么对于类别集中最大的P(y_i|x)，可以认为x即为y_i。所以需要算出每一个P(y_i|x)，但是这很难直接算出，通过贝叶斯定理P(B|A)=P(A|B)*P(B)/P(A)可以得知P(y_i|x)=P(x|y_i)*P(y_i)/P(x)，所有可能性的分母是一样的，所以只需要将分子最大化，P(x|y_i)可以通过统计样本得出。

假设x具有a₁，a₂两种属性，a₁和a₂取值分别可以为0或1，类别集为{y₁,y₂}，假设a₁和a₂独立，则P(x|y_i)=P(a₁|y_i)*P(a₂|y_i)。通过统计样本可以得出以下数值P(y₁),P(y₂),P(a₁=0|y₁),P(a₁=1|y₁),P(a₂=0|y₁),P(a₂=1|y₁),P(a₁=0|y₂),P(a₁=1|y₂),P(a₂=0|y₂),P(a₂=1|y₂)，假设x为a₁=0，a₂=1，所以x为类别y₁的概率为：

P(y₁|x)=P(x|y₁)*P(y₁)/P(x)=P(a₁=0|y₁)*P(a₂=1|y₁)*P(y₁)/P(x)

x为类别y₂的公式以此类推。

忽略分母，比较分子的大小之后就可以认为x是概率较大的一类。