第4章--朴素贝叶斯法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

设输入空间$mathcal{X} subseteq R^n$，输出空间$mathcal{Y} = {c_1,c_2,cdots,c_k}$。$X$是定义在输入空间$mathcal{X}$上的随机变量，$Y$是定义在输出空间$mathcal{Y}$上的随机变量。$P(X,Y)$是$X$和$Y$的联合概率分布。

训练数据集：

egin{align*}
T = {(x_1,y_1),(x_2,y_2),cdots,(x_N,y_N)}
end{align*}

朴素贝叶斯法通过训练数据集学习联合概率分布$P(X,Y)$，而联合概率分布可由先验概率和条件概率得到。

先验概率分布：

egin{align*}
P(Y=c_k), quad k=1,2,cdots,K ag{4.1}
end{align*}

条件概率分布：

egin{align*}
P(X=x|Y=c_k) = P(X^{(1)}=x^{(1)},cdots,X^{(n)}=x^{(n)}|Y=c_k), quad k=1,2,cdots ,K ag{4.2}
end{align*}

条件概率分布有指数级参数，直接对其估计是不可行的。朴素贝叶斯法对条件概率分布做了条件独立性假设。具体的：

egin{align*}
P(X=x|Y=c_k) &= P(X^{(1)}=x^{(1)},cdots,X^{(n)}=x^{(n)}|Y=c_k) \
&= prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_k) ag{4.3}
end{align*}

在朴素贝叶斯法中，学习意味着估计先验概率$P(Y=c_k)$和条件概率$P(X^{(j)}=x^{(j)}|Y=c_k)$。这可以应用极大似然估计法进行估计。

进行分类时，对于给定的输入$x$，通过学到的模型计算后验分布$P(Y=c_k|X=x)$，将后验概率最大的类作为$x$的类输出。

后验概率计算根据贝叶斯定理进行：

egin{align*}
P(Y=c_k|X=x) = frac{P(X=x|Y=c_k)P(Y=c_k)}{sum_k P(X=x|Y=c_k)P(Y=c_k)} ag{4.4}
end{align*}