贝叶斯分类

一.背景

1.概率：在多元下，（1）联合概率：两个事件同时发生的概率P(A,B) ，（2）条件概率：在某一事件A条件下，另一事件B发生的概率P(B|A)，（3）边缘概率：某一事件发生的概率P(A);

2.独立事件：两个没有任何关系的事件互为独立事件，此时两个事件的联合概率为两者概率相乘P(A,B)=P(A)P(B)，条件概率P(B|A)为事件本身的边际概率P(B)

3.先验概率和后验概率：两者都是两个事件的条件概率，但是这两个事件有关系，假设事件A'导致'事件‘B’,则（1）先验概率：是指根据以往经验和分析得到的概率P(B|A)---前一个条件下后一个的概率（2）后验概率：依据得到"结果"信息所计算出的最有可能是那种事件发生 P(A|B)--后一个条件下，前一个的概率

4.贝叶斯定理（后验公式）：事件A和B互相有影响，A导致B,P(A|B)表示A的后验概率，P(B|A)表示B的先验概率

5.条件概率：若已知一个事件A，则我们可以得到它的边际概率，若另有一个事件B可能对其产生影响，则在B的条件下，A的概率会变化，这是因为B这个信息对事件A产生了影响，而概率可以作为量化标准。

二.贝叶斯分类器

1.贝叶斯分类器是对于分类问题而言的，在已有数据的条件下，根据贝叶斯公式，计算未知样本属于各个类别的概率，取其中最大的作为预测结果

2.目标：最小化总体风险。若有一个分类器，对于一个样本X,它可能有{c1..cn}个类别，但真实类别只有一个cj,假设λij是分类器把样本X将cj分类为ci的损失,乘以后验概率表示样本分类错为ci的期望损失，即样本对于ci的条件风险如下：

我们的目标是对于每一个样本，对于每个类别，都有风险，选择条件风险最小的那个类别作为模型最终的决策结果。

3.贝叶斯分类器：已知我们有一些种类--A--c，要知道能产生什么样的数据--B--x。贝叶斯公式可得：公式左边为后验概率，是我们建模的目的-----给定一个样本，预测它各个类别的概率；公式右边P(X)表示给定的样本所占样本空间的比例，它与类别无关；公式右边分子表示样本和类别的联合概率；P(c)是类的先验概率，表示样本空间中各类样本所占整体类别的比例；P(X|c):在类别c下，X出现的概率，一般是根据生活常识所作的模型假设，比如服从某种分布。

4.模型估计：根据上式进行估计预测样本各个类别的概率，选择其中概率最大的作为模型的预测值，其中P(x)可以观测得到，而P(c)和P(x|c)需要进行估计，当训练集包含充足的独立同分布的样本时，P(c)可通过频率估计得出；对于P(x|c),它也被称为似然，用频率来进行估计是不合适的，因为有一些样本取值在训练集中没有出现，‘未被观测到’和‘观测为0’是不同的。

5.模型训练：我们需要估计P(X|c)的值，而P(X|c)涉及到所有属性的联合概率，所以提出一种策略：先假设其具有某种确定的概率分布的形式，再基于已有的数据集，对概率分布的参数进行估计，如下公式利用数据集对参数进行估计--参数对于数据集的似然: