贝叶斯算法

贝叶斯算法

朴素贝叶斯的思想基础：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

朴素贝叶斯分类的正式定义如下：

1、设x = {a1,a2,…,am}为一个待分类项，而每个a为x的一个特征属性。

2、有类别集合C = {y1,y2,…,yn} 。

3、计算 P(y1|x),P(y2|x),…,P(yn|x)。

4、如果 P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)}，则x属于yk类别。

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做：

1、找到一个已知分类的待分类项集合，这个集合叫做训练样本集。

2、统计得到在各类别下各个特征属性的条件概率估计。即

P(a1|y1),P(a2|y1),…,P(am|y1);

…………

P(a1|yn),P(a2|yn),…,P(am|yn)。

3、如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：

P(yi|x) = p(x|yi)p(yi) / p(x)

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为朴素贝叶斯假定各特征属性是条件独立的，所以有：

P(yi)P(x|yi)= P(a1|yi)P(a2|yi)…P(am|yi)P(yi)

贝叶斯的特性

1）观察到的每个训练样例可以增量的降低或升高某假设的估计概率。

2）先验知识可以与观察数据一起觉得假设的最终概率。

3）允许做出不确定性的预测。

4）新的实例分类可由多个假设一起作出预测，用他们的概率来加权。

贝叶斯法则

1) P(h)常称为h的先验概率，反映了我们所拥有的关于h是一正确假设的机会的背景知识。

2)P(D)代表将要观察的训练数据D的先验概率。

3)P(h|D)即给定训练数据D时h成立的概率。成为h的后验概率，因为它反映了在看到训练数据D后h成立的置信度。

4)后验概率反映训练数据D的影响；相反，先验概率P(h)是独立于D的。

贝叶斯公式：

P(h|D) = P(D | h)P(h) / P(D)

从直观上可以看出，P(h|D)随着P(h)和P(D|h)的增长而增长；同时，P(h|D)随P(D)的增加而减少。这很合理，因为如果D独立于h时被观察到的可能性越大，那么对D对h的支持度越小。

整个朴素贝叶斯分类分为三个阶段：

第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

第二阶段——分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。

第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。

由上文看出，计算各个划分的条件概率P(a|y)是朴素贝叶斯分类的关键性步骤，当特征属性为离散值时，只要很方便的统计训练样本中各个划分在每个类别中出现的频率即可用来估计P(a|y)。当特征属性为连续值时，通常假定其值服从高斯分布（也称正态分布）。

而P(ak|yi)=g（ak，Uyi，Qyi）

其中Uyi为均值，Qyi为方差。

因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差，代入上述公式即可得到需要的估计值。

另一个需要讨论的问题就是当P(a|y)=0怎么办，当某个类别下某个特征项划分没有出现时，就是产生这种现象，这会令分类器质量大大降低。为了解决这个问题，我们引入Laplace校准，它的思想非常简单，就是对没类别下所有划分的计数加1，这样如果训练样本集数量充分大时，并不会对结果产生影响，并且解决了上述频率为0的尴尬局面。

上文提到，朴素贝叶斯分类器的朴素之处在于，其假设了各个特征之间是独立的。与此不同，BayesNet可表述变量的一个子集上的条件独立性假定。因此，BayesNet提供了一种中间方法，它比朴素贝叶斯分类器中条件独立性的全局假定的限制更少，又比在所有变量中计算条件依赖更可行。即：贝叶斯网络（Bayesian Network）则放宽了变量无关的假设，将贝叶斯原理和图论相结合，建立起一种基于概率推理的数学模型,对于解决复杂的不确定性和关联性问题有很强的优势。

一般来说，BayesNet表示联合概率分布的方法是指定一组条件独立性假设（它表示为一有向无环图）以及一组局部条件概率集合。联合空间中每个变量在贝叶斯网中表示一个结点。对每一个变量需要两种类型的信息。首先，网络弧表示断言“此变量在给定其直接前驱时条件独立于其非后继”。其次，对每个变量有一个条件概率表，描述了该变量在给定其立即前驱时的概率分布。对网络变量的元组（Y1,…,Yn）赋以所希望的值（y1,…,yN）联合概率可由下面的公式计算：

两处学习方法的效果差不多，但贝叶斯网络的优势在于：

•对缺失数据不敏感

•可以学习因果关系，加深对数据的理解

•能将先验知识融入建模

•避免了过度拟合问题，不需要保留数据进行检验

下面简诉这个过程：

首先设C=0表示坏人客户，C=1表示好人客户

1、确定特征属性及划分

这一步要找出可以帮助区分坏人客户与好人客户的特征属性。根据业务经验、数据缺失率、指标时效性以及指标影响力，我们选择13个特征属性。

2、获取训练样本

这里使用2014年01月—2015年06月数据作为训练样本。

3、计算训练样本中每个类别的频率

用训练样本中坏人/好人客户的数目除以样本总数。

4、计算每个类别条件下各特征属性划分的频率

P(a1 | C1),P(a2 | C1) ,…, P(am| C1)

P(a1 | C0),P(a2 | C0),…,P(am | C0)

5、使用分类器进行鉴别

P(C=1)P(x|C1)= P(a1 | C1)P(a2 | C1) … P(am| C1)P(C1)

P(C=0)P(x|C0)= P(a1 | C0)P(a2 | C0) … P(am| C0)P(C0)

类别=MAX｛P(C=1)P(x|C1)，P(C=0)P(x|C0｝

（转）http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html