全概公式和贝叶斯公式的理解

首先，理解这两个公式的前提是理解条件概率，因此先复习条件概率。

$P (A | B) = \frac{P (A B)}{P (B)}$

理解这个可以从两个角度来看。
第一个角度：在B发生的基础上，A发生的概率。那么B发生这件事已经是个基础的条件了，现在进入B已经发生的世界，看看A发生的概率是多少。那么分子就是B发生A也发生，分母就是B这个世界发生的概率了。分母如果是1，那么成了什么意思呢？

另一个角度是看韦恩图。这里A在B发生的基础上发生的概率是A和B交集的阴影部分面积占用B的比例。

那么由条件概率出发，看一下变形出来的乘法公式：
$P (A B) = P (A) \cdot P (B | A) = P (B) \cdot P (A | B)$

也可以提供上面的两个角度来理解这个公式，虽然可以由上面的直接推导，但是我们认为这是问题的思考的不同角度，不仅仅是公式之间的运算。

一：AB同时发生的概率是在A基础上发生B的概率乘以A本身在外部发生的概率，也是B基础上发生A的概率乘以B本身在外部发生的概率.
二：AB表示的是阴影部分的面积占用A或者B的比例关系。

仅仅从形式上说，竖线后面的要在前面多乘以一个以达到平衡。

然后再看全概率公式。

一个别人举的例子：

一个村子与三个小偷，小偷偷村子的事件两两互斥，求村子被偷的概率。

解释：假设这三个小偷编号为 $A 1, A 2, A 2$

那么被偷的概率就是：要么是 $A 1$

又因这三个小偷两两互斥，表示不会同时去偷。所以被偷的概率是：

$P (B) = P (A 1 B) + P (A 2 B) + P (A 3 B)$

当然按照条件概率或者乘法公式展开：
$P (B) = P (A 1) P (B | A 1) + P (A 2) P (B | A 2) + P (A 3) P (B | A 3)$

PS: $P (A_{i}), P (B | A_{i}) 是已知的$

问：是不是有想展开为：

$P (B) = P (B) P (A 1 | B) + P (B) P (A 1 | B) + P (B) P (A 1 | B)$

当然这个式子是没错的，但是体现不了这个问题的解法：分阶段。

（*）式子体现的是问题分为两个阶段：
1）选人，分割问题
2）计算分割的子问题的条件概率

对应的这里来便是：
1）选小偷，谁去偷
2）选定的小偷作为条件，那么他去偷的条件概率是什么

所以将问题拆解为阶段的问题便是全概率公式针对的问题。

贝叶斯公式有意思极了，简单说就是逆全概公式。

前面是问总体看来被偷的概率是多少，现在是知道了总体被偷了这件事，概率并不知道，问你个更有意思的问题，像是侦探断案：是哪个小偷的偷的，计算每个小偷偷的概率。

这个特性用在机器学习，人工智能领域相当好用。

也就是求： $P (A_{i} | B) = \frac{P (A_{i} B)}{P (B)}$

$A_{i} : 小偷 i 干的； B : 村子被偷了$

首先是一个淳朴的条件概率的展开。
分母里出现了 $P (B)$

对应到上面的例子就鲜活一些：村子被偷了，求 $A_{i}$

自然现在条件是 $P (B)$

20161223 update:

除了上面的思路外，通常需要注意的是分阶段意味着时间的先后。在先进行的事件的基础上进行后面的事件，就很容易计算概率： $P (A B) = P (A) P (B | A)$

所以当我们需要计算先验概率，即先发生的时间的概率时，总是想着用上面的这个类型来计算，且是通过条件概率进行过渡。