概率论基础学习笔记

参考: 胡渊明2013国家集训队论文浅析信息学竞赛中概率论的基础与应用

概率空间

初等概率论有三个重要成分, 分别是样本空间(Omega)(我们一般记其每个元素为(omega)), 事件集合(F)和概率测度(P). 我们常说的事件, 实际上是样本空间(Omega)的某个子集. 所有事件的集合记为(F)(所以说(F)是集合的集合)~~实际上我对事件集合的定义还不是很明确~~. 概率测度(P)是事件集合到实数的一个函数, 一个合理的概率测度需要满足以下3条公理:

对于任意事件(A), 有(P(A) ge 0)(非负性)
(P(Omega) = 1)(规范性)
对于事件(A)和(B), 假如有(A cap B = Phi), 则有(P(A cup B) = P(A) + P(B))(可加性)

我们称符合要求的三元组((Omega, F, P))为概率空间. 典型的例子是: 我们随机投掷一个均匀的骰子, 考虑其落地后朝上的面, 则我们有样本空间(Omega = { 1, 2, 3, 4, 5, 6 }), 事件集合为(Omega)的幂集, 概率测度有(P(A) = frac{|A|}6).

条件概率

举个例子: 现有两所人数相同的学校, A学校99%是女生, B学校99%是男生. 那么, 假如我们在两所学校中随机抽出一位同学, 那么这位同学是男生的概率是多少?
50%, 显而易见.
但是, 假如现在告诉你, 你抽出的这位同学是B学校的, 那么答案又会变成多少呢?
99%.
由此可见, 当我们得到了更多的信息后, 事件的概率是会发生改变的.
我们记已知(B)事件发生的条件下, (A)事件发生的概率为(P(A | B)). 比如说, 在上面的例子中, 选出两所学校的事件分别为(U_A)和(U_B), 我们令选出的学生分别为男生和女生的事件分别为(G_M)和(G_F), 则我们有

[P(G_M) = 50 \% \ G(G_M | U_B) = 99 \% ]

而我们有如下计算条件概率的公式:

[P(A | B) = frac{P(AB)}{P(B)} ]

稍作变形得到

[P(A | B) P(B) = P(AB) ]

这个公式也很常用.
注意上面的((AB))表示((A cap B)), 同时也可以写作((A, B)). 实际上, 在考虑条件概率时, 我们把(B)看作了新的样本空间, 而上述的公式揭示的是两个样本空间下概率测度的关系.

全概率公式

我们令(B_1, B_2, ..., B_n)为样本空间(Omega)的一个划分, 则有

[P(A) = sum_{k = 1}^n P(A | B_k) P(B_k) ]

比如说, 考虑上面的例子中的(50 \%)是如何得到的:

[egin{aligned} P(G_M) &= P(G_M | U_A) P(U_A) + P(G_M | U_B) P(U_B) \ &= 1 \% imes 50 \% + 99 \% imes 50 \% \ &= 50 \% end{aligned} ]

随机变量

首先明确定义:

[函数X: Omega Rightarrow mathbb{R} ext{被称为一个随机变量} ]

在多数情况下, 有了随机变量就可以抛弃对原来样本空间的关注, 而是关注于对于每个实值, 随机变量可以取得该值的概率. 从某种意义上说, 这是一个对样本空间重新划分(提到划分, 是否有想到前面全概率公式中(B)的定义?)的过程, 将在这个函数中取得相同值的元素进行了合并.
随机变量有这样一个表达:

[(X = x) = { omega | omega in Omega且X(omega) = x } ]

随机变量的期望

对于一个随机变量, 其期望为

[E[x] = sum_omega P(omega) X(omega) = sum_x x P(X = x) ]

这样一来, 对于许多问题我们就不再需要从样本空间的角度去考虑随机变量了, 而是直接考虑随机变量为某个值的事件.

两个随机变量的期望的独立性以与乘积的期望

随机变量的独立性是指其输出层面上的独立性, 对于两个随机变量(X_1)和(X_2), 假如有

[forall x_1 in X_1(Omega), x_2 in X_2(Omega) \ P(X_1 = x_1, X_2 = x_2) = P(X_1 = x_1) P(X_2 = x_2) ]

那么我们就称(X_1)和(X_2)是独立的.
两个独立的随机变量具有一个重要的性质: 其积的期望等于期望的积.

期望的线性性质

[E[alpha X_1 + eta X_2] = alpha E[X_1] eta E[X_2] ]

这个性质在竞赛中十分常用.

全期望公式

给定一个类似于条件概率的问题: 假如我们知道事件(A)一定发生, 那么样本空间(Omega)上的随机变量(X)会发生什么变化?
我们记这个受约束的随机变量为(X | A), 那么对于(forall x in X(Omega)), 我们有

[P((X | A) = x) = frac{P(X = x, A)}{P(A)} ]

然后下面的就是大名久仰的全期望公式:

[E[E[X | Y]] = X[X] ]

首先这里需要明确(E[X | Y])的定义: 它相当于一个新的随机变量, 其期望表示

[E[X | Y] = sum_{y in Y(Omega)} E[X | Y = y] P(Y = y) ]

定理的证明如下:

[egin{aligned} E[E[X|Y]] &= sum_{y in Y(Omega)} E[X | Y = y] P(Y = y) ext{\根据定义} \ &= sum_{y in Y(Omega)} sum_{x in X(Omega)} x P(X = x | Y = y) P(Y = y) ext{\根据期望的定义} \ &= sum_{x in X(Omega)} x sum_{y in Y(Omega)} P(X = x | Y = y) P(Y = y) \ &= sum_{x in X(Omega)} x P(X = x) ext{\根据全概率公式. 这一步是关键} \ &= E[X] end{aligned} ]

这条公式有什么用呢? 举个例子: 考虑在一个年级中抽取一个人, 询问他上次考试的成绩, 则这个数值的期望是多少? 我们应该怎样求?
我们令随机变量(X(omega))表示每个人上次考试的分数, 并构造一个随机变量(Y(omega))表示每个人所属于的班级, 则有(E[X] = E[E[X | Y]] = E[X | Y = y] P(Y = y)), 其中(E[X | Y = y])表示每个班中取一个人的乘积的期望值. 根据这个公式, 我们只需要算出每个班的平均成绩, 再算一次加权平均即可.

到这里, 要写的基本上已经写完了. 但是又有什么用呢? OSU照样还是不会做, 全期望公式还是不会用... 以后看起来是要找一些概率论相关的书来好好看看了.

Edit Aug 19, 2017: 这里的全期望公式还是很容易理解的. 我们不必在意上面的表述形式, 因为其本质和全概率公式是一样的, 把样本空间进行划分后求出每个划分的期望, 再加权平均得到的结果等于直接求所有样本的期望的结果. 只不过在期望问题中, 我们通常按照随机变量得到的值进行划分, 而不是直接划分样本空间, 仅此而已.