数据分析的统计基础1

概率

样本空间

样本空间：所有可能出现的试验结果全体，记为$Omega (,其元素记为)omega$
事件：(Omega)的特定子集，一次试验可能出现的结果
事件的并交补：
- 并：(A cup B)，事件A和B至少发生一个
- 交：(A cap B)，事件A和B同时发生
- 补：(A ^ C)，指A不发生的事件 $A cap A^C = varnothing $
运算律：
- 交换律
  - (A cup B = B cup A)
  - (A cap B = B cap A)
- 结合律
  - ((A cup B) cup C = A cup (B cup C))
  - ((A cap B) cap C = A cap (B cap C))
- 分配律(文氏图)
  - ((A cup B) cap C = (A cap C) cup (B cap C))
  - ((A cap B ) cup C = (A cup C) cap (B cup C))
- 德摩根律
  - (overline{A cup B} = overline A cap overline B)
  - (overline{A cap B} = overline A cup overline B)

概率测度

样本空间上(Omega)的概率测度(probability measure)是定义在(Omega)子集上的实函数，且满足以下公理：

公理1：(P(Omega) = 1)
公理2：如果$A subset B (，那么)P(A) geq 0$
公理3：如果(A_1)和(A_2)是不相交的，那么

[P(A_1 cup A_2) = P(A_1) + P(A_2) ]

更一般地，如果(A_1,A_2,...,A_n,...)是相互不交的，那么

[P left( igcup limits_{i=1}^{infty}A_{i} ight) = sum limits_{i=1}^{infty}P left( A_{i} ight) ]

性质：

(P(overline A) = 1 - P(A)) 证明：公理1 + 公理3
(P(varnothing ) = 0)
如果(A subset B)，那么(P(A) leq P(B))

证明：(B = A cup (B cap overline A) Rightarrow P(B) = P(A) + P(B cap overline A) Rightarrow P(A) = P(B) - P(B cap overline A) leq P(B))
加法定律：(P(A cup B) = P(A) + P(B) - P(A cap B)) ,证明：文氏图分解

概率计算

设(Omega = {omega_1,omega_2,...,omega_N})，并且(P(omega_i) = p_i)，为了计算事件(A)发生的概率，我们只需将(A)包含的基本事件的概率相加即可。如果(Omega)有(N)个元素，那么每一个元素发生的概率都是(1/N).如果事件(A)通过(n)个互斥途径的任一种方式发生，那么(P(A) = n/N)，或者

[P(A) = frac{导致A发生的事件的个数}{所有试验结果个数} ]

乘法原理：如果一个试验有(m)个结果，另一个试验有(n)个结果，那么这两个试验共有(mn)个可能的结果

扩展的乘法原理：如果有(p)个试验，第一个有(n_1)种可能的试验结果，第二次有(n_2)种，...，第(p)次有(n_p)种可能的试验结果，那么(p)次试验共有(n_1 imes n_2 imes ... n_p)中可能的试验结果 (证明用数学归纳法)

排列与组合：

排列：是任务的有序安置，有多少可能的列示方式依赖于列表中的元素能否重复，若不允许重复，我们使用的是无重复抽样；若允许重复，我们使用的是重复抽样。
- 根据乘法原理，从(n)个元素的集合中抽取样本容量为(r)的样本，重复抽样有(n^r)个不同的有序样本，无重复抽样有(n(n-1)(n-2)...(n-r+1))个不同的有序样本。
- 推论：无重复抽样条件下，(n)个元素的有序排列个数是(n(n-1)(n-2)...1 = n!)
组合：由乘法原理，有序样本的个数等于无序样本的个数乘以每一样本的有序排列数，因为有序样本个数是(n(n-1)...(n-r+1))，容量(r)的样本有(r!)个排列数，所以无序样本的个数是

[ inom{n}{r}=frac{n(n-1)...(n-r+1)}{r!}=frac{n!}{(n-r)!r!} ]

从(n)个对象中无重复地抽取(r)个无序样本的个数是(inom{n}{r})
(inom{n}{k})出现在下面的展开式中，成为二项系数(binomial coefficient)

[(a+b)^n = sum_{k=0}^{n}inom{n}{k}a^kb^{n-k} ]

特别地，

[2^n = sum_{k=0}^{n}inom{n}{r} ]

(n)个对象分成(r)个类，第(i)个类含有(n_i)个对象，(i={1,2,...r},sum_{i=1}^{r}n_i=n)，那么这种分类方式共有：

[inom{n}{n_1n_2...n_r} = frac{n!}{n_1!n_2!...n_r!} ]
证明：上式中，第一类中的对象有(inom{n}{n_1})种选择方式，第二类中的对象在剩余对象中有(inom{n-n_1}{n_2})种选择方式，依次类推，共有分类方式：

[inom{n}{n_1}inom{n-n_1}{n_2}...inom{n-n_1-n_2-...-n_{r-1}}{n_r} ]
[= frac{n!}{(n-n_1)!n_1!} frac{(n-n_1)!}{(n-n_1-n_2)!n_2!}...frac{(n-n_1-n_2-...n_r-1)!}{(n-n_1-n_2-...-n_{r-1}-n_r)!n_r!} ]
[=frac{n!}{n_1!n_2!...n_r!} ]
(inom{n}{n_1n_2...n_r})称为多项系数(multinomial coefficient)，出现在下面的展开式中：

[(x_1 + x_2 + ... + x_r) ^ n = sum inom{n}{n_1n_2...n_r}x_1^{n_1}x_2^{n_2}...x_r^{n_r} ]

其中，求和下标是满足条件(n_1 + n_2 + ... + n_r = n)的所有非负整数(n_1,n_2,...,n_r)

条件概率

令(A)和(B)表示两事件，且(P(B) eq 0)。给定事件(B)发生的条件下事件(A)发生的条件概率定义为：

[P(A|B) = frac{P(A cap B)}{P(B)} ]

乘法定律：令(A)和(B)表示两事件，且(P(B) eq 0)。那么(P(A cap B) = P(A | B)P(B))

全概率定律：令(B_1,B_2,...,B_n)满足(igcup limits_{i=1}^{n}=Omega,B_i cap B_j = varnothing,i eq j)，且对所有的(i)，(P(B_i)>0)，那么对于任意的事件(A)，有：(由因(B_i)及果)

[P(A) = sum_{i=1}^{n}P(A|B_i)P(B_i) ]

贝叶斯公式：令(A)和(B_1,B_2,...,B_n)是事件，其中(B_i)不相交，$ igcup limits_{i=1}^{n}B_i = Omega(，且对所有的)i，P(B_i) > 0 (。那么(由果)A$及因)

[P(B_j|A) = frac{P(A|B_j)P(B_j)}{sum_{i=1}^{n}P(A|B_i)P(B_i)} ]

独立性

直觉上，我们说两个事件(A)和(B)独立是指：已知一个时间发生不能为我们提供另一个事件发生与否的信息，即(P(A|B) =P(A))和(P(B|A) = P(B))，现在如果

[P(A) = P(A|B) = frac{P(A cap B) }{P(B)} ]

那么有(P(A cap B) = P(A) P(B))，此时我们称事件(A)和事件(B)是独立的。

当我们考虑两个以上的事件时，情况变得更加复杂。此时两两独立不能保证相互独立，为此，我们定义事件集(A_1,A_2,...,A_n)是相互独立(mutually independent)的，如果任意的子集(A_{i_1},A_{i_2},...A_{i_m})满足：

[P(A_{i-1} cap A_{i-2} cap ... cap A_{i_m}) = P(A_{i_1})P(A_{i_m})... ]

统计学派

频率方法(frequentist approach) 和贝叶斯方法(Bayesian approach)