数据分析的统计基础1

概率

样本空间

  • 样本空间:所有可能出现的试验结果全体,记为$Omega (,其元素记为)omega$
  • 事件:(Omega)的特定子集,一次试验可能出现的结果
  • 事件的并交补:
    • 并:(A cup B),事件A和B至少发生一个
    • 交:(A cap B),事件A和B同时发生
    • 补:(A ^ C),指A不发生的事件 $A cap A^C = varnothing $
  • 运算律:
    • 交换律
      • (A cup B = B cup A)
      • (A cap B = B cap A)
    • 结合律
      • ((A cup B) cup C = A cup (B cup C))
      • ((A cap B) cap C = A cap (B cap C))
    • 分配律(文氏图)
      • ((A cup B) cap C = (A cap C) cup (B cap C))
      • ((A cap B ) cup C = (A cup C) cap (B cup C))
    • 德摩根律
      • (overline{A cup B} = overline A cap overline B)
      • (overline{A cap B} = overline A cup overline B)

概率测度

样本空间上(Omega)的概率测度(probability measure)是定义在(Omega)子集上的实函数,且满足以下公理:

  • 公理1:(P(Omega) = 1)
  • 公理2:如果$A subset B (,那么)P(A) geq 0$
  • 公理3:如果(A_1)(A_2)是不相交的,那么

[P(A_1 cup A_2) = P(A_1) + P(A_2) ]

更一般地,如果(A_1,A_2,...,A_n,...)是相互不交的,那么

[P left( igcup limits_{i=1}^{infty}A_{i} ight) = sum limits_{i=1}^{infty}P left( A_{i} ight) ]

性质:

  1. (P(overline A) = 1 - P(A)) 证明:公理1 + 公理3

  2. (P(varnothing ) = 0)

  3. 如果(A subset B),那么(P(A) leq P(B))

    证明:(B = A cup (B cap overline A) Rightarrow P(B) = P(A) + P(B cap overline A) Rightarrow P(A) = P(B) - P(B cap overline A) leq P(B))

  4. 加法定律:(P(A cup B) = P(A) + P(B) - P(A cap B)) ,证明:文氏图分解

概率计算

(Omega = {omega_1,omega_2,...,omega_N}),并且(P(omega_i) = p_i),为了计算事件(A)发生的概率,我们只需将(A)包含的基本事件的概率相加即可。如果(Omega)(N)个元素,那么每一个元素发生的概率都是(1/N).如果事件(A)通过(n)个互斥途径的任一种方式发生,那么(P(A) = n/N),或者

[P(A) = frac{导致A发生的事件的个数}{所有试验结果个数} ]

乘法原理:如果一个试验有(m)个结果,另一个试验有(n)个结果,那么这两个试验共有(mn)个可能的结果

扩展的乘法原理:如果有(p)个试验,第一个有(n_1)种可能的试验结果,第二次有(n_2)种,...,第(p)次有(n_p)种可能的试验结果,那么(p)次试验共有(n_1 imes n_2 imes ... n_p)中可能的试验结果 (证明用数学归纳法)

排列与组合

  • 排列:是任务的有序安置,有多少可能的列示方式依赖于列表中的元素能否重复,若不允许重复,我们使用的是无重复抽样;若允许重复,我们使用的是重复抽样

    • 根据乘法原理,从(n)个元素的集合中抽取样本容量为(r)的样本,重复抽样有(n^r)个不同的有序样本,无重复抽样有(n(n-1)(n-2)...(n-r+1))个不同的有序样本。
    • 推论:无重复抽样条件下,(n)个元素的有序排列个数是(n(n-1)(n-2)...1 = n!)
  • 组合:由乘法原理,有序样本的个数等于无序样本的个数乘以每一样本的有序排列数,因为有序样本个数是(n(n-1)...(n-r+1)),容量(r)的样本有(r!)个排列数,所以无序样本的个数是

[ inom{n}{r}=frac{n(n-1)...(n-r+1)}{r!}=frac{n!}{(n-r)!r!} ]

  • (n)个对象中无重复地抽取(r)个无序样本的个数是(inom{n}{r})

  • (inom{n}{k})出现在下面的展开式中,成为二项系数(binomial coefficient)

    [(a+b)^n = sum_{k=0}^{n}inom{n}{k}a^kb^{n-k} ]

特别地,

[2^n = sum_{k=0}^{n}inom{n}{r} ]

  • (n)个对象分成(r)个类,第(i)个类含有(n_i)个对象,(i={1,2,...r},sum_{i=1}^{r}n_i=n),那么这种分类方式共有:

    [inom{n}{n_1n_2...n_r} = frac{n!}{n_1!n_2!...n_r!} ]

    证明:上式中,第一类中的对象有(inom{n}{n_1})种选择方式,第二类中的对象在剩余对象中有(inom{n-n_1}{n_2})种选择方式,依次类推,共有分类方式:

    [inom{n}{n_1}inom{n-n_1}{n_2}...inom{n-n_1-n_2-...-n_{r-1}}{n_r} ]

    [= frac{n!}{(n-n_1)!n_1!} frac{(n-n_1)!}{(n-n_1-n_2)!n_2!}...frac{(n-n_1-n_2-...n_r-1)!}{(n-n_1-n_2-...-n_{r-1}-n_r)!n_r!} ]

    [=frac{n!}{n_1!n_2!...n_r!} ]

    (inom{n}{n_1n_2...n_r})称为多项系数(multinomial coefficient),出现在下面的展开式中:

    [(x_1 + x_2 + ... + x_r) ^ n = sum inom{n}{n_1n_2...n_r}x_1^{n_1}x_2^{n_2}...x_r^{n_r} ]

其中,求和下标是满足条件(n_1 + n_2 + ... + n_r = n)的所有非负整数(n_1,n_2,...,n_r)

条件概率

(A)(B)表示两事件,且(P(B) eq 0)。给定事件(B)发生的条件下事件(A)发生的条件概率定义为:

[P(A|B) = frac{P(A cap B)}{P(B)} ]

乘法定律:令(A)(B)表示两事件,且(P(B) eq 0)。那么(P(A cap B) = P(A | B)P(B))

全概率定律:令(B_1,B_2,...,B_n)满足(igcup limits_{i=1}^{n}=Omega,B_i cap B_j = varnothing,i eq j),且对所有的(i)(P(B_i)>0),那么对于任意的事件(A),有:(由因(B_i)及果)

[P(A) = sum_{i=1}^{n}P(A|B_i)P(B_i) ]

贝叶斯公式:令(A)(B_1,B_2,...,B_n)是事件,其中(B_i)不相交,$ igcup limits_{i=1}^{n}B_i = Omega(,且对所有的)i,P(B_i) > 0 (。那么(由果)A$及因)

[P(B_j|A) = frac{P(A|B_j)P(B_j)}{sum_{i=1}^{n}P(A|B_i)P(B_i)} ]

独立性

直觉上,我们说两个事件(A)(B)独立是指:已知一个时间发生不能为我们提供另一个事件发生与否的信息,即(P(A|B) =P(A))(P(B|A) = P(B)),现在如果

[P(A) = P(A|B) = frac{P(A cap B) }{P(B)} ]

那么有(P(A cap B) = P(A) P(B)),此时我们称事件(A)和事件(B)是独立的。

当我们考虑两个以上的事件时,情况变得更加复杂。此时两两独立不能保证相互独立,为此,我们定义事件集(A_1,A_2,...,A_n)是相互独立(mutually independent)的,如果任意的子集(A_{i_1},A_{i_2},...A_{i_m})满足:

[P(A_{i-1} cap A_{i-2} cap ... cap A_{i_m}) = P(A_{i_1})P(A_{i_m})... ]

统计学派

频率方法(frequentist approach) 和 贝叶斯方法(Bayesian approach)

原文地址:https://www.cnblogs.com/evian-jeff/p/11383268.html