机器学习的数学基础-(三、概率论和数理统计)

概率论和数理统计

随机事件和概率

1.事件的关系与运算

(1) 子事件: A subset B ,若 A 发生,则 B 发生。

(2) 相等事件: A = B ,即 A subset B ,且 B subset A 。

(3) 和事件: Aigcup B (或 A + B ), A 与 B 中至少有一个发生。

(4) 差事件: A - B , A 发生但 B 不发生。

(5) 积事件: Aigcap B (或 {AB} ), A 与 B 同时发生。

(6) 互斥事件(互不相容): Aigcap B=varnothing 。

(7) 互逆事件(对立事件):
Aigcap B=varnothing ,Aigcup B=Omega ,A=ar{B},B=ar{A}

2.运算律
(1) 交换律: Aigcup B=Bigcup A,Aigcap B=Bigcap A 
(2) 结合律: (Aigcup B)igcup C=Aigcup (Bigcup C) ;
(Aigcap B)igcap C=Aigcap (Bigcap C) 
(3) 分配律: (Aigcup B)igcap C=(Aigcap C)igcup (Bigcap C)

3.德 centerdot  摩根律

overline{Aigcup B}=ar{A}igcap ar{B} overline{Aigcap B}=ar{A}igcup ar{B}

4.完全事件组

{{A}_{1}}{{A}_{2}}cdots {{A}_{n}} 两两互斥,且和事件为必然事件,即 {{A}_{i}}igcap {{A}_{j}}=varnothing, i
e j ,underset{i=1}{overset{n}{mathop igcup }}\,=Omega

5.概率的基本公式
(1)条件概率:
P(B|A)=frac{P(AB)}{P(A)} ,表示 A 发生的条件下, B 发生的概率。
(2)全概率公式:
P(A)=sumlimits_{i=1}^{n}{P(A|{{B}_{i}})P({{B}_{i}}),{{B}_{i}}{{B}_{j}}}=varnothing ,i
e j,underset{i=1}{overset{n}{mathop{igcup }}}\,{{B}_{i}}=Omega  
(3) Bayes公式:

P({{B}_{j}}|A)=frac{P(A|{{B}_{j}})P({{B}_{j}})}{sumlimits_{i=1}^{n}{P(A|{{B}_{i}})P({{B}_{i}})}},j=1,2,cdots ,n 
注:上述公式中事件 {{B}_{i}} 的个数可为可列个。

(4)乘法公式: P({{A}_{1}}{{A}_{2}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}})=P({{A}_{2}})P({{A}_{1}}|{{A}_{2}})

P({{A}_{1}}{{A}_{2}}cdots {{A}_{n}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}})P({{A}_{3}}|{{A}_{1}}{{A}_{2}})cdots P({{A}_{n}}|{{A}_{1}}{{A}_{2}}cdots {{A}_{n-1}})

6.事件的独立性
(1) A 与 B 相互独立 Leftrightarrow P(AB)=P(A)P(B) 
(2) A , B , C 两两独立
Leftrightarrow P(AB)=P(A)P(B) ; P(BC)=P(B)P(C) ; P(AC)=P(A)P(C) ;
(3) A , B , C 相互独立
Leftrightarrow P(AB)=P(A)P(B) ; P(BC)=P(B)P(C) ;
P(AC)=P(A)P(C) ; P(ABC)=P(A)P(B)P(C)

7.独立重复试验

将某试验独立重复 n 次,若每次实验中事件 A 发生的概率为 p ,则 n 次试验中 A 发生 k次的概率为:
P(X=k)=C_{n}^{k}{{p}^{k}}{{(1-p)}^{n-k}}

8.重要公式与结论

(1)P(ar{A})=1-P(A)

(2) P(Aigcup B)=P(A)+P(B)-P(AB)P(Aigcup Bigcup C)=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(AC)+P(ABC)

(3) P(A-B)=P(A)-P(AB)

(4) P(Aar{B})=P(A)-P(AB),P(A)=P(AB)+P(Aar{B}) , P(Aigcup B)=P(A)+P(ar{A}B)=P(AB)+P(Aar{B})+P(ar{A}B)

(5)条件概率 P(centerdot |B) 满足概率的所有性质, 例如:P({{ar{A}}_{1}}|B)=1-P({{A}_{1}}|B)

P({{A}_{1}}igcup {{A}_{2}}|B)=P({{A}_{1}}|B)+P({{A}_{2}}|B)-P({{A}_{1}}{{A}_{2}}|B) P({{A}_{1}}{{A}_{2}}|B)=P({{A}_{1}}|B)P({{A}_{2}}|{{A}_{1}}B) 
(6)若 {{A}_{1}},{{A}_{2}},cdots ,{{A}_{n}} 相互独立,则 $P(igcaplimits_{i=1}^{n}{{{A}_{i}}})=prodlimits_{i=1}^{n}{P({{A}_{i}})} ,P(igcuplimits_{i=1}^{n}{{{A}_{i}}})=prodlimits_{i=1}^{n}{(1-P({{A}_{i}}))}

(7)互斥、互逆与独立性之间的关系: A 与 B 互逆 RightarrowA 与 B 互斥,但反之不成立, A 与 B 互斥(或互逆)且均非零概率事件 Rightarrow  A  B 不独立。

(8)若 {{A}_{1}},{{A}_{2}},cdots ,{{A}_{m}},{{B}_{1}},{{B}_{2}},cdots ,{{B}_{n}} 相互独立,则 f({{A}_{1}},{{A}_{2}},cdots ,{{A}_{m}}) 与 g({{B}_{1}},{{B}_{2}},cdots ,{{B}_{n}}) 也相互独立,其中 f(centerdot ),g(centerdot ) 分别表示对相应事件做任意事件运算后所得的事件,另外,概率为1(或0)的事件与任何事件相互独立.

随机变量及其概率分布

1.随机变量及概率分布

取值带有随机性的变量,严格地说是定义在样本空间上,取值于实数的函数称为随机变量,概率分布通常指分布函数或分布律

2.分布函数的概念与性质

定义: F(x) = P(X leq x), - infty < x < + infty

性质:

(1) 0 leq F(x) leq 1

(2) F(x) 单调不减

(3) 右连续 F(x + 0) = F(x)

(4) F( - infty) = 0,F( + infty) = 1

3.离散型随机变量的概率分布

P(X = x_{i}) = p_{i},i = 1,2,cdots,n,cdotsquadquad p_{i} geq 0,sum_{i =1}^{infty}p_{i} = 1

4.连续型随机变量的概率密度

概率密度 f(x) ;非负可积,且:

(1) f(x) geq 0

(2) int_{- infty}^{+infty}{f(x){dx} = 1}

(3) x 为 f(x) 的连续点,则:

f(x) = F'(x) 分布函数 F(x) = int_{- infty}^{x}{f(t){dt}}

5.常见分布

(1) 0-1分布: P(X = k) = p^{k}{(1 - p)}^{1 - k},k = 0,1

(2) 二项分布: B(n,p) : P(X = k) = C_{n}^{k}p^{k}{(1 - p)}^{n - k},k =0,1,cdots,n

(3) Poisson分布: p(lambda) : P(X = k) = frac{lambda^{k}}{k!}e^{-lambda},lambda > 0,k = 0,1,2cdots

(4) 均匀分布 U(a,b) : f(x) = { egin{matrix} & frac{1}{b - a},a < x< b \ & 0, \ end{matrix}

(5) 正态分布: N(mu,sigma^{2}) : varphi(x) =frac{1}{sqrt{2pi}sigma}e^{- frac{{(x - mu)}^{2}}{2sigma^{2}}},sigma > 0,infty < x < + infty

(6)指数分布: E(lambda):f(x) ={ egin{matrix} & lambda e^{-{λx}},x > 0,lambda > 0 \ & 0, \ end{matrix}

(7)几何分布: G(p):P(X = k) = {(1 - p)}^{k - 1}p,0 < p < 1,k = 1,2,cdots.

(8)超几何分布: H(N,M,n):P(X = k) = frac{C_{M}^{k}C_{N - M}^{n -k}}{C_{N}^{n}},k =0,1,cdots,min(n,M)

6.随机变量函数的概率分布

(1)离散型: P(X = x_{1}) = p_{i},Y = g(X)

则: P(Y = y_{j}) = sum_{g(x_{i}) = y_{i}}^{}{P(X = x_{i})}

(2)连续型: X	ilde{ }f_{X}(x),Y = g(x)

则: F_{y}(y) = P(Y leq y) = P(g(X) leq y) = int_{g(x) leq y}^{}{f_{x}(x)dx} ,f_{Y}(y) = F'_{Y}(y)

7.重要公式与结论

(1) Xsim N(0,1) Rightarrow varphi(0) = frac{1}{sqrt{2pi}},Phi(0) =frac{1}{2} , Phi( - a) = P(X leq - a) = 1 - Phi(a)

(2) Xsim Nleft( mu,sigma^{2} 
ight) Rightarrow frac{X -mu}{sigma}sim Nleft( 0,1 
ight),P(X leq a) = Phi(frac{a -mu}{sigma})

(3) Xsim E(lambda) Rightarrow P(X > s + t|X > s) = P(X > t)

(4) Xsim G(p) Rightarrow P(X = m + k|X > m) = P(X = k)

(5) 离散型随机变量的分布函数为阶梯间断函数;连续型随机变量的分布函数为连续函数,但不一定为处处可导函数。

(6) 存在既非离散也非连续型随机变量。

多维随机变量及其分布

1.二维随机变量及其联合分布

由两个随机变量构成的随机向量 (X,Y) , 联合分布为 F(x,y) = P(X leq x,Y leq y)

2.二维离散型随机变量的分布

(1) 联合概率分布律 P{ X = x_{i},Y = y_{j}} = p_{{ij}};i,j =1,2,cdots

(2) 边缘分布律 p_{i cdot} = sum_{j = 1}^{infty}p_{{ij}},i =1,2,cdots

p_{cdot j} = sum_{i}^{infty}p_{{ij}},j = 1,2,cdots

(3) 条件分布律 P{ X = x_{i}|Y = y_{j}} = frac{p_{{ij}}}{p_{cdot j}} P{ Y = y_{j}|X = x_{i}} = frac{p_{{ij}}}{p_{i cdot}}

3. 二维连续性随机变量的密度

(1) 联合概率密度 f(x,y) :

1) f(x,y) geq 0

2) int_{- infty}^{+ infty}{int_{- infty}^{+ infty}{f(x,y)dxdy}} = 1

(2) 分布函数: F(x,y) = int_{- infty}^{x}{int_{- infty}^{y}{f(u,v)dudv}}

(3) 边缘概率密度: f_{X}left( x 
ight) = int_{- infty}^{+ infty}{fleft( x,y 
ight){dy}} f_{Y}(y) = int_{- infty}^{+ infty}{f(x,y)dx}

(4) 条件概率密度: f_{X|Y}left( x middle| y 
ight) = frac{fleft( x,y 
ight)}{f_{Y}left( y 
ight)} f_{Y|X}(y|x) = frac{f(x,y)}{f_{X}(x)}

4.常见二维随机变量的联合分布

(1) 二维均匀分布: (x,y) sim U(D) , f(x,y) = egin{cases} frac{1}{S(D)},(x,y) in D \ 0,其他 end{cases}

(2) 二维正态分布: (X,Y)sim N(mu_{1},mu_{2},sigma_{1}^{2},sigma_{2}^{2},
ho) ,(X,Y)sim N(mu_{1},mu_{2},sigma_{1}^{2},sigma_{2}^{2},
ho)

f(x,y) = frac{1}{2pisigma_{1}sigma_{2}sqrt{1 - 
ho^{2}}}.expleft{ frac{- 1}{2(1 - 
ho^{2})}lbrackfrac{{(x - mu_{1})}^{2}}{sigma_{1}^{2}} - 2
hofrac{(x - mu_{1})(y - mu_{2})}{sigma_{1}sigma_{2}} + frac{{(y - mu_{2})}^{2}}{sigma_{2}^{2}}
brack 
ight}

5.随机变量的独立性和相关性

X 和 Y 的相互独立: Leftrightarrow Fleft( x,y 
ight) = F_{X}left( x 
ight)F_{Y}left( y 
ight) :

Leftrightarrow p_{{ij}} = p_{i cdot} cdot p_{cdot j} (离散型) Leftrightarrow fleft( x,y 
ight) = f_{X}left( x 
ight)f_{Y}left( y 
ight) (连续型)

X 和 Y 的相关性:

相关系数 
ho_{{XY}} = 0 时,称 X 和 Y 不相关,
否则称 X 和 Y 相关

6.两个随机变量简单函数的概率分布

离散型: Pleft( X = x_{i},Y = y_{i} 
ight) = p_{{ij}},Z = gleft( X,Y 
ight) 则:

P(Z = z_{k}) = Pleft{ gleft( X,Y 
ight) = z_{k} 
ight} = sum_{gleft( x_{i},y_{i} 
ight) = z_{k}}^{}{Pleft( X = x_{i},Y = y_{j} 
ight)}

连续型: left( X,Y 
ight) sim fleft( x,y 
ight),Z = gleft( X,Y 
ight) 
则:

F_{z}left( z 
ight) = Pleft{ gleft( X,Y 
ight) leq z 
ight} = iint_{g(x,y) leq z}^{}{f(x,y)dxdy} , f_{z}(z) = F'_{z}(z)

7.重要公式与结论

(1) 边缘密度公式: f_{X}(x) = int_{- infty}^{+ infty}{f(x,y)dy,} f_{Y}(y) = int_{- infty}^{+ infty}{f(x,y)dx}

(2) Pleft{ left( X,Y 
ight) in D 
ight} = iint_{D}^{}{fleft( x,y 
ight){dxdy}}

(3) 若 (X,Y) 服从二维Y=y正态分布 N(mu_{1},mu_{2},sigma_{1}^{2},sigma_{2}^{2},
ho) 
则有:

1) Xsim Nleft( mu_{1},sigma_{1}^{2} 
ight),Ysim N(mu_{2},sigma_{2}^{2}).

2) X 与 Y 相互独立 Leftrightarrow 
ho = 0 ,即 X 与 Y 不相关。

3) C_{1}X + C_{2}Ysim N(C_{1}mu_{1} + C_{2}mu_{2},C_{1}^{2}sigma_{1}^{2} + C_{2}^{2}sigma_{2}^{2} + 2C_{1}C_{2}sigma_{1}sigma_{2}
ho)

4) { X} 关于 Y=y 的条件分布为: N(mu_{1} + 
hofrac{sigma_{1}}{sigma_{2}}(y - mu_{2}),sigma_{1}^{2}(1 - 
ho^{2}))

5) Y 关于 X = x 的条件分布为: N(mu_{2} + 
hofrac{sigma_{2}}{sigma_{1}}(x - mu_{1}),sigma_{2}^{2}(1 - 
ho^{2}))

(4) 若 X 与 Y 独立,且分别服从 N(mu_{1},sigma_{1}^{2}),N(mu_{1},sigma_{2}^{2}), 
则: left( X,Y 
ight)sim N(mu_{1},mu_{2},sigma_{1}^{2},sigma_{2}^{2},0),

C_{1}X + C_{2}Y	ilde{ }N(C_{1}mu_{1} + C_{2}mu_{2},C_{1}^{2}sigma_{1}^{2} C_{2}^{2}sigma_{2}^{2}).

(5) 若 X 与 Y 相互独立, fleft( x 
ight) 和 gleft( x 
ight) 为连续函数, 则 fleft( X 
ight) 和 g(Y) 也相互独立。

随机变量的数字特征

1.数学期望

离散型: Pleft{ X = x_{i} 
ight} = p_{i},E(X) = sum_{i}^{}{x_{i}p_{i}} ;

连续型: Xsim f(x),E(X) = int_{- infty}^{+ infty}{xf(x)dx}

性质:

(1) E(C) = C,Elbrack E(X)
brack = E(X)

(2) E(C_{1}X + C_{2}Y) = C_{1}E(X) + C_{2}E(Y)

(3) 若 X 和 Y 独立,则 E(XY) = E(X)E(Y)

(4) leftlbrack E(XY) 
ight
brack^{2} leq E(X^{2})E(Y^{2})

2.方差: D(X) = Eleftlbrack X - E(X) 
ight
brack^{2} = E(X^{2}) - leftlbrack E(X) 
ight
brack^{2}

3.标准差: sqrt{D(X)} ,

4.离散型: D(X) = sum_{i}^{}{leftlbrack x_{i} - E(X) 
ight
brack^{2}p_{i}}

5.连续型: D(X) = {int_{- infty}^{+ infty}leftlbrack x - E(X) 
ight
brack}^{2}f(x)dx

性质:

(1)  D(C) = 0,Dlbrack E(X)
brack = 0,Dlbrack D(X)
brack = 0

(2) X 与 Y 相互独立,则 D(X pm Y) = D(X) + D(Y)

(3)  Dleft( C_{1}X + C_{2} 
ight) = C_{1}^{2}Dleft( X 
ight)

(4) 一般有 D(X pm Y) = D(X) + D(Y) pm 2Cov(X,Y) = D(X) + D(Y) pm 2
hosqrt{D(X)}sqrt{D(Y)}

(5)  Dleft( X 
ight) < Eleft( X - C 
ight)^{2},C 
eq Eleft( X 
ight)

(6)  D(X) = 0 Leftrightarrow Pleft{ X = C 
ight} = 1

6.随机变量函数的数学期望

(1) 对于函数 Y = g(x)

X 为离散型: P{ X = x_{i}} = p_{i},E(Y) = sum_{i}^{}{g(x_{i})p_{i}} ;

X 为连续型: Xsim f(x),E(Y) = int_{- infty}^{+ infty}{g(x)f(x)dx}

(2) Z = g(X,Y) ; left( X,Y 
ight)sim P{ X = x_{i},Y = y_{j}} = p_{{ij}} E(Z) = sum_{i}^{}{sum_{j}^{}{g(x_{i},y_{j})p_{{ij}}}},left( X,Y 
ight)sim f(x,y) ; E(Z) = int_{- infty}^{+ infty}{int_{- infty}^{+ infty}{g(x,y)f(x,y)dxdy}}

7.协方差

Cov(X,Y) = Eleftlbrack (X - E(X)(Y - E(Y)) 
ight
brack

8.相关系数


ho_{{XY}} = frac{Cov(X,Y)}{sqrt{D(X)}sqrt{D(Y)}} ;
k 阶中心矩 Eleft{ {lbrack X - E(X)
brack}^{k} 
ight}

性质:

(1)  Cov(X,Y) = Cov(Y,X)

(2)  Cov(aX,bY) = abCov(Y,X)

(3)  Cov(X_{1} + X_{2},Y) = Cov(X_{1},Y) + Cov(X_{2},Y)

(4)  left| 
holeft( X,Y 
ight) 
ight| leq 1

(5)  
holeft( X,Y 
ight) = 1 Leftrightarrow Pleft( Y = aX + b 
ight) = 1 ,其中 a > 0


holeft( X,Y 
ight) = - 1 Leftrightarrow Pleft( Y = aX + b 
ight) = 1 
,其中 a < 0

9.重要公式与结论

(1)  D(X) = E(X^{2}) - E^{2}(X)

(2)  Cov(X,Y) = E(XY) - E(X)E(Y)

(3) left| 
holeft( X,Y 
ight) 
ight| leq 1, 且 
holeft( X,Y 
ight) = 1 Leftrightarrow Pleft( Y = aX + b 
ight) = 1 ,其中 a > 0


holeft( X,Y 
ight) = - 1 Leftrightarrow Pleft( Y = aX + b 
ight) = 1 ,其中 a < 0

(4) 下面5个条件互为充要条件:


ho(X,Y) = 0 Leftrightarrow Cov(X,Y) = 0 Leftrightarrow E(X,Y) = E(X)E(Y)

Leftrightarrow D(X + Y) = D(X) + D(Y)Leftrightarrow D(X - Y) = D(X) + D(Y)

注: X 与 Y 独立为上述5个条件中任何一个成立的充分条件,但非必要条件。

数理统计的基本概念

1.基本概念

总体:研究对象的全体,它是一个随机变量,用 X 表示。

个体:组成总体的每个基本元素。

简单随机样本:来自总体 X 的 n 个相互独立且与总体同分布的随机变量 X_{1},X_{2}cdots,X_{n} ,称为容量为 n 的简单随机样本,简称样本。

统计量:设 X_{1},X_{2}cdots,X_{n}, 是来自总体 X 的一个样本, g(X_{1},X_{2}cdots,X_{n}) )是样本的连续函数,且 g() 中不含任何未知参数,则称 g(X_{1},X_{2}cdots,X_{n}) 为统计量。

样本均值: overline{X} = frac{1}{n}sum_{i = 1}^{n}X_{i}

样本方差: S^{2} = frac{1}{n - 1}sum_{i = 1}^{n}{(X_{i} - overline{X})}^{2}

样本矩:样本 k 阶原点矩: A_{k} = frac{1}{n}sum_{i = 1}^{n}X_{i}^{k},k = 1,2,cdots

样本 k 阶中心矩: B_{k} = frac{1}{n}sum_{i = 1}^{n}{(X_{i} - overline{X})}^{k},k = 1,2,cdots

2.分布

chi^{2} 分布: chi^{2} = X_{1}^{2} + X_{2}^{2} + cdots + X_{n}^{2}simchi^{2}(n) ,其中 X_{1},X_{2}cdots,X_{n}, 相互独立,且同服从 N(0,1)

t 分布: T = frac{X}{sqrt{Y/n}}sim t(n) ,其中 Xsim Nleft( 0,1 
ight),Ysimchi^{2}(n), 且 X , Y 相互独立。

F 分布: F = frac{X/n_{1}}{Y/n_{2}}sim F(n_{1},n_{2}) ,其中 Xsimchi^{2}left( n_{1} 
ight),Ysimchi^{2}(n_{2}), 且 X , Y 相互独立。

分位数:若 P(X leq x_{alpha}) = alpha, 则称 x_{alpha} 为 X 的 alpha 分位数

3.正态总体的常用样本分布

(1) 设 X_{1},X_{2}cdots,X_{n} 为来自正态总体 N(mu,sigma^{2}) 的样本,

overline{X} = frac{1}{n}sum_{i = 1}^{n}X_{i},S^{2} = frac{1}{n - 1}sum_{i = 1}^{n}{{(X_{i} - overline{X})}^{2},} 则:

1) overline{X}sim Nleft( mu,frac{sigma^{2}}{n} 
ight){  } 或者 frac{overline{X} - mu}{frac{sigma}{sqrt{n}}}sim N(0,1)

2) frac{(n - 1)S^{2}}{sigma^{2}} = frac{1}{sigma^{2}}sum_{i = 1}^{n}{{(X_{i} - overline{X})}^{2}simchi^{2}(n - 1)}

3) frac{1}{sigma^{2}}sum_{i = 1}^{n}{{(X_{i} - mu)}^{2}simchi^{2}(n)}

4) {  }frac{overline{X} - mu}{S/sqrt{n}}sim t(n - 1)

4.重要公式与结论

(1) 对于 chi^{2}simchi^{2}(n) ,有 E(chi^{2}(n)) = n,D(chi^{2}(n)) = 2n;

(2) 对于 Tsim t(n) ,有 E(T) = 0,D(T) = frac{n}{n - 2}(n > 2) ;

(3) 对于 F	ilde{ }F(m,n) ,有 frac{1}{F}sim F(n,m),F_{a/2}(m,n) = frac{1}{F_{1 - a/2}(n,m)};

(4) 对于任意总体 X ,有 E(overline{X}) = E(X),E(S^{2}) = D(X),D(overline{X}) = frac{D(X)}{n}

原文地址:https://www.cnblogs.com/grimm/p/10874050.html