【数学基础篇】--详解人工智能之数学 积分学,概率空间,大数定律和中心极限定理

一、前述

上一篇我们讲到了微分学,本文我们接着讲解积分学,以及概率的相关知识。

二、常用符号

三、积分

1、积分定义

将一个函数对应的区间n等分,然后加和求极限。

2、积分理解

代数意义: 无穷求和

几何意义: 函数与 X 轴之间的有向面积。

3、(牛顿-莱布尼茨公式)

如果 f(x) 是定义在闭区间 [a, b] 上的可微函数, 那么就有

不定积分表示为

牛顿-莱布尼茨公式展示了微分与积分的基本关系: 在一定程度上微分与积分互 为逆运算.

 4、案例

求函数 ln(x) 的不定积分。

5、多变量函数的积分

如果积分区域形状不规则,可以用一个矩形把积分区域包起 来,并令函数在积分区域外边等于 0.

二重积分的几何意义是积分函数与 X − Y 坐标平面之间部 分的有向体积.

 6、积分学总结

积分的代数意义是无穷求和,几何意义是带符号的体积

微分和积分在一定程度上互为逆运算

熟悉微分公式有助于计算积分

多重积分可以理解成是依次进行的单重积分

四、随机变量与概率

1、离散随机变量(发生事件的几种情况,比如扔塞子。1-6为随机变量)

比如上述事件<=3就是1.2.3事件概率取值。

2、连续随机变量

对于每一个具体的取值的概率为0.

对于连续型随机变量,概率为概率密度函数的积分.

不论是离散还是连续型随机变量, 概率函数和概率密度函数 的定义域即为这个随机变量的值域.

作为一个特殊的概率函数,分布函数定义为 Φ(x) = P(X < x).

我们在此只考虑几乎处处连续的概率密度函数,我们不考虑离散,连续混 合型的随机变量

 3、概率

事件的概率(事件是一个集合)

整个概率空间是一个事件,这个事件一定发生所以全空间的 概率为 1

事件是随机变量值域的子集 S

事件的概率则表示 S 里面概率之和或概率密度之积分.

事件的条件概率

条件本身也是事件,也可表示为随机变量值域的子集:A

条件概率里面的事件,又是这个条件的子集:S ∩ A ⊂ A

概率其实就是集合的大小比例,而概率函数或者概率密度函数可以理解为比较 大小时候的权重

 4、贝叶斯公式

利用前面的定义我们知道,事件 A, B 同时发生的概率为 P(A ∩ B),

一方面 P(A ∩ B) = P(B|A)P(A)

另一方面对称的有 P(A ∩ B) = P(A|B)P(B)

所以 P(B|A)P(A) = P(A|B)P(B),

两边同时除以 P(B) 就得到 了贝叶斯公式.

五、随机变量与概率:共轭分布

 1、概述

常见的概率分布基本上都有参数,比如正态分布有 (µ, σ) 两个参 数,泊松分布有一个参数 λ. 对于一个具体的问题而言,关于这 些参数有两种不同的看法

利用经验得到一个关于参数的先验分布.(Bayesian)

不对参数先验分布做任何假设,只利用当前观测的数据来对 参数进行估计.(Frequentist)。

2、先验分布,似然函数,后验分布

参数先验分布为 p(θ) 似然函数为 p(x|θ) 观测值为 X,贝叶斯的思想是根据观测值来调整参数的先验分布从而得到参数 的后验分布. 参数后验分布为

3、共轭分布

如果参数的后验分布与先验分布属于同一类分布,那么我们说这 种先验分布为共轭分布 (Conjugate prior). 比如

似然函数为正态分布时, 如果 σ 已知,关于 µ 的正太分布是 共轭分布 似然函数为正态分布时, 如果 µ 已知,关于 σ 的反 Gamma 分布是共轭分布

共轭分布的好处在于,先验与后验分布属于一个大类,这样计算 和理解上都比较方便.

4、小结 (随机变量与概率)

概率可以理解为事件所代表的集合在全概率空间中的比例

对于概率分布参数的先验分布有不同的观点

如果参数先验分布与后验分布属于同一类,则叫做共轭分布.

六、大数定律和中心极限定理

1、随机变量的矩

X 是一个随机变量对于任何正整数 n,定义

矩可以描述随机变量的一些特征,

期望是 X“中心”位置的一种 描述,

方差可以描述 X 的分散程度,

特征函数可以全面描述概率 分布.

2、切比雪夫不等式

设 X 为随机变量,期望值为 µ, 标准差为 σ, 对于任何实数 k > 0

切比雪夫不等式给出方差对 X 分散程度的描述提供了一个定量 的估计.

如何证明切比雪夫不等式:

 

3、随机变量的相关系数

X,Y 是两个随机变量。

X, Y 的协方差:cov(X, Y ) = E(XY ) − E(X)E(Y )

X, Y 的相关系数

4、独立随机变量

X,Y 是两个随机变量如果联合分布 p(x, y) = p(x)p(y),

则 X, Y 为独立随机变量. 独立随机变量相关系数为 0

相关系数为零,两个随机变量不见得独立

5、特殊分布的特征函数

6、大数定律

自然对数底数 e 的定义。

定义:

 

 7、中心极限定理

 8、总结

随机变量的矩可以描述随机变量所服从分布的性质

随机变量的特征函数可以全面描述随机变量的分布

切比雪夫不等式指出方差可以描述随机变量取值的分散程度

大数定律指出独立重复实验的平均值的收敛规律

中心极限定理给出独立重复实验平均值更细致的描述

 

 

原文地址:https://www.cnblogs.com/LHWorldBlog/p/9614192.html