数学知识,全概率,贝叶斯,KL散度,信息熵

中心极限定理:指出大量的随机变量近似服从正态分布的条件

独立同分布的中心极限定理:随机变量独立同分布,并具有有限的数学期望和方差,只要 n 足够大,便可以把独立同分布的随机变量之和当作正态变量

             n 足够大时 ,Xi 求和 近似服从 N(nE(xi),nD(xi))

对概率密度函数积分算概率 P = 积分号 f(x)dx

全概率公式:事件A包括很多,A1、A2....An,事件B只有一件,从A到B的概率是多少 P(B)=A1发生的概率乘以A1发生时B发生的概率,,,求和

      即,事件B 发生的概率为    P(B)=P(A1)*P(B|A1) + P(A2)*P(B|A2)+.....+P(An)*P(B|An)

贝叶斯公式: 已知事件 B 发生的概率,反求第一步路径的概率 P(A1|B)

                 反求第二步的概率 P(A2|B)

                 反求第 i 步的概率 P(Ai|B)

      P(A1| B) = 一条路径/所有路径

          =一条路径/全概率

          =P(A1) P(B| A1) / 上面的 P(B)     # 分子是下面分母乘积中的一个

离散型随机变量的一切可能取值 xi ,与对应的概率 p(xi) 乘积之和,称为该离散型随机变量的数学期望 E(x)=xi*pi 求和

KL散度是用来比较两个概率分布的方法,衡量分布差异, KL散度帮助衡量选择近似值时损失了多少信息

热力学中的熵是表示分子状态混乱程度的物理量,信息熵表示信源的不确定性

信息论的主要目标是量化数据中有多少信息

一、两个独立符号产生的不确定性等于各自不确定性之和 f (p1,p2) = f(p1) + f(p2)

二、概率大,出现的机会多,不确定性小;概率小,出现的机会少,不确定性大,,,,so 不确定性函数是概率 P 的减函数

满足这两个条件的函数  f 是概率 P 的减函数(信息熵的百度百科)

f(P) = log (1/p) = -log p

信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性

信源有 n 种取值,分别是 U1,U2......Un,对应的概率分别是P1,P2......,Pn,且各种情况相互独立

信源的平均不确定性应该为单个符号不确定性 -logPi 的统计平均值E,可以称为信息熵 (这一看就是离散型变量的统计平均值)

E(-logPi)=-Pi*logPi( i=1...n) 求和,因此信源的平均不确定性可称为信息熵

交叉熵,CrossEntropy用于度量两个概率分布间的差异性信息,p 表示真实分布,q 表示非真实分布

H(p, q) = p(x)*log(1/q(x)) 求和,称为交叉熵,交叉熵越小,认为两个随机事件越相近

相对熵 RelativeEntropy, 也称 KL 散度,KL Divergence,,,是两个概率分布的信息熵的差值

so KL(P||Q) = p(x)log(p(x)/q(x)) 求和

 KL(P||Q) = 积分号 p(x)log(p(x)/q(x)) dx

KL 散度 = 交叉熵 - 信息熵

积分号p(x)log(p(x)/q(x)) = 积分号p(x)log(1/q(x))+ 积分号p(x)logp(x)

KL 散度越小,真实分布与近似分布匹配越好

原文地址:https://www.cnblogs.com/DoctorZhao/p/13221946.html