数学知识，全概率，贝叶斯，KL散度，信息熵

中心极限定理：指出大量的随机变量近似服从正态分布的条件

独立同分布的中心极限定理：随机变量独立同分布，并具有有限的数学期望和方差，只要 n 足够大，便可以把独立同分布的随机变量之和当作正态变量

　　　　　　　　　　　　　n 足够大时，Xi 求和近似服从 N(nE(xi),nD(xi))

对概率密度函数积分算概率 P = 积分号 f(x)dx

全概率公式：事件A包括很多，A1、A2....An，事件B只有一件，从A到B的概率是多少 P(B)=A1发生的概率乘以A1发生时B发生的概率，，，求和

　　　　　　即，事件B 发生的概率为 P(B)=P(A1)*P(B|A1) + P(A2)*P(B|A2)+.....+P(An)*P(B|An)

贝叶斯公式: 已知事件 B 发生的概率，反求第一步路径的概率 P(A1|B)

　　　　　　　　　　　　　　　　　反求第二步的概率 P(A2|B)

　　　　　　　　　　　　　　　　　反求第 i 步的概率 P(Ai|B)

　　　　　　P(A₁| B) = 一条路径/所有路径

　　　　　　　　　　=一条路径/全概率

　　　　　　　　　　=P(A₁) P(B| A₁) / 上面的 P(B) # 分子是下面分母乘积中的一个

离散型随机变量的一切可能取值 xi ，与对应的概率 p(xi) 乘积之和，称为该离散型随机变量的数学期望 E(x)=xi*pi 求和

KL散度是用来比较两个概率分布的方法，衡量分布差异， KL散度帮助衡量选择近似值时损失了多少信息

热力学中的熵是表示分子状态混乱程度的物理量，信息熵表示信源的不确定性

信息论的主要目标是量化数据中有多少信息

一、两个独立符号产生的不确定性等于各自不确定性之和 f (p1,p2) = f(p1) + f(p2)

二、概率大，出现的机会多，不确定性小；概率小，出现的机会少，不确定性大，，，，so 不确定性函数是概率 P 的减函数

满足这两个条件的函数 f 是概率 P 的减函数（信息熵的百度百科）

f(P) = log (1/p) = -log p

信源中，考虑的不是某一单个符号发生的不确定性，而是要考虑这个信源所有可能发生情况的平均不确定性

信源有 n 种取值，分别是 U1,U2......Un，对应的概率分别是P1,P2......,Pn，且各种情况相互独立

信源的平均不确定性应该为单个符号不确定性 -logPi 的统计平均值E,可以称为信息熵（这一看就是离散型变量的统计平均值）

E(-logPi)=-Pi*logPi( i=1...n) 求和，因此信源的平均不确定性可称为信息熵

交叉熵，CrossEntropy用于度量两个概率分布间的差异性信息，p 表示真实分布，q 表示非真实分布

H(p, q) = p(x)*log(1/q(x)) 求和，称为交叉熵，交叉熵越小，认为两个随机事件越相近

相对熵 RelativeEntropy, 也称 KL 散度，KL Divergence，，，是两个概率分布的信息熵的差值

so KL(P||Q) = p(x)log(p(x)/q(x)) 求和

　KL(P||Q) = 积分号 p(x)log(p(x)/q(x)) dx

KL 散度 = 交叉熵 - 信息熵

积分号p(x)log(p(x)/q(x)) = 积分号p(x)log(1/q(x))+ 积分号p(x)logp(x)

KL 散度越小，真实分布与近似分布匹配越好