贝叶斯笔记

绪论

贝叶斯学派的最基本的观点是:任一个未知量( heta)都可看作一个随机变量,应该用一个概率分布去描述对( heta)的未知状况。这个概率分布是在抽样前就有的关于( heta)的先验信息的概率称述。
似然函数属于联合密度函数，综合了总体信息和样本信息

[L( heta^prime)=p(X| heta^prime)=prod_{i=1}^n p(x_i| heta^prime) ]

贝叶斯公式的密度函数形式与离散形式，其中( heta)的条件分布称为( heta)的后验分布，集中了总体、样本和先验等三种信息中有关( heta)的一切信息，排除了与之无关的信息。一般先验分布(pi( heta))反映人们抽样前的认识，通过抽样信息（总体信息和样本信息）对先验进行调整形成后验分布。

[pi( heta|pmb{x})=frac{p(pmb{x}| heta)pi( heta)}{h(pmb{x}, heta)}=frac{p(pmb{x}| heta)pi( heta)}{int_{Theta} {p(pmb{x}| heta)pi( heta)} m d heta} ]

[pi( heta_i|x)=frac{p(x| heta_i)pi( heta)}{sum_{j} {p(x| heta_j)pi( heta_j)}} ]

贝叶斯假设，对无信息时，可认为( heta)在区间(0,1)的均匀分布

[pi( heta)=egin{cases}1, 0< heta<1 \ 0,其他场合 end{cases} ]

重要分布
- 二项分布：重复n次独立的伯努利试验，每次试验的成功概率为p，当试验次数为1时，二项分布服从0-1分布，其分布为：(P(X=k)=C^k_n p^k(1-p)^{n-k}), 常用于观察单位只能具有相互对立的一种结果的猜测活动。
- 指数分布：描述泊松过程中的事件之间的时间的概率分布，即事件以恒定平均速率连续且独立地发生的过程，具有无记忆的关键性质。常用于描述对发生的缺陷数或系统故障数的测量结果，但不能作为机械零件功能参数的分布规律。密度函数为：(f(x)=lambda e^{-lambda x};x>0)
- 泊松分布：适合于描述单位时间内随机事件发生的次数。概率函数为：(P(X=k)=frac{lambda^k}{k!}e^{-lambda});k=0,1.... 当二项分布的n很大而p很小时，泊松分布可作为二项分布的近似，其中λ为np。
- 贝塔分布，也称B分布，定义在(0,1) 区间的连续概率分布，其概率密度函数为：(f(x;alpha,eta)=frac{Γ(alpha+eta)}{Γ(alpha)Γ(eta)}x^{alpha-1}(1-x)^{eta-1}=frac{1}{B(alpha,eta)}x^{alpha-1}(1-x)^{eta-1})，其中贝塔函数(B(alpha,eta)=int_0^1 x^{alpha-1}(1-x)^{eta-1}dx=frac{Γ(alpha)Γ(eta)}{Γ(alpha+eta)})，Γ为伽马函数(Γ(x)=int_0^{+infty} t^{x-1}e^{-t}dt;(x>0))，贝塔分布的核为( heta^{alpha-1}(1- heta)^{eta-1})(注意区分二项分布的核( heta^{x}(1- heta)^{n-x})中x为变量，贝塔分布中( heta)是变量)
- 伽马分布(Ga(alpha,lambda))，其中(alpha)>0为形状参数，(lambda>0)为尺度参数，其密度函数为(p(x|alpha,lambda)=frac{lambda^alpha}{Gamma(alpha)}x^{alpha-1}e^{-lambda x})，通过此可以得到(Y=X^{-1})的密度函数：(p(y|alpha,lambda)=frac{lambda^alpha}{Gamma(alpha)}frac{1}{y}^{alpha+1}e^{frac{-lambda}{y}})，称为倒伽马分布记为(IGa(alpha,lambda))
指数分布簇
- 形如 (f_X(x| heta) = h(x) g( heta) exp[ eta( heta) cdot T(x) ])
- 包含如正态分布、多项式分布、泊松分布、伽马分布、指数分布、贝塔分布和 Dirichlet 分布等

共轭先验

设( heta)是总体分布中的参数(或参数向量)，(pi( heta))是( heta)的先验密度函数,假如由抽样信息算得的后验密度函数与(pi( heta))有相同的函数形式,则称(pi( heta))是( heta)的(自然)共轭先验分布。通过这种方式计算得到的后验分布的一些参数可以很好解释。共轭先验分布的选区是由似然函数所含的( heta)因式所决定，即选与似然函数(( heta)的函数)具有相同核的分布作为先验分布。
- 正态均值(方差已知)的共轭先验分布是正态分布。可以理解为：后验均值是在先验均值与样本均值间采取折衷方案，在处理正态分布时,方差的倒数发挥着重要作用,并称其为精度，则后验分布的精度是样本均值分布的精度与先验分布精度之和，增加样本量n或减少先验分布方差都有利于提高后验分布的精度。
[先验知识 heta sim N(mu, au^2) 总体分布x sim N( heta,sigma^2)样本 overline{x}, sigma_0^2=frac{sigma^2}{n}\ 后验知识pi( heta|pmb{x}) sim N(mu_1, au_1^2) \ ]
[mu_1=frac{frac{mu}{ au^2}+frac{overline{x}}{sigma_0^2}}{ frac{1}{ au^2}+frac{1}{sigma_0^2} } \ frac{1}{ au_1^2}=frac{1}{ au^2}+frac{1}{sigma_0^2} ]
- 二项分布的成功概率( heta)的共轭先验分布是贝塔分布
[先验 heta sim Be(alpha,eta)总体X sim b(n, heta)\ 后验pi( heta|pmb{x}) sim Be(alpha+x,eta+n-x) ]
[E( heta|x)=frac{alpha+x}{alpha+eta+n}=frac{n}{alpha+eta+n}frac{x}{n}+frac{alpha+eta}{alpha+eta+n}frac{alpha}{alpha+eta} \ Var( heta|x)approx frac1n frac{x}{n}(1-frac{x}{n}) ]
- 常用共轭先验分布

在单参数指数族场合,使用共轭先验分布得后验均值一定值于先验均值与样本均值(或样本方差等)之间。
后验分布的计算：由于(m(x))不依赖于( heta)，在计算时仅起到正则化因子的作用，$$pi( heta|pmb{x}) propto p(pmb{x}| heta)pi( heta)$$，其中各因子提取出仅与( heta)有关的称为核。计算时可以略去与( heta)无关的因子。
先验分布的选取，应以合理性作为首要原则

确定先验信息

超参数：先验分布中所含的未知参数称为超参数。无信息先验分布一般不含超参数。

确定超参数的估计值
- 利用先验矩（根据历史若干个估计值，进行加工整理，得到相关值，估计值来源一般为专家经验）
- 利用先验分位数（确定两个分位数，得到方程式，解得相关值）
- 利用先验矩和先验分位数
多参数模型（实际问题中常有多个未知参数，而一般不关注的参数称为讨厌参数）
- 正态均值与正态方差的(联合)共轭先验分布为正态-逆伽马分布记为(N-IGa(v_n,mu_nsigma_n^2))
充分统计量
- 设x是来自分布函数(F(x| heta))的一个样本，(T=T(x))是统计量，假如在给定T(x)的条件下，x的条件分布与( heta)无关的话,则称该统计量为( heta)的充分统计量。
- 设(x)为密度函数(p(x| heta))的一个样本，(T(x))为( heta)的充分统计量的充要条件是，用样本分布(p(x| heta))算得的后验分布与统计量(T(x))算得的后验分布是相同的。如二维统计量(T=(overline{x},Q))恰好是量((mu,sigma^2))的充分统计量。
- 使用充分统计量可以简化数据、降低样本维数，从而简化后验分布的计算。

贝叶斯估计

条件方法

后验分布是在样本x给定下θ的条件分布,基于后验分布的统计推断就意味着只考虑已出现的数据(样本观察值),而认为未出现的数据与推断无关，这一重要的观点被称为“条件观点“,基于这种观点提出的统计推断方法被称为条件方法。

贝叶斯估计

从后验分布中选用某个特征量作为θ的估计。使后验密度达到最大的值( heta_{MG})称为最大后验估计;后验分布的中位数( heta_{Me})称为( heta)的后验中位数估计;后验分布的期望值( heta_{E})称为θ的后验期望估计,这三个估计也都称为θ的贝叶斯估计,记为( heta_{B}),在不引起混乱时也记为( heta_{0})。实际中，一般采用后验期望估计作为贝叶斯估计。
- 估计的误差。取后验均值可使后验均方差达到最小。

柯西分布期望不存在

区间估计

对于区间估计问题,贝叶斯方法具有处理方便和含义清晰的优点,而经典方法寻求的置信区间常受到批评。

可信区间：

设参数( heta)的后验分布为(pi( heta|x))，给定样本x和概率α (0<α<1)，若存在这样两个统计量( heta_U) ( heta_L)，使得(P( heta_L le heta le heta_U | x) > 1-alpha)，则称区间[( heta_U) ,( heta_L) ]为( heta)的可信水平为(1-alpha)的贝叶斯可信区间，即参数( heta)的(1-alpha)的可信区间。仿照经典方法，可以得到(1-alpha)的单侧可信下限和(1-alpha)的单侧可信上限。
- 贝叶斯方法可信区间的寻求，较经典统计方法更简单。
- 经典统计求得的是置信区间，而贝叶斯得到的是可信区间，可信区间更符合理解和解释。
最大后验密度(HPD)可信区间

区间长度最短，并把具有最大后验密度的点都包含在区间内，而区间外的点上的后验密度函数值不超过区间内的后验密度函数值
- 若后验密度函数是单峰对称的，则((1-alpha)HPD)可信空间为等尾可信区间，单峰不对称需要计算机器辅助计算；多峰则可能出现可信区间不连续的情况。
- PS：当后验密度函数出现多峰时，常常是由于先验信息与抽样信息不一致引起的，而共轭先验分布大多是单峰的，这必导致后验分布也是单峰的，它可能会掩盖这种不一致信息，故而要慎重对待和使用共轭先验分布。
假设检验

获得后验分布后，计算两个假设H0与H1的后验概率，然后比较两者的大小，即观察后验概率比(alpha_0/alpha_1)，从中选择最大概率的一方；但当两者相接近时需要进一步抽样或搜集信息。此种方法可推广到三个及以上的假设状况。
贝叶斯因子，既依赖于样本数据x，还依赖于先验分布(pi)，这会减弱先验的影响，突出数据的影响；贝叶斯因子体现了数据支持某假设的程度。贝叶斯因子对样本信息变化的反应是灵敏的，而对先验信息变化的反应是迟钝的。

[B^pi(x)=frac{ ext{后验机会比}}{ ext{先验机会比}}=frac{alpha_0/alpha_1}{pi_0/pi_1}=frac{alpha_0pi_1}{pi_0alpha_1} ]
- 简单对简单（参数假设为特定值）
  
  [B^pi(x)=frac{alpha_0pi_1}{pi_0alpha_1}=frac{p(x| heta_0)}{p(x| heta_1)} ]
- 复杂对复杂（参数假设为特定区间，使用g(θ)约束θ的范围表示θ的分布情况，特别的取两个区间θ的极大似然估计代替g(θ)的加权结果可以得到经典统计的似然比统计量）

简单对复杂（综合前两种情况的思维，将特定值转化为以特定值附近区间）

由于此类情况的贝叶斯因子计算简单，可以使用其计算得到θ的后验分布：

以上的三种可以拓展到多重假设问题，PS: 针对现实问题，需要根据已知的信息和分布特定，设定总体分布和先验函数。
预测（对随机变量未来观察值做出统计推断，一般先获得变量分布，再取期望、中位数、众数、一定区间等作为预测值）预测值的方差一般大于实测值的方差。
- 如果无样本观察数据，则使用先验分布获得随机变量 x 的边缘分布m(x)。
- 如果有样本观察数据，则使用先验分布求得后验分布，再计算随机变量 x 的后验预测分布m(x|x)。

如果有样本观察数据，并估计同参数的另一个随机变量，则使用先验分布获得随机变量 z 的后验预测分布m(z|x)。

似然原理当x的样本值给出时，似然函数为(L( heta)=p(x| heta)=prod_{i=1}^n p(x_i| heta)) 这是一个关于θ的函数，使似然函数在参数空间取最值的(hat{ heta})称为最大似然估计。
- 有了观测值后，似然函数L(θ)包含了所有与试验有关的θ的信息；
- 如果两个似然函数成比例，比例函数与θ无关，则两者包含θ的信息相同

先验分布的确定

主观概率(人们根据经验对一个事件发生可能性的个人信念，对取值范围是离散时更有效)
- 对立事件比较
- 专家意见（询问专家时需要设计好问题，并对专家有一定的了解便于修正形成自己的主观概率，或者向多个专家咨询综合修正）
- 历史资料
利用先验信息（参数空间连续）
- 等分区间统计各区间的频率，绘制直方图
- 选定先验密度后再估计超参数
- 定分度与变分度
利用边缘分布m(x)
- 边缘分布可以看作是混合分布（多个总体加权平均）的推广，如果p(x|θ)已知，则m(x)可以反映先验函数的合理性；
- 把(m^pi)作为先验函数(pi)的似然函数，通过极大似然法选取(pi)，这种方法称为二型极大似然先验。如果先验密度函数形式已知，则求解先验函数中的超参数即可。
- 矩方法(先验函数形式已知时，利用先验矩和边缘分布矩的关系建立方程寻求超参数的估计值)
无信息先验与广义先验分布

贝叶斯决策

决策三要素：状态集合、行动集、收益函数Q
行动的容许性：行动集中只存在容许的行动（有选择地可能，有存在地必要）
决策准则：悲观准则(max min)、乐观准则(max max)、折中准则（乐观系数）
损失函数L = max(Q) - Q "该赚却没赚到的钱"。损失函数包含了较多的信息，使用其做决策将更为合理
先验期望准则：以收益函数在先验信息下得到的先验期望收益，取最大处为最优行动（与收益函数的原点和单位无关）；或以损失函数在先验信息下得到的先验损失，取最大处为最优行动。两种方式只用到了先验信息，故只能使用正常的先验分布，而不能使用广义先验分布。
把损失函数引入贝叶斯统计推断，就构成了贝叶斯决策问题。
后验风险准则：损失函数对后验分布的期望称为后验风险R，以后验风险最小处为最优行动（和样本有关，故是一个决策函数），此时的决策函数为贝叶斯解。
决策函数（从样本到决策的映射）与决策函数类

贝叶斯网络

贝叶斯网络是用来表示变量间连接概率的图形模式，能表示复杂联合概率分布的紧凑表示形式，它提供了一种自然的表示因果信息的方法，用来发现数据间的潜在关系。在这个网络中，用节点表示变量，有向边表示变量的依赖关系，并使用条件概率表（CPT）来描述联合概率分布。

参考书籍：《贝叶斯统计》
参考答案：https://tc5.us/file/22692114-408635452

更多内容，欢迎关注公众号豆豆的笔记本