2.1 Binary variables 二元变量分布_PRML模式识别与机器学习读书笔记

Bernouli 分布

单变量x ∈{0, 1} ,x的概率由参数 μ,表示:

b0f9e48c-f653-4750-9363-ca3e0b91c6f1

92da9531-e713-4f79-8de9-2a240d6320f6

统一格式,有:

51715940-b1a7-4c9c-88c9-290a42ed3aa3

Bernouli 分布,期望与方差:

6a7f345d-71dd-4c21-b7be-9fb0bc161651

对于x的观察数据集 e97e0cde-f951-48a9-8a22-9aeb287482c2,似然函数是 μ 的函数,假定 xi 之间独立,有:

b1b52315-a85d-4c5e-a313-0341eeac2885

从频率论角度,我们可以用最大化似然函数的方法(等价于最大化ln函数)来评估 μ 值,似然函数的自然对数有:

ef72432d-451f-4f86-a385-11023fc09a08

使得 lnp(D|μ)=0 ,得到μ 的最大似然估计:

2ae7d15c-e833-43d5-8282-861c8c533c1e

也即是样本均值,x=1的个数为m,则:

db5ec659-1fc7-40d0-8552-2bf648e31c5b

对于仍硬币实验,总共仍了3次,且出现的都是正面,那么μ ML= 1,预测以后都是扔出正面了,最大似然估计造成了over-fitting。

对于小样本集更容易引起该问题,后面会介绍引入μ 的先验概率有助于得到更合理的结果。

binomial distribution

我们来看N个样本中x=1 的个数m的分布情况,这就是binomial distribution二项式分布了:

68f497cd-465c-4e90-967e-30a26d133d1f

期望和方差:

8e8c545a-0262-448d-865f-a514cab954d1

下图是m=10,μ=0.25的分布:

ea1415b5-99b2-42d2-b0a5-0d4b2bf3c4a6

2.1.1 Beta distribution

gamma函数

首先来复习一下gamma函数:

15f458a7-9e8c-4902-9160-5d12cc951920

有如下递归性质:

Γ(x+1)=xΓ(x)

由此容易得到:

Γ(n)=(n−1)!

我们在看一下Beta函数:

767601f1-1750-4e79-bb12-fe16cf922fcc

有:

2bf2739e-d207-43e8-a4db-911fe930f77f

Gamma函数在概率统计中使用非常广泛,在很多重要的分布,如t分布,χ2 分布,F 分布,Beta分布, Dirichlet 分布中都有它的影子。最直接的还是Gamma分布,由gamma函数变形:

0112adb4-4f79-4251-ba85-6c575c90916c

得到Gamma分布最简单形式的密度函数:

8031124a-034b-4b9d-942f-75a8cea2d797

做一个变换 x=βt,这样就得到Gamma分布普遍形式:

e83b0589-38da-49a1-b568-fd7d02bfbe9e

α :shape parameter, 主要决定了分布曲线的形状;

β:   rate parameter ,inverse scale parameter (1/β 称为scale parameter),主要决定曲线有多陡。

5d26599a-691d-4184-bd64-55c1dcae1eb3

    ​回到主题。前面我们说到Bernouli 分布在小数据集上使用最大似然法会出现overfitting,因此从贝叶斯理论出发,我们需要一个先验概率p(μ)。

    如何选取先验概率的分布?似然函数与μx(1-μ)1-x 成正比,我们希望先验也有类似的性质,这样后验概率(先验与似然函数的乘积)也会存在相似的结构,这种结构的先验概率称为共轭性:

     Conjugate Prior: In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood. ----from wiki

    在贝叶斯统计理论中,如果某个随机变量Θ的后验概率 p(θ|x)和气先验概率p(θ)属于同一个分布簇的,那么称p(θ|x)和p(θ)为共轭分布,同时,也称p(θ)为似然函数p(x|θ)的共轭先验

    这里我们采用beta 分布作为先验:

017a2ad5-0110-45de-ab9a-0e4d861c2455

    上式中的系数保证分布的归一化,即使的:

cfe0abe6-a3d7-40be-be7e-6607a980b885

    期望与方差:

056cf776-a407-4797-a00a-89538b477a83

    beta分布取不同a,b值的分布:

a5bbe483-7af2-4718-99e1-ea72cf40bbb4

    μ 的后验分布由二项分布的似然函数2.9式与先验相乘并归一化,有下面的形式:

7aefa082-cd55-42ef-a13d-6bcb8384bb72

    其中l=N-m,归一化可以参考2.13式得到系数,确切的概率:

94ddbe0d-496f-47a2-84c3-241ba3fbe00f

    这又是一个beta分布,a和b分别增加了m和n,而这个后验又可以作为后续猜测的先验,最后还是得到一个beta分布。这种方式称为sequential approach,  下图是一个sequential Bayesian inference连续贝叶斯推理,前后都是beta分布;先验中a=b=2,只试验了一次,N=m=1,后验的beta参数:a=3,b=2:

1a16d404-0e68-45b3-9d1b-43923e5ce232

     而得到的分布我们可以看到会越来越sharp,因为观测的数据越多,不确定性也就是越来越小了。

     如上面的beta分布图我们可以看到,a,b越大,图形越来越sharp,方差也就越来越小了。

    假如我们要预测下一次实验的结果,也就是给定现有实验数据D,得到下次预测的分布:

57816878-0497-4914-9c54-2911459dd508

    结合2.15 beta分布的均值公式,得到:

a2932b82-152c-4879-98bc-46c774197737

    可以看出,当m,n趋于无穷时,结果逼近最大似然结果,这也是一个普遍性质:贝叶斯与最大似然方法基于无限大数据集的结果是一致的。

原文地址:https://www.cnblogs.com/enJeffrey/p/3550277.html