断棍构造过程-波利亚翁方案-中餐馆过程

介绍三种构造狄利克雷过程的方法

  1. 断棍构造过程(Stick-Breaking Construction)

给出了一种显式采样方法,即构造一个有明确定义的G ,使得G满足狄利克雷过程。

构造:第一步,给定一个正实数 ,先从beta分布中构造一个,这里k从1到 ;再利用构造一个。之所以要这样得到是为了让 ,即我们希望得到一个概率质量函数。

    第二步,从参数空间 中的一个基分布H 中采样一个参数序列 ,这个 是服从分布H的。

    第三步,把他们合在一起构成离散分布 ,这便是狄利克雷过程的一个采样。

记为 ~GEM( ).

  1. 波利亚翁方案

这种方法并不去显式的构造分布G,而是根据后验分布的性质

方法:从狄利克雷过程当中观察得到N个观测值时,这些 的取值可能有K个不同值,记作,那么下一个观测值的条件分布为:

,注意这里只取了分布中的期望部分, 是取值为 的个数。

这个东西有一个形象的理解:我们要从一个翁和一个分布H中取彩球,从翁中取球的概率正比于翁中球的个数,从H中取球的概率正比于 。刚开始的时候翁是空的,从H中取球,放进翁中。如果球是从翁中取出的就放进一只同样颜色的球,这样每次取出颜色为的球的概率就正比于翁中已有的颜色为 的球。

  1. 中餐馆过程(Chinese Restaurant Process)

如果我们从狄利克雷过程中按波利亚瓮方案采样,它们取K < N 个不同的值,那么这N 个样本就形成了K 个团簇。也就是说,随机地按波利亚瓮方案采样N 个观察值对应着对整数集合{1,…,N}的一个划分,每一种划分方式都存在一定的概率,描述这种划分的分布叫做中餐馆过程

为了更明显的区分,我们把类别标号写成 ,即。则有

中餐馆过程是一种聚类过程,假设餐馆中没有顾客,刚进来的第一个人随机选择一张桌子坐下,每张桌子代表一类,后进来的顾客按照如下原则选择桌子:以概率 选择第k张已经有人的桌子坐下,以概率的概率选择一张没有人的桌子坐下。这样人数越多的桌子越有可能聚集更多的顾客形成团簇效果。

中餐馆过程具有一个性质在后面的讨论中要用到——可交换性(exchangeability ).说的是形成划分如果相同,那么与采样顺序是无关的,也就是在形成一个聚类效果之后,无论顾客进入餐馆的顺序如何,这种聚类的概率是相同的。

    优势:由于分类中会以概率 引进新的类别,所以这种聚类的聚类个数不需要人为指定。

原文地址:https://www.cnblogs.com/simayuhe/p/5147631.html