gibbs采样
参数估计与预测
机器学习的一般思路为:
1.从问题的本质中构建模型,定义样本的产生,有联合概率(图模型)。
2.进行模型参数的估计:MLE、MAP、Bayes。
3.使用模型对新样本进行估计。
MLE:极大似然估计
估计:解优化函数
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174202742-1208207188.png)
预测:
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174203305-1729120475.png)
MAP:极大后验估计
估计:解优化函数
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174203774-102174072.png)
预测:
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174204258-121849011.png)
对比极大似然估计,引入了关于
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174204789-1498665483.png)
Bayes估计
估计:后验概率
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174205649-1345268965.png)
预测:
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174206774-178023715.png)
对于MLE和MAP算法,对模型参数进行点估计,没有考虑未知样本导致的模型参数的不确定性;对于Bayes估计,参数的后验概率有时很难求解,特别是在多参数联合分布的情况下,因此引入了近似求解的方法,引入gibbs采样,直接采样得到
gibbs采样的Naive Bayes模型
输入信息
1.有一组文本集合,利用BagOfWords模型,可以将每个文本表示成单词数量向量(经典的Naive Bayes模型将向量只有0,1两种状态)。
2.每个文本可以有标签,也可以没有标签。
3.模型的本质含义是将词向量分布相近的文档归为一类。
构建图模型
上述图模型描述了整个文档集合的构建过程。
对于每一个文档
1.首先选定类别标签,这个抽样过程服从参数为
的0-1分布。
2.接着根据类别标签生成文档的词向量
,其中
服从参数为
的多项式分布。
如果以MLE的观点,将参数、
、
作为固定值,似然概率为
,当然,这里存在隐变量
,需要用EM算法进行求解。
但是,以Bayes的观点,不能对模型参数进行点估计,而是认为参数也是一个随机变量,因此引入超参数来描述参数的分布。
具体的,0-1分布的随机参数服从参数为
的Beta分布。多项分布的参数
和
服从参数为
的Dirichlet分布。
Beta分布
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174219992-558412963.png)
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174220492-1036964715.png)
Dirichlet分布
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174221164-2137645926.png)
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174221680-1096744432.png)
可以看出,Dirichlet分布是Beta分布的多维拓展。
由于我们通过引入图模型,只是知道了文档的生成方式,但对于
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174222399-1870327166.png)
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174222945-1246423875.png)
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174223305-1938670122.png)
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174223774-1828532062.png)
写出联合概率
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174224758-258976688.png)
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174225820-386010089.png)
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174226758-404044568.png)
继续化解,将
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174227133-213340682.png)
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174227695-1488135709.png)
其中
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174228133-1248808625.png)
构建gibbs采样
构建gibbs采样的函数,主要是计算各个随机变量的单独的条件分布。
首先对文档的标签采样:
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174228539-364784994.png)
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174229086-1397555677.png)
抽样过程:
1.令
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174229461-1154809493.png)
2.令
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174229774-27922567.png)
3.对分布律
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174230133-1126828230.png)
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174230477-834726169.png)
接着对参数
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174230742-927816125.png)
![](https://images2015.cnblogs.com/blog/494740/201703/494740-20170330174231133-1252595019.png)