201119西瓜书系列博客---7、贝叶斯分类器

201119西瓜书系列博客---7、贝叶斯分类器

一、总结

一句话总结:

7.1、贝叶斯决策论;7.2、极大似然估计
7.3、朴素贝叶斯分类器
7.4、半朴素贝叶斯分类器
7.5、EM方法

1、贝叶斯公式?

$$P ( B _ { i } | A ) = frac { P ( B _ { i } ) P ( A | B _ { i } ) } { sum _ { j = 1 } ^ { n } P ( B _ { j } ) P ( A | B _ { j } ) }$$实际上,分母为全概率公式,分子为联合概率。
在机器学习中,更常见的形式为:$$P ( B | A ) = frac { P ( A | B ) P ( B ) } { P ( A ) }$$
贝叶斯公式的作用在于【将P(B|A)的估计转化为估计P(A|B)和P(B)】

2、【7.1、贝叶斯决策论】?

贝叶斯决策论(Bayesian decision theory)是【概率框架】下实施决策的基本方法。
对于分类任务来说,假设所有的相关概率已知,贝叶斯决策论考虑如何【基于这些概率和误判损失来选择最优的类别标记】。
基于后验概率P(c_i|x)可获得将样本x分类为c_i所产生的【期望损失】,即在样本x上的【条件风险(conditional risk)】:$$R ( c _ { i } | x ) = sum _ { j = 1 } ^ { N } lambda _ { i j } P ( c _ { j } | x )$$
我们的目标就是寻找一个判定准则h来最小化所有样本的条件风险之和,即【最小化总体风险】。这样就产生了贝叶斯判定准则(Bayes decision rule):为最小化总体风险,【只需在每个样本上选择那个能使条件风险R(c_i|x)的最小类别标记c_i】,即:$$h ^ { * } ( x ) = arg min _ { c in gamma } R ( c | x )$$

3、【7.1、贝叶斯决策论】 对于如何得到后验概率P(c|x),主要有两种策略?

给定x,可通过直接建模P(c|x)来预测c,这样得到的是【判别式模型(discriminative models)】。
先对联合概率分布P(x,c)建模,然后再由此获得P(c|x),这样得到的是【生成式模型(generative models)】。

4、【7.1、贝叶斯决策论】 后验概率和似然?

若给定B,则P(A|B)为【后验概率】;此时,针对多个候选A,选择使后验概率最大的那一个,称为最大后验估计(已知B,A发生的(条件)概率)
若给定A,则P(A|B)为【似然概率】;此时,针对多个候选B,选择使似然概率最大的那一个,称为最大似然估计(已知A,它更像是在哪个B条件下得到的)

5、【7.2、极大似然估计】 事实上,【概率模型的训练过程就是参数估计过程】。对于参数估计,有两种学派提供了不同的方法?

频率学派:认为【参数是客观存在的固定值】,可通过优化似然函数等准则来确定参数值
贝叶斯学派:认为【参数是未观察到的随机变量】,其本身也可有分布。因此,先假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。
这里采用的是【频率学派的极大似然估计(MLE)】,这是根据数据采样来估计概率分布的经典方法。

6、【7.3、朴素贝叶斯分类器】?

估计后验概率P(c|x)的主要困难在于:似然概率P(x|c)是所有属性上的联合概率,【难以从有限的样本中直接估计】。
为避开这个障碍,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知类别,假设每个属性互相独立。换言之,【假设每个属性独立地对分类结果发生影响】。

7、【7.4、半朴素贝叶斯分类器】 半朴素贝叶斯分类器的基本思想?

【适当考虑一部分属性间的相互依赖信息】,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。

8、【7.5、EM方法】?

EM(Expectation-Maximization)算法是一种常用的【估计参数隐变量】的利器,也称为【“期望最大算法”】,是数据挖掘的十大经典算法之一。
EM算法主要应用于【训练集样本不完整即存在隐变量时的情形】(例如某个属性值未知),通过其独特的“两步走”策略能较好地估计出隐变量的值。

9、【7.5、EM方法】 EM方法的基本思想?

若模型参数θ已知,则可【根据训练数据推断出最优隐变量Z的值(E步)】;反之,若Z的值已知,则可方便地【对参数θ做极大似然估计(M步)】。

10、【7.5、EM方法】 EM算法步骤?

第一步是【期望E步】:利用当前估计的参数值来计算对数似然的期望值
第二步是【最大化M步】:寻找能使E步产生的似然期望最大化的参数值
新得到的参数值被重新用到E步,【重复以上两步直至收敛】

二、201119西瓜书系列博客---7、贝叶斯分类器

转自或参考:西瓜书读书笔记——第七章:贝叶斯分类器_Andrewings-CSDN博客
https://blog.csdn.net/shichensuyu/article/details/91635878

 
我的旨在学过的东西不再忘记(主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法)的偏公益性质的完全免费的编程视频学习网站: fanrenyi.com;有各种前端、后端、算法、大数据、人工智能等课程。
博主25岁,前端后端算法大数据人工智能都有兴趣。
大家有啥都可以加博主联系方式(qq404006308,微信fan404006308)互相交流。工作、生活、心境,可以互相启迪。
聊技术,交朋友,修心境,qq404006308,微信fan404006308
26岁,真心找女朋友,非诚勿扰,微信fan404006308,qq404006308
人工智能群:939687837

作者相关推荐

原文地址:https://www.cnblogs.com/Renyi-Fan/p/14014630.html