班课3

1. bayesian methods: 隶属generative model，即通过先前的概率(prior)对新加进来的点的分类进行预测；为了对这个预测进行改进，我们可以先对新加进来的点进行观察，根据它的特点进行预测

2. 如果需要考虑prior，计算maximum a posteriori hypothesis，即h_MAP= arg max_h∈HP(h|D) = arg max_h∈HP(D|h)P(h) 公式转化中有一个P(D), 因为对结果没有影响所以可以忽略掉

若不考虑prior或默认其相等，计算maximum likelihood，即h_ML= arg max_hi∈HP(D|h_i)

所以posterior hypothesis=likelihood*prior

3. 因为与财务错误所要付出的代价不同，所以引入risk

4. bayes optimal classifier: 除了前面介绍的MAP以及ML之后的新方法，不计算最大，而是将所有可能性与概率结合在一起

5. Gibbs classifier相对简单一点，根据P(h|D)随机抽取hypothesis，然后根据它进行预测，速度很快且错误小于两倍的bayes optimal classifier

6. Naive Bayes Classifier: 针对有多个features时需要用到，首先需要假设所有features之间是独立的

针对prior中没有出现过相同情况的问题，对每一项中加1，从而也不会对概率有太大影响，同时要保证概率之和为1

7. numeric attributes：利用Gaussian probability function得到每个分类的概率公式，对新加进来的点进行分类

8. 对文章进行处理，如判断是否为垃圾邮件：

multivariate bernoulli: 默认出现位置无关，对每类中各个单词的出现概率进行统计；之后要向每一类中加入全1全0 的一项

multinomial：与上面的区别在于，multivariate Bernoulli不关注单词出现的位置，所以只要出现过就可以，但是multinomial记录了每个单词出现的次数；同时之后也需要加入全1行

9. logistic regresssion是classification的一种，先进行贝叶斯方程，两边取log，假设这个log符合linear function，从而进一步化简成linear regression的形式

10. Occam's Razor: 对MAP的公式右边加入log，不会影响大小关系；核心理论是希望模型在准确的前提下越简单越好