第一篇，就写今天看的东西

一被别人问：你是学什么方向的

我默默回答一句：数据挖掘

别人意味深长の回答一句：哦.......

想必看出了我只是个小白。

既然清楚自己是个小白，开这个博客也只是为了让自己更好的做笔记，并且渴望得到大神的指点，让自己进步更快一些。

So，begin：

数据挖掘嘛，so，统计与概率，矩阵，机器学习，巴拉巴拉巴拉.....

一堆堆看不懂的东西，从接触数据挖掘之后，公式巨多，巨长，巨大，最亲切的也就是贝叶斯公式。

那就先从最简单的开始，概率

首先需要把名词解释清楚：先验概率、后验概率

先验概率是指根据以往经验和分析得到的概率，如全概率公式中的，它往往作为“由因求果”问题中的“因”出现。

后验概率是指在得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的“因” 。

就我自己的理解，先验概率是可以通过已知信息算出来的，而后验概率是通过先验概率修正得出的。而修正先验概率利用的就是贝叶斯公式。

在此都是浅显地留个印象，接下来，咱们搞点数学。

先验概率（Prior probability）

在贝叶斯统计中，先验概率分布，即关于某个变量 p 的概率分布，是在获得某些信息或者依据前，对 p 的不确定性进行猜测。例如， p 可以是抢火车票开始时，抢到某一车次的概率。这是对不确定性（而不是随机性）赋予一个量化的数值的表征，这个量化数值可以是一个参数，或者是一个潜在的变量。

先验概率仅仅依赖于主观上的经验估计，也就是事先根据已有的知识的推断。在应用贝叶斯理论时，通常将先验概率乘以似然函数（likelihoodfunction）再归一化后，得到后验概率分布，后验概率分布即在已知给定的数据后，对不确定性的条件分布。

似然函数（likelihood function）

称作似然，是一个关于统计模型参数的函数。也就是这个函数中自变量是统计模型的参数。对于结果 x ，在参数集合 θ 上的似然，就是在给定这些参数值的基础上，观察到的结果的概率 L(θ|x)=P(x|θ) 。也就是说，似然是关于参数的函数，在参数给定的条件下，对于观察到的 x 的值的条件分布。

后验概率（Posterior probability）

后验概率是关于随机事件或者不确定性断言的条件概率，是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布，并且是在基于实验或者调查所获得的信息上的条件分布。“后验”在这里意思是，考虑相关事件已经被检视并且能够得到一些信息。

后验概率是关于参数 θ 在给定的证据信息 X 下的概率： p(θ|x) 。若对比后验概率和似然函数，似然函数是在给定参数下的证据信息 X 的概率分布： p(x|θ) 。

二者有如下关系：

我们用 p(θ) 表示概率分布函数（相当于先验概率），用 p(x|θ) 表示观测值 x 的似然函数。后验概率定义如下：

p(θ|x)=p(x|θ)p(θ)/p(x)

在分母不变的情况下，就成了：Posteriorprobability∝Likelihood×Prior probability

接下来用个例子说明问题

一口袋里有3只红球、2只白球，采用不放回方式摸取，求：⑴ 第一次摸到红球（记作A）的概率；⑵ 第二次摸到红球（记作B）的概率；⑶ 已知第二次摸到了红球，求第一次摸到的是红球的概率。

(1)对于这一问，就相当于在计算一个先验概率的问题，P(A) = 3/5

(2)在考虑这个问题时：P(B) = P(AB)+P(A逆B) = P(B/A)P(A)+P(B/A逆)P(A逆) = 2/4 *3/5+3/4*2/5 = 3/5

(3)对于这个问题，也就是求P(A/B) ,这是一个典型的后验概率，P(A/B) = P(AB)/P(B) = P(B/A)*P(A)/P(B) = (2/4*3/5)/(3/5) = 1/2