机器学习-极大似然和对数几率回归（浅入）

极大似然估计法

贝叶斯公式讲述了一个条件概率的问题，公式如下：

P(A|B) = P(A) frac{P(B|A)}{P(B)}

$P(A|B)$ 指在 $B$ 发生的前提下， $A$ 发生的概率

上面这篇用一个很形象的例子讲述了贝叶斯公式，它作出了如下假设：

将上面的假设带入公式就是，本来原本遇到十字路口的概率是很低的，但如果前面的车辆在打转向灯，前面遇到十字路口的概率就大大提高了。

将公式总结一下就是：

新信息出现后A的概率=A概率times新信息带来的调整

示例1

示例2

似然函数就是，假设需要求某参数 $theta$ 。给出一系列的样本 $(x_i,y_i)$ ，出现 $overline{theta}$ 的概率密度是 $l(overline{theta})$

l(theta) = p(x_1,x_2,...,x_n | theta)=Pi p(x_i|theta)

一般为了方便会取对数似然进行分析:

H(theta) = ln l(theta)

通过求导数，当 $H(theta)$ 取最大时， $theta$ 即为所估计值。

frac{dl(theta)}{dtheta}=frac{dH(theta)}{dtheta}=0

我们在做分类任务的时候，得到的数据往往是离散的0/1值，这对于我们使用回归任务学习比较麻烦，此时我们可以使用近似离散的模型去近似它。这里我们先讨论理想的“单位阶跃函数-(unit-step function)”

单位阶跃函数：

y=frac{1}{1+e ^{-z}}

单位阶跃函数-gnuplot

该函数可以近似离散的零一值为连续值，我们使用的分类也可以由这种方式表示。

ln frac{y}{1-y} = z

将我们的样本带入 $z$ ，就可以得到函数：

ln frac{y}{1-y} = textbf{textit{w}}^Ttextbf{textit{x}}+b

上面提到的公式中 $y$ 和 $1-y$ 可以被运用得很巧妙，在执行分类任务时，我们一般表示如下：

y = p(y=1|x);

1-y = p(y=0|x);

此时：

ln frac{p(y=1|x)}{p(y=0|x)} = textbf{textit{w}}^Ttextbf{textit{x}}+b

运用“对数似然法”，就可以近似求出假定的 $w$ 和 $b$ 的极大似然值。