机器学习-极大似然和对数几率回归(浅入)

极大似然估计法

极大似然估计详解

贝叶斯公式

贝叶斯公式讲述了一个条件概率的问题,公式如下:

P(AB)=P(A)P(BA)P(B)P(A|B) = P(A) frac{P(B|A)}{P(B)}

P(AB)P(A|B) 指在BB发生的前提下,AA发生的概率

怎样用非数学语言讲解贝叶斯定理(Bayes’s theorem)

上面这篇用一个很形象的例子讲述了贝叶斯公式,它作出了如下假设:

  • P(A)=5%P(A)=5%马路上于到十字路口的概率
  • P(B)=2%P(B)=2%车辆打右转向灯的概率
  • P(AB)=P(A|B)=?车辆打右转向灯时,遇到十字路口的概率
  • P(BA)=25%P(B|A)=25%在经过十字路口的时候,车辆会打右转向灯的概率

将上面的假设带入公式就是,本来原本遇到十字路口的概率是很低的,但如果前面的车辆在打转向灯,前面遇到十字路口的概率就大大提高了。

将公式总结一下就是:

A=A×新信息出现后A的概率=A概率times新信息带来的调整

示例1

示例2

似然函数

似然函数就是,假设需要求某参数θtheta。给出一系列的样本(xi,yi)(x_i,y_i),出现θoverline{theta}的概率密度是l(θ)l(overline{theta})

l(θ)=p(x1,x2,...,xnθ)=Πp(xiθ)l(theta) = p(x_1,x_2,...,x_n | theta)=Pi p(x_i|theta)

一般为了方便会取对数似然进行分析:

H(θ)=lnl(θ)H(theta) = ln l(theta)

通过求导数,当H(θ)H(theta)取最大时,θtheta即为所估计值。

dl(θ)dθ=dH(θ)dθ=0frac{dl(theta)}{dtheta}=frac{dH(theta)}{dtheta}=0

对数几率回归

我们在做分类任务的时候,得到的数据往往是离散的0/1值,这对于我们使用回归任务学习比较麻烦,此时我们可以使用近似离散的模型去近似它。这里我们先讨论理想的“单位阶跃函数-(unit-step function)”

阶跃函数

单位阶跃函数:

y=11+ezy=frac{1}{1+e ^{-z}}

单位阶跃函数-gnuplot

该函数可以近似离散的零一值为连续值,我们使用的分类也可以由这种方式表示。

lny1y=zln frac{y}{1-y} = z

将我们的样本带入zz,就可以得到函数:

lny1y=wTx+bln frac{y}{1-y} = textbf{textit{w}}^Ttextbf{textit{x}}+b

对数几率

上面提到的公式中yy1y1-y可以被运用得很巧妙,在执行分类任务时,我们一般表示如下:

y=p(y=1x);y = p(y=1|x);

1y=p(y=0x);1-y = p(y=0|x);

此时:

lnp(y=1x)p(y=0x)=wTx+bln frac{p(y=1|x)}{p(y=0|x)} = textbf{textit{w}}^Ttextbf{textit{x}}+b

运用“对数似然法”,就可以近似求出假定的wwbb的极大似然值。

原文地址:https://www.cnblogs.com/lijianming180/p/12389560.html