cs229GeneralizedLinearModels

最近在看cs229的视频,为了怕后面忘记,感觉现在先记下来比较好。知识这个东西,长时间不看真的容易忘记。

主要想记一下广义线性模型这块知识。Generalized Linear Models

一、指数族(The exponential family)。

  首先先了解一下指数族这个概念:如果一类分布可以写成如下形式,则它可以叫做指数族分布。

   η被称为分布的自然参数(也称为规范参数);

  T(y)是充分统计量(对于我们所考虑的分布,通常情况下有T(y)=y);(后面听老师讲解,充分统计量就是说包含样本的所有信息,有了充分统计量就可以把样本扔掉,例如正态分布的期望值和方差,合起来是一个充分统计量,单个的不是)

  a(η)被称为对数分割函数;

  固定T,a和b,我们可以定义一族以η为参数的分布。也可以这么理解(1)通过改变T,a,b的值,我们可以得到不同的分布,例如Bernoulli分布和Gaussian分布。(2)在固定T,a,b之后,改变η值,就可以得到不同均值的Bernoulli分布和Gaussian分布。

  Bernoulli分布和Gaussian分布都是指数族分布的特例,接下来我们将Bernoulli分布和Gaussian分布都转换成指数族分布的形式。

  1 Bernoulli分布

  Bernoulli(φ) y ∈ {0, 1}, p(y = 1; φ) = φ; p(y = 0; φ) = 1 - φ.

  伯努利分布的概率分布函数如下:

  

   指数族分布:

     

  通过以上两个式子进行对比,我们可以得到:

  b(y) = 1

  T(y) = y

  a(η) = - log(1 - φ)

  η = log(φ/(1 - φ))

   2 Gaussian 分布 (因为 在此处没有影响,所以令 =1)。其实我们可以简单的把高斯分布理解成正态函数。

  高斯分布的概率表达函数:

  

   通过对比指数族分布函数,得到

  

   

   

   

 二、构建广义线性模型Constructing GLMs

  首先需要知道三个假设:(可能又要有疑问了,为何要定义这三个假设,他们有什么作用?我们可以把这三个假设理解为我们的设计选择,为了方便后面的过程)

  (1) y | x; θ ~ ExponentialFamily(η).

  (2)这个地方的E指的是期望的意思

   (3) η 和 x是线性相关的

   1 Ordinary Least Squares普通最小二乘(属于线性回归)

  

   上面四个等式,分别是由assumption 2 ,Gaussian ,assumption 1 ,assumption 3推导出来的

  2 Logistic Regression

  Bernoulli(φ) y ∈ {0, 1}, p(y = 1; φ) = φ; p(y = 0; φ) = 1 - φ.

  

   上面四个等式分别由assumption ,2 Bernoulli ,η = log(φ/(1 - φ))(前面得到), assumption 3推导出来的

  3 Softmax Regression

  比较难的就是这个多分类的情况,在多分类情况下,y ∈ {1 2, . . . , k}.要在k个可能的结果上参数化多项式,可以使用k个参数φ1,,φk指定每个结果的概率。同时我们需要知道所有概率之和为1.

 并且

 

指示器函数如该等式所示,中括号里面若是真命题,该值就等于1,否就等于0

此时的T(y)和前面不同,前面T(y)=y,这里T(y)是一个k-1维的向量,而不是一个实数,定义T(y)如下形式:(为什么要定义成这个样子,我们可以简单理解为这样定义是为了后面更好的构建广义线性模型)

 接下来我们就可以得出,等式左边代表T(y)的第i个元素,然后进一步得到

 概率分布函数

 为了更加直观,我将第五个等式转换成如下图形式:

 然后可以推出:

 之后:

学习算法输出p(y = i|x; θ),i = 1, . . . , k

 最后是对数似然函数:

假设有m个训练样本

 利用最大似然法去学习模型参数θ

 这一部分大致就完了,后面写的不太能理解,因为我自己理解的也不是很透彻。这些公式是可以一步步推出来的,但是由于自己理解有限,写的不是很明白。再接再厉,加油!

原文地址:https://www.cnblogs.com/loyolh/p/13332568.html