第三章广义线性模型（GLM）

广义线性模型

前面我们举了回归和分类得到例子。在回归的例子中，$y mid x; heta sim N(u,sigma ^{2})$，在分类例子中，$ymid x; heta sim Bbernoulli(phi)$

广义线性模型是基于指数函数族的，指数函数族原型为：

$p(y;eta) = b(y)exp(eta^{T}T(y)-a(eta))$

$eta$为自然参数，$T(y)$为充分统计量，一般情况下$T(y)=y$。选择固定的T，a，b定义一个分布，参数为$eta$。

对于伯努利分布（均值为$phi$），有：

$p(y=1,phi)=phi;p(y=0;phi)=1-phi$

$p(y;phi) = phi^{y}(1-phi)^{1-y}$

$p(y;phi) = exp(ylogphi +(1-y)log(1-phi))$

$p(y;phi) = exp((log(frac{phi}{1-phi}))y+log(1-phi))$

因此有：

$T(y) = y$

$a(eta) = -log(1-phi)$

$a(eta) = log(1+e^{eta})$

$b(y)=1$

对于高斯分布，有：

$p(y;u) = frac{1}{sqrt{2pi}}exp(-frac{1}{2}(y-u)^{2})$

$p(y;u) = frac{1}{sqrt{2pi}}exp(-frac{1}{2}y^{2})cdot exp(uy=frac{1}{2}u^{2})$

因此有：

$eta = u$

$T(y) = y $

$a(eta) = frac{u^{2}}{2} = frac{eta^{2}}{2}$

$b(y) = (frac{1}{sqrt{2pi}})exp(-frac{1}{2}y^{2})$

构造GLM

1. $y mid x; heta sim ExponentialFamily(eta)$

2. 给定x，我们的目标是预测T(y)，大部分情况下T(y)=y，因此我们可以选择预测输出h(x),$h(x) =Eleft [ y mid x ight ]$

3. 自然参数$eta$和输入x是线性相关的，$eta = heta^{T}x$

普通最小二乘法

普通最小二乘法是GLM模型的一种特例：y是连续的，给定x后的y的条件分布是高斯分布$N(u,sigma^{2})$。因此令指数函数族的分布为高斯分布。正如前面，高斯分布U作为指数函数族时，$u=eta$。因此有：

$h_{ heta}(x) = Eleft [ y mid x ; heta ight ] = u = eta = heta^{T}x$

逻辑回归

逻辑回归中y只取0和1，因此使用伯努利分布作为指数函数族的分布，因此$phi = frac{1}{1+e^{-eta}}$。进一步，由$y mid x; heta sim Bernoulli(phi)$，则$Eleft [ y mid x; heta ight ] = phi $，得到：

$h_{ heta}(x) = Eleft [ y mid x ; heta ight ] $

$h_{ heta}(x) = phi $

$h_{ heta}(x) = frac{1}{1+e^{-eta}}$

$h_{ heta}(x) = frac{1}{1+e^{- heta^{T}x}}$

softmax回归

在逻辑回归中，y离散取值只有两个，现在考虑当y取多个值的情况，$yin {1,2,...,k}$。

为了参数化具有k个可能的输出的多项式，我们可以使用k个参数$phi_{1},...,phi_{2}$来表示每个输出的概率。但是这些参数是冗余的，因为这k个参数之和为1。所以我们只需要参数化k-1个变量：$phi_{i} = p(y=i;phi) ~~ p(y=k;phi) = 1-sum_{i=1}^{k-1}phi_{i}$，为了方便，我们令$phi_{k}= 1-sum_{i=1}^{k-1}phi_{i}$，但记住它并不是一个参数，而是由其它k-1个参数值决定。

为了使多项式为指数函数族分布，定义以下$T(y) in R^{k-1}$：

$ T(1) =egin{bmatrix} 1\ 0\ 0\ vdots \0 end{bmatrix}$

$ T(2) =egin{bmatrix} 0\ 1\ 0\ vdots \0 end{bmatrix}$

$ T(k-1) =egin{bmatrix} 0\ 0\ 0\ vdots \1 end{bmatrix}$

$ T(k) =egin{bmatrix} 1\ 0\ 0\ vdots \0 end{bmatrix}$

跟前面不同的是，这里T(y)并不等于y，T(y) 在这里是一个k-1维向量，而不是一个实数。令$(T(y))_{i}$表示$T(y)$的第i个元素。

接着定义一个函数$1{cdot}$，当参数为true时，函数值为1，反之为零。例如 1{2=3}=0.

因此，$(T(y))_{i}=1{y=i}$，进一步我们有$E[(T(y))_{i}]=P(y=i)=phi_{i}$。

接下来说明该多项式也属于指数函数族：

$p(y;phi) = phi_{1}^{1{y=1}} phi_{2}^{1{y=2}} cdots phi_{k}^{1{y=k}}$

$p(y;phi) = phi_{1}^{1{y=1}} phi_{2}^{1{y=2}} cdots phi_{k}^{1-sum_{i=1}^{k-1}(T(y))_{i}}$

$p(y;phi) = phi_{1}^{(T(y))_{1}} phi_{2}^{(T(y))_{2}} cdots phi_{k}^{1-sum_{i=1}^{k-1}(T(y))_{i}}$

$p(y;phi) = exp((T(y))_{1}log(phi_{1}) + (T(y))_{2}log(phi_{2}) + cdots + (1-sum_{i=1}^{k-1}(T(y))_{i})log(phi_{k}))$

$p(y;phi) =exp((T(y))_{1}log(phi_{1}/phi_{k})+ (T(y))_{2}log(phi_{2}/phi_{k})+cdots+(T(y))_{k-1}log(phi_{k-1}/phi_{k})+log(phi_{k}))$

$p(y;phi) = b(y)exp( eta^{T}T(y)-a(eta))$

其中：

$ eta =egin{bmatrix} log(phi_{1}/phi_{k})\ log(phi_{2}/phi_{k})\ vdots \log(phi_{k-1}/phi_{k}) end{bmatrix}$

$a(eta)=-log(eta_{k})$

$b(y)=1$

因此有以下函数关系式：

$eta_{i}= frac{phi_{i}}{phi_{k}}$

为了方便，我们定义：

$eta_{k} = 0$

因此我们得到以下关系式：

$e^{eta_{i}}= frac{phi_{i}}{phi_{k}}$

$phi_{k}e^{eta_{i}} = phi_{i}$

$phi_{k}sum_{i=1}{k}e^{eta_{i}}=1$

因此我们得到以下响应函数：

$phi_{i}= frac{e^{eta_{i}}}{sum_{j=1}^{k}e^{eta_{j}}}$

这种$eta$到$phi$的映射函数称为softmax函数。

令$eta_{i}= heta_{i}^{T}x ~~(i=1,2,...,k-1), heta_{1},..., heta_{k-1}in R^{n+1}$

因此有以下条件分布：

$p(y=1 mid x; heta) = phi_{i}$

$p(y=1 mid x; heta) = frac{e^{eta_{i}}}{sum_{j=1}^{k}e^{eta_{j}}}$

$p(y=1 mid x; heta) = frac{e^{ heta_{i}^{T}x}}{sum_{j=1}^{k}e^{ heta_{j}^{T}x}}$

损失函数：

最大似然估计：