【PRML学习笔记】第四章：分类的线性模型

一、基础概念

线性分类模型：决策面(decision boundary)是输入向量的线性函数

目标类别的表示"1 of K" :$ t = (0,1,0,0,0)^T$

二、分类问题的三种方式

1. 判别函数(discriminant function): 找到函数$f(x)$将输入$x$映射为类别标签

2. 生成式模型(generative model): 对条件概率$p(x|C_k)$和先验概率$p(C_k)$ 建模然后通过贝叶斯定理计算. #求解模型复杂，但是可以求出边缘概率密度$p(x)$

3. 判别式模型(discriminative model): 直接对后验概率密度$p(C_k|x)$建模

判别函数：推广的线性模型(generalized linear model)

引入激活函数(activation function)$f(cdot),使得y(x) = f(W^t x + W_0)$

三、判别函数

线性判别函数参数学习方法：最小平方法，Fisher线性判别函数，感知器

最小平方法：对应于高斯分布条件假设下的极大似然法，而二值目标向量的概率分布不是高斯分布。此外最小平方法对异常点及其敏感。

Fihser 线性判别函数：最大化一个函数，这个函数能够让类均值的投影分开最大，同时让类内部的方差较小。

感知器算法：对应一个二分类模型，输入向量首先使用一个固定的非线性函数变换得到特征向量$phi(x)$然后使用这个特征向量构造一个二分

造一个一般的线性模型形式：$y(x) = f(w^Tphi(x))$

$$误差函数：E_P(w) = - sum_{nepsilon M} W^Tphi_n t_n$$

$$权向量迭代公式：w^{( au+1)} = w^{( au)} - eta Delta E_p(w) = w^{( au)}+etaphi_n t_n $$

四、概率生成模型

对条件分布概率和先验分布建模，然后使用贝叶斯定理计算后验分布概率。

对应于二分类模型：类别C_1后验概率可以写成：$p(C_1|x) =frac{p(x|C_1)P(C_1)}{p(x|C_1)P(C_1)+p(x|C_2)p(C_2)} = sigma(a)$

其中：$a = lnfrac{p(x|C_1)p(C_1)}{p(x|C_2)p(C_2)}$

对应于K>2个类别模型：$p(C_k|x) = frac{p(x|C_k)p(C_k)}{sum_j p(x|C_j)p(C_j)} = frac{a_k}{sum_jexp(a_j)}$

其中：$a_k = lnp((x|C_k)p(C_k))$

对于连续输入：假设条件类概率密度是高斯分布，且所有类比饿的协方差矩阵相同, $C_k$的类条件概率密度为：

$$p(x|C_k) = frac{1}{(2pi)^{D/2}} frac{1}{|sum|^{1/2}} expleft{-frac{1}{2}(x-mu_k)^Tsum^{-1}(x-mu_k) ight} $$