线性判别分析浅析及推导

原文地址：https://zhuanlan.zhihu.com/p/84660707

线性判别分析（Linear Discriminant Analysis, LDA），LDA是一种监督学习的降维技术，其具体的原理用一个栗子来说明。首先，从一个简单的分类开始，如下图所示

尝试找一个向量，并将各个样本投影到该向量上，比如

上面的向量虽然将两类样本区分开了，但是我们的目标并不是直接分开这两类样本，而是使它们的投影能够尽可能的分开，一个比较好的栗子如下所示：

可以看到，投影后的结果，对于同一个类别的样本间隔很小，不同类别的样本间隔很大，这也正是LDA的目标，类内间隔小，类间间隔大。也许看到之后你会想到高内聚，低耦合

接着，来具体分析一下“投影”：

我们知道两个向量（例如 $A,B$ ）的内积就是： $A$ 在 $B$ 上的投影的模乘上 $B$ 的模再乘上两者夹角的余弦

$wcdot x = |w||x| cos heta \$

上图中 $w$ 就是我们要找的向量，而且它是可以缩放的，所以我们令 $|w|=1$ ，就能得到样本在 $w$ 上的投影： $|x|cos heta$ 。并且，这是一个标量，于是再将上面的图像转一下，将 $w$ 所在的直线当做一个数轴

这样，一个样本投影到 $w$ 上的结果就对应了该数轴上的一个值。现在，LDA的原理基本上清楚了，接着定义目标函数：

$( )=frac{类间距离}{类内距离} \$

并求它的最大值（不是最小），而 $w$ 的最优值就是

$hat{w}=arg{max_w{Lleft(w ight)}} \$

接下来看类间距离与类内距离的具体定义

类间距离

首先，投影得到一个标量

$= ^ \$

定义同一类样本投影后的均值

$mu_i=frac{1}{n_i}sum_{xin D_i}{w^Tx} \$

类间距离就可以定义为投影后均值之差的平方

$egin{align} dist_{outer}&=left(mu_1-mu_2 ight)^2\ &=left(frac{1}{n_1}sum_{xin D_1}{w^Tx}-frac{1}{n_2}sum_{xin D_2}{w^Tx} ight)^2\ &=left(w^Tleft(frac{1}{n_1}sum_{xin D_1} x-frac{1}{n_2}sum_{xin D_2} x ight) ight)^2 end{align} \$

到这一步，为了表达更方便，再定义某一类样本的均值

${ar{x}}_i=frac{1}{n_i}sum_{xin D_i} x \$

代入得到

$egin{align} dist_{outer}&=left(w^Tleft({ar{x}}_1-{ar{x}}_2 ight) ight)^2\ &=left(w^Tleft({ar{x}}_1-{ar{x}}_2 ight) ight)left(w^Tleft({ar{x}}_1-{ar{x}}_2 ight) ight)^T\ &=w^Tleft({ar{x}}_1-{ar{x}}_2 ight)left({ar{x}}_1-{ar{x}}_2 ight)^Tw end{align} \$

类内距离

对于类内距离的衡量，一个很自然的想法就是使用方差

$sigma_i^2=sum_{xin D_i}left(w^Tx-mu_i ight)^2 \$

所有类内距离就是每个类的方差之和

$egin{align} dist_{inner}&=sigma_1^2+sigma_2^2\ &=sum_{xin D_1}left(w^Tx-mu_1 ight)^2+sum_{xin D_2}left(w^Tx-mu_2 ight)^2\ &=sum_{xin D_1}left(w^Tx-frac{1}{n_1}sum_{xin D_1}{w^Tx} ight)^2+sum_{xin D_2}left(w^Tx-frac{1}{n_2}sum_{xin D_2}{w^Tx} ight)^2\ &=sum_{xin D_1}left(w^Tleft(x-frac{1}{n_1}sum_{xin D_1} x ight) ight)^2+sum_{xin D_2}left(w^Tleft(x-frac{1}{n_2}sum_{xin D_2} x ight) ight)^2\ &=sum_{xin D_1}left(w^Tleft(x-{ar{x}}_1 ight) ight)^2+sum_{xin D_2}left(w^Tleft(x-{ar{x}}_2 ight) ight)^2\ &=sum_{xin D_1}left[w^Tleft(x-{ar{x}}_1 ight)left(x-{ar{x}}_1 ight)^Tw ight]+sum_{xin D_2}left[w^Tleft(x-{ar{x}}_2 ight)left(x-{ar{x}}_2 ight)^Tw ight]\ &=w^Tleft[sum_{xin D_1}{left(x-{ar{x}}_1 ight)left(x-{ar{x}}_1 ight)^T} ight]w+w^Tleft[sum_{xin D_2}{left(x-{ar{x}}_2 ight)left(x-{ar{x}}_2 ight)^T} ight]w end{align}\$

上面的公式看起来比较多，但是这是因为写的比较详细的原因。接着令

$S_i=sum_{xin D_i}{left(x-{ar{x}}_i ight)left(x-{ar{x}}_i ight)^T} \$

代入得到

$egin{align} dist_{inner}&=w^TS_1w+w^TS_2w\ &=w^Tleft(S_1+S_2 ight)w end{align}\$

综合将类间距离和类内距离代入到 $L(w)$ 中，得到

$egin{align} Lleft(w ight)&=frac{w^Tleft({ar{x}}_1-{ar{x}}_2 ight)left({ar{x}}_1-{ar{x}}_2 ight)^Tw}{w^Tleft(S_1+S_2 ight)w}\& =frac{w^TS_Bw}{w^TS_Ww} end{align}\$

其中 $S_B$ 叫做类间散布矩阵， $S_W$ 叫做类内散布矩阵。不过还有一个问题就是这样会存在多个满足条件的 $w$ ，所以需要进行约束，固定分母的值为1：

$w^TS_Ww=1 \$

并求使分子值最大化的参数值，得到一个带约束的优化

$egin{align} &max_w quad w^TS_Bw\ & ext{ s.t.} quad w^TS_Ww=1 end{align}\$

因为这个优化带有约束，所以首先需要消除约束。令：

$egin{align} f(w)&=-w^TS_Bw \ h(w)&=w^TS_Ww-1 end{align}\$

得到一个新的带约束优化目标

$egin{align} &min_w quad f(w)\ & ext{ s.t.} quad h(w)=0 end{align}\$

然后使用拉格朗日乘数法构造新的目标函数来统一 $f(w)$ 和 $h(w)$ ：

$egin{align} L(w,lambda)&=f(x)+lambda h(w) \ &=-w^TS_Bw+lambda w^TS_Ww-lambda end{align}\$

将 $L(w,lambda)$ 对 $w$ 求导并使之等于0，得到 $w$ 的最优值

$frac{partial Lleft(w,lambda ight)}{partial w}=-2S_Bw+2lambda S_Ww=0Longrightarrow color{red}{S_W^{-1}S_Bw=lambda w}\$

观察上式标红部分， $S_W^{-1}S_B$ 是一个矩阵，是不是觉得很熟悉？显然 $w$ 就是这个矩阵的特征向量。不过，这样还需要进行特征分解，我们可以将 $S_B$ 拆开，得到

$S_W^{-1}S_Bw=S_W^{-1}left({ar{x}}_1-{ar{x}}_2 ight)left({ar{x}}_1-{ar{x}}_2 ight)^Tw \$

其中 $left({ar{x}}_1-{ar{x}}_2 ight)^Tw$ 是一个标量，也就是说 $w$ 和 $S_W^{-1}left({ar{x}}_1-{ar{x}}_2 ight)$ 是共线的，这样，我们就可以求出 $w$ 的方向了。到了这一步，就可以直接上代码了

class LDA(object):
    def fit(self, positive, negative):
        '''
        positive, negative: 分别是正反样本的数据矩阵，列数相同，一行是一个样本
        '''
        # p_bar = positive.mean(axis=0, keepdims=True)   # 求正例样本的平均
        # n_bar = negative.mean(axis=0, keepdims=True)   # 求反例样本的平局
        # 计算类内散布矩阵
        # p_tmp = positive - p_bar
        # p_tmp = np.dot(p_tmp.T, p_tmp)
        # n_tmp = negative - n_bar
        # n_tmp = np.dot(n_tmp.T, n_tmp)
        # S_w = p_tmp + n_tmp
        # 根据Sw逆矩阵求解w
        # w  = np.dot(np.linalg.inv(S_w), np.transpose(p_bar-n_bar))
        '''
        其实Sw矩阵就是两类样本的协方差矩阵之和，所以代码可以进行简化
        '''
        S_w = np.cov(positive, rowvar=False) + np.cov(negative, rowvar=False)
        w  = np.dot(np.linalg.inv(S_w), np.mean(positive-negative, axis=0, keepdims=True).T)
        return w

最后，放几个随机生成数据的结果，看起来结果还是靠谱的