Max-Mahalanobis Linear Discriminant Analysis Networks

概
主要内容

Pang T, Du C, Zhu J, et al. Max-Mahalanobis Linear Discriminant Analysis Networks[C]. international conference on machine learning, 2018: 4013-4022.

@article{pang2018max-mahalanobis,
title={Max-Mahalanobis Linear Discriminant Analysis Networks},
author={Pang, Tianyu and Du, Chao and Zhu, Jun},
pages={4013--4022},
year={2018}}

概

本文介绍了从最大化马氏距离的角度提出了一种defense.

主要内容

对于俩个分布来说, 区分样本属于哪一个分布, 最好的分类器就是贝叶斯分类, 特别的, 如果是高斯分布, 且协方差矩阵一致, 则其分类平面为

[w^T(x-x_0)=0, ]

其中

[w=Sigma^{-1} (mu_1 - mu_2), ]

[x_0=frac{1}{mu_1+mu_2} - ln (frac{P(w_1)}{P(w_2)}) frac{mu_1-mu_2}{|mu_1-mu_2|_{Sigma^{-1}}^2}. ]

特别的, 当(Sigma)为对角矩阵的时候, 其分类平面只与(mu_1-mu_2)有关.

设一个混合高斯分布:

[P(y=i)=pi_i, P(x|y=i)=mathcal{N}(mu_i, Sigma), quad i in [L]:=1,ldots,L, ]

并定义

[Delta_{i,j} := [(mu_i-mu_j)^T Sigma^{-1} (mu_i - mu_j)]^{1/2}. ]

因为神经网络强大的拟合分布能力, 我们可以假设(Sigma=I)(文中将Sigma$分解, 然后用变量替换可以得到, 马氏距离在此情况下具有不变性, 我觉得不如直接这么解释比较实在).

设想, 从第i个分布中采样(x_{(i)} sim mathcal{N}(mu_i, I)), 将(x_{(i)})移动到与(j)类的分类平面的距离设为(d_{(i,j)}),

定理: 如果(pi_i=pi_j), 则(d_{(i,j)})的期望为

[mathbb{E}[d_{(i,j)}] = sqrt{frac{2}{pi}} exp(-frac{Delta_{i,j}^2}{8})+frac{1}{2} Delta_{i,j} [1-2Phi(-frac{Delta_{i, j}}{2})], ]

其中(Phi)表示正态分布函数.

注意, 这里的(d_{i,j})是(x)到分类平面的距离, 也就是说, 如果(x_{(i)})如果本身就位于别的类中, 同样也计算这个距离, 不公平, 当然如果这么考虑, 证明起来就相当麻烦了.

如果定义

[mathrm{RB} = min_{i,jin [L]} mathbb{E}[d_{(i,j)}], ]

则我们自然希望(mathrm{RB})越大越好(越鲁棒, 但是根据我们上面的分析, 这个定义是存在瑕疵的). 然后通过导数, 进一步发现

[mathrm{RB} approx ar{mathrm{RB}} := min_{i,j in [L]} Delta_{i,j} / 2. ]

有定理:
在这里插入图片描述

所以, 作者的结论就是, 最后一层

[z_i =mu_i^Tf(x)+b_i, ]

满足((4)), 为此作者设计了一个算法
在这里插入图片描述
去构造. 所以, 这最后一层的参数是固定不训练的. 余下的与普通的网络没有区别.