[cs231n][Module 1: Neural Networks] Linear Classification

以下为阿幻的学习笔记:

照例,先摘个大纲:

Intro to Linear classification
Linear score function
Interpreting a linear classifier
Loss function
- Multiclass SVM(多类svm)
- Softmax classifier
- SVM vs Softmax
Interactive Web Demo of Linear Classification(基于Web的可交互线性分类器原型)
Summary

介儿下边就是我的笔记喽.

Linear Classification

概述：一种更强大的方法来解决图像分类问题，该方法可以自然地延伸到神经网络和卷积神经网络CNN上。The approach will have two major components: a score function that maps(映射) the raw data to class scores, and a loss function that quantifies(量化) the agreement(一致性) between the predicted scores and the ground truth labels. )该方法可转化为一个最优化问题，在最优化过程中，将通过更新评分函数的参数来最小化损失函数值。

Parameterized mapping from images to label scores

(从图像到标签分值的参数化映射)

评分函数将图像的像素值映射为各个分类类别的得分，得分高低代表图像属于该类别的可能性高低。假设有一个包含很多图像的训练集 $x_iin R^D$ ，每个图像都有一个对应的分类标签 $y_i$ 。这里 $i=1,2...N$ 并且 $y_iin 1...K$ 。这就是说，我们有N个图像样例，每个图像的维度是D，共有K种不同的分类。

举例来说，在CIFAR-10中，我们有一个N=50000的训练集，每个图像有D=32x32x3=3072个像素(注意!!!)，而K=10，这是因为图片被分为10个不同的类别（狗，猫，汽车等）。我们现在定义评分函数为： $f:R^D o R^K$ ，该函数是原始图像像素到分类分值的映射。

Linear classifier

从最简单的概率函数开始，一个线性映射：

[ score function,参数是权重矩阵 $W$ 。在函数中，数据 $(x_i,y_i)$ 是给定的，不能修改。但是我们可以调整权重矩阵这个参数，使得评分函数的结果与训练数据集中图像的真实类别一致，即评分函数在正确的分类的位置应当得到最高的评分（score）。]

在上面的公式中，假设每个图像数据都被拉长为一个长度为D的列向量，大小为[D x 1]。其中大小为[K x D]的矩阵W和大小为[K x 1]列向量b为该函数的参数（parameters）。

以CIFAR-10为例， $x_i$ 就包含了第i个图像的所有像素信息，这些信息被拉成为一个[3072 x 1]的列向量，W大小为[10x3072]，b的大小为[10x1]。因此，3072个数字（原始像素数值）输入函数，函数输出10个数字（不同分类得到的分值）。参数W被称为权重（weights）。b被称为偏差向量（bias vector），这是因为它影响输出数值，但是并不和原始数据 $x_i$ 产生关联。在实际情况中，人们常常混用权重和参数这两个术语。

note：

首先，一个单独的矩阵乘法 $Wx_i$ 就高效地并行评估10个不同的分类器（每个分类器针对一个分类），其中每个类的分类器就是W的一个行向量。
注意我们认为输入数据 $(x_i,y_i)$ 是给定且不可改变的，但参数W和b是可控制改变的。我们的目标就是通过设置这些参数，使得计算出来的分类分值情况和训练集中图像数据的真实类别标签相符。
该方法的一个优势是训练数据是用来学习到参数W和b的，一旦训练完成，训练数据就可以丢弃，留下学习到的参数即可。
最后，注意只需要做一个矩阵乘法和一个矩阵加法就能对一个测试数据分类，这比k-NN中将测试图像和所有训练数据做比较的方法快多了。

Interpreting a linear classifier

线性分类器计算图像中3个颜色通道中所有像素的值与权重的矩阵乘，从而得到分类分值。根据我们对权重设置的值，对于图像中的某些位置的某些颜色，函数表现出喜好或者厌恶（根据每个权重的符号而定）。

一个将图像映射到分类分值的例子。为了便于可视化，假设图像只有4个像素（都是黑白像素，这里不考虑RGB通道），有3个分类（红色代表猫，绿色代表狗，蓝色代表船，注意，这里的红、绿和蓝3种颜色仅代表分类，和RGB通道没有关系）。首先将图像像素拉伸为一个列向量，与W进行矩阵乘，然后得到各个分类的分值。需要注意的是，这个W一点也不好：猫分类的分值非常低。从上图来看，算法倒是觉得这个图像是一只狗。

Analogy of images as high-dimensional points

既然图像被伸展成为了一个高维度的列向量，那么我们可以把图像看做这个高维度空间中的一个点。整个数据集就是一个点的集合，每个点都带有1个分类标签。

既然定义每个分类类别的分值是权重和图像的矩阵乘，那么每个分类类别的分数就是这个空间中的一个线性函数的函数值。我们没办法可视化3072维空间中的线性函数，但假设把这些维度挤压到二维，那么就可以看看这些分类器在做什么了：

图像空间的示意图。其中每个图像是一个点，有3个分类器。以红色的汽车分类器为例，红线表示空间中汽车分类分数为0的点的集合，红色的箭头表示分值上升的方向。所有红线右边的点的分数值均为正，且线性升高。红线左边的点分值为负，且线性降低。

W的每一行都是一个分类类别的分类器。对于这些数字的几何解释是：如果改变其中一行的数字，会看见分类器在空间中对应的直线开始向着不同方向旋转。而偏差b，则允许分类器对应的直线平移。需要注意的是，如果没有偏差，无论权重如何，在 $x_i=0$ 时分类分值始终为0。这样所有分类器的线都不得不穿过原点。

Interpretation of linear classifiers as template matching.(模板匹配)

关于权重W的另一个解释是它的每一行对应着一个分类的模板（有时候也叫作原型）。一张图像对应不同分类的得分，是通过使用内积（也叫点积）来比较图像和模板，然后找到和哪个模板最相似。从这个角度来看，线性分类器就是在利用学习到的模板，针对图像做模板匹配。从另一个角度来看，可以认为还是在高效地使用k-NN，不同的是我们没有使用所有的训练集的图像来比较，而是每个类别只用了一张图片（这张图片是我们学习到的，而不是训练集中的某一张），而且我们会使用（负）内积来计算向量间的距离，而不是使用L1或者L2距离。

这里展示的是以CIFAR-10为训练集，学习结束后的权重的例子。注意，船的模板如期望的那样有很多蓝色像素。如果图像是一艘船行驶在大海上，那么这个模板利用内积计算图像将给出很高的分数。可以看到马的模板看起来似乎是两个头的马，这是因为训练集中的马的图像中马头朝向各有左右造成的。线性分类器将这两种情况融合到一起了。类似的，汽车的模板看起来也是将几个不同的模型融合到了一个模板中，并以此来分辨不同方向不同颜色的汽车。这个模板上的车是红色的，这是因为CIFAR-10中训练集的车大多是红色的。线性分类器对于不同颜色的车的分类能力是很弱的.

Bias trick

分类评分函数定义为：

$displaystyle f(x_i,W,b)=Wx_i+b$

分开处理这两个参数（权重参数 $W$ 和偏差参数 $b$ ）有点笨拙，一般常用的方法是把两个参数放到同一个矩阵中，同时 $x_i$ 向量就要增加一个维度，这个维度的数值是常量1，这就是默认的偏差维度。这样新的公式就简化成下面这样：

$displaystyle f(x_i,W)=Wx_i$

偏差技巧的示意图。左边是先做矩阵乘法然后做加法，右边是将所有输入向量的维度增加1个含常量1的维度，并且在权重矩阵中增加一个偏差列，最后做一个矩阵乘法即可。左右是等价的。通过右边这样做，我们就只需要学习一个权重矩阵，而不用去学习两个分别装着权重和偏差的矩阵了。

Image data preprocessing.

在上面的例子中，所有图像都是使用的原始像素值（从0到255）。在机器学习中，对于输入的特征做归一化（normalization）处理是常见的套路。而在图像分类的例子中，图像上的每个像素可以看做一个特征。在实践中，对每个特征减去平均值来中心化数据是非常重要的。在这些图片的例子中，该步骤意味着根据训练集中所有的图像计算出一个平均图像值，然后每个图像都减去这个平均值，这样图像的像素值就大约分布在[-127, 127]之间了。下一个常见步骤是，让所有数值分布的区间变为[-1, 1]。零均值的中心化是很重要的

Loss function

损失函数（Loss Function）（有时也叫代价函数Cost Function或目标函数Objective）来衡量我们对结果的不满意程度。直观地讲，当评分函数输出结果与真实结果之间差异越大，损失函数输出越大，反之越小。

多类支持向量机损失 Multiclass Support Vector Machine Loss

SVM的损失函数想要SVM在正确分类上的得分始终比不正确分类上的得分高出一个边界值 $Delta$ 。我们可以把损失函数想象成一个人，这位SVM先生（或者女士）对于结果有自己的品位，如果某个结果能使得损失值更低，那么SVM就更加喜欢它。

第i个数据中包含图像 $x_i$ 的像素和代表正确类别的标签 $y_i$ 。评分函数输入像素数据，然后通过公式 $f(x_i,W)$ 来计算不同分类类别的分值。这里我们将分值简写为 $s$ 。比如，针对第j个类别的得分就是第j个元素： $s_j=f(x_i,W)_j$ 。针对第i个数据的多类SVM的损失函数定义如下：

$displaystyle L_i=sum_{j ot=y_i}max(0,s_j-s_{y_i}+Delta)$

举例：用一个例子演示公式是如何计算的。假设有3个分类，并且得到了分值 $s=[13,-7,11]$ 。其中第一个类别是正确类别，即 $y_i=0$ 。同时假设 $Delta$ 是10（后面会详细介绍该超参数）。上面的公式是将所有不正确分类（ $j ot=y_i$ ）加起来，所以我们得到两个部分：

$displaystyle Li=max(0,-7-13+10)+max(0,11-13+10)$

可以看到第一个部分结果是0，这是因为[-7-13+10]得到的是负数，经过 $max(0,-)$ 函数处理后得到0。这一对类别分数和标签的损失值是0，这是因为正确分类的得分13与错误分类的得分-7的差为20，高于边界值10。而SVM只关心差距至少要大于10，更大的差值还是算作损失值为0。第二个部分计算[11-13+10]得到8。虽然正确分类的得分比不正确分类的得分要高（13>11），但是比10的边界值还是小了，分差只有2，这就是为什么损失值等于8。简而言之，SVM的损失函数想要正确分类类别 $y_i$ 的分数比不正确类别分数高，而且至少要高 $Delta$ 。如果不满足这点，就开始计算损失值。

那么在这次的模型中，我们面对的是线性评分函数（ $f(x_i,W)=Wx_i$ ），所以我们可以将损失函数的公式稍微改写一下：

$displaystyle L_i=sum_{j ot=y_i}max(0,w^T_jx_i-w^T_{y_i}x_i+Delta)$

其中 $w_j$ 是权重 $W$ 的第j行，被变形为列向量。然而，一旦开始考虑更复杂的评分函数 $f$ 公式，这样做就不是必须的了。

注意

$max(0,-)$ 函数，它常被称为折叶损失（hinge loss）。有时候会听到人们使用平方折叶损失SVM（即L2-SVM），它使用的是 $max(0,-)^2$ ，将更强烈（平方地而不是线性地）地惩罚过界的边界值。不使用平方是更标准的版本，但是在某些数据集中，平方折叶损失会工作得更好。可以通过交叉验证来决定到底使用哪个。

多类SVM“想要”正确类别的分类分数比其他不正确分类类别的分数要高，而且至少高出delta的边界值。如果其他分类分数进入了红色的区域，甚至更高，那么就开始计算损失。如果没有这些情况，损失值为0。我们的目标是找到一些权重，它们既能够让训练集中的数据样例满足这些限制，也能让总的损失值尽可能地低。