Machine Learning

SVMs are considered by many to be the most powerful 'black box' learning algorithm, and by posing构建 a cleverly-chosen optimization objective优化目标, one of the most widely used learning algorithms today.

第一节向量的内积（SVM的基本数学知识）

Support Vector Machines 支持向量机

Large Margin Classification大间距分类器

Optimization Objective优化目标

总结：

修改代价函数，使逻辑回归变为SVM？
SVM中的整体的优化目标函数？
SVM的假设函数是什么？

到目前为止你已经见过一系列不同的学习算法 在监督学习中许多学习算法的性能都非常类似因此重要的不是你该选择使用学习算法A还是学习算法B 而更重要的是应用这些算法时所创建的 大量数据 在应用这些算法时表现情况通常依赖于你的水平 比如你为学习算法所设计的 特征量的选择 以及如何选择正则化参数 诸如此类的事

还有一个 更加强大的算法 广泛的应用于工业界和学术界它被称为支持向量机(Support Vector Machine) 与逻辑回归和神经网络相比支持向量机或者简称SVM 在学习复杂的非线性方程时提供了一种更为清晰更加强大的方式因此在接下来的视频中我会探讨这一算法在稍后的课程中我也会对监督学习算法 进行简要的总结当然仅仅是作简要描述但对于支持向量机 鉴于该算法的强大和受欢迎度在本课中我会花许多时间来讲解它它也是我们所介绍的最后一个监督学习算法

正如我们之前开发的学习算法 我们从优化目标开始

逻辑回归的假设函数

那么我们开始学习这个算法为了描述支持向量机事实上我将会从逻辑回归开始展示我们如何 一点一点修改 来得到本质上的支持向量机

那么在逻辑回归中我们已经熟悉了这里的假设函数形式（映射函数和正规函数嵌套）和右边的S型激励函数 然而为了解释一些数学知识我将用 z 表示 θ 转置乘以 x 现在让我们一起考虑下我们想要逻辑回归做什么？如果有一个 y=1 的样本我的意思是不管是在训练集中或是在测试集中又或者在交叉验证集中总之是 y=1 现在我们希望 h(x) 趋近1 因为我们想要正确地将此样本分类这就意味着当 h(x) 趋近于1时 θ 转置乘以 x 应当远大于0 这里的大于大于号 >> 意思是远远大于0 这是因为由于 z 表示 θ 转置乘以 x 当 z 远大于 0时即到了该图的右边你不难发现此时逻辑回归的输出将趋近于1 相反地如果我们有另一个样本即 y=0 我们希望假设函数的输出值将趋近于0 这对应于 θ 转置乘以 x 或者就是 z 会远小于0 因为对应的假设函数的输出值趋近0

如何将逻辑回归的代价函数改写为SVM特有的代价函数？

如果你进一步观察逻辑回归的代价函数 你会发现每个样本 (x, y) 都会为总代价函数 增加这里的一项因此对于总代价函数通常会有对所有的训练样本求和并且这里还有一个1/m项但是在逻辑回归中这里的这一项就是表示一个训练样本 所对应的表达式现在如果我将完整定义的假设函数代入这里那么我们就会得到每一个训练样本都影响这一项现在先忽略1/m这一项但是这一项是影响整个总代价函数中的这一项的

现在一起来考虑两种情况一种是y等于1的情况一种是y等于0的情况（将单个训练样本的代价函数作了转换）（将log函数变为两条直线）

改写代价函数，用另一种方法计算代价函数，使用已有的训练样本，根据训练样本的y标签进行分类。

代价代价，就是你必须付出代价，代价函数是我们人为设定的，如果实际与预测偏差太大，我们就要模型付出更大的代价，代价太小我们就将其忽略。这里我们改写了SVM的代价值计算方式。

在第一种情况中假设 y 等于1 此时在目标函数中只需有第一项起作用因为y等于1时 (1-y) 项将等于0 因此当在y等于 1的样本中时即在 (x, y) 中 y等于1 我们得到 -log(1/(1+e^z) ) 这样一项这里同上一张幻灯片一致我用 z 表示 θ 转置乘以 x 当然在代价函数中 y 前面有负号我们只是这样表示如果y等于1 代价函数中这一项也等于1 这样做是为了简化此处的表达式如果画出关于 z 的函数你会看到左下角的这条曲线我们同样可以看到当 z 增大时也就是相当于 θ 转置乘以x 增大时 z 对应的值会变的非常小对整个代价函数而言影响也非常小这也就解释了为什么逻辑回归在观察到正样本 y=1 时试图将 θ^T*x 设置的非常大因为在代价函数中的这一项会变的非常小

现在开始建立支持向量机 我们从这里开始我们会从这个代价函数开始也就是 -log(1/(1+e^z)) 一点一点修改让我取这里的 z=1 点我先画出将要用的代价函数新的代价函数将会水平的从这里到右边 (图外) 然后我再画一条同逻辑回归非常相似的直线但是在这里是一条直线也就是我用紫红色画的曲线就是这条紫红色的曲线那么到了这里已经非常接近逻辑回归中使用的代价函数了只是这里是由两条线段组成 即位于右边的水平部分 和位于左边的 直线部分 先别过多的考虑左边直线部分的斜率这并不是很重要但是这里我们将使用的新的代价函数 是在 y=1 的前提下的你也许能想到这应该能做同逻辑回归中类似的事情但事实上在之后的的优化问题中这会变得更坚定并且为支持向量机带来计算上的优势 例如更容易计算股票交易的问题等等

目前我们只是讨论了 y=1 的情况另外一种情况是当 y=0 时此时如果你仔细观察代价函数只留下了第二项 因为第一项被消除了如果当 y=0 时那么这一项也就是0了所以上述表达式只留下了第二项因此这个样本的代价或是代价函数的贡献将会由这一项表示并且如果你将这一项作为 z 的函数那么这里就会得到横轴z 现在你完成了支持向量机中的部分内容同样地再来一次我们要替代这一条蓝色的线用相似的方法如果我们用一个新的代价函数来代替即这条从0点开始的水平直线然后是一条斜线像这样那么现在让我给这两个方程命名左边的函数我称之为 cost1(z) 同时在右边函数我称它为 cost0(z) 这里的下标是指在代价函数中对应的 y=1 和 y=0 的情况拥有了这些定义后

现在我们就开始构建支持向量机

这是我们在逻辑回归中使用 代价函数 J(θ)（上面的单个代价值在训练集上求和，加上正则值） 也许这个方程看起来不是非常熟悉这是因为之前有个负号在方程外面但是这里我所做的是将负号移到了表达式的里面这样做使得方程看起来有些不同对于支持向量机而言实质上我们要将这一替换为 cost1(z) 也就是cost1(θ^T*x) 同样地我也将这一项替换为cost0(z) 也就是代价 cost0(θ^T*x) 这里的代价函数 cost1 就是之前所提到的那条线看起来是这样的此外代价函数 cost0 也是上面所介绍过的那条线看起来是这样因此对于支持向量机我们得到了这里的最小化问题 即 1/m 乘以从1加到第 m 个训练样本 y(i) 再乘以 cost1(θ^T*x(i)) 加上1减去 y(i) 乘以 cost0(θ^T*x(i)) 然后再加上正则化参数 像这样

请熟练写出SVM的代价函数

现在按照支持向量机的惯例 事实上我们的书写会稍微有些不同 代价函数的参数表示也会稍微有些不同首先我们要 除去 1/m 这一项当然这仅仅是仅仅是由于人们使用支持向量机时对比于逻辑回归而言不同的习惯所致但这里我所说的意思是你知道我将要做的是仅仅除去 1/m 这一项但是这也会得出同样的θ最优值好的因为 1/m 仅是个常量 因此你知道在这个最小化问题中无论前面是否有 1/m 这一项 最终我所得到的最优值θ都是一样的 （去掉整体的常数项）

这里我的意思是先给你举一个实例假定有一最小化问题 即要求当 (u-5)^2+1 取得最小值时的 u 值 好的这时最小值为当 u=5 时取得最小值现在如果我们想要将这个目标函数 乘上常数10 这里我的最小化问题就变成了求使得 10×(u-5)^2+10 最小的值u 然而这里的u值使得这里最小的u值仍为5 因此将一些常数乘以你的最小化项例如这里的常数10 这并不会改变最小化该方程时得到u值因此这里我所做的是删去常量m 也是相同的现在我将目标函数乘上一个常量 m 并不会改变取得最小值时的 θ 值

第二点概念上的变化我们只是指在使用 支持向量机时一些如下的标准惯例 而不是逻辑回归

因此对于逻辑回归 在目标函数中我们有两项第一个是这一项是来自于 训练样本的代价 第二个是这一项是我们的正则化项 我们不得不去用这一项来平衡这就相当于我们想要最小化 A 加上正则化参数 λ 然后乘以其他项 B 对吧？这里的 A 表示这里的第一项同时我用 B 表示第二项但不包括 λ 我们不是优化这里的 A+λ×B 我们所做的是通过设置不同正则参数 λ 达到优化目的 这样我们就能够权衡对应的项是使得训练样本拟合的更好即最小化 A 还是保证正则参数足够小 也即是对于B项而言

但对于支持向量机 按照惯例我们将使用一个不同的参数 为了替换这里使用的 λ 来权衡这两项你知道就是第一项和第二项我们依照惯例使用一个不同的参数称为C 同时改为优化目标 C×A+B 因此在逻辑回归中如果给定 λ 一个非常大的值意味着给予B更大的权重而这里就对应于将C 设定为非常小的值那么相应的将会给 B 比给 A 更大的权重因此这只是一种不同的方式来控制这种权衡或者一种不同的方法即用参数来决定是更关心第一项的优化还是更关心第二项的优化当然你也可以把这里的参数C 考虑成 1/λ 同 1/λ 所扮演的角色相同并且这两个方程或这两个表达式并不相同因为 C 等于 1/λ 但是也并不全是这样如果当C等于 1/λ 时这两个优化目标应当得到相同的值相同的最优值θ 因此就用它们来代替那么我现在删掉这里的 λ 并且用常数 C 来代替这里（将正则化参数 λ 通过转换变为参数C）

因此这就得到了在支持向量机中我们的整个优化目标函数 然后最小化 这个目标函数 得到 SVM 学习到的参数C

最后有别于逻辑回归 输出的概率 在这里我们的代价函数当最小化代价函数获得参数θ时支持向量机所做的是它来直接预测 y的值等于1 还是等于0 因此这个假设函数会预测1 当 θ^T*x 大于或者等于0时或者等于0时所以学习参数 θ 就是支持向量机假设函数的形式那么这就是支持向量机 数学上的定义

在接下来的视频中让我们再回去从直观的角度看看优化目标 实际上是在做什么以及 SVM 的假设函数 将会学习什么同时也会谈谈如何做些许修改学习更加复杂、非线性的函数

Large Margin Intuition大间距分类器

总结：

SVM模型的假设函数是什么？
如何从上一节内容引入到大间距分类器的？转换优化目标，将C值设为非常大。

人们有时将支持向量机看做是大间距分类器 在这一部分我将介绍其中的含义这有助于我们 直观理解 SVM模型的假设是什么样的

这是我的支持向量机模型的代价函数 在左边这里我画出了关于 z 的代价函数 cost1(z) 此函数用于正样本而在右边这里我画出了关于 z 的代价函数 cost0(z) 横轴表示 z 现在让我们考虑一下 最小化这些代价函数的必要条件是什么如果你有一个正样本 y等于1 则只有在 z 大于等于1时代价函数 cost1(z) 才等于0 换句话说如果你有一个正样本我们会希望 θ 转置乘以 x 大于等于1 反之如果 y 是等于0的我们观察一下函数cost0(z) 它只有在 z小于等于1 的区间里函数值为0 这是支持向量机的一个有趣性质不是么事实上如果你有一个正样本 y等于1 则其实我们仅仅要求 θ 转置乘以 x 大于等于0 就能将该样本恰当分出这是因为如果 θ 转置乘以 x 比0大的话我们的模型代价函数值为0 类似地如果你有一个负样本则仅需要 θ 转置乘以x 小于等于0 就会将负例正确分离（SVM比逻辑回归的要求更高，有个安全间距因子）

但是支持向量机的要求更高 不仅仅要能正确分开输入的样本即不仅仅要求 θ 转置乘以 x 大于0 我们需要的是比0值大很多比如 大于等于1 我也想这个比0小很多比如我希望它 小于等于-1 这就相当于在支持向量机中嵌入了一个额外的安全因子 或者说安全的间距因子 当然逻辑回归做了类似的事情但是让我们看一下在支持向量机中这个因子会导致什么结果具体而言我接下来会考虑一个特例我们将这个常数 C 设置成一个非常大的值 比如我们假设 C的值为100000 或者其它非常大的数然后来观察支持向量机会给出什么结果

如果 C 非常大 则最小化代价函数的时候我们将会很希望找到一个 使第一项为0的最优解因此让我们尝试在代价项的第一项为0的情形下理解该优化问题比如我们可以把 C 设置成了非常大的常数这将给我们一些关于支持向量机模型的直观感受 我们已经看到输入一个训练样本标签为 y=1 你想令第一项为0 你需要做的是找到一个 θ 使得 θ 转置乘以 x 大于等于1 类似地对于一个训练样本标签为 y=0 为了使 cost0(z) 函数这个函数值为0 我们需要 θ 转置乘以x 的值小于等于-1

改写了优化函数，在指定的约束条件下。

因此现在考虑我们的优化问题 选择参数使得第一项等于0 就会导致下面的 优化问题 因为我们将选择参数使第一项为0 因此这个函数的第一项为0 因此是 C 乘以0 加上二分之一乘以第二项这里第一项是C乘以0 因此可以将其删去因为我知道它是0 这将遵从以下的约束 θ 转置乘以 x(i) 大于或等于0.5 如果 y (i) 是等于1 的 θ 转置乘以x(i) 小于等于-1 如果样本i是一个负样本这样当你 求解这个优化问题的时候 当你最小化这个关于变量 θ 的函数的时候你会得到一个非常有趣的决策边界

用一个例子，解释了SVM的大间距分类器的概念是如何形成的

具体而言如果你考察这样一个数据集其中有正样本 也有负样本 可以看到这个数据集是线性可分的我的意思是存在一条直线把正负样本分开当然有多条不同的直线 可以把正样本和负样本完全分开比如这就是一个决策边界 可以把正样本和负样本分开但是多多少少这个看起来并不是非常自然是么? 或者我们可以画一条更差的决策界 这是另一条决策边界可以将正样本和负样本分开但仅仅是勉强分开 这些决策边界看起来都不是特别好的选择支持向量机将会选择这个黑色的决策边界 相较于之前我用粉色或者绿色画的决策界这条黑色的看起来好得多黑线看起来是更稳健的决策界 在分离正样本和负样本上它显得的更好数学上来讲这是什么意思呢这条黑线有更大的距离 这个距离叫做间距 (margin) 当画出这两条额外的蓝线我们看到黑色的决策界和训练样本之间有更大的最短距离然而粉线和蓝线离训练样本就非常近在分离样本的时候就会比黑线表现差因此这张图片本身就有一定的误导性 这个距离叫做支持向量机的间距 而这是支持向量机具有鲁棒性的原因因为它努力用一个最大间距来分离样本 因此支持向量机有时被称为 大间距分类器 而这其实是求解上一页幻灯片上优化问题的结果

我知道你也许想知道求解上一页幻灯片中的优化问题 为什么会产生这个结果它是如何产生这个大间距分类器的呢

我知道我还没有解释这一点在下一节视频中我将会从直观上 略述 为什么这个优化问题会产生大间距分类器 总之这个图示有助于你理解支持向量机模型的做法即努力将正样本和负样本用最大的间距分开

在本节课中关于大间距分类器 我想讲最后一点我们将这个大间距分类器中的正则化因子常数C 设置的非常大我记得我将其设置为了100000 因此对这样的一个数据集也许我们将选择这样的决策界从而最大间距地分离开正样本和负样本事实上支持向量机现在要比这个大间距分类器所体现的更成熟尤其是当你使用大间距分类器的时候你的学习算法会受异常点 (outlier) 的影响比如我们加入一个额外的正样本在这里如果你加了这个样本为了将样本用最大间距分开也许我最终会得到一条类似这样的决策界对么? 就是这条粉色的线仅仅基于一个异常值仅仅基于一个样本就将我的决策界从这条黑线变到这条粉线这实在是不明智的而如果正则化参数 C 设置的非常大这事实上正是支持向量机将会做的它将决策界从黑线变到了粉线但是如果 C 设置的小一点如果你将 C 设置的不要太大则你最终会得到这条黑线当然数据如果不是线性可分的如果你在这里有一些正样本或者你在这里有一些负样本则支持向量机也会将它们恰当分开因此大间距分类器的描述真的仅仅是从直观上给出了正则化参数 C 非常大的情形同时要提醒你 C 的作用类似于 λ 分之一 λ 是我们之前使用过的正则化参数这只是C非常大的情形或者等价地 λ 非常小的情形你最终会得到类似粉线这样的决策界但是实际上应用支持向量机的时候当 C 不是非常非常大的时候它可以忽略掉一些异常点的影响 得到更好的决策界 甚至当你的数据不是线性可分的时候支持向量机也可以给出好的结果

我们稍后会介绍一点支持向量机的偏差和方差 希望在那时候关于如何处理参数的这种平衡会变得更加清晰我希望这节课给出了一些关于为什么支持向量机被看做大间距分类器的直观理解 它用最大间距将样本区分开尽管从技术上讲这只有当 参数C是非常大的时候是真的但是它对于理解支持向量机是有益的本节课中我们略去了一步那就是我们在幻灯片中给出的优化问题为什么会是这样的它是如何得出大间距分类器的我在本节中没有讲解

在下一节课中我将略述这些问题背后的数学原理 来解释这个优化问题是如何得到一个大间距分类器的

Mathematics Behind Large Margin Classification大间隔分类背后的数学原理

总结：

优化问题是如何得到一个大间距分类器的？

在这段视频中介绍一些 大间隔分类背后的数学原理 本节为选学部分你完全可以跳过它但是听听这节课可能让你对支持向量机中的优化问题 以及如何得到 大间距分类器 产生更好的直观理解

线性代数中向量内积的概念

首先让我来给大家复习一下关于向量内积的知识 假设我有两个向量 u 和 v 我将它们写在这里两个都是二维向量 我们看一下 u 转置乘以 v 的结果 u 转置乘以 v 也叫做向量 u 和 v 之间的内积由于是二维向量我可以将它们画在这个图上我们说这就是向量 u 即在横轴上取值为某个u1 而在纵轴上高度是某个 u2 作为U的第二个分量现在很容易计算的一个量就是向量 u 的范数这是双竖线左边一个右边一个表示 u 的范数即 u 的长度 即向量 u 的欧几里得长度 根据 毕达哥拉斯定理 等于它等于 u1 平方加上 u2 平方开根号这是向量 u 的长度它是一个实数现在你知道了这个的长度是多少这个向量的长度写在这里了我刚刚画的这个向量的长度就知道了现在让我们回头来看向量v 因为我们想计算内积 v 是另一个向量它的两个分量 v1 和 v2 是已知的向量 v 可以画在这里现在让我们来看看如何计算 u 和 v 之间的内积这就是具体做法我们将向量 v 投影到向量 u 上我们做一个直角投影 或者说一个90度投影将其投影到 u 上接下来我度量这条红线的长度我称这条红线的长度为 p 因此 p 就是长度或者说是向量 v 投影到向量 u 上的量我将它写下来 p 是 v 投影到向量 u 上的长度因此可以将 u 转置乘以 v 写作 p 乘以 u 的范数或者说 u的长度这是计算内积的一种方法如果你从几何上画出 p 的值同时画出 u 的范数你也会同样地计算出内积答案是一样的对吧另一个计算公式是 u 转置乘以 v 就是这个一行两列的矩阵乘以 v 因此可以得到 u1×v1 加上 u2×v2

向量内积有多种不同的计算方式

根据线性代数的知识这两个公式会给出同样的结果 顺便说一句 u 转置乘以 v 等于 v 转置乘以 u 因此如果你将 u 和 v 交换位置将 u 投影到 v 上而不是将 v 投影到 u 上然后做同样地计算只是把 u 和 v 的位置交换一下你事实上可以得到同样的结果申明一点在这个等式中 u 的范数是一个实数 p也是一个实数因此 u 转置乘以 v 就是两个实数正常相乘最后一点需要注意的就是p值 p事实上是有符号的即它可能是正值也可能是负值我的意思是说如果 u 是一个类似这样的向量 v 是一个类似这样的向量 u 和 v 之间的夹角大于90度则如果将 v 投影到 u 上会得到这样的一个投影这是 p 的长度在这个情形下我们仍然有 u 转置乘以 v 是等于 p 乘以 u 的范数唯一一点不同的是 p 在这里是负的在内积计算中如果 u 和 v 之间的夹角小于90度那么那条红线的长度 p 是正值然而如果这个夹角大于90度则p 将会是负的就是这个小线段的长度是负的因此两个向量之间的内积也是负的如果它们之间的夹角大于90度这就是关于向量内积的知识

我们接下来将会 使用这些关于向量内积的性质试图来理解支持向量机中的目标函数

这就是我们先前给出的 支持向量机模型中的目标函数 为了讲解方便我做一点简化仅仅是为了让目标函数更容易被分析我接下来忽略掉截距令 θ0 等于 0 这样更容易画示意图我将特征数 n 置为2 因此我们仅有 两个特征 x1 和 x2 现在我们来看一下目标函数 支持向量机的 优化目标函数 当我们仅有两个特征即 n=2 时这个式子可以写作二分之一 θ1 平方加上 θ2 平方我们只有两个参数 θ1 和θ2

接下来我重写一下我将其重写成二分之一 θ1 平方加上 θ2 平方开平方根后再平方我这么做的根据是对于任何数 w w的平方根再取平方得到的就是 w 本身因此平方根然后平方并不会改变值的大小你可能注意到括号里面的这一项是向量 θ 的范数或者说是向量 θ 的长度我的意思是如果我们将向量 θ 写出来 θ1 θ2 那么我刚刚画红线的这一项就是向量 θ 的长度或范数这里我们用的是之前学过的向量范数的定义事实上这就等于向量 θ 的长度当然你可以将其写作 θ0 θ1 θ2 如果 θ0等于0 那就是 θ1 θ2 的长度在这里我将忽略 θ0 将 θ 仅仅写作这样这样来写 θ θ 的范数仅仅和 θ1 θ2 有关但是数学上不管你是否包含 θ0 其实并没有差别因此在我们接下来的推导中去掉θ0不会有影响这意味着我们的目标函数是等于二分之一 θ范数的平方

因此支持向量机 做的全部事情就是极小化参数向量 θ 范数的平方或者说长度的平方

现在我将要看看这些项 θ 转置乘以x（核心理解概念） 更深入地理解它们的含义给定参数向量θ 给定一个样本 x 这等于什么呢? 在前一页幻灯片上我们画出了在不同情形下 u转置乘以v的示意图我们将会使用这些概念 θ 和 x(i) 就类似于 u 和 v 让我们看一下示意图我们考察一个 单一的训练样本 我有一个正样本在这里用一个叉来表示这个样本 x(i) 意思是在水平轴上取值为 x(i)1 在竖直轴上取值为 x(i)2 这就是我画出的训练样本尽管我没有将其真的看做向量它事实上就是一个始于原点终点位置在这个训练样本点的向量现在我们有一个参数向量我会将它也画成向量我将 θ1 画在这里将 θ2 画在这里那么内积 θ 转置乘以 x(i) 将会是什么呢使用我们之前的方法我们计算的方式就是我将训练样本投影到参数向量 θ 然后我来看一看这个线段的长度 我将它画成红色我将它称为 p 上标 (i) 用来表示这是第 i 个训练样本在参数向量 θ 上的投影根据我们之前幻灯片的内容我们知道的是 θ 转置乘以 x(i) 等于就等于 p 乘以向量 θ 的长度或范数 这就等于 θ1 乘以 x1 加上 θ2 x2 这两种方式是等价的都可以用来计算 θ 和 x(i) 之间的内积好这告诉了我们什么呢这里表达的意思是这个 θ 转置乘以 x(i) 大于等于1 或者小于-1的约束是可以被 p(i)乘以x大于等于1 这个约束所代替的因为 θ 转置乘以 x(i) 等于 p(i) 乘以 θ 的范数

再一次的将优化目标改写

将其写入我们的优化目标 我们将会得到没有了约束 θ 转置乘以x(i) 而变成了 p(i) 乘以 θ 的范数 需要提醒一点我们之前曾讲过这个优化目标函数可以被写成二分之一乘以 θ 平方的范数

现在让我们考虑下面这里的 训练样本 现在继续使用之前的简化即 θ0 等于0 我们来看一下支持向量机会选择什么样的决策界

这是一种选择我们假设支持向量机会选择这个决策边界这不是一个非常好的选择因为它的间距很小 这个决策界离训练样本的距离很近我们来看一下为什么支持向量机不会选择它对于这样选择的参数 θ 可以看到参数向量 θ 事实上是和决策界是90度正交的（请问这一个是怎么来的？）因此这个绿色的决策界对应着一个参数向量 θ 指向这个方向顺便提一句 θ0 等于0 的简化仅仅意味着决策界必须 通过原点 (0,0) 现在让我们看一下这对于优化目标函数意味着什么比如这个样本我们假设它是我的第一个样本 x(1) 如果我考察这个样本到参数 θ 的投影这就是投影这个短的红线段就等于p(1) 它非常短对么类似地这个样本如果它恰好是 x(2) 是我的第二个训练样本则它到 θ 的投影在这里是因为你犯罪了因为你做了错事我将它画成粉色这个短的粉色线段它是 p(2) 第二个样本到我的参数向量 θ 的投影因此这个投影非常短 p(2) 事实上是一个负值 p(2) 是在相反的方向这个向量和参数向量 θ 的夹角大于90度 p(2) 的值小于0 我们会发现这些 p(i) 将会是非常小的数

因此当我们考察 优化目标函数的时候对于正样本而言我们需要 p(i) 乘以 θ 的范数大于等于1 但是如果 p(i) 在这里如果 p(1) 在这里非常小 那就意味着我们需要 θ 的范数非常大 对么因为如果 p(1) 很小而我们希望 p(1) 乘以 θ 大于等于1 令其实现的唯一的办法就是这两个数较大如果 p(1) 小我们就希望 θ 的范数大类似地对于负样本而言我们需要 p(2) 乘以 θ 的范数小于等于-1 我们已经在这个样本中看到 p(2) 会是一个非常小的数因此唯一的办法就是 θ 的范数变大

但是我们的目标函数是 希望找到一个参数 θ 它的范数是小的 因此这看起来不像是一个好的参数向量 θ 的选择

相反的来看一个不同的决策边界 比如说支持向量机选择了这个决策界现在状况会有很大不同如果这是决策界这就是相对应的参数 θ 的方向因此在这个决策界之下垂直线是决策界使用线性代数的知识可以说明这个绿色的决策界有一个垂直于它的向量 θ 现在如果你考察你的数据在横轴 x 上的投影比如这个我之前提到的样本我的样本 x(1) 当我将它投影到横轴x上或说投影到θ上就会得到这样的p(1) 它的长度是 p(1) 另一个样本那个样本是x(2) 我做同样的投影我会发现这是 p(2) 的长度它是负值你会注意到现在 p(1) 和 p(2) 这些投影长度是长多了如果我们仍然要满足这些约束 p(1) 乘以 θ 的范数是比1大的则因为 p(1) 变大了 θ 的范数就可以变小了 因此这意味着通过选择右边的决策界而不是左边的那个支持向量机可以使参数 θ 的范数变小很多因此如果我们想令 θ 的范数变小从而令 θ 范数的平方变小就能让支持向量机选择右边的决策界

这就是支持向量机如何能有效地产生大间距分类的原因

看这条绿线这个绿色的决策界我们希望正样本和负样本投影到 θ 的值大要做到这一点的唯一方式就是选择这条绿线做决策界这是大间距决策界来区分开正样本和负样本这个间距的值这个间距的值就是p(1) p(2) p(3) 等等的值通过让间距变大通过这些p(1) p(2) p(3) 等等的值支持向量机最终可以找到一个较小的 θ 范数这正是支持向量机中最小化目标函数的目的以上就是为什么支持向量机最终会找到大间距分类器的原因因为它试图极大化这些 p(i) 的范数它们是训练样本到决策边界的距离

最后一点我们的推导自始至终使用了这个简化假设 就是参数 θ0 等于0 就像我之前提到的这个的作用是 θ0 等于 0 的意思是我们让决策界 通过原点让决策界通过原点 就像这样如果你令 θ0 不是0的话含义就是你希望决策界不通过原点比如这样我将不会做全部的推导实际上 支持向量机产生大间距分类器的结论会被证明同样成立证明方式是非常类似的是我们刚刚做的证明的推广之前视频中说过即便 θ0 不等于0 支持向量机要做的事情都是优化这个目标函数对应着 C值非常大的情况但是可以说明的是即便 θ0 不等于 0 支持向量机仍然会找到正样本和负样本之间的大间距分隔

总之我们解释了为什么支持向量机是一个大间距分类器 在下一节我们将开始讨论如何利用支持向量机的原理应用它们建立一个复杂的非线性分类器

Kernels核函数

Kernels I核函数

总结：

如何构造非线性分类器？
标记点是啥？
核函数是啥？

在本节课的视频中我将对支持向量机算法做一些改变以构造复杂的非线性分类器 我们用"kernels(核函数)"来达到此目的我们来看看核函数是什么以及如何使用

非线性了，比如为复杂的多项式函数，所以不能写成θT*x的形式，必须转化为θT*f的形式。

如果你有一个训练集 像这个样子然后你希望拟合一个 非线性的判别边界 来区别正负样本可能是这样的一个判别边界一种办法是构造 多项式特征变量 是吧也就是像这样的特征变量集合这样你就能得到一个假设如果θ0加上θ1*x1 加上其他的多项式特征变量之和大于0 那么就预测为1 反之则预测为0 这种方法的另一种写法 这里介绍一个新的概念 之后将会用到我们可以把假设函数 看成是用这个来计算判别边界 那么 θ0+θ1×f1+ θ2×f2+θ3×f3 加上其他项在这里我将用这几个新的符号 f1 f2 f3等等来表示一系列我将要计算的 新的特征变量 因此 f1就等于x1 f2就等于x2 f3等于这个 x1x2 f4等于x1的平方 f5等于x2的平方等等我们之前看到通过加入这些 高阶项 我们可以得到更多特征变量

问题是能不能选择别的特征变量 或者有没有比这些高阶项更好的特征变量 因为我们并不知道这些高阶项是不是我们真正需要的我们之前谈到 计算机视觉的时候提到过这时的输入是一个有很多像素的图像我们看到如果用高阶项作为特征变量 运算量将是非常大的因为有太多的高阶项需要被计算

因此我们是否有不同的选择 或者是更好的选择来构造特征变量 以用来嵌入到假设函数中

事实上这里有一个可以构造新特征f1 f2 f3的想法在这一行中我只定义三个特征变量但是对于实际问题而言我们可以定义非常多的特征变量但是在这里对于这里的特征 x1 x2 我不打算把x0放在这里截距x0 但是这里的x1 x2 我打算手动选取一些点然后将这些点定义为l(1) 再选一个不同的点把它定为l(2) 再选第三个点定为l(3) 现在假设我打算只手动选取三个点将这三个点作为记1，标记2，标记3 接下来我要做的是这样定义新的特征变量

给出一个样本 x 将第一个特征变量f1 定义为一种相似度的度量 度量样本 x 与第一个标记的相似度我将要用来度量相似度的这个公式是这样的对括号的内容取exp (自然常数e为底的指数函数) 负号 x-l(1) 的长度平方除以2倍的 σ 平方不知道你之前是否看了上一个选修课程的视频这个记号表示向量 w 的长度因此这里的 x-l(1) 的意思就是欧式距离 然后取平方是点 x 与 l(1) 之间的欧式距离我们之后会更多地谈到这个这是我的第一个特征向量

然后是f2 它等于对x和l(2)使用相似度函数度量x与l(2)的相似度这个相似度函数同上对如下值取exp x到第二个标记之间的欧式距离这是分子再除以2倍的σ平方类似的 f3 等于x与l(3)之间的相似度公式同上

这个相似度函数是用数学术语来说它就是 核函数 这里我所说的核函数实际上是高斯核函数 因此这个公式我们选择的这个相似度函数是高斯核函数 但是这个术语其实概括了许多不同的相似度函数它们都称作核函数 而我用的这个特定例子是高斯核函数 之后我们会见到别的核函数但是现在就把这个当做相似度函数我们通常不需要写 x和l的相似度有时我们就直接这样写小写的k 括号里是x和标记l(i)

现在我们来看看核函数到底可以做什么为什么这些相似度函数这些表达式是正确的

先来看看我们的第一个标记 标记l(1) l(1)是我之前在图中选取的几个点中的其中一个因此x和l(1)之间的核函数相似度是这样表达的为了保证你知道这个分子项是什么这个分子也可以写为对这个距离求和 j从1到n 这是向量x和l 各分量之间的距离同样地在这几张幻灯片中我忽略了x0 因此我们暂时先不管截距项x0 x0总是等于1 那么你现在明白这就是你通过计算x和标记之间的相似度得到的核函数

让我们来看看这个函数计算的是什么 假设x与其中一个标记点非常接近那么这个欧式距离 以及这个分子就会接近于0 对吧这是因为这里的这个项是距离的平方 x到l的距离接近于0 因此f1 这个特征变量约等于对-0取exp 然后除以2倍的σ平方因此对0取exp 对-0取exp 约等于1 我把约等号放在这里是因为这个距离不是严格地等于0 但是x越接近于l 那么这个项就会越接近于0 因此f1越接近于1 相反地如果x离l(1)越远那么f1 就等于对一个非常大的数字 的平方除以2倍σ平方再取exp 然后对一个负的大数字取exp 接近于0 因此这些特征变量的作用是度量 x到标记l的相似度并且如果x离l非常相近那么特征变量f 就接近于1 如果x 离标记l非常远那么f会约等于0 之前我所画的那几个标记点就是 l(1) l(2) l(3) 每一个标记点会定义一个新的特征变量 f1 f2 f3 也就是说给出一个训练样本 x 我们就能计算三个新的特征变量 f1 f2和f3 基于我之前给的三个标记点

一个例子

但是首先我们来看看这个指数函数我们来看看这个相似度函数我们画一些图来更好地理解这些函数是什么样的

比如假设我们有两个特征x1和x2 假设我们的第一个标记点是l(1) 位于(3,5) 假设σ的平方等于1 如果我画出图就是这样的这个纵轴这个曲面的高度是 f1的值再看看水平的坐标如果我把训练样本画在这里这是x1 这是x2 给出一个特定的训练样本选这里的一个样本可以看到x1和x2的值这个高度可以看到这个f1相应的值

下面的这个图内容是一样的但我用的是一个等高线图 x1为水平轴 x2为竖直轴那么底下的这个图就是这个3D曲面的等值线图 你会发现当x等于(3,5)的时候这个时候 f1就等于1 因为它在最大值上所以如果x往旁边移动离这个点越远那么从图中可以看到 f1的值就越接近0 这就是特征变量f1 计算的内容也就是X与第一个标记点的远近程度这个值在0到1之间具体取决于x 距离标记点l(1)到底有多近

我在这张幻灯片上要讲的另一项内容是我们可以看到改变σ平方的值 能产生多大影响 σ平方是高斯核函数的参数当你改变它的值的时你会得到略微不同的结果 假设我们让σ平方 等于0.5 看看我们能得到什么将σ平方设为0.5 你会发现核函数看起来还是相似的只是这个突起的宽度变窄了 等值线图也收缩了一些 所以如果我们将σ平方设为0.5 我们从x=(3 5) 开始往旁边移动那么特征变量f1 降到0的速度会变得很快与此相反地如果你增大了σ平方的值 我们假设σ平方等于3 在这个例子中如果我从点l往旁边移动这里的这个点就是l l(1)所在的坐标为(3,5) 从这里可以看到如果σ平方很大那么当你从点l(1)移走的时候特征变量的值减小的速度会变得比较慢

因此讲完了特征变量的定义我们来看看我们能得到什么样的预测函数

给定一个训练样本x 我们要计算出三个特征变量 f1 f2 f3 预测函数的预测值 会等于1 如果θ0加上 θ1*f1 加上 θ2*f2 等等的结果是大于或者等于0的对于这个特定的例子而言假设我们已经找到了一个学习算法 并且假设我已经得到了这些参数的值 因此如果θ0等于-0.5 θ1等于1 θ2等于1 θ3等于0

我想要做的是我想要知道会发生什么 如果我们有一个训练样本 它的坐标在这里这个红点我画的这个点假设我们有一个训练样本x 我想知道我的预测函数会给出怎样的预测结果 看看这个公式因为我的训练样本x 接近于l(1) 那么f1 就接近于1 又因为训练样本x 离l(2) l(3) 都很远所以 f2就接近于0 f3也接近于0 所以如果我们看看这个公式 θ0加上θ1 乘以1加上θ2乘以某个值不是严格意义上等于0 但是接近于0 接着加上θ3乘以一个接近于0的值这个等于... 再把这些值代入进去这个是-0.5 加上1乘以1等于1 等等最后等于0.5 这个值大于等于0 因此这个点我们预测出的y值是1 因为大于等于0

现在我们选择另一个不同的点 假设我选择了另一个点我用不同的颜色把它标出来用蓝绿色这个点如果它是训练样本x 如果你进行和之前相同的计算你发现f1 f2 f3都接近于0 因此我们得到 θ0加上θ1×f1 加上其他项最后的结果会等于-0.5 因为θ0等于-0.5 并且f1 f2 f3都为0 因此最后结果是-0.5 小于0 因此这个点我们预测的y值是0 如果这样做你自己来对大量的点进行这样相应的处理你应该可以确定如果你有一个训练样本它非常接近于l(2) 那么通过这个点预测的y值也是1 实际上你最后得到的结果是如果你看看这个边界线这个区域我们会发现对于接近l(1)和l(2)的点我们的预测值是1 对于远离 l(1)和l(2)的店对于离这两个标记点非常远的点我们最后预测的结果是等于0的我们最后会得到这个预测函数的判别边界会像这样在这个红色的判别边界里面预测的y值等于1 在这外面预测的y值等于0 因此这就是一个

我们如何通过标记点 以及核函数 来训练出非常复杂的非线性判别边界的方法

就像我刚才画的那个判别边界当我们接近两个标记点中任意一个时预测值就会等于1 否则预测值等于0 如果这些点离标记点非常远

这就是核函数这部分的概念以及我们如何在支持向量机中使用它们我们通过标记点和相似性函数 来定义新的特征变量 从而训练复杂的非线性分类器 我希望刚才讲的内容能够帮助你更好的理解核函数的概念以及我们如何使用它在支持向量机中定义新的特征变量

但是还有一些问题我们并没有做出回答其中一个是我们如何得到这些标记点 我们怎么来选择这些标记点 另一个是 其他的相似度方程是什么样的如果有其他的话我们能够用其他的相似度方程来代替我们所讲的这个高斯核函数吗

在下一个视频中我们会回答这些问题然后把所有东西都整合到一起来看看支持向量机如何通过核函数的定义 有效地学习复杂非线性函数

Kernels II核函数

总结：

在上一节视频里我们讨论了 核函数这个想法以及怎样利用它去 实现支持向量机的一些新特性 在这一节视频中我将 补充一些缺失的细节 并简单的介绍一下怎么在实际中使用应用这些想法例如怎么处理支持向量机中的偏差方差折中

在上一节课中我谈到过选择标记点 例如 l(1) l(2) l(3) 这些点使我们能够定义相似度函数 也称之为核函数 在这个例子里我们的相似度函数为高斯核函数 这使我们能够构造一个这样的假设函数

但是我们从哪里得到这些标记点？我们从哪里得到l(1) l(2) l(3)？

而且在一些复杂的学习问题中也许我们需要 更多的标记点 而不是我们手选的这三个因此在实际应用时怎么选取标记点是机器学习中必须解决的问题这是我们的数据集有一些正样本和一些负样本我们的想法是我们将选取样本点 我们拥有的 每一个样本点 我们只需要直接使用它们我们直接将训练样本作为标记点 如果我有一个训练样本x(1) 那么我将把第一个标记点就放在跟我的第一个训练样本点完全重合的地方如果我有另一个训练样本x(2) 那么我将把第二个标记点选在与第二个样本点重合的位置上在右边的这幅图上我用红点和蓝点来阐述这幅图以及这些点的颜色可能并不显眼但是利用这个方法最终能得到 m个标记点 l(1) l(2) 直到 l(m) 即每一个标记点的位置都与每一个样本点的位置精确对应这个过程很棒这说明特征函数基本上是在描述每一个样本距离样本集中其他样本的距离

我们具体的列出这个过程的大纲给定m个训练样本 我将选取与 m个训练样本精确一致的位置作为我的标记点 当输入样本x 样本x可以属于训练集 也可以属于交叉验证集 也可以属于测试集 给定样本x 我们可以计算这些特征即f1 f2 等等这里 l(1) 等于 x(1) 剩下标记点的以此类推最终我们能到一个特征向量 我将特征向量记为f 我将f1 f2等等构造为特征向量一直写到fm 此外按照惯例如果我们需要的话可以添加额外的特征f0 f0的值始终为1 它与我们之前讨论过的截距x0的作用相似

举个例子假设我们有训练样本(x(i), y(i)) 这个样本对应的 特征向量可以这样计算给定x(i) 我们可以通过相似度函数 将其映射到f1(i) 在这里我将整个单词similarity(相似度) 简记为sim 简记为sim f2(i)等于x(i)与l(2) 之间的相似度以此类推最后有fm(i) 等于x(i)与l(m)之间的相似度在这一列中间的某个位置即第i个元素有一个特征为fi(i) 为fi(i) 这是x(i)和l(i)之间的相似度这里l(i)就等于 x(i) 所以 fi(i)衡量的是 x(i)与其自身的相似度如果你使用高斯核函数的话这一项等于 exp(-0/(2*sigma^2)) 等于1 所以对于这个样本来说其中的某一个特征等于1 接下来类似于我们之前的过程我将这m个特征 合并为一个特征向量

于是相比之前用x(i)来描述样本 x(i)为n维或者n+1维空间的向量取决于你的具体项数 可能为n维向量空间也可能为n+1维向量空间我们现在可以用这个特征向量f 来描述我的特征向量我将合并f(i) 将所有这些项合并为一个向量即从f1(i) 到fm(i) 如果有需要的话我们通常也会加上 f0(i)这一项 f0(i)等于1 那么这个向量就是我们用于描述训练样本的特征向量 当给定核函数 和相似度函数后我们按照这个方法来使用支持向量机

如果你已经得到参数 θ 并且想对样本x做出预测 我们先要计算 特征向量f f是m+1维特征向量这里之所以有m 是因为我们有m个训练样本于是就有m个标记点我们在 θ 的转置乘以f 大于或等于0时 预测y=1 对吧 θ 的转置乘以f 等于θ0×f0加上θ1×f1 加上点点点直到θm×fm 所以参数向量θ 在这里为 m+1维向量这里有m是因为 标记点的个数等于训练点的个数 m就是训练集的大小所以参数向量θ为m+1维

以上就是当已知参数θ时怎么做出预测的过程怎样得到参数θ呢？

你在使用 SVM学习算法时具体来说就是要求解这个最小化问题 你需要求出能使这个式子取最小值的参数θ 式子为C乘以这个我们之前见过的代价函数 只是在这里相比之前使用 θ的转置乘以x(i) 即我们的原始特征 做出预测我们将替换特征向量x(i) 并使用这个新的特征向量我们使用θ的转置乘以f(i)来对第i个训练样本做出预测我们可以看到这两个地方(都要做出替换) 通过解决这个最小化问题我们就能得到支持向量机的参数

最后一个细节是对于这个优化问题 我们有 n=m个特征 就在这里我们拥有的特征个数 显然有效的特征个数应该等于f的维数所以 n其实就等于m 如果愿意的话你也可以认为这是一个求和这确实就是 j从1到m的累和可以这么来看这个问题你可以想象 n就等于m 因为如果f 不是新的特征向量那么我们有m+1个特征额外的1是因为截距的关系因此这里我们仍要j从1累加到n 与我们之前视频中讲过的正则化类似我们仍然不对θ0 做正则化处理 这就是 j从1累加到m 而不是从0累加到m的原因

以上就是支持向量机的学习算法

我在这里还要讲到一个数学细节 在支持向量机实现的过程中这最后一项与这里写的有细微差别其实在实现支持向量机时你并不需要知道这个细节事实上这写下的这个式子已经给你提供了全部需要的原理但是在支持向量机实现的过程中这一项 θj从1到m的平方和这一项可以被重写为 θ的转置乘以θ 如果我们忽略θ0的话考虑θ1直到θm 并忽略theta_0 那么 θj的平方和可以被重写为 θ 的转置乘以 θ 大多数支持向量机在实现的时候其实是替换掉 θ 的转置乘以 θ 用 θ 的转置乘以某个矩阵这依赖于你采用的核函数再乘以 θ

这其实是另一种略有区别的距离度量方法 我们用一种略有变化的度量来取代不直接用 θ 的模的平方进行最小化而是最小化了另一种类似的度量这是参数向量θ的变尺度形式这种变化和核函数相关这个数学细节使得支持向量机能够更有效率的运行支持向量机做这种修改的理由是这么做可以适应 超大的训练集 例如当你的训练集有10000个样本时根据我们之前定义标记点的方法我们最终有10000个标记点 θ也随之是10000维的向量或许这时这么做还可行但是当m变得非常非常大时那么求解这么多参数如果m为50,000或者100,000 此时利用支持向量机软件包 来解决我写在这里的最小化问题求解这些参数的成本会非常高这些都是数学细节事实上你没有必要了解这些它实际上细微的修改了最后一项使得最终的优化目标与直接最小化θ的模的平方略有区别如果愿意的话你可以直接认为这个具体的实现细节尽管略微的改变了优化目标但是它主要是为了计算效率 所以你不必要对此有太多担心

顺便说一下你可能会想为什么我们不将 核函数这个想法应用到其他算法比如逻辑回归上事实证明如果愿意的话确实可以将核函数这个想法用于定义特征向量将标记点之类的技术用于逻辑回归算法但是用于支持向量机的计算技巧不能较好的推广到其他算法诸如逻辑回归上所以将核函数用于逻辑回归时会变得非常的慢 相比之下这些计算技巧比如具体化技术对这些细节的修改以及支持向量软件的实现细节使得支持向量机可以和核函数相得益彰而逻辑回归和核函数则运行得十分缓慢更何况它们还不能使用那些高级优化技巧 因为这些技巧是人们专门为使用核函数的支持向量机开发的 但是这些问题只有在你亲自实现最小化函数 才会遇到

我将在下一节视频中进一步讨论这些问题但是你并不需要知道怎么去写一个软件 来最小化代价函数你能找到很好的成熟软件来做这些就像我一直不建议自己写矩阵求逆函数或者平方根函数的道理一样我也不建议亲自写最小化代价函数的代码而应该使用人们开发的 成熟的软件包 这些软件包已经包含了那些数值优化技巧所以你不必担心这些东西

但是另外一个值得说明的问题是在你使用支持向量机时怎么选择支持向量机中的参数？

在本节视频的末尾我想稍微说明一下在使用支持向量机时的 偏差-方差折中

在使用支持向量机时其中一个要选择的事情是 目标函数中的参数C 回忆一下 C的作用与1/λ相似 λ是逻辑回归算法中的正则化参数 所以 大的C对应着我们以前在逻辑回归问题中的小的λ 这意味着不使用正则化 如果你这么做就有可能得到一个低偏差但高方差的模型 如果你使用了 较小的C 这对应着在逻辑回归问题中使用较大的 λ 对应着一个高偏差但是低方差的模型 所以使用较大C值的模型为高方差更倾向于过拟合 而使用较小C值的模型为高偏差更倾向于欠拟合 C只是我们要选择的其中一个参数

另外一个要选择的参数是 高斯核函数中的σ^2 当高斯核函数中的 σ^2偏大时那么对应的相似度函数为exp(-||x-l(i)||^2/(2*σ^2)) 在这个例子中如果我们只有一个特征x1 我们在这个位置有一个标记点 如果σ^2较大那么高斯核函数 倾向于变得相对平滑这可能是我的特征fi 所以由于函数平滑且变化的比较平缓这会给你的模型带来较高的偏差和较低的方差由于高斯核函数变得平缓就更倾向于得到一个随着输入x 变化得缓慢的模型反之如果σ^2很小这是我的标记点利用其给出特征x1 那么高斯核函数即相似度函数会变化的很剧烈我们标记出这两种情况下1的位置在σ^2较小的情况下特征的变化会变得不平滑会有较大的斜率和较大的导数在这种情况下最终得到的模型会是低偏差和高方差看到这条曲线

本周的编程作业你就能亲自实现这些想法并亲眼看到这些效果这就是利用核函数的支持向量机算法 希望这些关于 偏差和方差的讨论能给你一些对于算法结果预期的直观印象

SVMs in Practice练习SVMs

Using An SVM使用SVM

总结：

目前为止我们在比较抽象的层面上讨论了支持向量机 SVM 在这段视频中为了运行或者说使用 SVM 你实际上需要做什么

支持向量机算法是一个特定的优化问题但是就如我在之前的视频中简单提到的我真的不建议你自己写软件来求解参数θ 就像如今只有很少的人或者说根本没有人会考虑自己写代码来实现对矩阵求逆或求一个数的平方根等我们只要调用库函数来实现这些同样地用以解决 SVM 优化问题的软件很复杂而且已经有专门研究数值优化很多年的学者在做这个因此你需要好的软件库和好的软件包来做这个然后强烈建议使用一个高度优化的软件库而不是尝试自己去实现它有许多好的软件库我最常用的两个是 liblinear 和 libsvm 但是真的有很多软件库可以用来实现这个你可以在很多主流编程语言可能是你用来写学习算法的语言找到这个软件库尽管你不应该去写你自己的 SVM 优化软件但是你也需要做几件事儿首先是要选择参数C 我们在之前的视频中讨论误差/方差的性质时提到过这个第二你也需要选择核函数或你想要使用的相似度函数其中一个选择是我们选择不用任何核函数不用核函数这个作法也叫线性核函数因此如果有人说他的 SVM 用了线性核函数这就意味着他在使用 SVM 时没有用核函数这种用法的 SVM 只使用了 θ 转置乘以x 当 θ0 + θ1x1 + ... + θnxn 大于等于0时当 θ0 + θ1x1 + ... + θnxn 大于等于0时当 θ0 + θ1x1 + ... + θnxn 大于等于0时预测 y=1 对线性核函数这个术语你可以把它理解为这个版本的 SVM 它只是给你一个标准的线性分类器因此对某些问题来说它是一个合理的选择而且你知道有许多软件库比如 liblinear 就是众多软件库中的一个例子它们可以用来训练的 SVM 是没有核函数的也叫线性核函数那么你为什么想要做这样一件事儿呢？如果你有大量的特征变量如果 n 很大而训练集的样本数 m 很小那么你知道你有大量的特征变量 x 是一个 n+1 维向量 x 是一个 n+1 维向量那么如果你已经有大量的特征值和很小的训练数据集也许你应该拟合一个线性的判定边界不要拟合非常复杂的非线性函数因为没有足够的数据如果你想在一个高维特征空间试着拟合非常复杂的函数而你的训练集又很小的话你可能会过度拟合因此这应该是你可能决定不适用核函数或者等价地说使用线性核函数或者等价地说使用线性核函数的一个合理情况对于核函数的第二个选择是这个高斯核函数这个是我们之前见过的如果你选择这个那么你要做的另外一个选择是选择一个参数σ的平方我们之前讨论如何权衡偏差方差的时候谈到过如果 σ 的平方很大那么你就有可能得到一个较大的误差较低方差的分类器但是如果 σ 的平方很小那么你就会有较大的方差较低误差的分类器那么什么时候选择高斯核函数呢？如果你原来的特征变量 x 是 n 维的如果 n 很小并且理想情况下如果 m 很大那么如果我们有一个二维的训练集就像我前面讲到的例子一样那么n等于2 但是我们有相当大的训练集我已经画出了大量的训练样本那么可能你需要用一个核函数去拟合一个更复杂的非线性判定边界那么高斯核函数会是不错的选择我会在这个视频的后面部分讲到更多一些关于什么时候你可以选择线性核函数高斯核函数等但是具体地说如果你决定使用高斯核函数那么下面是你需要做的根据你所用的支持向量机软件包它可能需要你实现一个核函数或者实现相似度函数因此如果你用 Octave 或者 Matlab 来实现支持向量机的话它会要求你提供一个函数来计算核函数的特定特征因此这是对一个特定的 i 因此这是对一个特定的 i 计算 fi 这里的 f 只是一个单一的实数也许我应该把它写成 fi 但是你需要做的是写一个核函数把这个作为输入一个训练样本或者一个测试样本不论是哪个作为输入的是向量 x 然后把标识点也作为一个输入在这里我只写了 x1 和 x2 因为标识点也是训练样本但是你需要做的是写一个这样的软件它把 x1 x2 作为输入然后计算它们之间的这种相似度函数之后返回一个实数因此一些支持向量机的包所做的是期望你能提供一个核函数能够输入 x1 x2 并返回一个实数从这里开始它将自动地生成所有特征变量它自动地用你写的这个函数将 x 映射到对应的 f1 f2 一直到 fm 生成所有的特征值并从这儿开始训练支持向量机但是有些时候你却一定要自己提供这个函数如果你使用高斯核函数一些SVM的实现也会包括高斯核函数和一些其他的核函数因为高斯核函数可能是最常见的核函数目前看来高斯核函数和线性核函数确实是最普遍的核函数一个实现过程中的注意事项如果你有大小很不一样的特征变量在使用高斯核函数之前对它们进行归一化是很重要的这里有一个如果假设你在计算 x 和 l 之间的范数就是这样一个式子是这里的分子项这个式子所算的是 x 和 l 之间的范数就等于说计算一个向量 v 这个向量 v=x-l 然后计算向量 v 的范数这也就是 x 和 l 之间的差这也就是 x 和 l 之间的差 v 的范数等于 v1 的平方加 v2 的平方加点点点加 vn 的平方因为这里的 x 是 n 维向量或者说是 n+1 维的但是我要忽略 x0 因此我们假设 x 是 n 维向量在左边加上平方就是正确的了因此这个式子就等于那个式子对吧？那么另一种不同的写法就是 (x1-l1)^2+(x2-l2)^2+...+(xn-ln)^2 (x1-l1)^2+(x2-l2)^2+...+(xn-ln)^2 (x1-l1)^2+(x2-l2)^2+...+(xn-ln)^2 (x1-l1)^2+(x2-l2)^2+...+(xn-ln)^2 (x1-l1)^2+(x2-l2)^2+...+(xn-ln)^2 现在如果你的特征变量取值范围很不一样就拿房价预测来举例如果你的数据是一些关于房子的数据如果特征向量 x 的第一个变量 x1 的取值在上千平方英尺的范围内但是如果你的第二个特征变量 x2 是卧室的数量且如果它在一到五个卧室范围内那么 x1-l1 将会很大这有可能上千数值的平方然而 x2-l2 将会变得很小在这样的情况下的话那么在这个式子中这些间距将几乎都是由房子的大小来决定的从而忽略了卧室的数量为了避免这种情况让向量机得以很好地工作确实需要对特征变量进行归一化这将会保证SVM 能够同等地关注到所有不同的特征变量而不是像例子中那样只关注到房子的大小而忽略了其他的特征变量

当你尝试支持向量机时目前为止你可做的选择是这两个可能是你最常用的核函数线性核函数也就是不用核函数或者我们讨论的高斯核函数这里有一个警告不是所有你可能提出来的相似度函数都是有效的核函数高斯核函数线性核函数以及其他人有时会用到的另外的核函数它们全部需要满足一个技术条件它叫作默塞尔定理 (Mercer's Theorem) 需要满足这个条件的原因是因为支持向量机算法或者 SVM 的实现有许多巧妙的数值优化技巧为了有效地求解参数 θ 在最初的设想里有一个这样的决定将我们的注意力仅仅限制在可以满足默塞尔定理的核函数上这个定理所做的是确保所有的SVM包所有的SVM软件包能够使用大量的优化方法并且快速地得到参数 θ 大多数人最后做的是要么用线性核函数要么用高斯核函数但是还有一些其他核函数满足默塞尔定理你可能会遇到其他人使用这些核函数然而我个人最后是很少很少使用其他核函数只是简单提及一下你可能会遇到的其他核函数一个是多项式核函数它将 x 和 l 之间的相似度它将 x 和 l 之间的相似度定义为这里有很多种选择你可以用 x 的转置乘以 I 的平方那么这就是一个 x 和 l 相似度的估量如果 x 和 l 相互之间很接近那么这个内积就会很大这是一个有些不寻常的核函数它并不那么常用但是你可能会见到有人使用它这是多项式核函数的一个变体另一个是 x 转置乘以 I 的立方这些都是多项式核函数的例子 x 转置乘以 l 加 1 的立方 x 转置乘以 l 加上一个不是 1 的数比如 5 的4次方多项式核函数实际上有两个参数一个是你在这里要加的数可能是0 这里就是加的0 同样地另一个参数是多项式的次数参数就是多项式的次数和这些数字多项式核函数的更一般形式是多项式核函数的更一般形式是 x 转置乘以 l 加上一个常数 x 转置乘以 l 加上一个常数的某个指数次方因此这两个都是多项式核函数的参数所以多项式核函数几乎总是或者通常执行的效果比高斯核函数差一些所以用得没有那么多但是你有可能会碰到通常它只用在当 x 和 l 都是严格的非负数时这样以保证这些内积值永远不会是负数这扑捉到了这样一个直观感觉如果 x 和 l 之间非常相似也许它们之间的内积会很大它们也有其他的一些性质但是人们通常用得不多那么根据你所做的你也有可能会碰到其它一些更加难懂的核函数比如字符串核函数如果你的输入数据是文本字符串或者其他类型的字符串有时会用到这个核函数还有一些函数如卡方核函数直方图交叉核函数等等还有一些难懂的核函数你可以用它们来估量不同对象之间的相似性例如如果你在尝试做一些文本分类的问题在这个问题中输入变量 x 是一个字符串我们想要通过字符串核函数来找到两个字符串间的相似度但是我但是我个人很少用这些更加难懂的核函数我想我平生可能用过一次卡方核函数可能用过一次或者两次直方图交叉核函数我实际上没用过字符串核函数只是以防万一你在其他应用中碰到它们如果你在网上查一下的话用 Google 搜索或者用 Bing 搜索你会发现这些也是核函数的定义

我想要在这个视频里讨论最后两个细节 一个是在多类分类中你有4个类别或者更一般地说是 K 个类别怎样让 SVM 输出各个类别间合适的判定边界？大部分 SVM 许多 SVM 包已经内置了多类分类的函数了因此如果你用的是那种软件包你可以直接用内置函数你可以直接用内置函数应该可以工作得很好不然的话另一个方式是一对多 (one-vs.-all) 方法这个我们在讲解逻辑回归的时候讨论过所以你要做的是要训练 K 个 SVM 如果你有 K 个类别的话每一个 SVM 把一个类同其他类区分开这会给你 K 个参数向量它们是 θ(1) 它把 y=1 这类 θ(1) 它把 y=1 这类和所有其他类别区分开和所有其他类别区分开然后得到第二个参数向量 θ(2) 然后得到第二个参数向量 θ(2) 它是在 y=2 为正类它是在 y=2 为正类其他类为负类时得到的以此类推一直到参数向量θ(K) 是用于区分最后一个类别类别 K 和其他类别的参数向量最后这就与我们在逻辑回归中用到的一对多方法一样在逻辑回归中我们只是取使得 θ(i) 转置乘以 x 最大的类 i 以上是多类分类方法对于更为常见的情况很有可能的是不论你使用什么软件包都很有可能已经内置了多类分类的函数功能因此你不必担心这个

最后我们从逻辑回归开始修改了一下代价函数从而得到了支持向量机最后我想要在这个视频中讨论一点的是 对这两个算法你什么时候应该用哪个呢？ 假设 n 是特征变量的个数 m 是训练样本数那么我们什么时候用哪一个呢？如果 n 相对于你的训练集大小来说较大时如果 n 相对于你的训练集大小来说较大时比如如果特征变量的数量如果特征变量的数量远大于 m 这可以是比如说如果你有一个文本分类的问题特征向量的维数我不知道有可能是1万且如果你的训练集大小可能是 10 可能最多 1000 想象一下垃圾邮件的分类问题在这个问题中你有1万个特征变量对应于1万个单词但是你可能有 10 个训练样本可能最多 1000 个样本如果 n 相对 m 来说比较大的话我通常会使用逻辑回归或者使用没有核函数的 SVM 或者叫线性核函数因为如果你有许多特征变量而有相对较小的训练集一个线性函数就可能工作得不错而且你也没有足够的数据来拟合非常复杂的非线性函数现在如果 n 较小而 m 是中等大小我的意思是 n 可以取 1 - 1000之间的任何数 1是很小的也许也会到1000个特征如果训练样本的数量如果训练样本的数量可能是从 10 也许是到10,000个样本之间的任何一个值也许多达5万个样本所以 m 挺大的可能是1万但不是一百万因此如果 m 大小适中的话那么通常线性核函数的SVM会工作得很好那么通常高斯核函数的SVM会工作得很好这个我们在这之前也讨论过举一个具体的例子如果你有一个二维的训练集所以 n=2 画上很多训练样本高斯核函数可以很好地把正类和负类区分开来第三种值得关注的情况是第三种值得关注的情况是如果 n 很小但是 m 很大如果 n 还是 1到1000之间的数可能会更大一点但是如果 m 是 5万或者更大大到上百万 5万 10万一百万二百万你有很大很大的训练集如果是这样的情况那么高斯核函数的支持向量机运行起来就会很慢如今的 SVM 包如果使用高斯核函数的话会很慢如果你有5万那还可以但是如果你有一百万个训练样本或者是十万个 m 的值很大如今的 SVM 包很好但是如果你对一个很大很大的训练集使用高斯核函数的话它们还是会有些慢在这种情况下我经常会做的是尝试手动地创建更多的特征变量然后使用逻辑回归或者不带核函数的 SVM 你看这张幻灯片你看到了逻辑回归或者不带核函数的 SVM 在这个两个地方都出现了我把它们放在一起是有原因的逻辑回归和不带核函数的 SVM 它们都是非常相似的算法不管是逻辑回归还是不带核函数的 SVM 它们会做相似的事情并且表现也相似但是根据你实现的具体情况其中一个可能会比另一个更加有效但是如果其中一个算法适用的话但是如果其中一个算法适用的话逻辑回归或不带核函数的 SVM 那么另一个算法也很有可能工作得很好但是 SVM 的威力随着你用不同的核函数学习复杂的非线性函数而发挥出来在这个区间你有多达1万或者多达5万的样本而特征变量的数量这是相当大的那是一个非常常见的区间也许在这个区间下高斯核函数的支持向量机会表现得相当突出你可以做对逻辑回归来说会困难得多的事情最后神经网络应该在什么时候使用呢？对于所有的这些问题对于所有这些区间对于所有这些区间一个设计得很好的神经网络也很可能会非常有效它的一个缺点是或者说有时可能不会使用神经网络的原因是对于许多这样的问题神经网络训练起来可能会很慢但是如果你有一个非常好的 SVM实现包它会运行得比较快比神经网络快很多尽管我们在此之前没有证明过实际上 SVM 的优化问题实际上 SVM 的优化问题是一种凸优化问题因此好的 SVM 优化软件包总是会找到全局最小值或者接近它的值对于SVM 你不需要担心局部最优在实际应用中局部最优对神经网络来说不是非常大但是也不小所以你在使用 SVM 的时候可以少担心一个问题根据你的问题神经网络可能会比 SVM 慢尤其是在这个区间内如果你觉得这里给出的参考看上去有些模糊如果你在考虑一些问题觉得这些参考有一些模糊我仍然不能完全确定我是该用这个算法还是该用那个算法这个其实没关系

当我遇到机器学习问题时有时确实不清楚是不是最好用那个算法 但是你在之前的视频中看到的 算法确实很重要 但是通常更重要的是你有多少数据 你有多熟练是否擅长做误差分析 和调试学习算法 想出如何设计新的特征变量 以及找出应该输入给学习算法的其它特征变量等方面通常这些方面会比你使用逻辑回归 还是 SVM 这方面更加重要但是已经说过了 SVM 仍然被广泛认为是最强大的学习算法之一最强大的学习算法之一而且 SVM 在一个区间内是一个非常有效地学习复杂非线性函数的方法

因此我实际上 逻辑回归 神经网络 SVM 加在一起有了这三个学习算法有了这三个学习算法我想你已经具备了在广泛的应用里构建最前沿的机器学习系统的能力它是你的武器库中的另一个非常强大的工具它被广泛地应用在很多地方比如在硅谷在工业界在学术等领域来建立许多 高性能的机器学习系统