[机器学习]第六、七周记录

这篇记录的内容来自于Andrew Ng教授在coursera网站上的授课。 


1.不要浪费大量的时间在获得样本上。实际上,太多的样本数并不会使学习算法更加的优秀。要尝试调整你的系数:

  1.使用更少的特征。

  2.增加多项式。

  3.调整$lambda$。

2.诊断学习算法:

  1.将样本打乱,并将其中一部分作为训练样本,剩下的作为测试样本,来判断是否出现了过拟合。

  2.将样本划分为三类:训练集,交叉验证(cross validation,cv)集,测试集。对于线性回归,训练集来得出相应次数下的theta,交叉验证集来比较这些theta,获得最好的模型,测试集继续训练模型。


1.支持向量机(support vector machine,SVM):一种监督分类模型。它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。

cost函数:$cost_1(x)=max(0,- heta^{T}x+1)$

              $cost_0(x)=max(0, heta^{T}x+1)$

J函数:$J_{ heta}(x)=sum_{i=1}^{m}(y^{(i)}cost_1( heta^{T}x^{(i)})+(1-y^{(i)})cost_0( heta^{T}x^{(i)}))+lambdasum_{i=1}^{n}{ heta_i^2}$

h函数:$h_{ heta}(x)=egin{cases}1quad ifquad heta^{T}xgeq0\0quad otherwiseend{cases}$

直观感受:

若y=0,只有cost0起作用,即右边的图,让它越往左越好。

若y=1,只有cost1起作用,即左边的图,让它越往右越好。

SVM在做什么?

直观感受:

对于逻辑回归,如果我们对以下样本进行分类,画出的决策边界可能是这样的:

而对于SVM,会画出这样的决策边界:

很明显,第二种决策边界是符合人的审美的。而这也就是间隔最大化。

为什么会这样?

我们容易发现,theta是这个超平面的法向量,内积的运算可以转化为矩阵乘法,相当于这里的$ heta^{T}x$,也等于到法向量的距离乘上“法向量”的模长(有符号)。正则项也可以看成是这个“法向量”模长的平方。

举例来讲,我们有以下两种情况:

对于前一种情况,如果每个样本到超平面的距离都一定,我们就想要使法向量的模长尽可能大(这样才能对应于标签,减小代价函数的前一项)。但这时正则化项的代价也会上升,两者是相矛盾的。

对于后一种情况,法向量会尽可能缩小样本到它的距离,这样“法向量”的模长就能够减小了,同时正则化项的代价也会下降,两者是不矛盾的。

由此可见,缩小样本到法向量的距离、分开这两种类别是SVM的第一选择。

2.高斯核函数(Gaussian kernal):

记号:

$f_i$:第i个特征组合,为了方便表示像x1x2,x1x2x3这样的式子。

$K(x,l^{(i)})=exp(-frac{||x-l^{(i)}||^2}{2sigma^2})$

原文地址:https://www.cnblogs.com/GreenDuck/p/12342551.html