班课5

1. learning scenarios:machine learning中会遇到的几种问题

a) classification

b) regression

c) scoring and ranking:对每一个类型进行打分(可划分在classification中)

d) probability estimation:直接输出属于某一个类别的可能性(可划分在classification中)

2. margins

s(x)代表对点的预测,如线上为1,线下为-1;当预测分类不准时为-1,准确时为1

由于最小值更方便计算,所以引入loss function

希望margin等于0时loss function等于1;同时margin小于0时loss function大于等于1;margin大于0时loss function介于0 1之间。所以不能简单的在margins前面加负号

3. 0-1 loss:L01(z) = 1 if z <= 0

L01(z) = 0 if z > 0

4. Perceptron Learning(用于binary classification)

第一步做wi与xi的求和,w为weight(包含w0)

第二步通过active function求解(0-1 loss)

5. w的确定

将w初始化为0,对数据进行预测,如果判断正确不处理,如果判断错误利用w = w + yjxj 更新w

6. duality对偶

解决不好解决的问题,将原问题转化为duality形式

将每个点与其出错个数整合起来,从而预测分类

7. kernel trick

解决线性模型不能解决非线性问题的局限性

将点映射到更高维的空间中去,再转化为线性问题,但是直接转化复杂度很高,所以可以先将所有点相乘,从而简便计算

RBF等不同的kernel都可以采用

8. SVM

假设我们的分割线可以长胖长宽(到碰见第一个点为止),最胖的那个即为最好的一个

分割线用wx = t表示,上界用wx = t+m表示,下界用wx = t-m表示,使2m/||w||最大,同时保证所有点都在线外

min*0.5*||w||^2 subject to yi(w*xi - t) >= 1 for i in range of (1, m)

解决采用Largangian multipliers,然后求导,再求对偶形式

9. 有关计算需要掌握,X‘为X Y对应位置相乘,然后得到X’X‘T,这里矩阵中第一个值对应a1a2,放入对应的包含a1,a2公式中,即yiyjxixj,这里为y1y1x1x1,后面同理

根据公式的限制条件然后对公式进一步简化,然后对a1,a2分别求导,然后对所得二元一次方程求解,并进一步等到a3

再计算w,t(落在边界上的点a不为0,称为support vector,找到任何一个support vector,代入求t)

10. kernel SVM

类似,只是把xixj先相乘,不会过多考察

11. Soft Margin SVM

有些点可以进入到边界里,但是收获更大的收益;即新增加一个变量,规定每一个点允许进入边界的量,同样用Lagrange function

这里a = 0的点在线外或margin上,0<a<C的点为support vectors,a=C的点在margin上或线内(non-margin support vectors)

原文地址:https://www.cnblogs.com/eleni/p/12666246.html