班课5

1. learning scenarios：machine learning中会遇到的几种问题

a) classification

b) regression

c) scoring and ranking：对每一个类型进行打分（可划分在classification中）

d) probability estimation：直接输出属于某一个类别的可能性（可划分在classification中）

2. margins

s(x)代表对点的预测，如线上为1，线下为-1；当预测分类不准时为-1，准确时为1

由于最小值更方便计算，所以引入loss function

希望margin等于0时loss function等于1；同时margin小于0时loss function大于等于1；margin大于0时loss function介于0 1之间。所以不能简单的在margins前面加负号

3. 0-1 loss：L₀₁(z) = 1 if z <= 0

L₀₁(z) = 0 if z > 0

4. Perceptron Learning（用于binary classification）

第一步做wi与xi的求和，w为weight（包含w0）

第二步通过active function求解（0-1 loss）

5. w的确定

将w初始化为0，对数据进行预测，如果判断正确不处理，如果判断错误利用w = w + yjxj 更新w

6. duality对偶

解决不好解决的问题，将原问题转化为duality形式

将每个点与其出错个数整合起来，从而预测分类

7. kernel trick

解决线性模型不能解决非线性问题的局限性

将点映射到更高维的空间中去，再转化为线性问题，但是直接转化复杂度很高，所以可以先将所有点相乘，从而简便计算

RBF等不同的kernel都可以采用

8. SVM

假设我们的分割线可以长胖长宽（到碰见第一个点为止），最胖的那个即为最好的一个

分割线用wx = t表示，上界用wx = t+m表示，下界用wx = t-m表示，使2m/||w||最大，同时保证所有点都在线外

min*0.5*||w||^2 subject to yi(w*xi - t) >= 1 for i in range of (1, m)

解决采用Largangian multipliers，然后求导，再求对偶形式

9. 有关计算需要掌握，X‘为X Y对应位置相乘，然后得到X’X‘T，这里矩阵中第一个值对应a1a2，放入对应的包含a1,a2公式中，即yiyjxixj，这里为y1y1x1x1，后面同理

根据公式的限制条件然后对公式进一步简化，然后对a1,a2分别求导，然后对所得二元一次方程求解，并进一步等到a3

再计算w,t(落在边界上的点a不为0，称为support vector，找到任何一个support vector，代入求t)

10. kernel SVM

类似，只是把xixj先相乘，不会过多考察

11. Soft Margin SVM

有些点可以进入到边界里，但是收获更大的收益；即新增加一个变量，规定每一个点允许进入边界的量，同样用Lagrange function

这里a = 0的点在线外或margin上，0<a<C的点为support vectors，a=C的点在margin上或线内（non-margin support vectors）