2.1 由实例学习类
假设我们要学习“家用汽车”类C,先使用一些实例进行标记,家用汽车为正,其他为负。
类学习就是寻找一个涵盖所有的正例而不包含负例的描述。
这样我们就能:
给一辆没见过的车,检查学习得到的描述,对汽车进行判断是否为家用汽车。
专家分析,家用汽车价格和发动机功率应当在一个范围内
这样有了一个假设(h in H),尽可能的逼近类C
那么就有了误差,假设误差为:
2.2 VC维
假设一个二分类问题,有N个样本,那么对于这N个样本有(2^N)个分类方法,可以定义(2^N)个学习方法。
那么对于任意一个问题我们都能找到一个假设(hin H)分类,那么我们就称H散列N个点。
H的散列的点的最大数量成为H的VC维,记为VC(H),用来度量假设类H的学习能力。
2.3 概率逼近正确学习
概率逼近正确学习中,给定类C和未知但具有确定分布(p(x))中取样,置信率(delta le 1/2),误差(epsilon > 0)
假设h误差至多为(epsilon)的概率为(1- delta),其中(CDelta h)是C与h不同的区域。
矩形有4个小条子,那么正例不落在某个小条子的概率为:(1-epsilon /4),那么对于N个实例不在小条子的概率为(4(1-epsilon /4)^N)(落在小条子里面为判断错误)我们希望最大值为(delta).
因为有公式:((1-x) le exp[-x])
代入到公式有:(4exp[-epsilon N/4] le delta)
整理后得到:(N ge (4/epsilon)log(4/delta))
由此得到为了保证 置信率(delta ,epsilon)至少需要:(N ge (4/epsilon)log(4/delta))个样本。
2.5 学习多类
假设有K个类,标记为(C_i,i=1,……,K)
假设数据集,(chi = {x^t,r^t}_{t=1}^N)
r是K维的,有:
对于预测有:
则误差有:
2.6 回归
假设数据集,(chi = {x^t,r^t}_{t=1}^N)
我们希望找出一个函数(r^t=operatorname{f}(x^t))
若加上噪声(r^t=operatorname{f}(x^t)+varepsilon)
对于噪声的解释就是,存在我们无法观测的额外隐藏变量(r^t=operatorname{f}(x^t,z^t)),(z^t)就是隐藏变量。
有误差函数:
假设x是线性的,我们有:
假设只有一个参数:
求(w_0,w_1)偏导为0,先求(w_0)在代入到对(w_1)求偏导的公式中得到:
如果线性模型太简单也可以修改为二次函数:(g(x)=w_2x^2+w_1x+w_0)
2.8 监督机器学习算法学习的维
假设数据集,(chi = {x^t,r^t}_{t=1}^N)
1.定义一个学习用的模型 (g(x| heta)),其中( heta)是参数
2.定义一个损失函数(operatorname{L}()),那么逼近误差或者损失是各个实例误差的和
3.最优化过程,求解参数( heta^*)使得误差最小