机器学习笔记--概论

来源:1、https://www.bilibili.com/video/BV164411b7dx?from=search&seid=7881803442865549554

   2、http://blog.sina.com.cn/s/blog_6cab6c470101olej.html

   3、https://cloud.tencent.com/developer/article/1415188

书籍勘误表:https://blog.csdn.net/wzmsltw/article/details/52718722

自己看书做的笔记。本人属于初学,水平不高,记录内容难免有误。请各位不吝赐教,积极指正。

要是能让各位看官有所收获,嘿嘿,那在下就功德无量了(doge)


基础知识

概率分布:https://www.cnblogs.com/vamei/p/3224111.html

极大似然估计:https://zhuanlan.zhihu.com/p/26614750

         https://blog.csdn.net/u011508640/article/details/72815981

先验概率和后验概率:https://blog.csdn.net/shenxiaoming77/article/details/77505549


基础简介

监督学习 :(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测
      监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示.换句话说,学习的目的就在于找到最好的这样的模型.
无监督学习:给出不带标签的数据集,计算机自主发现数据集内部的结构
回归:设法预测连续值的输出 (房价之类的)
分类:设法预测一个离散值的输出(如肿瘤是良性还是恶性的)
统计学习三要素:模型+策略+算法
模型:模型就是所要学习的条件概率或者决策函数。模型的假设空间包含所有可能的条件概率或分布。可以定义为决策函数的集合,也可以定义为条件概率的集合。()

 


策略

策略:用什么样的准则学习或者选择最优的模型。

代价函数:一次预测的好坏

风险函数:平均意义下模型预测的好坏

常用的损失(或代价函数)函数:

由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是:$R_{exp}(f)=E_p[L(Y,f(x))]=intlimits_{x*y}L(y,f(x))P(x,y)dxdy$,称为风险函数(或期望损失)。其中,L(y,f(x))为损失函数,联合分布P(X,Y)是未知的

经验风险:模型f(X)关于训练数据集的平均损失称为经验风险(或经验损失),记经验损失为$R_{emp}$,$R_{emp}(f)=frac{1}{N}sideset{}{}{sum}_{i=1}^{N}L(y_i,f(x_i))$

tips:期望损失:$R_{exp}$

    经验损失:$R_{emp}$

按照经验损失最小化求最优模型就是求解最优化问题:$sideset{}{}{min}_{finmathscr{F}}frac{1}{N}sum_{i=1}^{N}L(y_i,f(x_i))$

机构化风险最小:是为了防止过拟合而提出的策略,结构化风险最小等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term).

在假设空间、损失函数以及训练数据集确定的情况下,结构风险的定义是$R_{srm}(f)=frac{1}{N}L(y_i,f(x_i))+lambda J(f)$。

tips:其中$lambda ge 0$ ,$J(f)$为模型复杂度,越大模型越复杂,即模型复杂度表示了对复杂模型的惩罚(会使结构风险增加)

算法: 算法是指学习模型的具体计算方法.统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。


模型的评估与选择

训练误差:$R_{emp(hat{f})}=frac{1}{N}sum_{i=1}^NL(y_i,hat{f}(x_i))$

测试误差:$e_{test}=frac{1}{N^{'}}sum_{i=1}^{N^{'}}L(y_i,hat{f}(x_i))$

tips:其中$Y=hat{f}(X)$是学习到的模型,$N$是训练样本容量,$N^{'}$是测试样本容量

过拟合:如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高(就是针对性过强了).这种现象称为过拟合(over-fitting).这种情况下,模型对训练样本效果很好,但对测试样本效果不好。

$L(w)=frac{1}{2}sum_{i=1}^{N}(sum_{j=0}^{M}w_jx_i^j-y_i)^2$

$let  frac{partial{L(w)}}{w_k}=0$,则:

$frac{1}{2}sum_{i=1}^{N}2(sum_{j=0}^{M}w_jx_i^j-y_i)x_i^k=0$

$sum_{i=1}^{N}sum_{j=0}^{M}w_jx_i^{j+k}=sum_{i=1}^{N}x_ky_i$ 

$sum_{j=0}^{M}(sum_{i=1}^{N}x_i^{j+k})w_j=sum_{i=1}^{N}x_i^ky_i$

下面的求和符号上下限都是$i=1$到$N$,即$sum_{i=1}^{N}$, 为了方便略去不写。

$egin{bmatrix}N&sum x_i &sum x_i^2&cdots& sum x_i^M\sum x_i&sum x_i^2&sum x_i^3&cdots&sum x_i^{M+1}\sum x_i^2&sum x_i^3&sum x_i^4&cdots&sum x_i^{M+2}\vdots&vdots&vdots&ddots&cdots\sum x_i^M&sum x_i^{M+1}&sum x_i^{M+2}&cdots&sum x_i^{2M}end{bmatrix}egin{pmatrix}w_0\w_1\w_2\vdots\w_mend{pmatrix}=egin{bmatrix}sum y_i\sum x_iy_i\sum x_i^2y_i\vdots\sum x_i^My_iend{bmatrix}$

则所求的拟合多项式系数$w_0^*,w_1^*,cdots,w_M^*$就可以通过解上面的方程组得到,只需要将$sumlimits_{i=1}^{N} x_i^j(j=0,1,2,cdots,2M)$和$sumlimits_{i=1}^{N}x_i^jy_i(j=0,1,2,cdots,M)$代入其中求解即可

此处公式来源:https://blog.csdn.net/xiaolewennofollow/article/details/46757657


正则化

正则化regularization):模型选择的典型方法,它是在经验风险上加-一个正则化项(regularizer)或罚项(penalty terrn)

正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大.比如正则化项可以是模型参数向量的范数.正则化的作用就是选择经验风险与模型复杂度同时小的模型。

正则化形式:$sideset{}{}{min}_{fin mathscr{F}}frac{1}{N}L(y_i,f(x_i))+lambda J(f)$,其中第一项是经验风险,第二项是正则化项目,$lambda ge 0$为调整两者之间关系的参数

奥卡姆剃刀原理:https://zhuanlan.zhihu.com/p/45321953


交叉验证

交叉验证:模型选择的另一种方法(包括简单交叉验证,S折交叉验证,留一交叉验证https://blog.csdn.net/qq_31130535/article/details/89927914

若样本数据充足,可将数据集切分成三部分,分别为训练集(training set)、验证集(validation set)和测试集(testset).训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估.在学习到的不同复杂度的模型中,选择对验证集有最小预测误差的模型.


泛化能力

泛化能力:由该方法学习到的模型对位置数据的预测能力 

泛化误差:$R_{exp}(f)=E_p[L(Y,f(x))]=intlimits_{x*y}L(y,f(x))P(x,y)dxdy$(就是损失函数的期望)

 

原文地址:https://www.cnblogs.com/tianyuzh/p/13995229.html