机器学习笔记--概论

来源：1、https://www.bilibili.com/video/BV164411b7dx?from=search&seid=7881803442865549554

　　　2、http://blog.sina.com.cn/s/blog_6cab6c470101olej.html

　　　3、https://cloud.tencent.com/developer/article/1415188

书籍勘误表：https://blog.csdn.net/wzmsltw/article/details/52718722

自己看书做的笔记。本人属于初学，水平不高，记录内容难免有误。请各位不吝赐教，积极指正。

要是能让各位看官有所收获，嘿嘿，那在下就功德无量了(doge)

基础知识

概率分布：https://www.cnblogs.com/vamei/p/3224111.html

极大似然估计：https://zhuanlan.zhihu.com/p/26614750

　　　　　　　　 https://blog.csdn.net/u011508640/article/details/72815981

先验概率和后验概率：https://blog.csdn.net/shenxiaoming77/article/details/77505549

基础简介

监督学习：（supervised learning）的任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测

　　　　　　监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示．换句话说，学习的目的就在于找到最好的这样的模型．

无监督学习：给出不带标签的数据集，计算机自主发现数据集内部的结构

回归：设法预测连续值的输出 (房价之类的)

分类：设法预测一个离散值的输出(如肿瘤是良性还是恶性的)

统计学习三要素：模型+策略+算法

模型：模型就是所要学习的条件概率或者决策函数。模型的假设空间包含所有可能的条件概率或分布。可以定义为决策函数的集合，也可以定义为条件概率的集合。()

策略

策略：用什么样的准则学习或者选择最优的模型。

代价函数:一次预测的好坏

风险函数：平均意义下模型预测的好坏

常用的损失(或代价函数)函数：

由于模型的输入、输出(X,Y)是随机变量，遵循联合分布P(X,Y)，所以损失函数的期望是:$R_{exp}(f)=E_p[L(Y,f(x))]=intlimits_{x*y}L(y,f(x))P(x,y)dxdy$，称为风险函数(或期望损失)。其中，L(y,f(x))为损失函数，联合分布P(X,Y)是未知的

经验风险：模型f(X)关于训练数据集的平均损失称为经验风险(或经验损失)，记经验损失为$R_{emp}$，$R_{emp}(f)=frac{1}{N}sideset{}{}{sum}_{i=1}^{N}L(y_i,f(x_i))$

tips：期望损失：$R_{exp}$

　　经验损失：$R_{emp}$

按照经验损失最小化求最优模型就是求解最优化问题：$sideset{}{}{min}_{finmathscr{F}}frac{1}{N}sum_{i=1}^{N}L(y_i,f(x_i))$

机构化风险最小：是为了防止过拟合而提出的策略，结构化风险最小等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项（regularizer）或罚项(penalty term)．

在假设空间、损失函数以及训练数据集确定的情况下，结构风险的定义是$R_{srm}(f)=frac{1}{N}L(y_i,f(x_i))+lambda J(f)$。

tips：其中$lambda ge 0$ ,$J(f)$为模型复杂度，越大模型越复杂，即模型复杂度表示了对复杂模型的惩罚(会使结构风险增加)

算法： 算法是指学习模型的具体计算方法．统计学习基于训练数据集，根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。

模型的评估与选择

训练误差：$R_{emp(hat{f})}=frac{1}{N}sum_{i=1}^NL(y_i,hat{f}(x_i))$

测试误差：$e_{test}=frac{1}{N^{'}}sum_{i=1}^{N^{'}}L(y_i,hat{f}(x_i))$

tips:其中$Y=hat{f}(X)$是学习到的模型，$N$是训练样本容量,$N^{'}$是测试样本容量

过拟合：如果一味追求提高对训练数据的预测能力，所选模型的复杂度则往往会比真模型更高(就是针对性过强了)．这种现象称为过拟合（over-fitting)．这种情况下，模型对训练样本效果很好，但对测试样本效果不好。

$L(w)=frac{1}{2}sum_{i=1}^{N}(sum_{j=0}^{M}w_jx_i^j-y_i)^2$

$let frac{partial{L(w)}}{w_k}=0$,则：

$frac{1}{2}sum_{i=1}^{N}2(sum_{j=0}^{M}w_jx_i^j-y_i)x_i^k=0$

$sum_{i=1}^{N}sum_{j=0}^{M}w_jx_i^{j+k}=sum_{i=1}^{N}x_ky_i$

$sum_{j=0}^{M}(sum_{i=1}^{N}x_i^{j+k})w_j=sum_{i=1}^{N}x_i^ky_i$

下面的求和符号上下限都是$i=1$到$N$,即$sum_{i=1}^{N}$ $i = 1$

$egin{bmatrix}N&sum x_i &sum x_i^2&cdots& sum x_i^M\sum x_i&sum x_i^2&sum x_i^3&cdots&sum x_i^{M+1}\sum x_i^2&sum x_i^3&sum x_i^4&cdots&sum x_i^{M+2}\vdots&vdots&vdots&ddots&cdots\sum x_i^M&sum x_i^{M+1}&sum x_i^{M+2}&cdots&sum x_i^{2M}end{bmatrix}egin{pmatrix}w_0\w_1\w_2\vdots\w_mend{pmatrix}=egin{bmatrix}sum y_i\sum x_iy_i\sum x_i^2y_i\vdots\sum x_i^My_iend{bmatrix}$

则所求的拟合多项式系数$w_0^*,w_1^*,cdots,w_M^*$就可以通过解上面的方程组得到，只需要将$sumlimits_{i=1}^{N} x_i^j(j=0,1,2,cdots,2M)$和$sumlimits_{i=1}^{N}x_i^jy_i(j=0,1,2,cdots,M)$代入其中求解即可

此处公式来源：https://blog.csdn.net/xiaolewennofollow/article/details/46757657

正则化

正则化regularization)：模型选择的典型方法，它是在经验风险上加-一个正则化项(regularizer)或罚项(penalty terrn)

正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大.比如正则化项可以是模型参数向量的范数.正则化的作用就是选择经验风险与模型复杂度同时小的模型。

正则化形式：$sideset{}{}{min}_{fin mathscr{F}}frac{1}{N}L(y_i,f(x_i))+lambda J(f)$，其中第一项是经验风险，第二项是正则化项目，$lambda ge 0$为调整两者之间关系的参数

奥卡姆剃刀原理：https://zhuanlan.zhihu.com/p/45321953

交叉验证

交叉验证：模型选择的另一种方法(包括简单交叉验证，S折交叉验证，留一交叉验证) https://blog.csdn.net/qq_31130535/article/details/89927914

若样本数据充足，可将数据集切分成三部分，分别为训练集(training set)、验证集(validation set)和测试集(testset)．训练集用来训练模型，验证集用于模型的选择，而测试集用于最终对学习方法的评估．在学习到的不同复杂度的模型中，选择对验证集有最小预测误差的模型．

泛化能力

泛化能力：由该方法学习到的模型对位置数据的预测能力

泛化误差：$R_{exp}(f)=E_p[L(Y,f(x))]=intlimits_{x*y}L(y,f(x))P(x,y)dxdy$（就是损失函数的期望）