线性回归

 一、线性回归

1、基本形式

其中:W表示了各个属性在变量中的权重

2、线性回归求解

损失函数的推导过程运用高斯分布+极大似然估计推导如下

所有样本满足这个公式:,其中e是误差项,假设满足高斯分布,可以写出概率分布函数如下

,将e带入到概率分布函数中得到

运用极大似然估计方法,,然后取对数,得到对数似然估计

通过一系列数学运算,最后似然概率最大,也就是损失函数最小值这个取最小,也就是最小二乘法

损失函数:均方误差最小(最小二乘法),所以之所以可以用最小二乘法,是因为假定样本服从高斯分布。

也就是求损失函数最小值

求解的方法:分别对参数求导取得,写成矩阵形式时候可以将b写入w中,得到以下:

然而,现实中有时候,这个时候就无法求逆矩阵,比如有时候属性数目大于样本数,这时候就需要用到梯度下降算法来求参数w:

3、正则化

为了防止过拟合或者让不可逆的矩阵变成可逆,就需要在损失函数中引入正则化,防止参数过多导致曲线过于拟合,正则化对参数过多会有抑制的作用,参数过多会使得每个参数越来越大,因此如果加入平方项就可以抑制损失函数

最原始的是这样的

L1正则:

L2正则:   这个加入的扰动项其实就是这么算的,这是因为如果你的参数过大,那么就会让损失函数变大,那这个参数就不是最优解。

其中a为系数,需要通过调参来确定,由于L2正则是平方形式,因此对于参数的抑制更加强,这个式子说明,如果参数过多,损失函数会变大,并且如果参数过大,损失函数也会变大,损失函数变大,这个时候这个参数就不会选择

4、线性回归的变形(广义线性模型)

对于Y同样可以做变化,让x在原来线性模型基础上再套一个函数,输出到非线性空间中

 把这种形式推广到一般的形式

二、Logistic回归

由于线性回归用于连续值的预测,若是二分类问题,则需要引入嵌套函数,将连续值映射到0,1,这里引入sigmoid函数

,sigmoid函数的导数很有特点

对于logistic回归的参数估计方法如下:

这里将方程联立,并写出他们的联合分布(这里可以使用直接相乘的原因是因为假设他们独立),在使用极大似然估计方法估计参数

,运用前面sigmoid函数导数特殊性来最后求得极大似然概率,

似然概率取最大值也就是损失函数取最小值,所以损失函数是似然概率的相反

所以这个时候使用梯度下降算法是这样的或者,这两个其实一样,理解一下这里

三、损失的度量

这个是总平方和,也就是伪方差,与方差只差m倍

这个是残差平方和,也就是e,实际值与预测值的差异,这个值越小越好,但是由于样本本身有方差也就是tss,所以两个比值越小越好,R方越大越好

 混淆矩阵

查全率:其实就是所有正例中有多少被预测到了    ;查准率:就是预测结果中正例中有多少是真的正例,一个基于预测结果,一个基于真实情况

原文地址:https://www.cnblogs.com/jiegege/p/8548649.html