统计学习笔记之逻辑回归

  在分类的问题中,要预测的变量y经常是离散的,如需要预测是正确还是错误,这是一种最基本的二分类。当然,逻辑回归也可以进行多分类,有一种简单的方法是,将其中一类标记为正类,剩余类标记为负类,可以得到正类,再讲另外一个类标记为正类,重复进行既可得到多分类的结果。

  LR的常规步骤:

    1.寻找假设函数

    2.构造损失函数

    3.使损失函数最小,并求得回归参数

  对于二分类,输出标记为,而线性回归模型产生的预测值是实值,于是我们要将转换为0/1值。最理想的是单位阶跃函数,但是单位阶跃函数不连续不可微,于是,利用的是Sigmoid函数来代替单位阶跃函数:

    

对于线性边界而言,边界形式如下:

  

构造预测函数为:

  

其中有自己的含义,代表的是结果取1时的概率,并且:

  

接下来,需要构造损失函数:

  

  

介绍一下推理过程:

(1)式子可以表示为:

  

取似然函数:

  

再取对数:

  

可以使用梯度下降法进行求解,取:

  

θ的更新过程为:

  

  

θ更新过程可以写成:

  

为了避免过拟合问题,可以引入正则化。

关于随机梯度下降算法:

https://wenku.baidu.com/view/71203201bed5b9f3f90f1c3e.html

http://www.cnblogs.com/ooon/p/4947688.html

原文地址:https://www.cnblogs.com/hbwxcw/p/6891533.html