06 逻辑回归

1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同?

   逻辑回归虽然名字里带“回归”两字,但实际上是这却是一种分类方法,用于解决一些二分类问题(即输出的结果只有两种)的机器学习方法。人们将它用于估计某种事物的可能性,比如某个人患病的可能性、某商品被某用户购买的可能性等等。

   逻辑回归是一种简单,常见的二分类模型,通过输入未知类别对象的属性特征序列来得到对象所处的类别。由于Y(x)是一个概率分布函数,因此对于二分类而言,离中心点的距离越远,其属于某一类的可能性就越大。

   逻辑回归的公式如下( 其中,Y为决策值,x为特征值,e为自然对数):

                            

Y(x)的图形如下:

                         

该函数是一条S形的曲线,并且曲线在中心点附近的增长速度较快,在两段的增长速度较慢。w值越大,曲线中心的增长速度越快。从图上可知,Y的值域为(0,1)。

那么就可以将决策函数值大于等于0.5的具有对应x属性的对象归为正样本,决策函数值小于0.5的具有对应x属性的对象归为负样本。这样就可以对样本 数据进行二分类。

逻辑回归与线性回归:

1.线性回归只能用于回归问题,逻辑回归虽然名字叫回归,但是更多用于分类问题。

2.线性回归要求因变量是连续性数值变量,而逻辑回归要求因变量是离散的变量。

3.线性回归要求自变量和因变量呈线性关系,而逻辑回归不要求自变量和因变量呈线性关系。

4.线性回归可以直观的表达自变量和因变量之间的关系,逻辑回归则无法表达变量之间的关系。

2.自述一下什么是过拟合和欠拟合?

过拟合就是模型对训练数据拟合呈现过当的情况,反映到评估指标上,就是训练集上表现好,但在测试集和新数据上表现差,总结来说就是模型泛化能力差,为了得到一致假设而使假设变得过度严格;欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。过拟合可以通俗的理解为“想太多”,而欠拟合可以理解为“想的太少”。

  • 过拟合的根本原因:特征维度过多,模型假设过于复杂,参数过多,训练数据过少,噪声过多,导致拟合的函数完美的预测训练集,但对新数据的测试集预测结果差。 过度的拟合了训练数据,而没有考虑到泛化能力。因此需要减少特征维度,或者正则化降低参数值。
  • 欠拟合的根本原因:特征维度过少,模型过于简单,导致拟合的函数无法满足训练集,误差较大; 因此需要增加特征维度,增加训练数据。

3.思考一下逻辑回归的应用场景有哪些?

用于分类:适合做一些二分类算法问题

用于预测:预测事件发生的可能性,如某个人是是否患上某种病症、某个人是否有购买某样商品的意向。

用于分析:单一因素对某一个事件发生的影响因素分析(特征参数值)

原文地址:https://www.cnblogs.com/HvYan/p/12770433.html