线性回归-理论篇

【转载】http://blog.csdn.net/pakko/article/details/36641561

“回归”的由来

FrancisGalton，英国生物学家，他研究了父母身高与子女身高之间关系后得出，若父母身高高于平均大众身高，则其子女身高倾向于倒退生长，即会比其父母身高矮一些而更接近于大众平均身高。若父母身高小于平均身高，则其子女身高倾向于向上生长，以更接近于大众平均身高。此现象，被Galton称之为回归现象，即regression.

什么是线性回归？

回归分析是一种统计工具，它利用两个或两个以上变量之间的关系，由一个或几个变量来预测另一个变量。

回归分析中：

自变量只有一个时，叫做一元线性回归，；
自变量有多个时，叫做多元线性回归，。

分类(Classification)与回归(Regression)都属于监督学习，它们的区别在于：

分类：定性输出称为分类，或者说是离散变量预测。如识别正常邮件/垃圾邮件；识别图像中的人脸/非人脸；识别信贷中的正常行为/欺诈行为。（左图）
回归：定量输出称为回归，或者说是连续变量预测。如给定了房子的面积、地段和房间数，预测房子的价格。（右图）

一元线性回归

问题描述

我想要一套200平方米的房子价格大概是多少呢？这时在数据表中我又找不到到对应的数据，那么这时就要做线性回归分析了。如图找到这样的一条直线，使图中的所有点到直线的距离最小（即误差最小）。

下面我们用数学语言来表达“使图中的所有点到直线的距离最小”这句话。

（1）X与y的关系可以表示为：（b叫偏移，w叫超越平面参数）。

这样的表达还不够统一，不方便计算，我们把上面改写成向量形式，以便于推广到N维形式，改写成正式：

（2）“使图中的所有点到直线的距离最小”用数学的语言描述如下：

这里，是变量w的函数，故我们的目标就成了获取使值最小时的w的值。

下图中，该图表示当取各个值时对应的的值，从图中可看出，当分别取特定的某一值时，可达到全局最小值。

解决方法

梯度下降算法（Gradient Descent）

循环直到收敛{

}

对于线性回归模型，成本函数的导数如下：

更通俗化的解释是：

（1）上图中图形其实像一个碗一样，有一个最低点。找这个最低点的办法就是，先随便找一个，然后沿着这个碗下降的方向找，最后就能找到碗的最低点。

（2）如何找某一点下降的方向？找那一点导数的反方向。如下图：

（3）只要将任意一个点，沿着使导数的反方向慢慢移动，那么最终会到达使最小的那一点。（注：最小二乘法是个凸函数，所以局部最优值也即为全局最优值）

（4）是自定义的，叫学习速率（learning rate）。

值设得太大，可能永远无法收敛；
设得太小，则收敛会很慢很慢。

一般程序里会写明最多循环次数以及收敛条件。若能自动收敛，甚好，若不能，则循环指定次数后，强行退出。此时，你需要调参数或者重新慎视假设模型！

正规方程组（Normal Equation）

成本函数写成向量形式如下：

我们的目标是使最小，上式对W求导得：

X是矩阵，代表训练集，每一行是一个样本的各特征值。Y是个向量，对应每个样本的结果值。

梯度下降与正规方程组的对比：

Gradient Descent	Normal Equation
自定义	不需要定义
盾环N次才能得到最佳w值	不需要任何循环操作
特征个数非常大时，也适用	X的转阵与逆矩阵的计算量很大，导致特征个数多时，会很慢；适用于特征个数小于100000时使用
需要特征缩放（feature scaling）	不需要feature scaling

多元线性回归(LinearRegression with Multiple Variables)

跟一元线性回归的参数回归方式如出一辙，唯一区别在回归函数的假设上：。

多元，故名思义，就是说有多个特征做为输入。那问题就来了，若多个特征的表达值的范围不一样，会有什么影响和后果？

比如，继续拿预测房价作为例子。现在它的特征增加了，特征1是面积，特征2是房间数，特征3是房子的年龄。很明显，这三个特征的值的范围是有很大差异的。

特征1：100到300之间
特征2: 2到5之间
特征3：20到60年之间

若不做任何处理，则特征1和3对结果的影响远大于特征2，而可能扭曲了真实情况下各特征在最终结果中所应占的权重比例。

所以，一般情况下，特征与特征之间的值变化范围差异过大时，我们用feature scaling的手段来规范化特征值，使每个特征的特征值都处于-1至1之间。

如果不同变量之间的大小不在一个数量级，作feature scaling能大大减少寻找最优解的时间；

NG给的建议：最大变量和最小变量均值差3倍以内为佳；

注：feature scaling的方法可自定义，常用的有：
1) rescaling
(X - mean(X))/max - min

2) 中值正规化（mean normalization）

(X-mean(X))/ std, std是标准方差

参考链接：

http://hi.baidu.com/einyboy/item/5ee49dd9c853f1f8cb0c39ae

http://blog.163.com/phoenixbai@126/blog/static/1086513492013953817839

http://blog.sciencenet.cn/blog-427701-688352.html