吴恩达机器学习15：多变量线性回归(梯度下降运算中的实用技巧)

梯度下降运算中的使用技巧特征缩放：

　　确保不同的特征值都处在一个相近的范围之内，这样的梯度下降法能够更快的收敛

　　如：加入你有一个具有两个特征额问题，x1是房屋面积大小，取值在0-2000之间；

　　　　x2是卧室的数量，可能的取值在1到5之间，如果要画出代价函数J(θ)的等值线，代价函数是关于参数θ1和θ2的函数，但是如果x1的取值范围远远大于x2的取值范围的话，那么最终画出来的代价函数J(θ)的等值线就会呈现出一种非常歪斜并且椭圆的形状，一种有效的解决方法就是进行特征缩放，将房子面积除以2000，将卧室数量除以5，如下图所示。

　　那么代价函数J(θ)的等值线，就会偏移得没有那么严重，入过在这样的代价函数上来执行梯度下降的话，就可以找到一条更加直接的路径通往局部最优，这样使得两个特征x1和x2都在0和1之间，这样得到的梯度下降算法会更快的收敛。我们在执行缩放的时候，通常的目的是将特征的取值约束到-1到1的范围中，

　　如果J(θ)函数出现下面的情况，可以选择较小的α值，

　　如果学习率α太小的话，会遇到收敛速度慢的问题，如果α数值比较大，代价函数J(θ)可能不会再每次的迭代中都下降，甚至可能不收敛。在某些情况下，如果学校率α过大的话，也可能出现收敛缓慢的情况，每隔10倍取一个值