计量经济学/吴恩达课程笔记_4-1~4-4_关于特征缩放法的一些疑问和理解

吴佬在多元线性回归之后, 补充了特征缩放法的优化, 有一些疑问,现在一一解决

  1. 为什么在一元的时候不需要,而多元的时候需要?
  2. 特征缩放法本质是在对已有样本特征做什么过程?
  3. 为什么特征缩放法能够优化?优化在哪里呢?
  4. 有哪些特征缩放法?分别有什么特点?

因为个人水平不足, 解释不足够严谨,并没有系统证明,帮助理解耳

为什么在一元的时候不需要,而多元的时候需要?

第一个问题, 吴佬给了两张等高线图,

他说,当不同方向上的的特征范围差的很远的时候, 这个下山找极点的过程,路径会变得非常复杂,会呈现如图不断振荡的路径

 如果不缩放, 找极点的过程会走很多弯路,为什么会这样呢?

对于如图情况, 下山每一步可以写成:

J=a1(0e/0Θ1)+a2(0e/0Θ2) (0e/0Θ)=1/2m*sigma(y-yi)xi  直到梯度收敛=0

其中e为山的高度,也就是残差平方和==代价函数  

我们先假设x1,x2是在各自区间间隔, 相同的一系列样本, 总共有k组样本

x1的尺度=400/k,x2的尺度=1/k. 画在等高线上, 各自的参数每移动一个单位, 偏移量之比就是400/1 ,

在Θ2~Θ1的等高线图, 移步 单位偏移量/偏移量尺度 之比=Θ2/Θ1=1/400,斜率=1/400

所以每次移动的方向都是如图 |斜率|=1/400 的那种移动方式.

不断地在一定范围内交叉步伐,形成震荡的路径, 寻找 梯度 收敛的过程变成一种曲折的过程

一元的时候只有一个参数方向上会偏移, 不存在两种不同偏移量不规则的情形所以不需要

特征缩放法本质是在对已有样本特征做什么过程?

特征缩放法本质就是在使偏移量能够规则, 或者说规范化, 使不同欲求参数对应的样本~实参尺度一样

为什么特征缩放法能够优化?优化在哪里呢?

不同参数对应的样本系数x1x2线性无关,所以互不干扰

特征缩放改变偏移量, 但是不会改变极点的相对位置,只是使得查找路径更规则而不是曲折进行

这也可以理解成为一种均值归一化, 或者标准化的过程(概统里面把不规则正态分布化成标准正态分布的过程也叫标准化)

这样少走弯路, 少几次迭代,使收敛的更快

有哪些特征缩放法?分别有什么特点?

https://blog.csdn.net/u011984148/article/details/99440115

计量经济学中对缩放数据介绍

 

老实一点,可爱多了
原文地址:https://www.cnblogs.com/KID-yln/p/12854357.html