梯度下降算法

一、基本概念

梯度下降法，就是利用负梯度方向来决定每次迭代的新的搜索方向，使得每次迭代能使待优化的目标函数逐步减小。梯度下降法是2范数下的最速下降法。最速下降法的一种简单形式是：x(k+1)=x(k)-a*g(k),其中a称为学习速率，可以是较小的常数。g（k）是x(k)的梯度。

二、导数

(1)定义

设有定义域和取值都在实数域中的函数 $y=f(x);$ 。若 $f(x);$ 在点 $;x_0;$ 的某个邻域内有定义，则当自变量 $;x;$ 在 $;x_0;$ 处取得增量 $Delta x;$ （点 $;x_0+Delta x;$ 仍在该邻域内）时，相应地函数 $;y;$ 取得增量 $Delta y=f(x_0+Delta x)-f(x_0)\,!$ ；如果 $Delta ;y;$ 与 $Delta ;x;$ 之比当 $Delta x o 0$ 时的极限存在，则称函数 $y=f(x)\,!$ 在点 $;x_0;$ 处可导，并称这个极限为函数 $y=f(x)\,!$ 在点 $;x_0;$ 处的导数，记为 $f'(x_0);$ ，即：

$f'(x_0)=lim_{Delta x o 0}frac{Delta y}{Delta x}=lim_{Delta x o 0}frac{f(x_0+Delta x)-f(x_0)}{Delta x}$

也可记作 $y^prime (x_0)$ 、 $left.frac{mathrm{d}y}{mathrm{d}x} ight|_{x=x_0}$ 、 $frac{mathrm{d}f}{mathrm{d}x}(x_0)$ 或 $left.frac{mathrm{d}f}{mathrm{d}x} ight|_{x=x_0}$ 。

对于一般的函数，如果不使用增量的概念，函数 $f(x);$ 在点 $x_0;$ 处的导数也可以定义为：当定义域内的变量 $x;$ 趋近于 $x_0;$ 时，

$frac{f(x)-f(x_0)}{x - x_0}$

的极限。也就是说，

$f'(x_0)=lim_{x o x_0}frac{f(x)-f(x_0)}{x - x_0}$

导数反应的变化率

一个函数在某一点的导数描述了这个函数在这一点附近的变化率。导数的本质是通过极限的概念对函数进行局部的线性逼近。当函数 $f$ 的自变量在一点 $x_0$ 上产生一个增量 $h$ 时，函数输出值的增量与自变量增量 $h$ 的比值在 $h$ 趋于0时的极限如果存在，即为 $f$ 在 $x_0$ 处的导数，记作 $f'(x_0)$ 、 $frac{mathrm{d}f}{mathrm{d}x}(x_0)$ 或 $left.frac{mathrm{d}f}{mathrm{d}x} ight|_{x=x_0}$

(2)几何意义：

一个实值函数的图像曲线。函数在一点的导数等于它的图像上这一点处之切线的斜率，导数是函数的局部性质。不是所有的函数都有导数，一个函数也不一定在所有的点上都有导数。若某函数在某一点导数存在，则称其在这一点可导，否则称为不可导。如果函数的自变量和取值都是实数的话，那么函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。

具体来说：

当函数定义域和取值都在实数域中的时候，导数可以表示函数的曲线上的切线斜率。如下图所示，设 $P_0$ 为曲线上的一个定点， $P$ 为曲线上的一个动点。当 $P$ 沿曲线逐渐趋向于点 $P_0$ 时，并且割线 $P P_0$ 的极限位置 $P_0 T$ 存在，则称 $P_0 T$ 为曲线在 $P_0$ 处的切线。

若曲线为一函数 $y=f(x)$ 的图像，那么割线 $P P_0$ （蓝色）的斜率为：

$an varphi=frac{Delta y}{Delta x}=frac{f(x_0 + Delta x)-f(x_0)}{Delta x}$

当 $P_0$ 处的切线 $P_0 T$ （红色），即 $P P_0$ 的极限位置存在时，此时 $Delta x o 0$ ， $varphi o alpha$ ，则 $P_0 T$ 的斜率 $an alpha$ 为：

$an alpha=lim_{Delta x o 0} an varphi=lim_{Delta x o 0} frac{f(x_0 + Delta x)-f(x_0)}{Delta x}$

上式与一般定义中的导数定义完全相同，也就是说 $f'(x_0)= an alpha$ ，因此，导数的几何意义即曲线 $y=f(x)$ 在点 $P_0 (x_0,f(x_0))$ 处切线的斜率

(3)导函数

导数是一个数，是指函数 $f(x);$ 在点 $x_0;$ 处导函数的函数值，若函数 $;f(x);$ 在其定义域包含的某区间 $;I;$ 内每一个点都可导，那么也可以说函数 $;f(x);$ 在区间 $;I;$ 内可导，这时对于 $;I;$ 内每一个确定的 $;x;$ 值，都对应着 $;f;$ 的一个确定的导数值，如此一来就构成了一个新的函数 $x mapsto f'(x)$ ，这个函数称作原来函数 $;f(x);$ 的导函数，记作： $;y';$ 、 $f'(x);$ 或者 $frac{mathrm{d}f}{mathrm{d}x}(x)$ ,通常也可以说导函数为导数