梯度下降法

一、基本概念

梯度下降法，就是利用负梯度方向来决定每次迭代的新的搜索方向，使得每次迭代能使待优化的目标函数逐步减小。梯度下降法是2范数下的最速下降法。最速下降法的一种简单形式是：x(k+1)=x(k)-a*g(k),其中a称为学习速率，可以是较小的常数。g（k）是x(k)的梯度。

二、导数

(1)定义

设有定义域和取值都在实数域中的函数 $y=f(x);$ 。若 $f(x);$ 在点 $;x_0;$ 的某个邻域内有定义，则当自变量 $;x;$ 在 $;x_0;$ 处取得增量 $Delta x;$ （点 $;x_0+Delta x;$ 仍在该邻域内）时，相应地函数 $;y;$ 取得增量 $Delta y=f(x_0+Delta x)-f(x_0)\,!$ ；如果 $Delta ;y;$ 与 $Delta ;x;$ 之比当 $Delta x o 0$ 时的极限存在，则称函数 $y=f(x)\,!$ 在点 $;x_0;$ 处可导，并称这个极限为函数 $y=f(x)\,!$ 在点 $;x_0;$ 处的导数，记为 $f'(x_0);$ ，即：

$f'(x_0)=lim_{Delta x o 0}frac{Delta y}{Delta x}=lim_{Delta x o 0}frac{f(x_0+Delta x)-f(x_0)}{Delta x}$

也可记作 $y^prime (x_0)$ 、 $left.frac{mathrm{d}y}{mathrm{d}x} ight|_{x=x_0}$ 、 $frac{mathrm{d}f}{mathrm{d}x}(x_0)$ 或 $left.frac{mathrm{d}f}{mathrm{d}x} ight|_{x=x_0}$ 。

对于一般的函数，如果不使用增量的概念，函数 $f(x);$ 在点 $x_0;$ 处的导数也可以定义为：当定义域内的变量 $x;$ 趋近于 $x_0;$ 时，

$frac{f(x)-f(x_0)}{x - x_0}$

的极限。也就是说，

$f'(x_0)=lim_{x o x_0}frac{f(x)-f(x_0)}{x - x_0}$

导数反应的变化率

一个函数在某一点的导数描述了这个函数在这一点附近的变化率。导数的本质是通过极限的概念对函数进行局部的线性逼近。当函数 $f$ 的自变量在一点 $x_0$ 上产生一个增量 $h$ 时，函数输出值的增量与自变量增量 $h$ 的比值在 $h$ 趋于0时的极限如果存在，即为 $f$ 在 $x_0$ 处的导数，记作 $f'(x_0)$ 、 $frac{mathrm{d}f}{mathrm{d}x}(x_0)$ 或 $left.frac{mathrm{d}f}{mathrm{d}x} ight|_{x=x_0}$

(2)几何意义：

一个实值函数的图像曲线。函数在一点的导数等于它的图像上这一点处之切线的斜率，导数是函数的局部性质。不是所有的函数都有导数，一个函数也不一定在所有的点上都有导数。若某函数在某一点导数存在，则称其在这一点可导，否则称为不可导。如果函数的自变量和取值都是实数的话，那么函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。

具体来说：

当函数定义域和取值都在实数域中的时候，导数可以表示函数的曲线上的切线斜率。如下图所示，设 $P_0$ 为曲线上的一个定点， $P$ 为曲线上的一个动点。当 $P$ 沿曲线逐渐趋向于点 $P_0$ 时，并且割线 $P P_0$ 的极限位置 $P_0 T$ 存在，则称 $P_0 T$ 为曲线在 $P_0$ 处的切线。

若曲线为一函数 $y=f(x)$ 的图像，那么割线 $P P_0$ （蓝色）的斜率为：

$an varphi=frac{Delta y}{Delta x}=frac{f(x_0 + Delta x)-f(x_0)}{Delta x}$

当 $P_0$ 处的切线 $P_0 T$ （红色），即 $P P_0$ 的极限位置存在时，此时 $Delta x o 0$ ， $varphi o alpha$ ，则 $P_0 T$ 的斜率 $an alpha$ 为：

$an alpha=lim_{Delta x o 0} an varphi=lim_{Delta x o 0} frac{f(x_0 + Delta x)-f(x_0)}{Delta x}$

上式与一般定义中的导数定义完全相同，也就是说 $f'(x_0)= an alpha$ ，因此，导数的几何意义即曲线 $y=f(x)$ 在点 $P_0 (x_0,f(x_0))$ 处切线的斜率

(3)导函数

导数是一个数，是指函数 $f(x);$ 在点 $x_0;$ 处导函数的函数值，若函数 $;f(x);$ 在其定义域包含的某区间 $;I;$ 内每一个点都可导，那么也可以说函数 $;f(x);$ 在区间 $;I;$ 内可导，这时对于 $;I;$ 内每一个确定的 $;x;$ 值，都对应着 $;f;$ 的一个确定的导数值，如此一来就构成了一个新的函数 $x mapsto f'(x)$ ，这个函数称作原来函数 $;f(x);$ 的导函数，记作： $;y';$ 、 $f'(x);$ 或者 $frac{mathrm{d}f}{mathrm{d}x}(x)$ ,通常也可以说导函数为导数

3、一元函数微分

微分和导数是两个不同的概念。但是对一元函数来说，可微与可导是完全等价的概念。可微的函数，其微分等于导数乘以自变量的微分 $dx$ ，换句话说，函数的微分与自变量的微分之商等于该函数的导数。因此，导数也叫做微商。于是函数 $y = f(x)$ 的微分又可记作 $dy = f'(x)dx$ ^[

⁽¹⁾微分反应的变化率

微分可以近似地描述当函数自变量的取值作足够小的改变时，函数的值是怎样改变的。当某些函数 $scriptstyle f$ 的自变量 $scriptstyle x$ 有一个微小的改变 $scriptstyle h$ 时，函数的变化可以分解为两个部分。一个部分是线性部分：在一维情况下，它正比于自变量的变化量 $scriptstyle h$ ，可以表示成 $scriptstyle h$ 和一个与 $scriptstyle h$ 无关，只与函数 $scriptstyle f$ 及 $scriptstyle x$ 有关的量的乘积；在更广泛的情况下，它是一个线性映射作用在 $scriptstyle h$ 上的值。另一部分是比 $scriptstyle h$ 更高阶的无穷小，也就是说除以 $scriptstyle h$ 后仍然会趋于零。当改变量 $scriptstyle h$ 很小时，第二部分可以忽略不计，函数的变化量约等于第一部分，也就是函数在 $scriptstyle x$ 处的微分，记作 $displaystyle f'(x)h$ 或 $displaystyle df_x(h)$ 。如果一个函数在某处具有以上的性质，就称此函数在该点可微。

(2)定义

设函数 $y = f(x)$ 在某区间 $mathcal{I}$ 内有定义。对于 $mathcal{I}$ 内一点 $x_{0}$ ，当 $x_{0}$ 变动到附近的 $x_{0}+Delta x$ （也在此区间内）时。如果函数的增量 $Delta y = f(x_{0}+ Delta x) - f(x_{0})$ 可表示为 $Delta y = A Delta x + o( Delta x)$ （其中 $A$ 是不依赖于 $Delta x$ 的常数），而 $o( Delta x)$ 是比 $Delta x$ 高阶的无穷小，那么称函数 $f(x)$ 在点 $x_{0}$ 是可微的，且 $A Delta x$ 称作函数在点 $x_{0}$ 相应于自变量增量 $Delta x$ 的微分，记作 $dy$ ，即 $dy = A Delta x$ ， $dy$ 是 $Delta y$ 的线性主部。^[1]^:141

通常把自变量 $x$ 的增量 $Delta x$ 称为自变量的微分，记作 $dx$ ，即 $dx = Delta x$ 。

(3)几何意义

函数在一点的微分。其中红线部分是微分量 $dy$ ，而加上灰线部分后是实际的改变量 $Delta y$

(4)关于无穷小量

A）

如果一个序列 $a=(a_n)_{nin mathbb{N}}$ 如果满足如下性质：

用极限符号把上述性质简记为

$lim_{n o infty} a_n = 0$

则序列 $a$ 被称为 $n o infty$ 时的无穷小量^[

B)阶的比较

设 $a=(a_n)_{nin mathbb{N}}$ ， $b=(b_n)_{nin mathbb{N}}$ 为两个序列，而且都是 $n o infty$ 时的无穷小量。虽然它们在 $n$ 趋于无穷时都趋于零，但趋于零的速度是有区别的。可以用如下方式比较它们的速度：

若对于任意正实数 $displaystyle c>0$ ，存在正整数 $displaystyle N$ 使得

$a_k < c cdot b_k$

在 $displaystyle k>N$ 时总是成立，则称 $displaystyle a$ 是 $displaystyle b$ 的高阶无穷小，记作

$displaystyle a_n=oBig(b_nBig) ~ ~ ~ (n o infty)$

其中的 $n o infty$ 有时也被省略不写。

在上述定义中，也可以说无穷小量 a 的阶要比 b 的要高，或者说 a 比 b 更快地趋于零

4、多元函数微分

(1) 欧几里得空间

以 $mathbb R$ 表示实数域。对任意一个正整数n，实数的n元组的全体构成了 $mathbb{R}$ 上的一个n维向量空间，用 $mathbb{R}^n$ 来表示。有时称之为实数坐标空间。 $mathbb{R}^n$ 中的元素写作 $X=(x_1,x_2,cdots,x_n)$ ，这里的 $x_i$ 都是实数。 $mathbb{R}^n$ 作为向量空间，其运算是这样定义的：

$mathbf{x} + mathbf{y} = (x_1 + y_1, x_2 + y_2, ldots, x_n + y_n)$ $a\,mathbf{x} = (a x_1, a x_2, ldots, a x_n)$

欧几里得空间，则是在 $mathbb{R}^n$ 上再添加一些内容：欧几里得结构。
为了做欧氏几何，人们希望能讨论两点间的距离，直线或向量间的夹角。一个自然的方法是在 $mathbb{R}^n$ 上，对任意两个向量 $mathbf{x}$ 、 $mathbf{y}$ ，引入它们的“标准内积” $\text{[math]}$ （一些文献上称为点积，记为 $mathbf{x}cdotmathbf{y}$ ）：

$= sum_{i=1}^n x_iy_i = x_1y_1+x_2y_2+cdots+x_ny_n$ 。

也就是说， $mathbb{R}^n$ 中的任意两个向量对应着一个实数值。我们把 $mathbb{R}^n$ 及这样定义的内积，称为 $mathbb{R}^n$ 上的欧几里得结构；此时的 $mathbb{R}^n$ 也被称为n维欧几里得空间，内积"<,>"称为欧氏内积。

利用这个内积，可以建立距离、长度、角度等概念：

向量 $mathbf{x}$ 的长度：

$|mathbf{x}| = sqrt{} = sqrt{sum_{i=1}^{n}(x_i)^2}$

这里的长度函数满足范数所需的性质，故又称为 $mathbb{R}^n$ 上的欧氏范数。

$mathbf{x}$ 和 $mathbf{y}$ 所夹的内角以下列式子给出

$heta = cos^{-1}left(frac{}{|mathbf{x}||mathbf{y}|} ight)$

这里的 $cos^{-1}$ 为反余弦函数。

最后，可以利用欧氏范数来定义 $mathbb{R}^n$ 上的距离函数，或称度量：

$d(mathbf{x}, mathbf{y}) = |mathbf{x} - mathbf{y}| = sqrt{sum_{i=1}^n (x_i - y_i)^2}$ 。

这个距离函数称为欧几里得度量，它可以看作勾股定理一种形式。

这里的 $mathbb{R}^n$ 仅指实数向量空间，而加入了如上定义的欧几里得结构后才称为欧氏空间；有些作者会用符号 $mathbb{E}^n$ 来标记之。欧氏结构使 $mathbb{E}^n$ 具有这些空间结构：内积空间、希尔伯特空间、赋范向量空间以及度量空间。

(2)开集

开集是指不包含自己边界点的集合。或者说，开集把它所包含的任何一点的充分小的邻域也包含在其自身之中。开集的概念一般与拓扑概念是紧密联系着的，通常先公理化开集，然后通过其定义边界的概念。

函数分析

在Rⁿ中点集是开集，如果在这个集合的所有点P都是内部点。

内点

令 S 为欧几里得空间的子集。若存在以 x 为中心的开球被包含于 S，则 x 是 S 的内点。

这个定义可以推广到度量空间 X 的任意子集 S。具体地说，对具有度量 d 的度量空间 X，x 是 S 的内点，若对任意 r > 0，存在 y 属于 S，且 d(x, y) < r

点 x 是 S 的内部点，因为它包含在 S 内并有一个开球围绕着它。点 y 在 S 的边界上

欧几里得空间

n维欧几里得空间Rⁿ的子集U是开集，如果给定任何在U中的点x，存在一个实数ε > 0使得，如果给定任何Rⁿ中点y，有着从x到它的欧几里得距离小于ε，则y也属于U。等价的说，U是开集，如果所有U中的点有包含在U中的邻域。

(3)定义

设 $f$ 是从欧几里得空间Rⁿ（或者任意一个内积空间）中的一个开集 $Omega$ 射到R^m的一个函数。对于 $Omega$ 中的一点 $x$ 及其在 $Omega$ 中的邻域 $Lambda$ 中的点 $x+h$ 。如果存在线性映射 $A$ 使得对任意这样的 $x+h$ ,

$lim_{h o 0} left( frac{|f (x+h) - f(x) - A(h)|}{|h|} ight) = 0$

那么称函数 $f$ 在点 $x$ 处可微。线性映射 $A$ 叫做 $f$ 在点 $x$ 处的微分，记作 $df_x$ 。

如果 $f$ 在点 $x$ 处可微，那么它在该点处一定连续，而且在该点的微分只有一个。为了和偏导数区别，多元函数的微分也叫做全微分或全导数。

当函数在某个区域的每一点 $x$ 都有微分 $df_x$ 时，可以考虑将 $x$ 映射到 $df_x$ 的函数：

$df : x mapsto df_x$

这个函数一般称为微分函数

全微分（英语：total derivative）是微积分学的一个概念，指多元函数的全增量 $Delta z$ 的线性主部，记为 $operatorname dz$ 。例如，对于二元函数 $z=f(x, y)$ ，设f在点 $P_0(x_0, y_0)$ 的某个邻域内有定义， $P(x_0+Delta x, y_0+Delta y)$ 为该邻域内的任意一点，则该函数在点 $P_0(x_0, y_0)$ 的全增量可表示为

$Delta z = ADelta x+BDelta y + o( ho)$ ，

其中 $A$ ， $B$ 仅与 $x$ ， $y$ 有关，而与 $Delta x$ ， $Delta y$ 无关， $ho=sqrt{(Delta x)^2 +(Delta y)^2}$ 。若 $o( ho)$ 是当 $ho ightarrow 0$ 时的高阶无穷小，则称此函数 $z=f(x, y)$ 在点 $(x, y)$ 可微分，而 $ADelta x+BDelta y$ 即为函数 $z=f(x, y)$ 在点 $P_0(x_0, y_0)$ 的全微分，记作