【dlbook】数学基础

【代数】

Moore-Penrose 伪逆

【概率信息论】

自信息,香农熵,衡量两个分布的差异:kl散度 交叉熵

【数值】

 溢出:  softmax计算的时候要关注上溢和下溢,如果所有X都相等且为很小的负数的话,有分母为零的风险。

病态条件: 矩阵求逆对输入的误差可能很敏感,这样由于输入的不精确,会导致结果的不精确。

  用条件数来衡量。条件数定义为

Jacobian和Hessian阵:

  Jacobian阵,m维 to n维, nxm矩阵,yi To xj。多维输出的一阶导数

  Hessian阵:m维 to 1维, mxm矩阵,二阶导数,对称阵。将其进行特征值分解,可以得到在哪个方向下降的比较快。正定的时候是局部最小值。

梯度下降法无法包含曲率信息,如果Hessian矩阵条件数过大,一阶方法往往会出问题

如何计算Hessian阵?  / 如何评估是否需要二阶优化?二阶优化在鞍点是有害的

深度学习背景下凸优化重要性大大减少。

KKT条件,有空自己推一遍。。。

原文地址:https://www.cnblogs.com/yesuuu/p/8333957.html