机器学习中的数学基础

高等数学

夹逼定理

如果三个函数满足f（x）<=g（x）<=h（x），而且他们都在xo处有极限，那么

(lim _ { x ightarrow x _ { 0 } } f ( x ) < = lim _ { x ightarrow x _ { 0 } } g ( x ) < = lim _ { x ightarrow x _ { 0 } } h ( x ))

重要极限

(lim _ { x ightarrow 0 } sin ( x ) / x = 1)

(lim _ { x ightarrow infty } x ^ { alpha } / e ^ { x } = 0) 对于任意的正数α

(lim _ { x ightarrow infty } ln ( x ) / x ^ { alpha } = 0) 对于任意的正数α

(lim _ { x ightarrow infty } ( 1 + 1 / x ) ^ { x } = e)

初等函数的导数

(egin{array} { l l } { frac { d } { d x } sin ( x ) = cos ( x ) } & { frac { d } { d x } cos ( x ) = - sin ( x ) } \ { frac { d } { d x } sinh ( x ) = cosh ( x ) } & { frac { d } { d x } cosh ( x ) = sinh ( x ) } \ { frac { d } { d x } x ^ { n } = n x ^ { n - 1 } } & { frac { d ^ { n } } { d x ^ { n } } x ^ { n } = n ! } \ { frac { d } { d x } e ^ { x } = e ^ { x } } & { frac { d } { d x } ln ( x ) = 1 / x } end{array})

求导法则

链式法则： (frac { d } { d x } ( g circ f ) = frac { d g } { d x } ( f ) cdot frac { d f } { d x })

加法法则：(frac { d } { d x } ( g + f ) = frac { d g } { d x } + frac { d f } { d x })

乘法法则：(frac { d } { d x } ( g cdot f ) = frac { d g } { d x } cdot f + g cdot frac { d f } { d x })

出发法则：(: frac { d } { d x } left( frac { g } { f } ight) = frac { frac { d g } { d x } cdot f - frac { d f } { d x } cdot g } { f ^ { 2 } })

反函数求导：(frac { d } { d x } left( f ^ { - 1 } ight) = frac { 1 } { frac { d f } { d x } left( f ^ { - 1 } ight) })

微分学的核心思想是逼近

一阶导数：线性逼近

二阶导数：二次逼近

导数计算：求导法则

一元微分学的顶峰：泰勒级数

(e ^ { x } = 1 + x + x ^ { 2 } / 2 + cdots + x ^ { n } / n ! + o left( x ^ { n } ight))

(ln ( 1 + x ) = x - x ^ { 2 } / 2 + x ^ { 3 } / 3 + cdot + ( - 1 ) ^ { n - 1 } x ^ { n } / n + o left( x ^ { n } ight))

(sin ( x ) = x - x ^ { 3 } / 6 + cdots + ( - 1 ) ^ { n } x ^ { 2 n + 1 } / ( 2 n + 1 ) ! + o left( x ^ { 2 n + 1 } ight))

(cos ( x ) = x ^ { 2 } / 2 + x ^ { 4 } / 24 + cdots + x ^ { 2 n } / ( 2 n ) ! + o left( x ^ { 2 n } ight))

凸函数的定义

一个函数f如果满足 (f left( lambda x _ { 1 } + ( 1 - lambda ) x _ { 2 } ight) leq lambda f left( x _ { 1 } ight) + ( 1 - lambda ) f left( x _ { 2 } ight) , forall lambda in ( 0,1 )) 那么这个函数就是凸函数

一个函数二阶可微的函数f是凸函数，当且仅当f"（x）>=0，Vx.

琴生不等式

如果f是凸函数，那么对于任意的{x1，x2…，xn}，以及正的权重系数{w1，w2，…，Wn}，且w1+w2+…+wn=1，则如下不等式成立

(f left( sum _ { k = 1 } ^ { n } w _ { k } cdot x _ { k } ight) leq sum _ { k = 1 } ^ { n } w _ { k } cdot f left( x _ { k } ight))

方差定义

(operatorname { Var } ( X ) = E { X - E ( X ) ] ^ { 2 } } = E left( X ^ { 2 } ight) - E ^ { 2 } ( X ))

无条件成立

(egin{array} { l } { operatorname { Var } ( c ) = 0 } \ { operatorname { Var } ( X + c ) = operatorname { Var } ( X ) } \ { operatorname { Var } ( k X ) = k ^ { 2 } operatorname { Var } ( X ) } end{array})

X和Y 相互独立

(operatorname { Var } ( X + Y ) = operatorname { Var } ( X ) + operatorname { Var } ( Y ))

(E ( X ) = int _ { - infty } ^ { infty } x f ( x ) d x)

概率论与数理统计

概率

条件概率：(P ( A | B ) = frac { P ( A B ) } { P ( B ) })

全概率公式：(P ( A ) = sum _ { i } P left( A | B _ { i } ight) P left( B _ { i } ight))

贝叶斯（Bayes）公式：(P left( B _ { i } | A ight) = frac { P left( A | B _ { i } ight) P left( B _ { i } ight) } { sum _ { j } P left( A | B _ { j } ight) P left( B _ { j } ight) })

分布

几大分布列表图形

概率与统计的关注点

概率论问问题的方式：

装箱问题：将12件正品和3件次品随机装在3个箱子中，每箱装5件，则每箱中恰有1件次品的概率是多少？

数理统计问问题的方式：

正态分布的矩估计: 在正态分布的总体中采样得到n个样本：
X1,X2,…Xn，估计该总体的均值和方差。

重要的统计量

期望

离散型 (E ( X ) = sum _ { i } x _ { i } p _ { i })
连续型 (E ( X ) = int _ { - infty } ^ { infty } x f ( x ) d x)

协方差

协方差的定义：

(operatorname { Cov } ( X , Y ) = E { [ X - E ( X ) ] [ Y - E ( Y ) ] })

协方差的性质：

(egin{array} { c } { operatorname { Cov } ( X , Y ) = operatorname { Cov } ( Y , X ) } \ { operatorname { Cov } ( a X + b , c Y + d ) = operatorname { acCov } ( X , Y ) } \ { operatorname { Cov } left( X _ { 1 } + X _ { 2 } , Y ight) = operatorname { Cov } left( X _ { 1 } , Y ight) + operatorname { Cov } left( X _ { 2 } , Y ight) } \ { operatorname { Cov } ( X , Y ) = E ( X Y ) - E ( X ) E ( Y ) } end{array})

方差

定义

(operatorname { Var } ( X ) = E { X - E ( X ) ] ^ { 2 } } = E left( X ^ { 2 } ight) - E ^ { 2 } ( X ))

无条件成立

(egin{array} { l } { operatorname { Var } ( c ) = 0 } \ { operatorname { Var } ( X + c ) = operatorname { Var } ( X ) } \ { operatorname { Var } ( k Y ) = k ^ { 2 } operatorname { Var } ( X ) } end{array})

X和Y相互独立的时候

(operatorname { Var } ( X + Y ) = operatorname { Var } ( X ) + operatorname { Var } ( Y ))

大数定理和中心极限定理

切比雪夫不等式
大数定理
中心极限定理