数学基础_七月算法5月深度学习班第1次课程笔记

 
  desc
outline
微积分:
· Taylor 层层展开,看极值
· 标量求导 化成 矩阵求导,用新的 公式理论
· # hessian 与正定性 的提出
 
概率:
· 中心极限定理,N 个 any 分布累积和 就是 正态分布
 
矩阵:
· Ax = λx 的几何意义 是旋转与伸缩 一个响亮
· PCA 的本质就是 对协方差矩阵的对角化
· # 什么矩阵能对角化,如何判断正定性
 
凸优化
· 待约束的,使用KKT 得到 必要解 用 是否激活的角度 大幅 化简KKT
中心极限定理
Xi 服从是任意一种分布,方差是σ2,均值是μ,Xi 之间独立同分布,那么:
Y = (ΣXi -nμ)/sqrt(n)·σ 服从标准正态分布
这是在创造一个新的 统计量,使得你陌生。
但是如果整理一下,说明按照程博士说的
ΣXi 服从的是 N(nμ, n·σ2)
 
中国数学的高等教育一团糟:
· 中心极限定理
· Ax = λx
· Taylor 展开式 说明极值
· AB = C 其实是在维度转换
· Ax = b 其实是方程的 列表示法  # 方程的行视图是平面交点,列视图是矩阵表示
等等就是摆在那里,但是就是 不好好给你说清楚
学好数学的方式
思考怎么用
也就是 它产生、出现的 需求
 
思考方式【观点】
把因素之间视为相互独立,一一去得出结论,这是一种勇敢的行为
计算机的擅长 说计算机擅长计算,但是这个不够细致,擅长的是计算中的迭代,这一种计算而已
SGD中的α
1. 固定
2. adadelta
3. 深度梯度下降,求导而的
4. 二分法 确定 α
   # α取一个极大值,如果 cost = f(x + αd) 是在降低,那么ok,否则就是 α = 0.5·α 的
   # 相当于 α 是一个搜索的过程,这样的话 一开始的 α是 可以取大些的,后面的α也可以取的小些
高斯分布
密度函数是 凹函数
 
据说:给定了 均值和方差,高斯分布是信息熵最大的密度函数
-Σp·logp
p~N(μ,σ2)
distribution = argmax_dis ( the collection of distribution with 均值μ,方差σ2 )
遍历一个遍,试了下,可能是最大的,比如 也许可以是 泊松分布
当然需要证明,因为: 分布有无穷种
矩阵求导
多元变量最好用 矩阵表示,然后 用矩阵求导 不易出错
高维的 写成矩阵就是要写成 二次型的形式
主要是 记住几个公式就可以了
而不是 化为标量 一一求导 
中心极限定理与高斯分布 有关系
中心极限定理  contain 了高斯分布
 
 
 
#### 中心极限定理 的定义假设就是 独立同分布
任意独立同分布加起来 就是 高斯分布
这个是 中心极限定理
分别是 any 分布 
4, 5项相加 以后就是 高斯了
4 个 独立同分布的 泊松 相加 就接近高斯
 
噪声累积和 为什么一般近似成高斯分布?# 理论依据,中心极限定理
 
 
新的理论
高斯 +  any分布 约等于 高斯,有一个近似误差
如果x1+x2是独立的,x1是高斯,x2是任意的分布(比方泊松),两项加和后是近似高斯分布的(可
证明)。
对称矩阵
一定可以对角化,不管特征值是否全不相等
而且是 U 对角化,即 特征向量矩阵P 是正交矩阵,即可以被正交矩阵对角化
 
协方差矩阵:一定可以U相似对角化,一定是半正定矩阵
PCA 本质
就是 协方差矩阵的对角化
对角化后的 矩阵是 新空间下的 协方差矩阵
对角化后我们把大的部分保留,小的扔掉
在正定情况下。SVD=ED,但SVD稳定
对SVM 的评价
就是一个 标准的 凸优化问题
。。。。。。。。。。。。。。。。。。。。。。。
不懂 对偶式,why ?????
分析问题用原问题,
解问题时候可以用对偶方法来解。
数学中的指标
相关性就是使用协方差来表示
信息的分散度、离散度 用 方差表示
why 不等式约束激活 这个条件这么重要
不等式约束激活,就从不等式得到了等式
相当于 不等式约束 变成了 等式约束,这就能解了
 
KKT
一阶KKT 五个都满足,是必要条件 ,具体是不是极值还是鞍点,剩下的 用 二阶 KKT 看
满足 二阶KKT 就是 极值点
如果有些不满足 可能是鞍点,需要 四阶KKT
具体判别类似于:泰勒展开 与求导  的角度
KKT 的解,类似 一阶导数的解
可能 极大,可能极小,可能鞍点
此时要结合 二阶KKT 或者 画图分析
 
如何解KKT
显著的feature 就是 能被 大量化简
看 不等式是否被激活:
1. 不等式约束激活,就从不等式得到了等式
2. 未激活,就意味着 系数是 0
这样就可以 大幅度化简 KKT 条件了
以后看模型就可以从这个角度看了
这个优化问题是不是 凸优化问题
如果 判断是凸优化,那么 直接 内点法就可以了
约束问题
解约束问题是将有约束变为无约束,
如果是等式约束:通过拉格朗日
如果是还有不等式约束:通过KKT
 
若是图优化问题,那么KKT条件解出来的解,一定是全局最优。
这个是 可证明的,因为没有鞍点,只要是极值点 就一定是 极小值,没有悬念是极大值
why SGD 每次选择的是 梯度的方向
δ 在这里是一个向量,假设在 δ = [δ1, δ2, δ3, δ4 ] 各个维度上元素的长度都是1
即每次每个元素只能走 1 长度,这个是前提
然后  这个是 向量内积,点乘。
xk+δ 想让 f(xk+δ ) 尽可能大
依据 泰勒展开式 f(xk+δ ) = f(xk) + f'(xk)δ,所以只能最大化这个 f'(xk)·δ
即:δ  要与 f'(xk) 方向一致
 
# 依据泰勒展开式的 等式,利用这个等于号
# 假设前提是,在 每次每个元素只能走 1 长度
怎么使用 Taylor 展开式
【important】
鞍点的特点是一二阶导数为0
是否是极值点的判断方法:
如果是看三阶导数,它必须也必须为0
看的是其 四阶导数,判断方法和二阶导一样,如果大于0,为极小值,小于0为极大值
等于0 就要继续看下去,看 五六阶导数
 
也就是 泰勒展开式,可以层层展开,直至可以判断出是否是 极值
原文地址:https://www.cnblogs.com/jianzhitanqiao/p/5550298.html