数学基础_七月算法5月深度学习班第1次课程笔记

	desc
outline	微积分： · Taylor 层层展开，看极值 · 标量求导化成矩阵求导，用新的公式理论 · # hessian 与正定性的提出概率： · 中心极限定理，N 个 any 分布累积和就是正态分布矩阵： · Ax = λx 的几何意义是旋转与伸缩一个响亮 · PCA 的本质就是对协方差矩阵的对角化 · # 什么矩阵能对角化，如何判断正定性凸优化 · 待约束的，使用KKT 得到必要解用是否激活的角度大幅化简KKT
中心极限定理	Xi 服从是任意一种分布，方差是σ2，均值是μ，Xi 之间独立同分布，那么： Y = (ΣXi -nμ)/sqrt(n)·σ 服从标准正态分布这是在创造一个新的统计量，使得你陌生。但是如果整理一下，说明按照程博士说的 ΣXi 服从的是 N(nμ, n·σ2) 中国数学的高等教育一团糟： · 中心极限定理 · Ax = λx · Taylor 展开式说明极值 · AB = C 其实是在维度转换 · Ax = b 其实是方程的列表示法 # 方程的行视图是平面交点，列视图是矩阵表示等等就是摆在那里，但是就是不好好给你说清楚
学好数学的方式	思考怎么用也就是它产生、出现的需求思考方式【观点】把因素之间视为相互独立，一一去得出结论，这是一种勇敢的行为
计算机的擅长	说计算机擅长计算，但是这个不够细致，擅长的是计算中的迭代，这一种计算而已
SGD中的α	1. 固定 2. adadelta 3. 深度梯度下降，求导而的 4. 二分法确定 α # α取一个极大值，如果 cost = f(x + αd) 是在降低，那么ok，否则就是 α = 0.5·α 的 # 相当于 α 是一个搜索的过程，这样的话一开始的 α是可以取大些的，后面的α也可以取的小些
高斯分布	密度函数是凹函数据说：给定了均值和方差，高斯分布是信息熵最大的密度函数 -Σp·logp p~N(μ，σ2) distribution = argmax_dis ( the collection of distribution with 均值μ，方差σ2 ) 遍历一个遍，试了下，可能是最大的，比如也许可以是泊松分布当然需要证明，因为：分布有无穷种
矩阵求导	多元变量最好用矩阵表示，然后用矩阵求导不易出错高维的写成矩阵就是要写成二次型的形式主要是记住几个公式就可以了而不是化为标量一一求导
中心极限定理与高斯分布有关系	中心极限定理 contain 了高斯分布 #### 中心极限定理的定义假设就是独立同分布任意独立同分布加起来就是高斯分布这个是中心极限定理分别是 any 分布 4, 5项相加以后就是高斯了 4 个独立同分布的泊松相加就接近高斯噪声累积和为什么一般近似成高斯分布？# 理论依据，中心极限定理新的理论高斯 + any分布约等于高斯，有一个近似误差如果x1+x2是独立的，x1是高斯，x2是任意的分布（比方泊松），两项加和后是近似高斯分布的（可证明）。
对称矩阵	一定可以对角化，不管特征值是否全不相等而且是 U 对角化，即特征向量矩阵P 是正交矩阵，即可以被正交矩阵对角化协方差矩阵：一定可以U相似对角化，一定是半正定矩阵
PCA 本质	就是协方差矩阵的对角化对角化后的矩阵是新空间下的协方差矩阵对角化后我们把大的部分保留，小的扔掉在正定情况下。SVD=ED，但SVD稳定
对SVM 的评价	就是一个标准的凸优化问题。。。。。。。。。。。。。。。。。。。。。。。不懂对偶式，why ？？？？？分析问题用原问题，解问题时候可以用对偶方法来解。
数学中的指标	相关性就是使用协方差来表示信息的分散度、离散度用方差表示
why 不等式约束激活这个条件这么重要	不等式约束激活，就从不等式得到了等式相当于不等式约束变成了等式约束，这就能解了
KKT	一阶KKT 五个都满足，是必要条件，具体是不是极值还是鞍点，剩下的用二阶 KKT 看满足二阶KKT 就是极值点如果有些不满足可能是鞍点，需要四阶KKT 具体判别类似于：泰勒展开与求导的角度 KKT 的解，类似一阶导数的解可能极大，可能极小，可能鞍点此时要结合二阶KKT 或者画图分析
如何解KKT	显著的feature 就是能被大量化简看不等式是否被激活： 1. 不等式约束激活，就从不等式得到了等式 2. 未激活，就意味着系数是 0 这样就可以大幅度化简 KKT 条件了
以后看模型就可以从这个角度看了	这个优化问题是不是凸优化问题如果判断是凸优化，那么直接内点法就可以了
约束问题	解约束问题是将有约束变为无约束，如果是等式约束：通过拉格朗日如果是还有不等式约束：通过KKT 若是图优化问题，那么ＫＫＴ条件解出来的解，一定是全局最优。这个是可证明的，因为没有鞍点，只要是极值点就一定是极小值，没有悬念是极大值
why SGD 每次选择的是梯度的方向	δ 在这里是一个向量，假设在 δ = [δ1, δ2, δ3, δ4 ] 各个维度上元素的长度都是1 即每次每个元素只能走 1 长度，这个是前提然后这个是向量内积，点乘。 xk+δ 想让 f(xk+δ ) 尽可能大依据泰勒展开式 f(xk+δ ) = f(xk) + f'(xk)δ，所以只能最大化这个 f'(xk)·δ 即：δ 要与 f'(xk) 方向一致 # 依据泰勒展开式的等式，利用这个等于号 # 假设前提是，在每次每个元素只能走 1 长度
怎么使用 Taylor 展开式【important】	鞍点的特点是一二阶导数为0 是否是极值点的判断方法：如果是看三阶导数，它必须也必须为0 看的是其四阶导数，判断方法和二阶导一样，如果大于0，为极小值，小于0为极大值等于0 就要继续看下去，看五六阶导数也就是泰勒展开式，可以层层展开，直至可以判断出是否是极值