高等数学 摘要

微积分
dy=x微分*x变化量
微分中值定理:微分中值定理揭示了函数在某区间的整体性质与该区间内部某一点的导数之间的关系,因而称为中值定理
  • 切线:通过割线和无穷小量定义了切线。
  • 导数:通过切线和无穷小量定义了导数,导数是曲线在某点处切线的斜率,导数的值等于微商。
  • 微分:微分是微小的增量,即无穷小量。
        微分是求变化量,积分是求积累量
 
“过拟合”是把噪声的信息也学习进来了,导致泛化能力差,在新样本上表现差;
“共线性”是自变量相关性太强,导致参数估计不可信,如果完全共线性则导致回归系数估计时系数矩阵的不可逆,使用迭代求解时不收敛,无法计算系数。
例如线性回归时系数求解使用最小二乘法,系数估计beta=(XX’)^(-1) XY,如果两个变量相关,则XX’不可逆
对于决策树算法,共线性与否其实没关系,极端例子,两个变量完全一样时,用哪个变量拆分其实都可以,结果都一样。
根本原因是决策树是启发式算法,而不是严格意义的统计模型
不一样,dummy是不共线的n个分类只有n-1个0-1变量,one-hot就有n个,这n个变量的和就是1,完全共线
“稳定性”包括样本内过拟合和欠拟合,也包括时间外不稳定。不稳定的来源需要分析界定究竟是业务变化导致X分布变化了还是因为模型本身不Robotic泛化能力差。
个人理解,现在很多金融机构缺的可能不是“算法足够好的模型”,而是:模型方案架构(而不是算法本身),应用场景,敏捷开发/快速部署/可控可解释。
实际应用中还需要考虑可实施性、可解释性、稳定性、监管合规性、可控性。
统计模型的缺陷在于假设太多太理想化,金融市场大多数回归模型R2能有0.1就算牛的了
线性回归也可以不用数值算法求解参数,比如梯度下降,如果用数值算法就是矩阵求解参数,也可以对矩阵进行变形,让他可逆。所以个人认为传统的统计模型在于假设条件,求解方法多了,假设条件也可以适当放开,个人认为模型效果好,泛化能力强,就不用考虑太多假设条件
启发式是指不能通过代数求解,只能通过目标函数,迭代求解的方式;
确定是把业务问题抽象出来,是用预测模型?还是优化模型?还是图论模型?
预测模型具体用逻辑回归还是决策树,是用SAS做还是Python,这是具体操作层面的了。
 
凸函数/凹函数:二阶导数>0 则为凸函数,<0 则为凹函数
一阶导数称为驻点,两侧为增减性交替的点;二阶导数称为拐点,凹凸性交换的点
 
 
协方差,向量的两两相关性
 
  • 梯度下降法
微积分里,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。
比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。
梯度的几何意义就是函数变化增加最快的方向。对于函数f(x,y),在点(x0,y0),沿着梯度向量的方向就是(∂f/∂x0, ∂f/∂y0)T的方向是f(x,y)增加最快的地方。或者说,沿着梯度向量的方向,更加容易找到函数的最大值。反过来说,沿着梯度向量相反的方向,也就是 -(∂f/∂x0, ∂f/∂y0)T的方向,梯度减少最快,也就是更加容易找到函数的最小值。
梯度相关概念
  • 步长(梯度下降迭代前进的长度)
  • 特征(样本输入值)
  • 假设函数hθ(x)(为拟合样本,设用的关于X中θ的函数)监督学习中,为了拟合输入样本,而使用的假设函数
  • 损失函数(loss function),评估模型拟合的好坏,通常用损失函数来度量拟合的程度
    比如对于m个样本(xi,yi)(i=1,2,...m)(xi,yi)(i=1,2,...m),采用线性回归,损失函数为:
                 J(θ0,θ1)=∑(hθ(xi)−yi)2
         其中xixi表示第i个样本特征,yiyi表示第i个样本对应的输出,hθ(xi)hθ(xi)为假设函数。   
根据泰勒展开公式可以得到梯度下降公式
  • 梯度,一元函数导数向多元函数的推广,多元函数偏导数构成的向量。
梯度下降法:数值优化法,求近似解不是精确解。
1.通过泰勒展开公式得到梯度下降公式;2,通过向量内积cos=-1,得出公式。
 
正则化
目标函数中加上惩罚项,迫使参数变小。L1正则,L2正则
 
坐标下降法
 
向量的范数 2范数类似于向量的模
 
矩阵 2维数组
  • 最大似然估计MLE:参数估计,对数似然函数,取对数累计和。
 
行列式 矩阵映射成标量
行列式求和,行列交叉
最优化:极小值问题(局部极小值,全局极小值)等式约束,不等式约束,可行域,目标函数,优化变量
极值点:极值点的导数等于0,
  • 拉格朗日对偶
拉格朗日乘子函数  原问题等价于我们要求解的问题
最小二乘问题是无约束的优化问题,通常可以理解为测量值与真实值之间的误差平方和
 
  • 凸优化
凸集  ( λx+(1−λ)y∈X,对于任意的 λ∈(0,1)  
凸函数  判断函数极大值以及极小值。 
结合一阶、二阶导数可以求函数的极值。当一阶导数等于0,而二阶导数大于0时,为极小值点。斜率代表一阶导数,斜率在逐渐增大,说明抛物线开口向上。
当一阶导数等于0,而二阶导数小于0时,为极大值点;当一阶导数和二阶导数都等于0时,为驻点。
 
  • 海森(Hessian)矩阵:多元函数二阶偏导数构成的矩阵。
正定,函数有局部极小值,负定,函数有局部极大值。
  • 雅克比矩阵:从欧式N维空间转换到M维空间的函数;一阶偏导数排列组成的矩阵,多元复合函数求导用
 
 
 
 
 
 
 
 
 
 
 
 
 
天才是百分之一的灵感,加百分之九十九的汗水,但那百分之一的灵感往往比百分之九十九的汗水来的重要
原文地址:https://www.cnblogs.com/Christbao/p/12022325.html