AI 高等数学、概率论基础

一、概论

  基础引入:

    

  原理一:【两边夹定理】

    

  原理二:【极限】

        

    X为角度x对应的圆弧的点长;

  原理三【单调性】:

    

  引入:

      

二、导数

     

  常见函数的导数:

    

四、应用:

    

  求解:

    

  泰勒展式和麦克劳林展式:

    

  泰勒展式在x0 = 0处展开得到麦克劳林展式

  Taylor公式的应用1:

    

  变种:

    

  Taylor公式应用2:

    

  方向导数:

   

  梯度:

    

  函数的凸凹性:

    

  函数凸凹性判定:

    

  

  凸函数性质的应用:

    

    

五、概率论

  

  概率为0例子: 把一枚针投在一个平面上,则概率为0(一个点 之于 一个面)

  古典概型:

    

    思路:

      

      

  古典概型变种问题:

    生日悖论:

    

    

  古典概型总结:

    

  几何概型:

   

    

  条件概率:

    

  条件概率: 在已知B发送的条件下,A发生的概率

      

  全概率:

    

    全概率公式的意义在于: 当直接计算P(A)比较困难,而P(Bi),P(A|Bi)  (i=1,2,...)的计算较为简单时,可以利用全概率公式计算P(A)。思想就是,将事件A分解成几个小事件,通过求小事件的概率,然后相加从而求得事件A的概率,而将事件A进行分割的时候,不是直接对A进行分割,而是先找到样本空间Ω的一个个划分B1,B2,...Bn,这样事件A就被事件AB1,AB2,...ABn分解成了n部分,即A=AB1+AB2+...+ABn, 每一Bi发生都可能导致A发生相应的概率是P(A|Bi),由加法公式得

         P(A)=P(AB1)+P(AB2)+....+P(ABn)

               =P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(PBn)

  贝叶斯公式:

    与全概率公式解决的问题相反,贝叶斯是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件Bi的概率),设B1,B2,...是样本空间Ω的一个划分,则对任一事件A(P(A)>0),有

      

        B常被视为导致试验结果A发生的”原因“,P(Bi)(i=1,2,...)表示各种原因发生的可能性大小,故称先验概率;P(Bi|A)(i=1,2...)则反映当试验产生了结果A之后,再对各种原因概率的新认识,故称后验概率。

   贝叶斯公式的应用:

    

     

  两学派的认知:【频率学派 && 贝叶斯学派】

    

  贝叶斯公式扩展:

    

  两点分布:

    

  二项分布:【伯努力分布】

    

  泊松分布【Taylor展式结合】:

    

    

  泊松分布的应用:

    

  连续分布之均匀分布:

    

   连续分布之指数分布:

      

  指数分布的无记忆性:

    

  连续分布之正态分布【高斯分布】:

     

  总结:

    

  指数族:

    二项分布【伯努力分布】,正态分布【高斯分布】属于指数族

  logistic函数【sigmod函数】:

    

  Logistic函数的导数:

     

 期望:

    

  期望的性质:

    

    note: P(xy) = P(x) P(y)   -->  x, y独立

  方差:

    

  协方差:

    

  协方差、独立、不相关关系:

    

  协方差的意义:

    

  协方差的上界:

    

       

  独立一定不相关,不相关不一定独立,不相关只是线性独立,可能是非线性不独立;

相关系数:

   

   其中:Var(x): 标准差;

 协方差矩阵:

    

   原点矩 和 中心矩

    

     期望为一阶原点矩, 方差为2阶中心矩

 概念总结:

    

  偏度:

        

      偏度为0, 则是正态分布

  偏度公式:

      

  峰度:

      

  应用:

    

    

  引入切比雪夫不等式:

    

  大数定理:

    

    

  中心极限定理:

    

  标准的中心极限定理的问题:

    

  中心极限定理的意义:

    

  样本的统计量:

    

  样本的矩:

    

  随机变量的矩 和 样本的矩, 有什么关系呢??

    

  矩估计:【非常重要】

     

  正态分布的矩估计:

    

  均匀分布的矩估计:

    

  贝叶斯公式带来的思考:

    

  最大似然估计:

      

  极大似然估计的具体实践:

      

  极大似然估计的应用:

      

  正态分布的极大似然估计:

    

        

    

  总结:

    

  极大似然估计与过拟合:

    

    5、 10 为超参数;

原文地址:https://www.cnblogs.com/chris-cp/p/7688289.html