数理统计要点

虽然我也粗读过统计学的几本书,但从易懂性来说,都没有学校老师给的ppt好,或者说自己看书比较困难,但是听老师讲课就很容易懂。所以,我建议有条件的同学能够选修统计学这门课,没条件的同学可以去网上找一些相关视频,配套书籍可以选择茆诗松的《概率论与数理统计》。另外,《Head First Statistics》一书可以用来预热。

学了统计学,你至少应该知道:

一、概率论


  互斥事件、对立事件、独立事件:

    互斥事件为同一样本空间中,A、B事件无交集,只要A发生了,B就不可能发生,但A发生了,B不一定发生(有可能是C、D……其它事件发生);对立事件为样本空间中仅有A、B两个可能事件,非A即B;独立事件,A、B分处不同样本空间,互不影响

  古典概型

    随机事件仅包含有限个事件,且每个事件出现的可能性相同

 

  先验概率、后验概率

    由以往数据分析得到的概率叫先验概率;得到最新信息后,再重新加以修正的概率叫后验概率

  全概率公式

    

  贝叶斯公式

    

  有放回的抽样(独立重复抽样)

    二项分布:n次0-1分布重复试验,某事件发生k次的概率。公式:B(n,p)=P(X=k)=(n,k)pk(1-p)n-k,k=0,1,2,…;

    负二项分布(帕斯卡分布):n次0-1分布重复试验,直到某事件发生k次的概率(即:最后1次一定发生,前n-1次发生k-1次即可),为二项分布的变体。公式:P(X=k)=(n-1,k-1)pk(1-p)n-k

    几何分布:n次0-1分布重复试验,某事件直到第k次首次发生的概率(即:前k-1次一定都不发生,只有一种可能性)。公式 G(p) =p(1-p)k-1,k=1,2,…,它的一个重要性质是无记忆性。

  不放回抽样

    超几何分布:在不放回抽样中,利用排列组合精确计算,事实上当N很大时,可近似二项分布计算。如:共有N个球,其中红球个数为D,其余为白球,从中抽n个球出来,求抽中k个红球的概率,即为超几何分布问题,其公式为: 

二、描述性统计


  统计量

    描述水平的统计量

      均值、中位数、分位数、四分位间距(IQR)

    描述差异 (离散)的统计量

      方差、标准差(均方根差)、极差、均方误差(MSE)、均方根误差(RMSE)

    描述分布形状的统计量

      偏度、峰度

    

  常用概率分布及应用

    离散型

      0-1分布、二项分布、几何分布、超几何分布(注:不放回抽样)、泊松分布

    连续性

      均匀分布、指数分布、正态分布(高斯分布)、卡方分布、t分布、F分布

      ps:正态分布是自然界最常见的一种分布。该分布由两个参数——平均值和方差决定。它和其它各种分布都有着直接或间接的联系,比如说此题中二项分布,其实每个人抽取n次,最后的结果都是不尽相同的,这是由于抽样误差引起的。但是,如果好多人(N)都做这么一次试验(每个人都抽n次,并记录下正品数),那么这N个人抽到的正品数的分布就是一个正态分布了。

       

三、推断性统计

——>以小推大,以微观推宏观,以样本推总体


  样本与总体分布的关系及检验统计量

    样本与总体分布的关系(理论依据

      大数定理 ——>就是当样本容量独立随机且足够大的时候,样本均值就约等于总体均值。

      中心极限定理 ——>无论原本的总体是什么鬼分布,通通不管,只要抓出来的样本足够,就可以看作是正态分布

    检验统计量(非常重要

      正太分布——>Z统计量,可以用作区间估计的枢轴量,也可以用作假设检验中的检验统计量

      卡方分布——>主要用来单总体方差检验,另外还用于分布拟合(优度拟合)和独立性检验。

      t 分布——>这家伙的图形与正态分布根本看不出太大区别,主要用于假设检验的均值检验(特别是小样本和未知总体方差的检验)。对于大于120的样本,t检验和正太的Z检验等效。用于对小批量样本时,使用样本方差代替总体方差的统计量只要把Z统计量中的σ换成S就可以了,不过注意的是查的表是不一样的,它查的是t分数表,查的是自由度和概率、分数三者的关系!

      F分布——>主要用于假设检验中的方差齐性检验。比较两个样本的方差是否齐性,以及单/多因素试验中的方差分析。

  参数估计

    点估计——>是估计参数一个确定的值。

      矩估计法

      最大似然估计法

    区间估计——>估计参数的范围。估计这个参数有多大的概率(即置信水平:1-α。为何是1-α而不是α,这是约定俗成的问题,α在假设检验的时候,叫显著水平,那么置信水平就是1-显著水平了)落在某个区间范围(即置信区间,置信下限,置信上限)。 

      计算步骤

        1、判断是否正态总体
        2、找到枢轴量(简单的说,就是一个关于随机变量X及参数的函数。它有自己单独的,与变量及参数都无关的分布,这样就可以用过这个分布来确定函数内的参数的置信区间)
        3、利用枢轴量函数的分布求出置信水平1α的置信区间,根据枢轴量函数计算出θ的置信区间。

  假设检验——>假设检验与参数估计其实是一样意思,区别就是再多做两步工作(先假设+最后再判断)

    基本思路:小概率反证法思想。小概率思想认为小概率事件在一次试验中基本上不可能发生。在这个方法下,即我们首先对总体作出一个通常大概率会成立的原假设H0(它的反面就是备择假设H1),然后想办法证明它的对立面(备择假设H1)条件下的小概率极端事件发生了,以此来拒绝原假设。

    比如:原假设两个总体没有显著性差异,备择假设两个总体有显著差异。之后我们可则以构造一个与此相关的描述两个样本差异尺度的检验统计量F,如果该统计量F非常的大(即已经超过了一定的临界值F( α)),那么试验结果和原假设相背离,我们则可以认为这种差异并不仅仅是由抽样误差带来的,就有理由怀疑原假设的真实性,因此我们可以拒绝原假设,认为两个总体有显著差异。

    进一步来看,除了通过计算检验统计量是否超过临界值进行判断之外,还可以计算P值。P值的含义是,当原假设为真的情况下,根据样本所计算得到的检验统计量F极端小概率事件发生的概率。因此可知,当P值小于640?wx_fmt=png,则检验统计量F大于临界值F( α),我们可以拒绝原假设;当P值大于640?wx_fmt=png,则检验统计量F小于临界值F( α),我们不能拒绝原假设。特别地,如果我们的检验统计量F恰好等于临界值F( α),则我们的P值将恰好等于640?wx_fmt=png

    在这里,小概率事件的阈值640?wx_fmt=png,我们称之为检验水平,一般情况下我们取640?wx_fmt=png,即把发生概率小于0.05的事件称之为小概率事件。相反,如果我们假设检验中,没有拒绝原假设,并不意味着我们完全接受原假设,只是说明样本数据的“证据”不足,暂时不拒绝原假设。

    计算步骤:

      1、建立假设检验,原假设H0和备择假设H1

      2、选择假设检验方法和计算检验统计量

      3、判断临界值,作出是否拒绝原假设结论

    置信区间法 

      1、判断是否正态总体+建立原假设(以及备择假设)+确定检验水平(即区间临界值或p阈值)
      2、找到检验统计量(在区间估计中叫枢轴量)
      3、利用检验统计量的分布求出置信水平的置信区间,根据检验统计量计算出的置信区间,若落在置信区间以外,则可以拒绝原假设;若落在置信区间之内,则不能拒绝原假设(注意,这里是不能拒绝原假设,即没有足够的理由否定拒绝原假设,不是接受原假设,两者不一样的;而接受则为可以判断,比如原假设是有只有1块钱在身上,不能拒绝原假设的意思是,我不知道你有没有1块钱在身上,你有可能没钱,有可能只有1块钱,也有可能有很多钱,而接收原假设的意思是,你只有1块钱,这个要非常注意,不能乱作判断!)

    临界值法
      与置信区间法的区别就是,置信区间法是总体均值μ0 与样本均值X¯的置信区间(假设为Z检验统计量),而临界值法则是,基于假设前提下,将总体均值、标准差、样本均值等代入检验统计量中计算,即,并把结果Z与Zα对比,若结果落在Zα以外(即落在拒绝域意外,则表示与原假设H0对立的备择假设H1下的小概率事件发生了),则拒绝原假设,接受备择假设,若不是,则不能拒绝原假设。

    P值法(常用
      与临界值法的区别就是,基于假设前提下,代入计算检验统计量(同样假如为Z检验统计量),并计算在这个结果下P值(P-value)的大小,由P值与指定的显著水平α(阈值)进行比较,若P值小于α,则为显著拒绝原假设。另外,P值也代表着拒绝原假设的最小显著水平。

 

  简单方差分析

  简单回归分析

  ABtest 

    知乎 ABtest的统计原理和效果解读

 重难点>>

  • 基本的抽样方法
    • 随机抽样
    • 分层抽样
    • 整体抽样
    • 系统抽样
  • 数据分布的描述统计量有哪些?一组样本数据分布的数值特诊可以从三个方面进行描述:
    • 描述水平的统计量:
      • 数据的水平:也称为集中趋势或位置度量,反应全部数据的数值大小。
      • 均值、
      • 中位数:与均值相比,中位数对极值并不敏感,因此,它通常更能代表偏斜数据的中心点。
      • 分位数
      • 四分位间距(IQR): IQR=上四分位数-下四分位数=Q3-Q1。常应用:由最小值、下四分位数、中位数、上四分位数、最大值五个数可以画出箱线图,同时,通常以双侧大于1.5IQR作为异常值的判断,去掉异常值之后,再做箱线图,称为修正箱线图。
      • 众数
    • 描述差异 (离散)的统计量
      • 数据的差异:反应数据间的离散程度。
      • 方差:度量变量和其数学期望(即均值)之间的偏离程度。计算方式——>各个数据分别与其平均数之差的平方的和的平均数 D(X)=E{[XE(X)]2}。
      • 标准差(又叫均方根差):为了让方差结果更符合我们的直观思维,改进为标准差。计算方式——>方差开根号
        。举个例子:一个班级里有60个学生,成绩服从正态分布,平均成绩是70分,标准差是9,方差是81,那么我们通过方差不能直观的确定班级学生与均值到底偏离了多少分,通过标准差我们就很直观的得到学生成绩分布在[61,79]范围(μ-σ,μ+σ)的概率为0.6826,即约等于下图中的34.2%*2。
      •                                                                                
      • 极差:最大值-最小值 来评价一组数据的离散度。
      • 四分位差
      • 变异系数(COV):一种相对变异性的度量。计算方法——>标准差 δ/均值μ,作用是消除量纲。所以可以用来比较均值显著不同的总体的离散性。
      • 标准分数
      • MSE (Mean Squared Error)均方误差:
      • RMSE(Root Mean Squard Error)均方根误差:标准差(均方根差)是变量数据与其均值的离散关系,通常用来衡量一组数自身的离散程度。而均方根误差是变量数据与真实值之间的偏差关系,用来衡量观测值同真实值之间的偏差。它们的计算过程类似,但是研究对象和研究目的不同。
      • RMS(Root Mean Squard)均方根值:计算方法——>变量数据先平方、再平均、然后开方,
        即当真值为0时的均方根误差。在物理学中,常用均方根值来分析噪声。
      • MAE(平均绝对误差)
      • R-squared(确定系数 /拟合优度):拟合优度是反映线性回归对观测值的拟合程度。那么度量拟合优度的统计量就是可决系数(亦称确定系数)R^2。R^2的取值范围是[0,1]。R^2的值越接近1,说明拟合程度越好。
      • 均值标准误(SE Mean):度量样本均值多大精确程度地估计总体均值,并用于创建总体均值的置信区间。它等于样本标准差 (s) 除以样本数量 (n) 的平方根。
    • 描述分布形状的统计量
      • 分布的形状:反应数据分布的偏度和峰度。
      • 偏度、峰度
  • 了解重要的描述性分布,比如正态分布、chi-square分布、t分布、F分布等。
  • 推断统计的 假设检验是用来做什么的?置信区间的概念
    • 假设检验和区间(参数)估计联系:
      • 二者都属于统计推断——利用样本数据统计量(statistic),对总体统计量(参数 parameter)的论断。都是以抽样分布为理论依据,建立在概率基础上的论断。论断结果有一定的可信程度或风险。
      • 对于同一统计量(问题参数)进行推断,二者使用同一样本、统计量、分布,因而区间估计问题和假设检验问题是可以相互转换的。区间估计中的置信区间对应于假设检验中的接受区域,置信区间以外的区域就是假设检验中的拒绝域
    • 区别:
      • 区间估计是根据样本统计量,来估计总体统计量(参数);
      • 假设检验是根据样本统计量来验证总体统计量的先验统计量(参数)是否成立靠谱。
    • 假设检验用来做什么?
    • 为了从“不确定性”的角度来刻画两个变量的关系,就产生了假设检验,它解决的问题是“在多大程度上,某量A会等于B”,其中的“等于”可以换成“大于”“小于”等等。因为两个常量之间的相等关系是绝对的,你可以绝对地区分“A等于B”。但是,当在两个变量之间的话,就不存在“A等于B,或A不等于B”这种说法了。取而代之,可以用如下的说法“A有90%的可能等于B”,或者“在100次抽样中,A等于B的情况会出现90次”。当限定“程度”时,又可以解决如下问题“在90%的水平上,A会等于B吗?"

      • 在如此的解释框架下,比如,回归得到系数的假设检验,通常就是检验“在某个概率水平上,某个参数A是否等于0”等等。
    • 区间估计
  • 怎样进行数据预处理
  • 怎样整理和显示数据
  • 了解各种图的作用和适用场景,常用图包括散点图、折线图、条形图、直方图、饼图、箱线图、雷达图等

参考

【1】总结非常好的 概率论与数理统计知识点 https://blog.csdn.net/gdyflxw/article/category/6537998

【2】假设检验原理 https://blog.csdn.net/Andy_shenzl/article/details/81453509

【3】如何通俗的理解假设检验基本原理 https://blog.csdn.net/kMD8d5R/article/details/81518219

原文地址:https://www.cnblogs.com/zwt20120701/p/11783734.html