CDA 数据分析师 level1 part 4

数据分析师

 
 
 

数据分析师

假设检验


假设检验的基本步骤(以两个总体均值的假设检验为例):

(1)建立原假设H成立,备择假设H1;原假设Ho:从1=2(或μ1≥μ2,或μ1≤μ2),备择假设H1从1≠μ2(或从1<μ2,或μ1>μ2)。一般假设H为真,对其统计检验;H与H1对立,两者择一。(2)确定小概率事件的界值。一般情况下我们将p<0.05或p<0.01作为小概率的界值。(这里的0.05和0.01称为显著性水平)。
(3)获取样本,即随机抽样。
(4)选择检验的方法,选择具体的检验统计量并计算。
(5)确定P值,并根据P值与显著性水平的关系得出相应结论。

假设检验的两类错误

接收H0拒绝H0
H0为真 正确
H0为假 II型错误

注意事项:拒绝或无法拒绝假设,并不等于100%正确,两类错误的概率相加并不一定等于1,样本量不变的情况下,错误不能同时增大或减小

假设检验的基本思想及遵循这样的思想、步骤等过程对业务与数据分析流程的指导作用
假设检验的基本思想为验证性数据分析,调先验理论在数据分析中的核心地位。从提出假设理论出发,到验证假设的过程提示,数据分析理论的先导作用,所以业务流与假设检验的步骤可以大体概括如下:
(1)建立原假设成立,确定业务需求,明确目的;
(2)确定小概率事件的界值,概率界值在不同行业中通用;
(3)获取样本,收集或调查数据;
(4)选择检验的方法。选择具体的统计方法;
(5)确定P值,根据原需求和数据得出结论,需求目的是否得到支持。
所以可以看出,业务流程的数据分析与假设检验的流程是一致的。

z统计量的函数形式

一个总体,总体均值的假设检验,总体正态,总体方差已知,可以用样本均值的标准误差,按正态分布计算临界比率

 

z=frac{overline{x}-mu_0}{frac{sigma}{sqrt{n}}}


一个总体,总体均值的假设检验,总体为非正态分布,总体方差未知,大样本。原则上用非参数检验;0n的样本量较大(0大于等于30或50),服从近似正态分布(总体已知)。

 

z=frac{overline{x}-mu_0}{frac{S}{sqrt{n}}}

t统计量的函数形式
一个总体,总体均值的假设检验,总体正态,总体方差未知,小样本(通常是指小于30)

 

t=frac{overline{x}-mu_0}{frac{S}{sqrt{n}}}

卡方统计量的函数形式
卡方检验统计量用户单总体的方差检验

 

X^2=frac{(n-1)S^2}{sigma^2}~X^2(n-1)

F统计量的函数形式
F检验统计量用于两个总体方差检验
原假设H0

sigma^2_1=sigma^2_2


检验统计量

F=frac{S^2_1}{S^2_2}~F(n_1-1,n_2-1)

利用P值进行检验

P值是一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率,可以表示对原假设的支持程度,是用于确定是否应该拒绝原假设的一种方法,当P值小于显著性水平的时候,就需要拒绝原假设,否则就无法拒绝原假设。

左侧检验的P值为检验统计量X小于样本统计值C的概率,即:P=P{X

单侧检验
(以右侧检验为例)P值为样本统计值X(将样本值带入检验统计量中的计算结果)右侧的面积(概率)

双侧检验
P值为样本统计值得绝对值右侧面积的两倍

原文地址:https://www.cnblogs.com/pandaboy1123/p/11984021.html