怎样测试一个样本是否符合某种分布

chi-square test(goodness of fit)

举个例子khanacademic上的例子,某人A给出某餐馆每日客流量的分布(周日休息)为M(10),T(10),W(15),T(20),F(30),S(15),总共100,而我自己观察一周的结果是M(30),T(14),W(34),T(45),F(57),S(20),总共200,那么我可以通过计算观察值和预期值之间的关系是否是chi-square分布来查看他们是否是相同的分布,这里χ是希腊字母开,不是大写X

χ^2=(30-20)^2/20+(14-20)^2/20+(34-30^2)/30+(45-40)^2/40+(57-60)^2/60+(20-30)^2/30=11.44...

由于χ^2为6项之和,而如果我们知道其中5项就可得知最后一项,在统计模型的自变量等于可自由取值的自变量个数,如果在回归方程中,如果有p个参数,按么自变量的个数为p-1,所以这里D.F.=(6-1)=5,而通过查表得知,自由度为5的chi-square分布显著性差异为5%时χ^2=11.07,那个这个例子得到的实际χ^2=11.44, 大于11.07也就出说观察值和预期值的差异大于显著性差异5%,由于偏差过大,也就否定了A给出的假设

 这里抄一段wikipedia的解释

  • 估计总体的方差sigma时所使用的統計量是樣本的方差s,而s必須用到樣本平均數xbar來計算。xbar在抽樣完成後已確定,所以大小為n的樣本中只要n个数确定了,第n個數就只有一個能使樣本符合xbar的數值。也就是說,樣本中只有n-1個數可以自由變化,只要確定了這n-1個數,方差也就确定了。这裡,平均數xbar就相当于一个限制条件,由于加了这个限制条件,樣本方差s的自由度为n-1

为啥要用chi-square test呢,因为如果一组观察值的每个值是符合正态分布,那么(Xi-Xbar)^2就符合n-1自由度的chi-squared分布

原文地址:https://www.cnblogs.com/16264412xm/p/6437585.html