学生t-分布(Student's t-distribution),可简称为t分布。
关于t 分布的早期理论工作,是英国统计学家威廉•西利•戈塞特(WillamSealy Gosset)在1900年进行的。
应用在估计呈正态分布的母群体之平均数。 t分布是小样本分布,t分布适用于当总体标准差R未知时用样本标准差s代替总体标准差R,由样本平均数推断总体平均数。它是对两个样本均值差异进行显著性测试的学生t检定的基础。学生t检定改进了Z检定,因为Z检定以母体标准差已知为前提。虽然在样本数量大(超过30个)时,可以应用Z检定来求得近似值,但Z检定用在小样本会产生很大的误差,因此必须改用学生t检定以求准确。
在母体标准差未知的情况下,不论样本数量大或小皆可应用学生t检定。在待比较的数据有三组以上时,因为误差无法压低,此时可以用变异数分析(ANOVA)代替学生t检定。
为样本均值。
为样本方差的无偏估计量. V可以被定义为
其中有一个自由度为n − 1的卡方分布(由 Cochran定理得知),Z可以被定义为
Z呈正态分布并且均值和方差分别为0和1。它的样本方差 也是一个服从均值 μ和方差σ2/n的正态分布, 其中Z和V是相互独立的
T和Z不同的是实际的标准差σ被随机变量Sn取代,我们注意到未知总体方差 σ2在T中没有出现,因为分子和分母都有一个σ,所以他们抵消了。
联合密度函数
因为Z,V是相互独立的,所以它们的联合密度函数为各自的密度函数的乘积。
(1) Z
(-∞ < u < +∞)
(2) V
(0 ≤ v < +∞)
我们记 p(u, x)为它们的联合概率密度函数,然后有
(1)
t分布的分布函数
令F(t)为T的累积分布函数,根据分布函数的定义,F(t)是T小于等于t的概率:
根据多变量分布函数的定义,这个概率等同于变量U和X在限制区域上的联合概率密度函数p(u, x)的双重积分,且积分区域为限制条件 u ≤ (x/n) 1/2. t下的区域,这个区域就是下图蓝色曲线以下的区域
把(1)代入上式有
T的密度函数
这个复杂的积分无法写成闭式的形式,幸运的是我们不需要算它的积分,我们只需要它对t的导数。那么先让我们看看F(t)的结构
F(t)能够被写成如下形式:
令
现在对F微分,我们便得到:
令
这个积分是关于t的函数,通过链式法则:
如果h(g(t))
如果h(g(t))
第一项为
我们将g(t)代入u得:
第二项是
最终得到:
将这几项相结合便得到:
再令y = (1 + t²/n)x
然后我们得到
积分项正好是Gamma函数
合并入整个式子得到t的分布函数,并且自由度是n:
下面是几种特殊的情况:
n = 1, 柯西分布
n=2
n=3
关于n = ∞,下面要进行详细的解释:
函数项
当n趋向于无穷时,为无穷小项,而对于log(1 + x)的taylor展开有:
所以
现在再回头看看t分布的系数。
情况1: n为偶数,设n = 2p;
根据Stirling公式: n! ~ n n e- n(2πn) 1/2 有
(2p )! ~ (2p)2pe -2p(2π.2p) 1/2
(p !)² ~ (p p )2(e-p) 2.2π p
将此代入到C2 p有
情况2: n为奇数,设n = 2p+1;
(2p )! ~ (2p) 2pe - 2p (2π.2p) 1/2
(p !)² ~ (p p )2( e-p) 2.2π p
将此代入到C2 p有
所以,当n趋向于无穷时有:
方差的求解:
方法一:直接方法
其中
令
其中
,
首先计算,
令 x²/ n = tan²θ
同样算得:
这种类型的积分叫做Wallis积分。
现在让我们计算它的通用表达方式:
再令
u' = cos n - 2 (θ)sin(θ)
v = sin( θ)
利用下式:
有
因此可以得到Wn = Wn - 2 + Wn / (n - 1)
Wallis积分是一个递归表达式,n为偶数或者奇数时分别取不同的结果
当n为偶数时
当n为奇数时
由于Var( Tn ) = C n I n, 分别将C n和 I n代入式中,最终得到的方差为
方法二: LOTUS
根据定义
设x = 2y 然后得到dx = 2dy