学生t分布

学生t-分布(Student's t-distribution),可简称为t分布。

关于分布的早期理论工作,是英国统计学家威廉西利戈塞特(WillamSealy Gosset)在1900年进行的。

应用在估计呈正态分布的母群体之平均数。 t分布是小样本分布,t分布适用于当总体标准差R未知时用样本标准差s代替总体标准差R,由样本平均数推断总体平均数。它是对两个样本均值差异进行显著性测试的学生t检定的基础。学生t检定改进了Z检定,因为Z检定以母体标准差已知为前提。虽然在样本数量大(超过30个)时,可以应用Z检定来求得近似值,但Z检定用在小样本会产生很大的误差,因此必须改用学生t检定以求准确。

在母体标准差未知的情况下,不论样本数量大或小皆可应用学生t检定。在待比较的数据有三组以上时,因为误差无法压低,此时可以用变异数分析(ANOVA)代替学生t检定。
 
假设X是呈正态分布的独立的随机变量(随机变量的期望值\mu 方差\sigma )。 令:
\overline {{X_n}}  = ({X_1} + {X_2} + ... + {X_n})/n
 
为样本均值。
{S_n} = \frac{1}{{n - 1}}\sum\limits_{i = 1}^n {({X_i}}  - \overline {{X_n}} {)^2}
 
为样本方差的无偏估计量. V可以被定义为
X = (n - 1)\frac{{S_n^2}}{{{\sigma ^2}}}
其中有一个自由度为n − 1的卡方分布(由 Cochran定理得知),Z可以被定义为
U = \left( {{{\bar X}_n} - \mu } \right)\frac{{\sqrt n }}{\sigma }
 
 
Z呈正态分布并且均值和方差分别为0和1。它的样本方差 \overline {{X_n}} 也是一个服从均值 μ和方差σ2/n的正态分布, 其中Z和V是相互独立的
T \equiv \frac{U}{{\sqrt {X/n} }} = \left( {{{\bar X}_n} - \mu } \right)\frac{{\sqrt n }}{{{S_n}}}
T和Z不同的是实际的标准差σ被随机变量Sn取代,我们注意到未知总体方差 σ2在T中没有出现,因为分子和分母都有一个σ,所以他们抵消了。
 
 
联合密度函数
因为Z,V是相互独立的,所以它们的联合密度函数为各自的密度函数的乘积。
(1)  Z
U\~\frac{1}{{\sqrt {2\pi } }}{e^{ - \frac{{{u^2}}}{2}}}                (-∞ < u < +∞)
 
(2) V
X\~\frac{1}{{\Gamma (\frac{n}{2}){2^{\frac{n}{2}}}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}    (0 ≤ < +∞)
 
我们记 p(ux)为它们的联合概率密度函数,然后有
p(u,x) = \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{\frac{n}{2}}}}}{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}   (1)
 
t分布的分布函数
令F(t)为T的累积分布函数,根据分布函数的定义,F(t)是T小于等于t的概率:
 F(t) = P\{ \frac{U}{{\sqrt {\frac{X}{n}} }} \le t\} = P\{ U \le \sqrt {\frac{X}{n}} .t\}
 
 
根据多变量分布函数的定义,这个概率等同于变量U和X在限制区域上的联合概率密度函数p(u, x)的双重积分,且积分区域为限制条件 u ≤ (x/n1/2t下的区域,这个区域就是下图蓝色曲线以下的区域
 


F(t) = \int\limits_0^\infty {\int\limits_{ - \infty }^{\sqrt {\frac{x}{n}.t} } {p(u,x)dudx} }
 
把(1)代入上式有
 
F(t) =   \int_0^\infty {\int_{ - \infty }^{\sqrt {\frac{x}{n}.t} } {\frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{\frac{n}{2}}}}}{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }
 
T的密度函数
这个复杂的积分无法写成闭式的形式,幸运的是我们不需要算它的积分,我们只需要它对t的导数。那么先让我们看看F(t)的结构
F(t)能够被写成如下形式:
g(t) = \sqrt {\frac{x}{n}.t}
 
F(t) = K.\int_0^\infty {[\int_{ - \infty }^{g(t)} {h(u).du]l(x).dx} }
 
现在对F微分,我们便得到:
F'(t) = K.\int_0^\infty {[\frac{d}{{dt}}\int_{ - \infty }^{g(t)} {h(u).du]l(x).dx} }
 
令 
A = \frac{d}{{dt}}\int_{ - \infty }^{g(t)} {h(u).du}
这个积分是关于t的函数,通过链式法则:
如果h(g(t))
\frac{{dh}}{{dt}} = \frac{{dh}}{{dg}}.\frac{{dg}}{{dt}}
 
A = h(g(t)).\frac{{dg}}{{dt}}
 
第一项为
h(u) = \frac{{{e^{ - \frac{{{u^2}}}{2}}}}}{{{2^{\frac{{n + 1}}{2}}}}}
 
我们将g(t)代入u得:
h(u) = \frac{{{e^{ - \frac{{x.{t^2}}}{{2n}}}}}}{{{2^{\frac{{n + 1}}{2}}}}}
第二项是
\frac{{dg(t)}}{{dt}} = \sqrt {\frac{x}{n}}
 
最终得到:
A = \frac{{{e^{ - \frac{{x.{t^2}}}{{2n}}}}}}{{{2^{(n + 1)/2}}}}.\sqrt {\frac{x}{n}}
 
将这几项相结合便得到:
{f_n}(t) = \frac{1}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}\int_0^\infty {\frac{{{x^{(n + 1)/2 - 1}}{e^{ - \frac{x}{2}(1 + \frac{t}{n})}}}}{{{2^{(n + 1)/2}}}}dx}
再令y = (1 + t²/n)x
dx = \frac{1}{{1 + \frac{{{t^2}}}{n}}}dy
 
然后我们得到
{f_n}(t) = \frac{1}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}[\frac{1}{{{{(1 + \frac{{{t^2}}}{n})}^{(n + 1)/2}}}}]\int_0^\infty {\frac{{{y^{(n + 1)/2 - 1}}{e^{ - \frac{y}{2}}}}}{{{2^{(n + 1)/2}}}}dy}
 
积分项正好是Gamma函数\Gamma (\frac{{n + 1}}{2})
 
合并入整个式子得到t的分布函数,并且自由度是n:
{f_n}(t) = \frac{{\Gamma (\frac{{n + 1}}{2})}}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}[{(1 + \frac{{{t^2}}}{n})^{ - (n + 1)/2}}]
下面是几种特殊的情况:
n = 1, 柯西分布
 
f(t) = \frac{1}{{\pi (1 + {t^2})}}
 
n=2
f(t) = \frac{1}{{{{\left( {2 + {t^2}} \right)}^{\frac{3}{2}}}}}
n=3
f(t) = \frac{{6\sqrt 3 }}{{\pi {{\left( {3 + {t^2}} \right)}^2}}}
关于n = ∞,下面要进行详细的解释:
函数项
[{(1 + \frac{{{t^2}}}{n})^{ - (n + 1)/2}}]
当n趋向于无穷时,{{t^2}/n}为无穷小项,而对于log(1 + x)的taylor展开有:
log\left( {1{\rm{ }} + x} \right) = x - \frac{{{x^2}}}{2} + \frac{{{x^3}}}{3} - ... = \sum\limits_{i = 1}^\infty {{{( - 1)}^{i - 1}}\frac{{{x^i}}}{i}}
 
log[{\left( {1{\rm{ }} + \frac{{{x^2}}}{n}} \right)^{\frac{{n + 1}}{2}}}]= \frac{{n + 1}}{2}\log (1{\rm{ }} + \frac{{{x^2}}}{n}) = \frac{{n + 1}}{2}.(\frac{{{x^2}}}{n} - \frac{{{x^4}}}{{2{n^2}}} - ...)
 
{\lim }\limits_{n \to \infty } log[{\left( {1{\rm{ }} + \frac{{{x^2}}}{n}} \right)^{\frac{{n + 1}}{2}}}] = {\lim }\limits_{n \to \infty } \frac{{(n + 1){x^2}}}{{2n}} = \frac{{{x^2}}}{2}
 
所以
{\lim }\limits_{n \to \infty } \frac{1}{{{{\left( {1{\rm{ }} + \frac{{{x^2}}}{n}} \right)}^{\frac{{n + 1}}{2}}}}} = {e^{ - \frac{{{x^2}}}{2}}}
 
现在再回头看看t分布的系数。
情况1: n为偶数,设n = 2p;
{C_{2p}} = \frac{1}{{\sqrt {2p} }}.\frac{{(2p)!p}}{{({2^{2p}}){{(p!)}^2}}}
 
根据Stirling公式: n! ~ n n e- n(2πn1/2 
(2p )! ~ (2p)2pe -2p(2π.2p1/2
(p !)² ~ (p p )2(e-p2.2π p
将此代入到C2 p
{\lim }\limits_{p \to \infty } {C_{2p}} = \frac{1}{{\sqrt {2\pi } }}
 
情况2: n为奇数,设n = 2p+1;
{C_{2p}} = \frac{1}{{\sqrt {2p + 1} }}.\frac{{({2^{2p}}){{(p!)}^2}}}{{(2p)!\pi }}
 
(2p )! ~ (2p2pe - 2p (2π.2p1/2
(p !)² ~ (p p )2e-p2.2π p
 
将此代入到C2 p
{\lim }\limits_{p \to \infty } {C_{2p}} = \frac{1}{{\sqrt {2\pi } }}
 
所以,当n趋向于无穷时有:
{\lim }\limits_{n \to \infty } f(x) = \frac{1}{{\sqrt {2\pi } }}{e^{ - \frac{{{x^2}}}{2}}}
方差的求解:
方法一:直接方法
E[{X^2}] = \int\limits_{ - \infty }^\infty {{x^2}p(x)dx = {C_n}\int\limits_0^\infty {\frac{{{x^2}}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} } dx
其中
{C_n} = \frac{{\Gamma (\frac{{n + 1}}{2})}}{{\sqrt {n\pi } \Gamma (\frac{n}{2})}}
 
{I_n} = \int\limits_0^\infty {\frac{{{x^2}}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx
 
{I_n} = \int\limits_0^\infty {\frac{{{x^2} + n}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx - \int\limits_0^\infty {\frac{n}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx = {J_n} - {K_n}
其中
 
{J_n} = \int\limits_0^\infty {\frac{{{x^2} + n}}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx{K_n} = \int\limits_0^\infty {\frac{n}{{{{(1 + \frac{{{x^2}}}{n})}^{(n + 1)/2}}}}} dx
 
 
首先计算{J_n}
令 x²/ n = tan²θ
{J_n} = n\sqrt n \int\limits_0^{\pi /2} {\frac{1}{{{{(1 + {{\tan }^2})}^{(n - 1)/2}}}}} .\frac{1}{{\cos \theta }}d\theta
= {n^{\frac{3}{2}}}\int\limits_0^{\pi /2} {\frac{{{{({{\cos }^2}\theta )}^{(n - 1)/2}}}}{{{{\cos }^2}\theta }}} d\theta = {n^{\frac{3}{2}}}\int\limits_0^{\pi /2} {{{\cos }^{n - 3}}(\theta )} d\theta
 
同样算得:
{K_n} = {n^{\frac{3}{2}}}\int\limits_0^{\pi /2} {{{\cos }^{n - 1}}(\theta )} d\theta
这种类型的积分叫做Wallis积分。
现在让我们计算它的通用表达方式:

{W_n} = \int\limits_0^{\pi /2} {{{\cos }^n}(\theta )} d\theta
 
= \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta )} {\cos ^2}(\theta )d\theta = \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta )} [1 - {\sin ^2}(\theta )]d\theta
= \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta )} d\theta - \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta ){{\sin }^2}(\theta )} d\theta
= {W_{n - 2}} - \int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta ){{\sin }^2}(\theta )} d\theta
 
再令
u' = cos n - 2 (θ)sin(θ)
v = sin( θ)
利用下式:
\int\limits_0^{\pi /2} {u'v} d\theta = [uv]_0^{\pi /2} - \int\limits_0^{\pi /2} {uv'} d\theta 有


\int\limits_0^{\pi /2} {{{\cos }^{n - 2}}(\theta ){{\sin }^2}(\theta )} d\theta
= [ - \frac{{{{\cos }^{n - 1}}(\theta )sin(\theta )}}{{n - 1}}]_0^{\pi /2} + \frac{1}{{n - 1}}\int\limits_0^{\pi /2} {{{\cos }^n}(\theta )} d\theta
= 0 + {W_n}/(n - 1)
 
因此可以得到Wn = Wn - 2  +  Wn / (n - 1)
Wallis积分是一个递归表达式,n为偶数或者奇数时分别取不同的结果
当n为偶数时
{W_{2p}} = \frac{{(2p)!}}{{{2^{2p}}{{(p!)}^2}}}.\frac{\pi }{2}
当n为奇数时
{W_{2p - 1}} = \frac{{{2^{2p}}{{(p!)}^2}}}{{2p(2p!)}}
 
由于Var( Tn ) = C n I n, 分别将n和 n代入式中,最终得到的方差为
Var({T_n}) = \frac{n}{{n - 2}}
方法二: LOTUS
根据定义
E[Z] = \int {\int {f(u,x)p(u,x)dudx} }
 
Var({T_n}) = E[T_n^2]
= \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{n/2}}}}\int_{ - \infty }^\infty {\int_0^\infty {T_n^2{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }
= \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{n/2}}}}\int_{ - \infty }^\infty {\int_0^\infty {{{(\frac{u}{{\sqrt {\frac{x}{n}} }})}^2}{e^{ - \frac{{{u^2}}}{2}}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }
 
= \frac{1}{{\sqrt {2\pi } \Gamma (\frac{n}{2}){2^{n/2}}}}\int_{ - \infty }^\infty {\int_0^\infty {{u^2}{e^{ - \frac{{{u^2}}}{2}}}{x^{ - 1}}{x^{\frac{n}{2} - 1}}{e^{ - \frac{x}{2}}}dudx} }
= \frac{1}{{\Gamma (\frac{n}{2}){2^{n/2}}}}\int_{ - \infty }^\infty {\frac{1}{{\sqrt {2\pi } }}{u^2}{e^{ - \frac{{{u^2}}}{2}}}du\int_0^\infty {{x^{\frac{{n - 2}}{2} - 1}}{e^{ - \frac{x}{2}}}dx} }
 
x = 2y  然后得到dx = 2dy
\int_{ - \infty }^\infty {{{(\frac{y}{2})}^{\frac{{n - 2}}{2} - 1}}} {e^{ - y}}\frac{1}{2}dy = \frac{1}{{{2^{(n - 2)/2}}}}\int_0^\infty {{y^{\frac{{n - 2}}{2} - 1}}{e^{ - y}}dy}= \frac{1}{{{2^{(n - 2)/2}}}}\Gamma (\frac{n}{2} - 1)
 
 
\Gamma (\frac{n}{2} - 1) = \frac{1}{{n/2 - 1}}\Gamma (\frac{n}{2}) = \frac{2}{{n - 2}}\Gamma (\frac{n}{2})
 
Var({T_n}) = \frac{n}{{n - 2}}
原文地址:https://www.cnblogs.com/frischzenger/p/3003372.html