1275 字
6 分钟
统计分布

一、抽样分布定义#

统计量的分布称为抽样分布 (sampling distribution)。在使用统计量进行统计推断时需要知道抽样分布。一般情况下,要给出统计量的精确分布是很困难的,但在某些特殊情形下,如总体服从正态分布的情形下,我们可以给出某些统计量的精确分布,这些精确的抽样分布为正态总体情形下的参数推断提供了理论依据。

在数理统计中,最重要的三个抽样分布为 χ2\chi^{2} 分布,tt 分布和 FF 分布。

二、χ2\chi^2 分布#

1、χ2\chi^2 分布的定义#

X1,X2,,XnX_1,X_2,\cdots,X_n 为独立同分布的随机变量,且都服从标准正态分布N(0,1)N(0,1)。记:

Y=X12+X22++Xn2Y=X_1^2+X_2^2+\cdots+X_n^2

则称YY服从自由度为nnχ2\chi^2分布,记为Yχ2(n)Y\sim\chi^2(n),其中自由度表示上式中独立变量的个数。χ2\chi^2分布的密度函数为:

fχ2(x)={12n/2Γ(n/2)xn21ex2,x>0,0,其他,\left.f_{\chi^2}(x)=\left\{\begin{array}{ll}\frac{1}{2^{n/2}\Gamma(n/2)}x^{\frac{n}{2}-1}\mathrm{e}^{-\frac{x}{2}},&x>0,\\0,&\text{其他,}\end{array}\right.\right.

χ2\chi^2分布的自由度 nn 决定了其密度函数的形状。

2、χ2\chi^2 分布的性质#

  1. χ2\chi^2 分布可加性: 设 Y1χ2(m),Y2χ2(n),m,n1Y_{1} \sim \chi^{2}(m), Y_{2} \sim \chi^{2}(n), m, n \geqslant 1,且两者相互独立, 则 Y1+Y2χ2(m+n)Y_{1}+Y_{2} \sim \chi^{2}(m+n)

证明:根据 χ² 分布的定义, 我们可以把 Y1Y_{1}Y2Y_{2} 分别表示为:

Y1=X12+X22++Xm2Y_{1}=X_{1}^{2}+X_{2}^{2}+\cdots+X_{m}^{2} Y2=Z12+Z22++Zn2Y_{2}=Z_{1}^{2}+Z_{2}^{2}+\cdots+Z_{n}^{2}

其中 X1,X2,,XmX_{1}, X_{2}, \cdots, X_{m}Z1,Z2,,ZnZ_{1}, Z_{2}, \cdots, Z_{n} 都服从标准正态分布 N(0,1)N(0,1), Xi(i=1,2,,m)X_{i}(i=1,2,\cdots,m) 相互独立,Zj(j=1,2,,n)Z_{j}(j=1,2,\cdots,n) 相互独立,且 (X1,X2,,Xm)(X_{1}, X_{2}, \cdots, X_{m})(Z1,Z2,,Zn)(Z_{1}, Z_{2}, \cdots, Z_{n}) 相互独立。根据 χ2\chi^2 分布的定义:

Y1+Y2=X12+X22++Xm2+Z12+Z22++Zn2χ2(m+n)Y_{1}+Y_{2}=X_{1}^{2}+X_{2}^{2}+\cdots+X_{m}^{2}+Z_{1}^{2}+Z_{2}^{2}+\cdots+Z_{n}^{2} \sim \chi^{2}(m+n)
  1. χ2\chi^2 分布的数学期望和方差:设 Yχ2(n)Y \sim \chi^{2}(n),则:
E(Y)=n,Var(Y)=2nE(Y)=n, \quad \operatorname{Var}(Y)=2n

χ2\chi^2 分布的数学期望等于自由度,而方差等于自由度的 22 倍。

证明:设 Yχ2(n)Y \sim \chi^{2}(n), 可以表示为 Y=X12+X22++Xn2Y=X_{1}^{2}+X_{2}^{2}+\cdots+X_{n}^{2}, 其中 XiN(0,1)X_{i} \sim N(0,1) 且相互独立,因而 E(Xi2)=1,i=1,2,,nE(X_{i}^{2})=1, i=1,2,\cdots,n,从而:

E(Y)=E(X12+X22++Xn2)=nE(Y)=E\left(X_{1}^{2}+X_{2}^{2}+\cdots+X_{n}^{2}\right)=n

由分部积分可以得出 E(Xi4)=3E(X_{i}^{4})=3,于是:

Var(Xi2)=E(Xi4)(E(Xi2))2=31=2\operatorname{Var}(X_i^2) = E(X_i^4) - (E(X_i^2))^2 = 3 - 1 = 2

X1,X2,,XnX_1, X_2, \cdots, X_n 的独立性,有:

Var(Y)=Var(X12+X22++Xn2)=i=1nVar(Xi2)=2n\operatorname{Var}(Y) = \operatorname{Var}(X_1^2 + X_2^2 + \cdots + X_n^2) = \sum_{i=1}^{n} \operatorname{Var}(X_i^2) = 2n
  1. χ2\chi^2 分布分位数:对于给定的正数 α,0<α<1\alpha, 0 < \alpha < 1,称满足条件:
P{χ2>χα2(n)}=χα2(n)+fχ2(x)dx=αP\{\chi^2 > \chi_{\alpha}^2(n)\} = \int_{\chi_{\alpha}^2(n)}^{+\infty} f_{\chi^2}(x) \, \mathrm{d}x = \alpha

χα2(n)\chi_{\alpha}^2(n)χ2(n)\chi^2(n) 分布的上 (侧) α\alpha 分位数。

费希尔 (Fisher) 曾证明,当nn充分大时,χ2\chi^2分布的上α\alpha分位数可以有如下的近似:

χα2(n)12(zα+2n1)2\chi_\alpha^2(n)\approx\frac{1}{2}(z_\alpha+\sqrt{2n-1})^2

其中 zαz_\alpha 是标准正态分布的上 α\alpha 分位数。通常当 n>40n>40 时,利用这个关系式的近似效果较好,可利用标准正态分布的上 α\alpha 分位数,并结合上述近似式来得到 χ2(n)\chi^2(n) 分布的上 α\alpha 分位数的近似值。

三、tt 分布#

1、tt 分布的定义#

XX 服从标准正态分布 N(0,1)N(0,1)YY 服从自由度为 nnχ2\chi^2 分布,且 XXYY 相互独立,则随机变量

t=XY/nt = \frac{X}{\sqrt{Y/n}}

服从自由度为 nntt 分布,记为 tt(n)t \sim t(n)tt分布又称为学生氏分布。tt 分布的概率密度函数为:

ft(x)=Γ(n+12)nπΓ(n2)(1+x2n)n+12,<x<+f_t(x) = \frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi}\,\Gamma\left(\frac{n}{2}\right)}\left(1+\frac{x^2}{n}\right)^{-\frac{n+1}{2}},\quad -\infty < x < +\infty

2、tt 分布的性质#

  1. tt 分布是对称分布,关于 x=0x=0 对称。

  2. tt 分布的期望为 00,方差为 nn2\frac{n}{n-2}n>2n>2 时)。

  3. 当自由度 nn 趋于无穷大时,tt 分布趋于标准正态分布。

  4. tt 分布分位数:对于给定的正数 α,0<α<1\alpha,0<\alpha<1,称满足条件

    P{t>tα(n)}=tα(n)+ft(x)dx=αP\{t>t_{\alpha}(n)\}=\int_{t_{\alpha}(n)}^{+\infty}f_{t}(x)\mathrm{d}x=\alpha

    tα(n)t_\alpha(n)t(n)t(n) 分布的上(侧)α\alpha 分位数。

四、FF 分布#

1、FF 分布的定义#

Uχ2(m)U \sim \chi^2(m)Vχ2(n)V \sim \chi^2(n),且 UUVV 相互独立,则随机变量

F=U/mV/nF = \frac{U/m}{V/n}

服从自由度为 mmnnFF 分布,记为 FF(m,n)F \sim F(m, n)FF 分布的概率密度函数为:

fF(x)=mm/2nn/2B(m2,n2)xm/21(mx+n)(m+n)/2,x>0f_F(x) = \frac{m^{m/2} n^{n/2}}{\mathrm{B}\left(\frac{m}{2}, \frac{n}{2}\right)} \frac{x^{m/2-1}}{(m x + n)^{(m+n)/2}},\quad x>0

其中 B(,)\mathrm{B}(\cdot,\cdot)Beta\mathrm{Beta} 函数。或者把概率密度函数写为:

fF(x)=Γ[(n1+n2)/2](n1/n2)n1/2xn1/21Γ(n1/2)Γ(n2/2)[1+(n1x/n2)](n1+n2)/2,x>0f_F(x)=\frac{\Gamma[(n_1+n_2)/2](n_1/n_2)^{n_1/2}x^{n_1/2-1}}{\Gamma(n_1/2)\Gamma(n_2/2)[1+(n_1x/n_2)]^{(n_1+n_2)/2}},\quad x>0

2、FF 分布的性质#

  1. FF(n1,n2)F\sim F(n_1,n_2),则1FF(n2,n1)\frac1F\sim F(n_2,n_1)

  2. Xt(n)X\sim t(n),则X2F(1,n)X^2\sim F(1,n)

  3. FF分布分位数:对于给定的正数 α,0<α<1\alpha,0<\alpha<1,称满足条件

    P{F>Fα(n1,n2)}=Fα(n1,n2)+fF(x)dx=αP\{F>F_\alpha(n_1,n_2)\}=\int_{F_\alpha(n_1,n_2)}^{+\infty}f_F(x)\mathrm{d}x=\alpha

    Fα(n1,n2)F_\alpha(n_1,n_2)F(n1,n2)F(n_1,n_2) 分布的上(侧)α\alpha 分位数。

五、正态总体下的抽样分布#

X1,X2,,XnX_1,X_2,\cdots,X_n为来自正态总体N(μ,σ2)N(\mu,\sigma^2)的简单随机样本,X\overline{X}是样本均值,S2S^2为样本方差,则有:

XN(μ,σ2n)\overline{X}\sim N\left(\mu,\frac{\sigma^2}{n}\right)(n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)

并且有:X\overline{X}S2S^2相互独立。于是可得:

XμS/nt(n1)\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)

证明:

Xμσ2/nN(0,1),(n1)S2σ2χ2(n1)\frac{\overline{X}-\mu}{\sqrt{\sigma^2/n}}\sim N(0,1),\quad\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)

且两者相互独立。由tt分布的定义知:

XμS/n=Xμσ2/n/(n1)S2σ2(n1)t(n1)\frac{\overline{X}-\mu}{S/\sqrt{n}}=\frac{\overline{X}-\mu}{\sqrt{\sigma^2/n}}\Big/\sqrt{\frac{(n-1)S^2}{\sigma^2(n-1)}}\sim t(n-1)

X1,X2,,Xn1X_1, X_2, \cdots, X_{n_1}Y1,Y2,,Yn2Y_1, Y_2, \cdots, Y_{n_2} 分别为来自正态总体 N(μ1,σ12)N(\mu_1, \sigma_1^2)N(μ2,σ22)N(\mu_2, \sigma_2^2) 的两个相互独立的简单随机样本。记 X,Y\overline{X}, \overline{Y} 分别是两个样本的样本均值,S12,S22S_1^2, S_2^2 分别是两个样本的样本方差,则有

S12/σ12S22/σ22F(n11,n21)\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1, n_2-1)

σ12=σ22=σ2\sigma_1^2 = \sigma_2^2 = \sigma^2 时:

(XY)(μ1μ2)Sw1n1+1n2t(n1+n22)\frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)

其中:

Sw2=(n11)S12+(n21)S22n1+n22,Sw=Sw2S_w^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}, \quad S_w = \sqrt{S_w^2}

证明:

由前文结论:

(n11)S12σ12χ2(n11),(n21)S22σ22χ2(n21)\frac{(n_1-1)S_1^2}{\sigma_1^2}\sim\chi^2(n_1-1),\quad\frac{(n_2-1)S_2^2}{\sigma_2^2}\sim\chi^2(n_2-1)

由假设知 S12,S22S_1^2,S_2^2 相互独立,由 FF 分布的定义知:

(n11)S12σ12/(n11)(n21)S22σ22/(n21)F(n11,n21)\frac{\frac{(n_1-1)S_1^2}{\sigma_1^2} \bigg/ (n_1-1)}{\frac{(n_2-1)S_2^2}{\sigma_2^2} \bigg/ (n_2-1)} \sim F(n_1-1,n_2-1)

即:

S12/σ12S22/σ22F(n11,n21)\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1,n_2-1)

由正态变量的性质知:

XYN(μ1μ2,σ2n1+σ2n2)\overline{X} - \overline{Y} \sim N \left( \mu_1 - \mu_2, \frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2} \right)

即有:

U=(XY)(μ1μ2)σ2n1+σ2n2N(0,1)U = \frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2}}} \sim N(0,1)

又由 χ2\chi^2 分布的可加性:

V=(n11)S12σ2+(n21)S22σ2χ2(n1+n22)V = \frac{(n_1-1)S_1^2}{\sigma^2} + \frac{(n_2-1)S_2^2}{\sigma^2} \sim \chi^2(n_1+n_2-2)

由于 UUVV 相互独立,由 tt 分布的定义知:

(XY)(μ1μ2)Sw1n1+1n2=UV/(n1+n22)t(n1+n22)\frac{(\overline{X} - \overline{Y}) - (\mu_1 - \mu_2)}{S_w \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} = \frac{U}{\sqrt{V/(n_1+n_2-2)}} \sim t(n_1+n_2-2)
分享

如果这篇文章对你有帮助,欢迎分享给更多人!

统计分布
https://www.laoguantx.cn/posts/statisticaldistributions/
作者
老官童鞋gogo
发布于
2025-05-15
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时

封面
Sample Song
Sample Artist
封面
Sample Song
Sample Artist
0:00 / 0:00