数理统计（2）抽样分布

2.1 样本均值的期望和方差

假设总体服从的分布期望为$\mu$,方差为$\sigma^2$.

样本均值的期望和方差为
$$
E(\overline{X})=E(\frac{1}{n}\sum_{i=1}^n{X_i})=\frac{1}{n}E(\sum_{i=1}^n{X_i})=\frac{1}{n}\sum_{i=1}^n{E(X_i)}=\mu
$$

$$
Var(\overline{X})=Var(\frac{1}{n}\sum_{i=1}^n{X_i})=\frac{1}{n^2}Var(\sum_{i=1}^n{X_i})=\frac{\sigma^2}{n}
$$

2.2 样本方差的期望

假设总体服从的分布期望为$\mu$,方差为$\sigma^2$.

样本方差的期望为

$$
E(S^2)=\frac{1}{n-1}E(\sum_{i=1}^n{(X_i-\overline{X})^2})
$$
$$
=\frac{1}{n-1}E(\sum_{i=1}^n{X_i^2}-n\overline{X}^2)
$$
$$
=\frac{1}{n-1}E(\sum_{i=1}^n{X_i^2}-nE(\overline{X}^2))
$$
$$
=\frac{1}{n-1}(n(\mu^2+\sigma^2)-n(\mu^2+\frac{\sigma^2}{n}))=\sigma^2
$$

这是关于 经验分布函数（empirical distribution function, EDF） 的定义。以下是主要内容的 Markdown 格式转换：

2.3 经验分布函数（empirical distribution function）的定义

定义 2.1

设 $X_1, \dots, X_n$ 为总体 $F(x)$ 中抽取的 i.i.d. 样本，将其按大小排列为
$X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(n)}$
对任意实数 $x$，定义如下函数：

$F_n(x) =
\begin{cases}
0, & x < X_{(1)}, \
\frac{n}{k}, & X_{(k)} \leq x < X_{(k+1)}, \quad k = 1,2,\dots, n-1, \
1, & X_{(n)} \leq x
\end{cases}$

称 $F_n(x)$ 为 经验分布函数。

指示性函数

若记 指示性函数 $I_A(x)$ 为：

$I_A(x) =
\begin{cases}
1, & \text{当 } x \in A, \
0, & \text{其他}
\end{cases}$

则 $F_n(x)$ 可表示为

$$F_n(x) = \frac{1}{n} \sum_{i=1}^{n} I_{[X_i \leq x]}.$$

由定义可知 $F_n(x)$ 是仅依赖于样本 $X_1, X_2, \dots, X_n$ 的函数，因此它是统计量。

易见经验分布函数是单调、非降、右连续函数，具有分布函数的基本性质。它在 $x = X_{(k)}$，$k = 1,2,\dots,n$ 处有间断，它是在每个间断点跳跃的幅度为 $1/n$ 的阶梯函数。
若记 $Y_i = I_{[X_i \leq x]}$，$i = 1,2,\dots,n$，则有 $P(Y_i = 1) = F(x)$，
$P(Y_i = 0) = 1 - F(x)$，且 $Y_1, Y_2, \dots, Y_n$ i.i.d. $\sim B(1, F(x))$，
故 $nF_n(x) = \sum_{i=1}^{n} Y_i \sim B(n, F(x))$，因此有

$$P(F_n(x) = k/n) = P\left( \sum_{i=1}^{n} Y_i = k \right) = \binom{n}{k} [F(x)]^k [1 - F(x)]^{n-k}.$$

2.4 经验分布函数的大样本性质

利用二项分布的性质可知 $F_n(x)$ 具有下列大样本性质：

渐近正态性：由中心极限定理，则当 $n \to \infty$ 时有
$$
\frac{\sqrt{n}(F_n(x) - F(x))}{\sqrt{F(x)(1 - F(x))}} \overset{\mathcal{L}}{\longrightarrow} N(0,1).
$$
强收敛性：由 Borel 强大数定律，则在 $n \to \infty$ 时有
$$
P\left( \lim_{n \to \infty} F_n(x) = F(x) \right) = 1.
$$
格里文科（Glivenko-Cantelli）定理：设 $F_n(x)$ 为分布函数 $F(x)$ 的经验分布函数，记
$$D_n = \sup_{-\infty < x < \infty} |F_n(x) - F(x)|,$$
则有
$$
P\left( \lim_{n \to \infty} D_n = 0 \right) = 1.
$$

2.5 次序统计量的分布

最大及最小次序统计量的分布：

最大次序统计量：
$$
P(X_{(n)} < y) = P(\max{X_1, \dots, X_n} < y) = P(X_1 < y, X_2 < y, \dots, X_n < y)
$$
$$
= \prod_{i=1}^{n} P(X_i < y) = (P(X < y))^n = F^n(y).
$$
最小次序统计量：
$$
P(X_{(1)} < y) = 1 - P(X_{(1)} \geq y) = 1 - P(\min{X_1, \dots, X_n} \geq y)
$$
$$
= 1 - \prod_{i=1}^{n} [1 - P(X_i \geq y)]
$$
$$
= 1 - [1 - P(X \geq y)]^n = 1 - (1 - F(y))^n.
$$

定理 2.1
设总体 $X$ 的密度函数为 $f(x)$，分布函数为 $F(x)$，$X_1, X_2, \dots, X_n$ 是来自总体 $X$ 的样本，则第 $k$ 个次序统计量 $X_{(k)}$ 的分布函数和密度函数分别为

$$
F_k(x) = \sum_{r=k}^{n} \binom{n}{r} [F(x)]^r [1 - F(x)]^{n-r},
$$

$$
f_k(x) = \frac{n!}{(k-1)!(n-k)!} [F(x)]^{k-1} [1 - F(x)]^{n-k} f(x).
$$

注：

次序统计量 $X_{(k)}$ 表示 $X_1, X_2, \dots, X_n$ 中有 $k$ 个变量小于等于 $X_{(k)}$。
令 $k=1$ 和 $k=n$，分别得到最小次序统计量和最大次序统计量的分布函数和密度函数。

证明

根据题意有第 $k$ 次序统计量 $X_{(k)}$ 的分布函数为

$$
F_k(x) = P[X_{(k)} \leq x] = P[X_1, X_2, \dots, X_n \text{ 中至少有 } k \text{ 个随机变量} \leq x]
$$

$$
= \sum_{r=k}^{n} P[X_1, X_2, \dots, X_n \text{ 中恰有 } r \text{ 个随机变量} \leq x,\ n-r \text{ 个随机变量} > x]
$$

$$
= \sum_{r=k}^{n} \binom{n}{r} [F(x)]^r [1 - F(x)]^{n-r}.
$$

由此可知

$$
F_k(x) = \frac{n!}{(k-1)!(n-k)!} \int_{0}^{F(x)} t^{k-1} (1-t)^{n-k} dt.
$$

根据积分函数求导完成证明。

恒等式的证明：
注意到当 $p=0$ 时成立，因此只需证明两边求导相等，计算左边导数如下
$$
\frac{\partial}{\partial p} \sum_{i=k}^{n} \binom{n}{i} p^i (1-p)^{n-i} = \frac{\partial}{\partial p} \left(1 - \sum_{i=0}^{k-1} \binom{n}{i} p^i (1-p)^{n-i} \right)
$$
$$
= - \left( \sum_{i=1}^{k-1} \binom{n}{i} i p^{i-1} (1-p)^{n-i} - \sum_{i=0}^{k-1} \binom{n}{i} (n-i) p^i (1-p)^{n-i-1} \right)
$$

$$
= n \sum_{i=0}^{k-1} \binom{n-1}{i} p^i (1-p)^{n-i-1} - n \sum_{i=1}^{k-1} \binom{n}{i-1} p^{i-1} (1-p)^{n-i}
$$

$$
= n (1-p)^{n-1} + n \sum_{i=1}^{k-1} \left[ \binom{n-1}{i} p^i (1-p)^{n-i-1} - \binom{n-1}{i-1} p^{i-1} (1-p)^{n-i} \right]
$$

$$
= n \binom{n-1}{k-1} p^{k-1} (1-p)^{n-k}.
$$

其中第三个等式利用组合恒等式

$$
i \binom{n}{i} = n \binom{n-1}{i-1},\quad (n-i) \binom{n}{i} = n \binom{n-1}{i}.
$$

进而左右导数相等，恒等式成立。

定理 2.2

设总体 $X$ 有密度函数 $f(x)$，$-\infty < x < \infty$，令 $X_1, X_2, \dots, X_n$ 为从总体 $X$ 中抽取的简单样本，如前所述 $(X_{(1)}, X_{(2)}, \dots, X_{(n)})$ 为样本 $(X_1, X_2, \dots, X_n)$ 的次序统计量。
令 $Y_i = X_{(i)}$，$i = 1, \dots, n$，则次序统计量 $(Y_1, \dots, Y_n)$ 的联合密度为

$$
g(y_1, y_2, \dots, y_n) =
\begin{cases}
n! f(y_1) f(y_2) \cdots f(y_n), & y_1 < y_2 < \dots < y_n, \
0, & \text{其他}.
\end{cases}
$$

定理的证明方法 是将样本变量和次序统计量之间作变换，导出变换后次序统计量的分布来实现的。

2.6 抽样分布：$\chi^2$ 分布

$\chi^2$ 分布的定义和密度函数

在总体分布为正态情形，许多重要统计量的抽样分布可以求得，下面首先介绍 $\chi^2$ 分布的定义和性质。
定义 2.2 设 $X_1, X_2, \dots, X_n$ i.i.d. $\sim N(0,1)$，则称
$$\xi = \sum_{i=1}^{n} X_i^2$$
是自由度为 $n$ 的 $\chi^2$ 变量，其分布称为自由度为 $n$ 的 $\chi^2$ 分布，记为 $\xi \sim \chi_n^2$。

定理 2.3
设随机变量 $\xi$ 是自由度为 $n$ 的 $\chi^2$ 随机变量，则其概率密度函数为

$$
g_n(x) =
\begin{cases}
\frac{1}{2^{n/2} \Gamma(n/2)} x^{n/2 -1} e^{-x/2}, & x > 0, \
0, & x \leq 0.
\end{cases}
$$

其中 $\Gamma(n/2) = \int_0^{\infty} x^{n/2-1} e^{-x} ,dx$。显然，$\chi_n^2$ 分布的密度函数与 Gamma 分布 $\Gamma(n/2, 1/2)$ 的密度函数相同。

$\chi^2$ 分布的密度函数的形状和分位数

$\chi^2_n$ 密度函数的支撑集为 $(0, \infty)$。
当自由度 $n$ 越大，$\chi^2_n$ 的密度曲线越趋于对称（由中心极限定理知当 $n \to \infty$ 时，它趋于正态分布）；
$n$ 越小，曲线越不对称。当 $n = 1,2$ 时密度曲线是单调下降趋于 $0$。当 $n \geq 3$ 时密度曲线有单峰，从 $0$ 开始先单调上升，在一定位置达到峰值，然后再单调下降趋向于 $0$。
令 $P(\xi > c) = \alpha$，则称 $c = \chi^2_n(\alpha)$ 为 $\chi^2_n$ 分布的上侧 $\alpha$ 分位数。如 $\alpha = 0.05, 0.01$ 等。当 $\alpha$ 和 $n$ 给定时，可查附表 3 求出 $\chi^2_n(\alpha)$ 之值，如 $\chi^2_{10}(0.01) = 23.209$，$\chi^2_6(0.05) = 12.592$ 等。这在后面的区间估计和假设检验问题中常常用到。

密度函数形状图

定义 2.3 设 $r.v.$ $X \sim N(0, 1)$，$Y \sim \chi_n^2$。且 $X$ 和 $Y$ 独立，则称

$$
T = \frac{X}{\sqrt{Y/n}}
$$
是自由度为 $n$ 的 $t$ 变量，共有 $n$ 份 $t$ 分布，记为 $T \sim t_n$。

$t$ 变量的概率密度函数如下面的定理给出：

定理 2.4 设随机变量 $T \sim t_n$，则其概率密度为

$$
t_n(x) = \frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2}) \sqrt{n\pi}} \left(1 + \frac{x^2}{n}\right)^{-\frac{n+1}{2}} , \quad -\infty < x < \infty.
$$

alt text

$t_n$ 的密度函数与标准正态分布 $N(0,1)$ 密度相似，但它们是关于原点对称的，单峰的概率密度，在 $x = 0$ 处达到极大值。$t_n$ 的峰值低于 $N(0,1)$ 的峰值，$t_n$ 的密度函数是锥型比 $N(0,1)$ 的两侧尾部粗一些，容易证明：$t$ 变量的极限分布为 $N(0,1)$。

设 $T \sim t_n, 0 < \alpha < 1, \diamond P(|T| > c) = \alpha$, 则称 $c = t_n(\alpha/2)$ 为自由度为 $n$ 的 $t$ 分布的双侧 $\alpha$ 分位数。当给定 $\alpha$ 和 $n$ 时，可查附表 2 求出 $t_n(\alpha)$、$t_n(\alpha/2)$ 等。例如 $t_{12}(0.05) = 1.782$, $t_9(0.025) = 2.262$ 等。这在后面的区间估计和假设检验问题中常常用到。

alt text

设 r.v. $T \sim t_n$, 则 $E(T^r)$ 只有当 $r < n, (n > 1)$ 时存在，且

$$
E(T^r) = \begin{cases}
n^2 \frac{\Gamma(\frac{n+r}{2})\Gamma(\frac{n-r}{2})}{\Gamma(\frac{n}{2})\Gamma(\frac{n}{2})}, & \text{当 } r \text{ 为偶数}, \
0, & \text{当 } r \text{ 为奇数}.
\end{cases}
$$
特别当 $n \geq 2$ 时，$E(T) = 0$。当 $n \geq 3$ 时，$Var(T) = \frac{n}{n-2}$。

当 $n = 1$ 时 $t$ 分布就是柯西分布，即

$$
t_1(x) = \frac{1}{\pi(1 + x^2)}, -\infty < x < +\infty.
$$

当 $n \rightarrow \infty$ 时，$t$ 变量的极限分布为 $N(0,1)$，即

$$
\lim_{n \rightarrow \infty} t_n(x) = \frac{1}{\sqrt{2\pi}} \exp{-x^2/2}.
$$

$F$ 分布的定义及密度函数

定理 2.4 设 r.v. $X \sim \chi^2_m, Y \sim \chi^2_n$，且 $X$ 和 $Y$ 独立，则称

$$
F = \frac{X/m}{Y/n}
$$
是自由度为 $m$ 和 $n$（注意分子的自由度在前）的 $F$ 变量，其分布称为自由度为 $m$ 和 $n$ 的 $F$ 分布，记为 $F \sim F_{m,n}$。

$F$ 变量的概率密度函数如下面的定理给出：

定理 2.5 设 r.v. $Z \sim F_{m,n}$，则其概率密度函数为
$$
f_{m,n}(x) = \begin{cases}
\frac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})} m^{\frac{m}{2}} n^{\frac{n}{2}} x^{\frac{m}{2} - 1} (n + mx)^{-\frac{m+n}{2}}, & x > 0, \
0, & \text{其它}.
\end{cases}
$$

alt text

$F$ 分布的自由度 $m$ 和 $n$ 是有限度的，当 $m \neq n$ 时，若将自由度 $m$ 和 $n$ 的顺序颠倒一下，得到的并不是两个不同的 $F$ 分布。$F$ 分布的支持集为 $(0, \infty)$。密度曲线是单峰、偏态的，密度曲线的形状随自由度 $m, n$ 的改变而变化。

令 $P(F > c) = \alpha, 0 < \alpha < 1$，则称 $c = F_{m,n}(\alpha)$ 为 $F$ 分布的上侧 $\alpha$ 分位数。当 $m, n$ 和 $\alpha$ 给定时，可以通过查附表 4 求出 $F_{m,n}(\alpha)$ 之值。例如 $F_{4,10}(0.05) = 3.48$, $F_{10,15}(0.01) = 3.80$ 等。这在后面的区间估计和假设检验问题中常常用到。

alt text

设 $Z \sim F_{m,n}$，则 $1/Z \sim F_{n,m}$。

设 $Z \sim F_{m,n}$，则对 $r > 0$ 且 $2r < n$ 时有

$$
E(Z^r) = \left(\frac{n}{m}\right)^r \frac{\Gamma(\frac{m}{2} + r)\Gamma(\frac{n}{2} - r)}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})}.
$$
特别
$$
E(Z) = \frac{n}{n - 2}, n > 2,
$$
$$
Var(Z) = \frac{2n^2(m + n - 2)}{m(n - 2)^2(n - 4)}, n > 4.
$$

设 $T \sim t_n$，则 $T^2 \sim F_{1,n}$。

$F_{m,n}(1 - \alpha) = 1/F_{n,m}(\alpha)$。此性质在区间估计和假设检验问题中常常用到。

一个习题：
设$X_1,\dots,X_n$独立，$X_i \sim N(0,\sigma_i^2),i=1,\dots,n$定义
$$
\xi=\sum_{i=1}^{n}\frac{(X_i-Z)^2}{\sigma_i^2}
$$
其中$Z=\frac{\sum_{i=1}^n\frac{X_i}{\sigma^2}}{\sum_{i=1}^{n}\frac{1}{\sigma^2}},$
求$\xi$的分布.

解答

设总体 ( X \sim N(0, 1) )，给定一组样本观察值：
( X_1 = 0, , X_2 = 0.2, , X_3 = 0.25, , X_4 = -0.3, , X_5 = -0.1, , X_6 = 2, , X_7 = 0.15, , X_8 = 1, , X_9 = -0.7, , X_{10} = -1 )。
我们需要解决以下三个问题：

求上述样本的经验分布函数；
计算 ( E[F(X_{(6)})] ) 和 ( D[F(X_{(6)})] )，其中 ( X_{(6)} ) 为容量为 10 的次序统计量；
计算容量 ( n = 10 ) 的样本中次序统计量 ( X_{(6)} ) 的分布函数在 0.2 处的值。

(1) 求上述样本的经验分布函数

经验分布函数 ( F_n(x) ) 是对总体分布函数的非参数估计，定义为：
[ F_n(x) = \frac{1}{n} \sum_{i=1}^n I(X_i \leq x) ]
其中 ( n ) 是样本容量，( I(X_i \leq x) ) 是指示函数，当 ( X_i \leq x ) 时取 1，否则取 0。

步骤：

样本容量 ( n = 10 )。
将样本数据按升序排列：
( -1, -0.7, -0.3, -0.1, 0, 0.15, 0.2, 0.25, 1, 2 )
根据定义，( F_n(x) ) 在每个样本点处跳跃，跳跃幅度为 ( \frac{1}{10} = 0.1 )。

结果：
经验分布函数 ( F_n(x) ) 为：
[ F_n(x) = \begin{cases}
0 & \text{if } x < -1 \
0.1 & \text{if } -1 \leq x < -0.7 \
0.2 & \text{if } -0.7 \leq x < -0.3 \
0.3 & \text{if } -0.3 \leq x < -0.1 \
0.4 & \text{if } -0.1 \leq x < 0 \
0.5 & \text{if } 0 \leq x < 0.15 \
0.6 & \text{if } 0.15 \leq x < 0.2 \
0.7 & \text{if } 0.2 \leq x < 0.25 \
0.8 & \text{if } 0.25 \leq x < 1 \
0.9 & \text{if } 1 \leq x < 2 \
1 & \text{if } x \geq 2
\end{cases} ]

这是一个右连续的阶梯函数，在每个样本点处增加 ( 0.1 )。

(2) 计算 ( E[F(X_{(6)})] ) 和 ( D[F(X_{(6)})] )

定义：

( X_{(6)} ) 是样本中第 6 个次序统计量（即第 6 小值）。
( F(x) = \Phi(x) ) 是标准正态分布 ( N(0, 1) ) 的累积分布函数（CDF）。
我们需要计算 ( E[\Phi(X_{(6)})] )（期望）和 ( D[\Phi(X_{(6)})] )（方差）。

理论依据：

对于来自任何连续分布的独立同分布样本，( F(X_{(k)}) ) 服从贝塔分布 (\text{Beta}(k, n - k + 1))。
这里 ( X \sim N(0, 1) )，所以 ( \Phi(X_i) \sim U(0, 1) )（均匀分布）。
对于次序统计量，( \Phi(X_{(6)}) \sim \text{Beta}(6, 10 - 6 + 1) = \text{Beta}(6, 5) )。

贝塔分布的性质：

若 ( Y \sim \text{Beta}(\alpha, \beta) )，则：
- 期望：( E[Y] = \frac{\alpha}{\alpha + \beta} )
- 方差：( \text{Var}[Y] = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)} )
代入 ( \alpha = 6 )，( \beta = 5 )：
- ( E[\Phi(X_{(6)})] = \frac{6}{6 + 5} = \frac{6}{11} )
- ( \text{Var}[\Phi(X_{(6)})] = \frac{6 \times 5}{(6 + 5)^2 (6 + 5 + 1)} = \frac{30}{11^2 \times 12} = \frac{30}{121 \times 12} = \frac{30}{1452} = \frac{5}{242} )

结果：

( E[F(X_{(6)})] = \frac{6}{11} )
( D[F(X_{(6)})] = \frac{5}{242} )

(3) 计算次序统计量 ( X_{(6)} ) 的分布函数在 0.2 处的值

目标：
计算 ( P(X_{(6)} \leq 0.2) )，即第 6 个次序统计量的分布函数在 ( x = 0.2 ) 处的值。

公式：
对于来自连续分布 ( F(x) ) 的样本，次序统计量 ( X_{(k)} ) 的分布函数为：
[ F_{X_{(k)}}(x) = P(X_{(k)} \leq x) = \sum_{j=k}^{n} \binom{n}{j} [F(x)]^j [1 - F(x)]^{n - j} ]

这里 ( n = 10 )，( k = 6 )，( x = 0.2 )，( F(x) = \Phi(0.2) )。
( \Phi(0.2) ) 是标准正态分布的 CDF 值，近似为 ( \Phi(0.2) \approx 0.5793 )（可通过标准正态表查得）。

计算：
[ P(X_{(6)} \leq 0.2) = \sum_{j=6}^{10} \binom{10}{j} (0.5793)^j (1 - 0.5793)^{10 - j} = \sum_{j=6}^{10} \binom{10}{j} (0.5793)^j (0.4207)^{10 - j} ]

逐项计算：

( j = 6 ):
( \binom{10}{6} = 210 )
( (0.5793)^6 \approx 0.0378 )，( (0.4207)^4 \approx 0.0313 )
( 210 \times 0.0378 \times 0.0313 \approx 0.2478 )
( j = 7 ):
( \binom{10}{7} = 120 )
( (0.5793)^7 \approx 0.0219 )，( (0.4207)^3 \approx 0.0743 )
( 120 \times 0.0219 \times 0.0743 \approx 0.1956 )
( j = 8 ):
( \binom{10}{8} = 45 )
( (0.5793)^8 \approx 0.0127 )，( (0.4207)^2 \approx 0.1770 )
( 45 \times 0.0127 \times 0.1770 \approx 0.1013 )
( j = 9 ):
( \binom{10}{9} = 10 )
( (0.5793)^9 \approx 0.0074 )，( (0.4207)^1 = 0.4207 )
( 10 \times 0.0074 \times 0.4207 \approx 0.0311 )
( j = 10 ):
( \binom{10}{10} = 1 )
( (0.5793)^{10} \approx 0.0043 )，( (0.4207)^0 = 1 )
( 1 \times 0.0043 \times 1 = 0.0043 )

总和：
[ P(X_{(6)} \leq 0.2) \approx 0.2478 + 0.1956 + 0.1013 + 0.0311 + 0.0043 = 0.5801 ]

结果：
( P(X_{(6)} \leq 0.2) \approx 0.5801 )
（注：结果保留四位小数，精确值可能因 ( \Phi(0.2) ) 的精度而略有变化。）

总结

经验分布函数 ( F_n(x) )：
一个阶梯函数，在样本点 ( -1, -0.7, -0.3, -0.1, 0, 0.15, 0.2, 0.25, 1, 2 ) 处分别跳跃 ( 0.1 )。
期望和方差：
- ( E[F(X_{(6)})] = \frac{6}{11} )
- ( D[F(X_{(6)})] = \frac{5}{242} )
分布函数值：
( P(X_{(6)} \leq 0.2) \approx 0.5801 )

2.1 样本均值的期望和方差

2.2 样本方差的期望

2.3 经验分布函数（empirical distribution function）的定义

定义 2.1

指示性函数

2.4 经验分布函数的大样本性质

2.5 次序统计量的分布

注：

证明

2.6 抽样分布：$\chi^2$ 分布

$\chi^2$ 分布的定义和密度函数

$\chi^2$ 分布的密度函数的形状和分位数

定义 2.3 设 $r.v.$ $X \sim N(0, 1)$，$Y \sim \chi_n^2$。且 $X$ 和 $Y$ 独立，则称

定理 2.4 设随机变量 $T \sim t_n$，则其概率密度为

设 r.v. $T \sim t_n$, 则 $E(T^r)$ 只有当 $r < n, (n > 1)$ 时存在，且

当 $n = 1$ 时 $t$ 分布就是柯西分布，即

当 $n \rightarrow \infty$ 时，$t$ 变量的极限分布为 $N(0,1)$，即

$F$ 分布的定义及密度函数

定理 2.4 设 r.v. $X \sim \chi^2_m, Y \sim \chi^2_n$，且 $X$ 和 $Y$ 独立，则称

$F$ 变量的概率密度函数如下面的定理给出：

设 $Z \sim F_{m,n}$，则 $1/Z \sim F_{n,m}$。

设 $Z \sim F_{m,n}$，则对 $r > 0$ 且 $2r < n$ 时有

设 $T \sim t_n$，则 $T^2 \sim F_{1,n}$。

$F_{m,n}(1 - \alpha) = 1/F_{n,m}(\alpha)$。此性质在区间估计和假设检验问题中 常常用到。

解答

(1) 求上述样本的经验分布函数

(2) 计算 ( E[F(X_{(6)})] ) 和 ( D[F(X_{(6)})] )

(3) 计算次序统计量 ( X_{(6)} ) 的分布函数在 0.2 处的值

总结

$F_{m,n}(1 - \alpha) = 1/F_{n,m}(\alpha)$。此性质在区间估计和假设检验问题中常常用到。