2.1 样本均值的期望和方差
假设总体服从的分布期望为$\mu$,方差为$\sigma^2$.
样本均值的期望和方差为
$$
E(\overline{X})=E(\frac{1}{n}\sum_{i=1}^n{X_i})=\frac{1}{n}E(\sum_{i=1}^n{X_i})=\frac{1}{n}\sum_{i=1}^n{E(X_i)}=\mu
$$
$$
Var(\overline{X})=Var(\frac{1}{n}\sum_{i=1}^n{X_i})=\frac{1}{n^2}Var(\sum_{i=1}^n{X_i})=\frac{\sigma^2}{n}
$$
2.2 样本方差的期望
假设总体服从的分布期望为$\mu$,方差为$\sigma^2$.
样本方差的期望为
$$
E(S^2)=\frac{1}{n-1}E(\sum_{i=1}^n{(X_i-\overline{X})^2})
$$
$$
=\frac{1}{n-1}E(\sum_{i=1}^n{X_i^2}-n\overline{X}^2)
$$
$$
=\frac{1}{n-1}E(\sum_{i=1}^n{X_i^2}-nE(\overline{X}^2))
$$
$$
=\frac{1}{n-1}(n(\mu^2+\sigma^2)-n(\mu^2+\frac{\sigma^2}{n}))=\sigma^2
$$
这是关于 经验分布函数(empirical distribution function, EDF) 的定义。以下是主要内容的 Markdown 格式转换:
2.3 经验分布函数(empirical distribution function)的定义
定义 2.1
设 $X_1, \dots, X_n$ 为总体 $F(x)$ 中抽取的 i.i.d. 样本,将其按大小排列为
$X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(n)}$
对任意实数 $x$,定义如下函数:
$F_n(x) =
\begin{cases}
0, & x < X_{(1)}, \
\frac{n}{k}, & X_{(k)} \leq x < X_{(k+1)}, \quad k = 1,2,\dots, n-1, \
1, & X_{(n)} \leq x
\end{cases}$
称 $F_n(x)$ 为 经验分布函数。
指示性函数
若记 指示性函数 $I_A(x)$ 为:
$I_A(x) =
\begin{cases}
1, & \text{当 } x \in A, \
0, & \text{其他}
\end{cases}$
则 $F_n(x)$ 可表示为
$$F_n(x) = \frac{1}{n} \sum_{i=1}^{n} I_{[X_i \leq x]}.$$
由定义可知 $F_n(x)$ 是仅依赖于样本 $X_1, X_2, \dots, X_n$ 的函数,因此它是统计量。
-
易见经验分布函数是单调、非降、右连续函数,具有分布函数的基本性质。它在 $x = X_{(k)}$,$k = 1,2,\dots,n$ 处有间断,它是在每个间断点跳跃的幅度为 $1/n$ 的阶梯函数。
-
若记 $Y_i = I_{[X_i \leq x]}$,$i = 1,2,\dots,n$,则有 $P(Y_i = 1) = F(x)$,
$P(Y_i = 0) = 1 - F(x)$,且 $Y_1, Y_2, \dots, Y_n$ i.i.d. $\sim B(1, F(x))$,
故 $nF_n(x) = \sum_{i=1}^{n} Y_i \sim B(n, F(x))$,因此有$$P(F_n(x) = k/n) = P\left( \sum_{i=1}^{n} Y_i = k \right) = \binom{n}{k} [F(x)]^k [1 - F(x)]^{n-k}.$$
2.4 经验分布函数的大样本性质
利用二项分布的性质可知 $F_n(x)$ 具有下列大样本性质:
-
渐近正态性:由中心极限定理,则当 $n \to \infty$ 时有
$$
\frac{\sqrt{n}(F_n(x) - F(x))}{\sqrt{F(x)(1 - F(x))}} \overset{\mathcal{L}}{\longrightarrow} N(0,1).
$$ -
强收敛性:由 Borel 强大数定律,则在 $n \to \infty$ 时有
$$
P\left( \lim_{n \to \infty} F_n(x) = F(x) \right) = 1.
$$ -
格里文科(Glivenko-Cantelli)定理:设 $F_n(x)$ 为分布函数 $F(x)$ 的经验分布函数,记
$$D_n = \sup_{-\infty < x < \infty} |F_n(x) - F(x)|,$$
则有
$$
P\left( \lim_{n \to \infty} D_n = 0 \right) = 1.
$$
2.5 次序统计量的分布
最大及最小次序统计量的分布:
-
最大次序统计量:
$$
P(X_{(n)} < y) = P(\max{X_1, \dots, X_n} < y) = P(X_1 < y, X_2 < y, \dots, X_n < y)
$$
$$
= \prod_{i=1}^{n} P(X_i < y) = (P(X < y))^n = F^n(y).
$$ -
最小次序统计量:
$$
P(X_{(1)} < y) = 1 - P(X_{(1)} \geq y) = 1 - P(\min{X_1, \dots, X_n} \geq y)
$$
$$
= 1 - \prod_{i=1}^{n} [1 - P(X_i \geq y)]
$$
$$
= 1 - [1 - P(X \geq y)]^n = 1 - (1 - F(y))^n.
$$
定理 2.1
设总体 $X$ 的密度函数为 $f(x)$,分布函数为 $F(x)$,$X_1, X_2, \dots, X_n$ 是来自总体 $X$ 的样本,则第 $k$ 个次序统计量 $X_{(k)}$ 的分布函数和密度函数分别为
$$
F_k(x) = \sum_{r=k}^{n} \binom{n}{r} [F(x)]^r [1 - F(x)]^{n-r},
$$
$$
f_k(x) = \frac{n!}{(k-1)!(n-k)!} [F(x)]^{k-1} [1 - F(x)]^{n-k} f(x).
$$
注:
- 次序统计量 $X_{(k)}$ 表示 $X_1, X_2, \dots, X_n$ 中有 $k$ 个变量小于等于 $X_{(k)}$。
- 令 $k=1$ 和 $k=n$,分别得到最小次序统计量和最大次序统计量的分布函数和密度函数。
证明
根据题意有第 $k$ 次序统计量 $X_{(k)}$ 的分布函数为
$$
F_k(x) = P[X_{(k)} \leq x] = P[X_1, X_2, \dots, X_n \text{ 中至少有 } k \text{ 个随机变量} \leq x]
$$
$$
= \sum_{r=k}^{n} P[X_1, X_2, \dots, X_n \text{ 中恰有 } r \text{ 个随机变量} \leq x,\ n-r \text{ 个随机变量} > x]
$$
$$
= \sum_{r=k}^{n} \binom{n}{r} [F(x)]^r [1 - F(x)]^{n-r}.
$$
由此可知
$$
F_k(x) = \frac{n!}{(k-1)!(n-k)!} \int_{0}^{F(x)} t^{k-1} (1-t)^{n-k} dt.
$$
根据积分函数求导完成证明。
恒等式的证明:
注意到当 $p=0$ 时成立,因此只需证明两边求导相等,计算左边导数如下
$$
\frac{\partial}{\partial p} \sum_{i=k}^{n} \binom{n}{i} p^i (1-p)^{n-i} = \frac{\partial}{\partial p} \left(1 - \sum_{i=0}^{k-1} \binom{n}{i} p^i (1-p)^{n-i} \right)
$$
$$
= - \left( \sum_{i=1}^{k-1} \binom{n}{i} i p^{i-1} (1-p)^{n-i} - \sum_{i=0}^{k-1} \binom{n}{i} (n-i) p^i (1-p)^{n-i-1} \right)
$$
$$
= n \sum_{i=0}^{k-1} \binom{n-1}{i} p^i (1-p)^{n-i-1} - n \sum_{i=1}^{k-1} \binom{n}{i-1} p^{i-1} (1-p)^{n-i}
$$
$$
= n (1-p)^{n-1} + n \sum_{i=1}^{k-1} \left[ \binom{n-1}{i} p^i (1-p)^{n-i-1} - \binom{n-1}{i-1} p^{i-1} (1-p)^{n-i} \right]
$$
$$
= n \binom{n-1}{k-1} p^{k-1} (1-p)^{n-k}.
$$
其中第三个等式利用组合恒等式
$$
i \binom{n}{i} = n \binom{n-1}{i-1},\quad (n-i) \binom{n}{i} = n \binom{n-1}{i}.
$$
进而左右导数相等,恒等式成立。
定理 2.2
设总体 $X$ 有密度函数 $f(x)$,$-\infty < x < \infty$,令 $X_1, X_2, \dots, X_n$ 为从总体 $X$ 中抽取的简单样本,如前所述 $(X_{(1)}, X_{(2)}, \dots, X_{(n)})$ 为样本 $(X_1, X_2, \dots, X_n)$ 的次序统计量。
令 $Y_i = X_{(i)}$,$i = 1, \dots, n$,则次序统计量 $(Y_1, \dots, Y_n)$ 的联合密度为
$$
g(y_1, y_2, \dots, y_n) =
\begin{cases}
n! f(y_1) f(y_2) \cdots f(y_n), & y_1 < y_2 < \dots < y_n, \
0, & \text{其他}.
\end{cases}
$$
- 定理的证明方法 是将样本变量和次序统计量之间作变换,导出变换后次序统计量的分布来实现的。
2.6 抽样分布:$\chi^2$ 分布
$\chi^2$ 分布的定义和密度函数
-
在总体分布为正态情形,许多重要统计量的抽样分布可以求得,下面首先介绍 $\chi^2$ 分布的定义和性质。
-
定义 2.2 设 $X_1, X_2, \dots, X_n$ i.i.d. $\sim N(0,1)$,则称
$$\xi = \sum_{i=1}^{n} X_i^2$$
是自由度为 $n$ 的 $\chi^2$ 变量,其分布称为自由度为 $n$ 的 $\chi^2$ 分布,记为 $\xi \sim \chi_n^2$。
定理 2.3
设随机变量 $\xi$ 是自由度为 $n$ 的 $\chi^2$ 随机变量,则其概率密度函数为
$$
g_n(x) =
\begin{cases}
\frac{1}{2^{n/2} \Gamma(n/2)} x^{n/2 -1} e^{-x/2}, & x > 0, \
0, & x \leq 0.
\end{cases}
$$
其中 $\Gamma(n/2) = \int_0^{\infty} x^{n/2-1} e^{-x} ,dx$。显然,$\chi_n^2$ 分布的密度函数与 Gamma 分布 $\Gamma(n/2, 1/2)$ 的密度函数相同。
$\chi^2$ 分布的密度函数的形状和分位数
-
$\chi^2_n$ 密度函数的支撑集为 $(0, \infty)$。
-
当自由度 $n$ 越大,$\chi^2_n$ 的密度曲线越趋于对称(由中心极限定理知当 $n \to \infty$ 时,它趋于正态分布);
-
$n$ 越小,曲线越不对称。当 $n = 1,2$ 时密度曲线是单调下降趋于 $0$。当 $n \geq 3$ 时密度曲线有单峰,从 $0$ 开始先单调上升,在一定位置达到峰值,然后再单调下降趋向于 $0$。
-
令 $P(\xi > c) = \alpha$,则称 $c = \chi^2_n(\alpha)$ 为 $\chi^2_n$ 分布的上侧 $\alpha$ 分位数。如 $\alpha = 0.05, 0.01$ 等。当 $\alpha$ 和 $n$ 给定时,可查附表 3 求出 $\chi^2_n(\alpha)$ 之值,如 $\chi^2_{10}(0.01) = 23.209$,$\chi^2_6(0.05) = 12.592$ 等。这在后面的区间估计和假设检验问题中常常用到。
定义 2.3 设 $r.v.$ $X \sim N(0, 1)$,$Y \sim \chi_n^2$。且 $X$ 和 $Y$ 独立,则称
$$
T = \frac{X}{\sqrt{Y/n}}
$$
是自由度为 $n$ 的 $t$ 变量,共有 $n$ 份 $t$ 分布,记为 $T \sim t_n$。
- $t$ 变量的概率密度函数如下面的定理给出:
定理 2.4 设随机变量 $T \sim t_n$,则其概率密度为
$$
t_n(x) = \frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2}) \sqrt{n\pi}} \left(1 + \frac{x^2}{n}\right)^{-\frac{n+1}{2}} , \quad -\infty < x < \infty.
$$
$t_n$ 的密度函数与标准正态分布 $N(0,1)$ 密度相似,但它们是 关于原点对称的,单峰的概率密度,在 $x = 0$ 处达到极大值。$t_n$ 的峰 值低于 $N(0,1)$ 的峰值,$t_n$ 的密度函数是锥型比 $N(0,1)$ 的两侧 尾部粗一些,容易证明:$t$ 变量的极限分布为 $N(0,1)$。
设 $T \sim t_n, 0 < \alpha < 1, \diamond P(|T| > c) = \alpha$, 则称 $c = t_n(\alpha/2)$ 为自 由度为 $n$ 的 $t$ 分布的双侧 $\alpha$ 分位数。当给定 $\alpha$ 和 $n$ 时,可查附 表 2 求出 $t_n(\alpha)$、$t_n(\alpha/2)$ 等。例如 $t_{12}(0.05) = 1.782$, $t_9(0.025) = 2.262$ 等。这在后面的区间估计和假设检验问题中常 常用到。
设 r.v. $T \sim t_n$, 则 $E(T^r)$ 只有当 $r < n, (n > 1)$ 时存在,且
$$
E(T^r) = \begin{cases}
n^2 \frac{\Gamma(\frac{n+r}{2})\Gamma(\frac{n-r}{2})}{\Gamma(\frac{n}{2})\Gamma(\frac{n}{2})}, & \text{当 } r \text{ 为偶数}, \
0, & \text{当 } r \text{ 为奇数}.
\end{cases}
$$
特别当 $n \geq 2$ 时,$E(T) = 0$。当 $n \geq 3$ 时,$Var(T) = \frac{n}{n-2}$。
当 $n = 1$ 时 $t$ 分布就是柯西分布,即
$$
t_1(x) = \frac{1}{\pi(1 + x^2)}, -\infty < x < +\infty.
$$
当 $n \rightarrow \infty$ 时,$t$ 变量的极限分布为 $N(0,1)$,即
$$
\lim_{n \rightarrow \infty} t_n(x) = \frac{1}{\sqrt{2\pi}} \exp{-x^2/2}.
$$
$F$ 分布的定义及密度函数
定理 2.4 设 r.v. $X \sim \chi^2_m, Y \sim \chi^2_n$,且 $X$ 和 $Y$ 独立,则称
$$
F = \frac{X/m}{Y/n}
$$
是自由度为 $m$ 和 $n$(注意分子的自由度在前)的 $F$ 变量,其分布称为自由度为 $m$ 和 $n$ 的 $F$ 分布,记为 $F \sim F_{m,n}$。
$F$ 变量的概率密度函数如下面的定理给出:
定理 2.5 设 r.v. $Z \sim F_{m,n}$,则其概率密度函数为
$$
f_{m,n}(x) = \begin{cases}
\frac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})} m^{\frac{m}{2}} n^{\frac{n}{2}} x^{\frac{m}{2} - 1} (n + mx)^{-\frac{m+n}{2}}, & x > 0, \
0, & \text{其它}.
\end{cases}
$$
$F$ 分布的自由度 $m$ 和 $n$ 是有限度的,当 $m \neq n$ 时,若将自由度 $m$ 和 $n$ 的顺序颠倒一下,得到的并不是两个不同的 $F$ 分布。$F$ 分布 的支持集为 $(0, \infty)$。密度曲线是单峰、偏态的,密度曲线的形状 随自由度 $m, n$ 的改变而变化。
令 $P(F > c) = \alpha, 0 < \alpha < 1$,则称 $c = F_{m,n}(\alpha)$ 为 $F$ 分布的上侧 $\alpha$ 分位数。当 $m, n$ 和 $\alpha$ 给定时,可以通过查附表 4 求出 $F_{m,n}(\alpha)$ 之值。例如 $F_{4,10}(0.05) = 3.48$, $F_{10,15}(0.01) = 3.80$ 等。这 在后面的区间估计和假设检验问题中常常用到。
设 $Z \sim F_{m,n}$,则 $1/Z \sim F_{n,m}$。
设 $Z \sim F_{m,n}$,则对 $r > 0$ 且 $2r < n$ 时有
$$
E(Z^r) = \left(\frac{n}{m}\right)^r \frac{\Gamma(\frac{m}{2} + r)\Gamma(\frac{n}{2} - r)}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})}.
$$
特别
$$
E(Z) = \frac{n}{n - 2}, n > 2,
$$
$$
Var(Z) = \frac{2n^2(m + n - 2)}{m(n - 2)^2(n - 4)}, n > 4.
$$
设 $T \sim t_n$,则 $T^2 \sim F_{1,n}$。
$F_{m,n}(1 - \alpha) = 1/F_{n,m}(\alpha)$。此性质在区间估计和假设检验问题中 常常用到。
一个习题:
设$X_1,\dots,X_n$独立,$X_i \sim N(0,\sigma_i^2),i=1,\dots,n$定义
$$
\xi=\sum_{i=1}^{n}\frac{(X_i-Z)^2}{\sigma_i^2}
$$
其中$Z=\frac{\sum_{i=1}^n\frac{X_i}{\sigma^2}}{\sum_{i=1}^{n}\frac{1}{\sigma^2}},$
求$\xi$的分布.
解答
设总体 ( X \sim N(0, 1) ),给定一组样本观察值:
( X_1 = 0, , X_2 = 0.2, , X_3 = 0.25, , X_4 = -0.3, , X_5 = -0.1, , X_6 = 2, , X_7 = 0.15, , X_8 = 1, , X_9 = -0.7, , X_{10} = -1 )。
我们需要解决以下三个问题:
- 求上述样本的经验分布函数;
- 计算 ( E[F(X_{(6)})] ) 和 ( D[F(X_{(6)})] ),其中 ( X_{(6)} ) 为容量为 10 的次序统计量;
- 计算容量 ( n = 10 ) 的样本中次序统计量 ( X_{(6)} ) 的分布函数在 0.2 处的值。
(1) 求上述样本的经验分布函数
经验分布函数 ( F_n(x) ) 是对总体分布函数的非参数估计,定义为:
[ F_n(x) = \frac{1}{n} \sum_{i=1}^n I(X_i \leq x) ]
其中 ( n ) 是样本容量,( I(X_i \leq x) ) 是指示函数,当 ( X_i \leq x ) 时取 1,否则取 0。
步骤:
- 样本容量 ( n = 10 )。
- 将样本数据按升序排列:
( -1, -0.7, -0.3, -0.1, 0, 0.15, 0.2, 0.25, 1, 2 ) - 根据定义,( F_n(x) ) 在每个样本点处跳跃,跳跃幅度为 ( \frac{1}{10} = 0.1 )。
结果:
经验分布函数 ( F_n(x) ) 为:
[ F_n(x) = \begin{cases}
0 & \text{if } x < -1 \
0.1 & \text{if } -1 \leq x < -0.7 \
0.2 & \text{if } -0.7 \leq x < -0.3 \
0.3 & \text{if } -0.3 \leq x < -0.1 \
0.4 & \text{if } -0.1 \leq x < 0 \
0.5 & \text{if } 0 \leq x < 0.15 \
0.6 & \text{if } 0.15 \leq x < 0.2 \
0.7 & \text{if } 0.2 \leq x < 0.25 \
0.8 & \text{if } 0.25 \leq x < 1 \
0.9 & \text{if } 1 \leq x < 2 \
1 & \text{if } x \geq 2
\end{cases} ]
这是一个右连续的阶梯函数,在每个样本点处增加 ( 0.1 )。
(2) 计算 ( E[F(X_{(6)})] ) 和 ( D[F(X_{(6)})] )
定义:
- ( X_{(6)} ) 是样本中第 6 个次序统计量(即第 6 小值)。
- ( F(x) = \Phi(x) ) 是标准正态分布 ( N(0, 1) ) 的累积分布函数(CDF)。
- 我们需要计算 ( E[\Phi(X_{(6)})] )(期望)和 ( D[\Phi(X_{(6)})] )(方差)。
理论依据:
- 对于来自任何连续分布的独立同分布样本,( F(X_{(k)}) ) 服从贝塔分布 (\text{Beta}(k, n - k + 1))。
- 这里 ( X \sim N(0, 1) ),所以 ( \Phi(X_i) \sim U(0, 1) )(均匀分布)。
- 对于次序统计量,( \Phi(X_{(6)}) \sim \text{Beta}(6, 10 - 6 + 1) = \text{Beta}(6, 5) )。
贝塔分布的性质:
- 若 ( Y \sim \text{Beta}(\alpha, \beta) ),则:
- 期望:( E[Y] = \frac{\alpha}{\alpha + \beta} )
- 方差:( \text{Var}[Y] = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)} )
- 代入 ( \alpha = 6 ),( \beta = 5 ):
- ( E[\Phi(X_{(6)})] = \frac{6}{6 + 5} = \frac{6}{11} )
- ( \text{Var}[\Phi(X_{(6)})] = \frac{6 \times 5}{(6 + 5)^2 (6 + 5 + 1)} = \frac{30}{11^2 \times 12} = \frac{30}{121 \times 12} = \frac{30}{1452} = \frac{5}{242} )
结果:
- ( E[F(X_{(6)})] = \frac{6}{11} )
- ( D[F(X_{(6)})] = \frac{5}{242} )
(3) 计算次序统计量 ( X_{(6)} ) 的分布函数在 0.2 处的值
目标:
计算 ( P(X_{(6)} \leq 0.2) ),即第 6 个次序统计量的分布函数在 ( x = 0.2 ) 处的值。
公式:
对于来自连续分布 ( F(x) ) 的样本,次序统计量 ( X_{(k)} ) 的分布函数为:
[ F_{X_{(k)}}(x) = P(X_{(k)} \leq x) = \sum_{j=k}^{n} \binom{n}{j} [F(x)]^j [1 - F(x)]^{n - j} ]
- 这里 ( n = 10 ),( k = 6 ),( x = 0.2 ),( F(x) = \Phi(0.2) )。
- ( \Phi(0.2) ) 是标准正态分布的 CDF 值,近似为 ( \Phi(0.2) \approx 0.5793 )(可通过标准正态表查得)。
计算:
[ P(X_{(6)} \leq 0.2) = \sum_{j=6}^{10} \binom{10}{j} (0.5793)^j (1 - 0.5793)^{10 - j} = \sum_{j=6}^{10} \binom{10}{j} (0.5793)^j (0.4207)^{10 - j} ]
逐项计算:
- ( j = 6 ):
( \binom{10}{6} = 210 )
( (0.5793)^6 \approx 0.0378 ),( (0.4207)^4 \approx 0.0313 )
( 210 \times 0.0378 \times 0.0313 \approx 0.2478 ) - ( j = 7 ):
( \binom{10}{7} = 120 )
( (0.5793)^7 \approx 0.0219 ),( (0.4207)^3 \approx 0.0743 )
( 120 \times 0.0219 \times 0.0743 \approx 0.1956 ) - ( j = 8 ):
( \binom{10}{8} = 45 )
( (0.5793)^8 \approx 0.0127 ),( (0.4207)^2 \approx 0.1770 )
( 45 \times 0.0127 \times 0.1770 \approx 0.1013 ) - ( j = 9 ):
( \binom{10}{9} = 10 )
( (0.5793)^9 \approx 0.0074 ),( (0.4207)^1 = 0.4207 )
( 10 \times 0.0074 \times 0.4207 \approx 0.0311 ) - ( j = 10 ):
( \binom{10}{10} = 1 )
( (0.5793)^{10} \approx 0.0043 ),( (0.4207)^0 = 1 )
( 1 \times 0.0043 \times 1 = 0.0043 )
总和:
[ P(X_{(6)} \leq 0.2) \approx 0.2478 + 0.1956 + 0.1013 + 0.0311 + 0.0043 = 0.5801 ]
结果:
( P(X_{(6)} \leq 0.2) \approx 0.5801 )
(注:结果保留四位小数,精确值可能因 ( \Phi(0.2) ) 的精度而略有变化。)
总结
-
经验分布函数 ( F_n(x) ):
一个阶梯函数,在样本点 ( -1, -0.7, -0.3, -0.1, 0, 0.15, 0.2, 0.25, 1, 2 ) 处分别跳跃 ( 0.1 )。 -
期望和方差:
- ( E[F(X_{(6)})] = \frac{6}{11} )
- ( D[F(X_{(6)})] = \frac{5}{242} )
-
分布函数值:
( P(X_{(6)} \leq 0.2) \approx 0.5801 )