分层抽样的分配方式

3.3.2 比例分配

比例分配指的是按各层单元数占总单元数的比例，也就是按各层的层权进行分配。此时：

$$
\frac{n_h}{n} = \frac{N_h}{N} = W_h \text{ 或 } f_h = \frac{n_h}{N_h} = \frac{n}{N} = f
\tag{3.19}
$$

对于分层随机抽样，总体均值 $\overline{Y}$ 的估计为：

$$
\hat{\overline{Y}} = \overline{y}{\text{prop}} = \sum{h=1}^{L} W_h \overline{y}h = \sum{h=1}^{L} \frac{N_h}{N} \overline{y}h = \sum{h=1}^{L} \frac{n_h}{n} \sum_{i=1}^{n_h} \frac{y_{hi}}{n_h} = \frac{1}{n} \sum_{h=1}^{L} \sum_{i=1}^{n_h} y_{hi} = \frac{1}{n} \sum_{i=1}^{n} y_i = \overline{y}
\tag{3.20}
$$

其中，下标 prop 即 proportional（按比例）的缩写。

总体比例 $P$ 的估计为：

$$
\hat{P}=p_{\text{prop}} = p = \frac{1}{n} \sum_{h=1}^{L} a_h
\tag{3.21}
$$

这是因为总体中的任意一个单元，不管它在哪一层，都以同样的概率入样。因此按比例分配的分层随机抽样，估计量的形式特别简单。这种样本也称为自加权的样本。

$\overline{y}_{\text{prop}}$ 的方差为：

$$
V(\overline{y}{\text{prop}}) = \sum{h=1}^{L} W_h^2 V(\overline{y}h) = \sum{h=1}^{L} W_h \frac{n_h}{n} \frac{1-f_h}{n_h} S_h^2 = \frac{1-f}{n} \sum_{h=1}^{L} W_h S_h^2
\tag{3.22}
$$

$p_{\text{prop}}$ 的方差为：

$$
V(p_{\text{prop}}) = \frac{1-f}{Nn} \sum_{h=1}^{L} \frac{N_h^2 P_h Q_h}{N_h-1} \approx \frac{1-f}{n} \sum_{h=1}^{L} W_h P_h Q_h
\tag{3.23}
$$

3.3.3 最优分配

分层随机抽样，将样本量分配到各层，

条件：在总费用给定，目标：估计量的方差达到最小

条件：估计量方差给定，目标：总费用最少

能满足这个条件的样本量分配就是最优分配。

如果我们考虑简单线性费用函数，总费用为：

$$
C = c_0 + \sum_{h=1}^{L} c_h n_h,
\tag{3.24}
$$

则此时的最优分配是：

$$
\frac{n_h}{n} = \frac{W_h S_h}{\sqrt{c_h}} \Big/ \sum_{h=1}^{L} \frac{W_h S_h}{\sqrt{c_h}} = \frac{N_h S_h}{\sqrt{c_h}} \Big/ \sum_{h=1}^{L} \frac{N_h S_h}{\sqrt{c_h}}, \quad h = 1, 2, \dots, L.
\tag{3.25}
$$

由公式 (3.25) 可以看出，如果某一层单元数较多、内部差异较大、费用比较省，则对这一层的样本量要多分配一些。

3.3.4 奈曼分配

对于分层随机抽样，作为特例，如果每层抽样的费用相同，即 $c_h = c$ 时，最优分配可简化为

$$
n_h = n \frac{W_h S_h}{\sum_{h=1}^{L} W_h S_h} = n \frac{N_h S_h}{\sum_{h=1}^{L} N_h S_h}, \quad h = 1, 2, \dots, L.
\tag{3.26}
$$

这种分配称为奈曼（Neyman）分配。这时，$V(\overline{y}_{st})$ 达到最小：

$$
V_{\min}(\overline{y}{st}) = \frac{1}{n} \left( \sum{h=1}^{L} W_h S_h \right)^2 - \frac{1}{N} \sum_{h=1}^{L} W_h S_h^2.
\tag{3.27}
$$