3.4总样本量的确定

3.4.1 分层抽样样本量确定一般公式

令 $n_h = n w_h$,其中 $w_h$ 已经选定,于是当方差 $V$ 给定时,由 (3.4) 式

$$
V = \sum_{h=1}^{L} W_h^2 \frac{1 - f_h}{n_h} S_h^2 = \sum_{h=1}^{L} \frac{W_h^2 S_h^2}{n_h} - \sum_{h=1}^{L} \frac{W_h^2 S_h^2}{N_h}
$$

进一步化简得

$$
V = \frac{1}{n} \sum_{h=1}^{L} \frac{W_h^2 S_h^2}{w_h} - \frac{1}{N} \sum_{h=1}^{L} W_h S_h^2
$$

得到确定样本量的一般公式为

$$
n = \frac{\sum_{h=1}^{L} \frac{W_h^2 S_h^2}{w_h}}{V + \frac{1}{N} \sum_{h=1}^{L} W_h S_h^2}.
\tag{3.29}
$$


3.4.2 不同应用场合

估计量的精度取决于每层样本量的大小

因此:

在总样本量给定的情况下对层样本量的分配不同,对精度也不同

对于同一精度要求,对不同的样本量分配形式,计算得到的总样本量也有差异

因此:

目标:确定总样本量 要求:先确定样本量的分配形式

个人的理解:总样本量(n)、分配方式$w_h$、精度 三位一体。

如果估计精度是以误差限制的形式给出,则

$$
V = \left( \frac{d}{u} \right)^2 = \left( \frac{r \overline{Y}}{u} \right)^2
$$

其中,$d$ 为绝对误差限制;$r$ 为相对误差限制;$u$ 为标准正态分布的双侧 $\alpha$ 分位数;$\overline{Y}$ 为总体均值。这样,(3.29) 式也可以表示为:

$$
n = \frac{\sum_{h=1}^{L} W_h^2 S_h^2}{\left( \frac{d}{u} \right)^2 + \frac{1}{N}} = \frac{\sum_{h=1}^{L} W_h^2 S_h^2}{\left( \frac{r \overline{Y}}{u} \right)^2 + \frac{1}{N}}
\tag{3.30}
$$

根据不同的分配方式:

  1. 按比例分配:$w_h = W_h$

    $$
    n = \frac{\sum_{h=1}^{L} W_h S_h^2}{V + \frac{\sum_{h=1}^{L} W_h S_h^2}{N}}
    \tag{3.31}
    $$

    实际工作中,$n$ 的计算可以分为两步,先计算

    $$
    n_0 = \frac{\sum_{h=1}^{L} W_h S_h^2}{V}
    $$

    然后进行修正

    $$
    n = \frac{n_0}{1 + \frac{n_0}{N}}
    $$

  2. 按最优分配,$w_h = \frac{W_h S_h / \sqrt{c_h}}{\sum_{h=1}^{L} W_h S_h / \sqrt{c_h}}$,将它直接代入 (3.29) 式,有

    $$
    n = \frac{\left( \sum_{h=1}^{L} \frac{W_h S_h}{\sqrt{c_h}} \right)^2}{V + \frac{1}{N} \sum_{h=1}^{L} {W_h S_h^2}}
    \tag{3.32}
    $$

  3. 按奈曼分配,$w_h = \frac{W_h S_h}{\sum_{h=1}^{L} W_h S_h}$

    $$
    n = \frac{\left( \sum_{h=1}^{L} W_h S_h \right)^2}{V + \frac{1}{N} \sum_{h=1}^{L} W_h S_h^2}
    \tag{3.33}
    $$


3.5分层抽样的效率分析

3.5.1 分层抽样与简单随机抽样的比较

记简单随机抽样(对均值估计量)的方差为 $V_{srs} = \frac{1 - f}{n} S^2$;

比例分配的分层随机抽样相应估计量的方差为 $V_{\text{prop}} = \frac{1 - f}{n} \sum_{h=1}^{L} W_h S_h^2$。

因此只要比较总体方差 $S^2$ 与方差的加权平均 $\sum_{h=1}^{L} W_h S_h^2$ 。

根据总体单元指标的平方和分解:

$$
\sum_{h=1}^{L} \sum_{i=1}^{N_h} (Y_{hi} - \overline{Y})^2 = \sum_{h=1}^{L} \sum_{i=1}^{N_h} (Y_{hi} - \overline{Y}h)^2 + \sum{h=1}^{L} N_h (\overline{Y}_h - \overline{Y})^2
$$

$$
= \sum_{h=1}^{L} (N_h - 1) S_h^2 + \sum_{h=1}^{L} N_h (\overline{Y}_h - \overline{Y})^2
$$

$$
S^2 = \frac{\sum_{h=1}^{L} (N_h - 1) S_h^2 + \sum_{h=1}^{L} N_h (\overline{Y}_h - \overline{Y})^2}{N - 1}
\tag{3.34}
$$

将 (3.34) 式代入简单随机抽样的方差公式,得

$$
V_{srs} = \frac{1 - f}{n} \left[ \sum_{h=1}^{L} \frac{N_h - 1}{N - 1} S_h^2 + \sum_{h=1}^{L} \frac{N_h}{N - 1} (\overline{Y}_h - \overline{Y})^2 \right]
\tag{3.35}
$$

若所有的 $N_h$ 都比较大,则 $\frac{N_h}{N - 1} \approx \frac{N_h}{N} \approx W_h$,从而

由上式,我们得到:

$$
S^2 \approx \sum_{h=1}^{L} W_h S_h^2 + \sum_{h=1}^{L} W_h (\overline{Y}_h - \overline{Y})^2
\tag{3.36}
$$

上式右边的第二项是层间平方和,它一定是非负的,因此有

$$
V_{srs} \approx V_{\text{prop}} + \frac{1 - f}{n} \sum_{h=1}^{L} W_h (\overline{Y}h - \overline{Y})^2 \geq V{\text{prop}}
\tag{3.37}
$$

上式意味着,当所有的 $N_h$ 都比较大时,比例分配的分层随机抽样的方差小于简单随机抽样的方差,即,比例分配分层随机抽样的精度更高,方差的差值为

$$
\frac{1 - f}{n} \sum_{h=1}^{L} W_h (\overline{Y}_h - \overline{Y})^2
$$

这表明层平均数 $\overline{Y}_h$ 的差异越大,分层的效果就越好;若层平均数均较为相等,那么分层的效果与不分层的效果相同。事实上,正因为层间的差异不进人分层随机抽样的方差,因此才有分层随机抽样精度高于简单随机抽样的结果。

(3.37) 式是近似公式,若不忽略 $N_h - 1$ 与 $N_h$ 的差异,则可能有分层抽样精度(即使样本量最合理分配时)低于简单随机抽样的情形。将公式 (3.35) 推导为如下形式:

$$
V_{srs} = \frac{1 - f}{n} \left[ \sum_{h=1}^{L} \frac{N_h - 1}{N - 1} S_h^2 + \sum_{h=1}^{L} \frac{N_h}{N - 1} (\overline{Y}_h - \overline{Y})^2 \right]
$$

可以写成:

$$
V_{srs} = \frac{1 - f}{n(N - 1)} \sum_{h=1}^{L} (N_h - 1) S_h^2 + \frac{1 - f}{n(N - 1)} \sum_{h=1}^{L} N_h (\overline{Y}_h - \overline{Y})^2
$$

化简为:

$$
= \frac{1 - f}{n} \left[ \frac{N \sum_{h=1}^{L} N_h S_h^2 - \sum_{h=1}^{L} N S^2_h - \sum_{h=1}^{L} N_h S_h^2 + \sum_{h=1}^{L} N_h S_h^2 + \sum_{h=1}^{L} N_h (\overline{Y}_h - \overline{Y})^2}{N(N - 1)} \right]
$$

再化简:

$$
= \frac{1 - f}{n} \left[ \sum_{h=1}^{L} \frac{N_h S_h^2 (N - 1)}{N(N - 1)} - \sum_{h=1}^{L} \frac{(N - N_h) S_h^2}{N(N - 1)} \right] + \frac{1 - f}{n} \sum_{h=1}^{L} \frac{N_h (\overline{Y}_h - \overline{Y})^2}{N - 1}
$$

进一步整理为:

$$
= \frac{1 - f}{n} \sum_{h=1}^{L} W_h S_h^2 + \frac{1 - f}{n(N - 1)} \left[ \sum_{h=1}^{L} N_h (\overline{Y}h - \overline{Y})^2 - \frac{1}{N} \sum{h=1}^{L} (N - N_h) S_h^2 \right]
$$

所以,当

$$
\sum_{h=1}^{L} N_h (\overline{Y}h - \overline{Y})^2 < \frac{1}{N} \sum{h=1}^{L} (N - N_h) S_h^2
\tag{3.38}
$$

时,按比例分层抽样的方差大于简单随机抽样。假设各层的层内方差 $S_h^2$ 相同,均为 $S_w^2$,则 (3.38) 式可简化为

$$
\sum_{h=1}^{L} N_h (\overline{Y}_h - \overline{Y})^2 < (L - 1) S_w^2
$$

$$
\frac{\sum_{h=1}^{L} N_h (\overline{Y}_h - \overline{Y})^2}{L - 1} < S_w^2
\tag{3.39}
$$

也就是说,当层间方差小于层内方差时,会发生分层抽样的效率低于简单随机抽样的情况。但应当注意,现实中这种情况极少出现。


3.5.2分层抽样的设计效应

定义:
$$
deff=\frac{V(\overline{y_st})}{\overline{y_{srs}}}
$$

有:
$$
V(\overline{y}{srs}) = \frac{N - n}{n(N - 1)} \left[ \sum{h=1}^{L} \frac{W_h^2 S_h^2}{n_h} + \sum_{h=1}^{L} W_h S_h^2 - \sum_{h=1}^{L} \frac{W_h S_h^2}{N} + W_h \overline{Y}h^2 - \overline{y}{st}^2 + v(\overline{y}_{st}) \right],
\tag{3.40}
$$

其中,

$$
v(\overline{y}{st}) = \sum{h=1}^{L} \frac{W_h^2 S_h^2}{n_h} - \sum_{h=1}^{L} \frac{W_h S_h^2}{N}
$$

笔者能力有限,目前还无法理解在讨论deff中引入这段公式的意义。

这样,就可以根据分层样本的数据计算分层抽样的设计效应

$$
\text{deff} = \frac{V(\overline{y}{st})}{V(\overline{y}{srs})}.
\tag{3.41}
$$


3.5.3不同分配方式的效率比较

已知:奈曼分配的精度应高于相同样本量的任何其他分配。
下讨论奈曼分配相比于比例分配的提升。

$V_{\text{prop}}$ 与奈曼分配下的方差 $V_{\text{opt}}$ 进行比较:奈曼分配与比例分配相比,其方差减少为

$$
V_{\text{prop}} - V_{\text{opt}} = \frac{1 - f}{n} \left[ \sum_{h=1}^{L} W_h S_h^2 - \left( \sum_{h=1}^{L} W_h S_h \right)^2 \right]
$$

化简为

$$
= \frac{1 - f}{n} \sum_{h=1}^{L} W_h (S_h - S)^2,
\tag{3.42}
$$

其中,$S = \sum_{h=1}^{L} W_h S_h$ 是各层标准差 $S_h$ 按层权的加权平均。

从 (3.42) 式可看出,奈曼分配在精度上的得益大小取决于各层标准差的差异

差异越大,采用奈曼分配的效果就越好;

若层间标准差(方差)差别不大,那么奈曼分配的效果就不会比比例分配的效果好很多。

必要的实战应用讨论:

由于奈曼分配要求对层标准差进行估计,估计会有误差,再加上计算时样本量必须取整数,因此理论上的最优分配下的最小方差并不一定能达到。实际上偏离奈曼分配(或最优分配)的方差增加并不明显。鉴于比例分配本身的自加权性质的简单性,除非层标准差的差异十分明显,考虑最优分配才有较大的精度改进,否则还是采用比例分配。


3.6划分层问题

3.6.1层的界限

累计平方根法是一种将数据划分为多个层的方法,主要用于在不均匀区间的情况下确定分层边界。该方法通过频数的平方根累计求和来实现。具体步骤如下:

  1. 确定每个区间的频数:首先,计算并记录每个区间内的数据频数,记作 $x$。

  2. 计算频数的平方根:对每个区间的频数 $x$ 求平方根。如果区间的大小不一致,需要进行调整。例如,假设标准区间大小为 5,而某个区间的大小为 10,则应使用公式调整平方根:
    $$
    \sqrt{\frac{\text{频数} \times \text{区间大小}}{\text{标准区间大小}}}
    $$

  3. 累计平方根:将每个区间的平方根累计求和,得到从第一个区间到最后一个区间的累计平方根值。

  4. 确定划分点:根据需要的层数,将总的累计平方根值除以层数,得到每个层的划分间距。然后,根据这个间距划分累积值,以确定每一层的分界点。

此方法通过频数的平方根求和和累积来实现分层,适用于频数不均或区间大小不一致的数据集。


3.6.2层数的确定

首先考虑以目标量本身作为分层指标。以最简单的情形为例,若 $Y$ 是区间 $d$ 上的均匀分布,则总体方差 $S_Y^2 = \frac{d^2}{12}$。样本量为 $n$ 的简单随机抽样均值估计量的方差为

$$
V(\overline{y}) = \frac{d^2}{12n}
$$

将总体分成大小相同的 $L$ 层,并按比例分配样本量,即 $W_h = \frac{1}{L}$,则

$$
n_h = \frac{n}{L}, \quad S_h^2 = \frac{d^2}{12L^2}
$$

从而

$$
V(\overline{y}{st}) = \sum{h=1}^{L} W_h^2 \frac{1}{n_h} S_h^2 = \frac{d^2}{12nL^2} = \frac{V(\overline{y})}{L^2}
$$

由此可见,层数的增加确实能提高估计精度。

但在实际工作中,$Y$ 本身未知,只能通过与 $Y$ 高度相关的辅助指标 $X$ 来进行。这时估计量的方差可以分为两部分,一部分与层数有关,另一部分与层数无关,用模型表示为 $\frac{R^2}{L^2} + (1 - R^2) $,其中 $ R^2$ 是方差中受层数影响的部分,$1 - R^2$ 是不受层数影响的部分。因此,当层数增加到一定程度时,在精度上的收益将非常小。

除非 $Y$ 与 $X$ 的相关系数 $\rho > 0.95$,否则层数一般不超过 6 为宜。

同时,分层是需要费用的,因此要考虑增加层数提高的精度与总费用之间的平衡。因为在总费用一定的条件下,增加层数必然导致降低样本量,这时就要考虑增加层数而降低样本量在精度上是否合算。


3.7其他分层技术

3.7.1 目录抽样

目录抽样(Directory Sampling)是一种基于已有的分类目录或列表来划分层的分层技术。其思路是利用已经存在的分类信息将总体划分为多个层,然后从每一层中进行随机抽样。这种方法的优点在于,借助现有的分类信息可以节省划分层的时间和成本。此外,目录抽样通常适用于数据已经有清晰分类的场景,比如公司名录、邮政编码区域等。

应用场景

  • 如果抽样对象的分类信息可以通过外部数据源(如公司目录、地理区域)获得,则目录抽样可以高效地划分层,从而提高抽样的代表性。

优缺点

  • 优点:操作简便、节省时间和资源。
  • 缺点:目录可能不总是准确地反映抽样对象的特征,尤其是在分类信息过时或不精确的情况下。

3.7.2 事后分层

事后分层(Post-stratification)是指在抽样完成后再根据样本的某些特征将样本分成不同的层,进而对总体特征进行更精确的估计。这种方法主要用于数据收集后发现样本分布不均匀的情况。通过将样本按照一定的特征重新分层,可以调整权重,使得样本更加符合总体特征分布,从而改善估计的精确性。

应用场景

  • 事后分层常用于在抽样前无法获得分层信息或总体特征不清晰的情况下,或者当初始抽样设计无法完全控制分层比例时。

优缺点

  • 优点:灵活性强,可在数据收集后通过调整层权重提高估计精度。
  • 缺点:对数据的统计精度依赖较大,若初始样本未覆盖总体特征,事后分层的效果可能有限。

3.7.3 多指标分层抽样

多指标分层抽样(Multi-variable Stratified Sampling)是一种根据多个指标来分层的抽样方法。与单一指标分层不同,多指标分层需要综合考虑多种特征(如年龄、收入、地理位置等)来划分层,从而使得每一层在多个特征上尽可能均衡。多指标分层通常通过多重交叉的方式形成细致的分层结构,以提高对总体的代表性和估计精度。

应用场景

  • 多指标分层适用于数据特征复杂、多个指标均对研究结果有显著影响的情况。例如,在人口普查中,可以同时考虑年龄、性别和地区等多个特征。

优缺点

  • 优点:可以更精确地反映总体结构,增加估计的代表性。
  • 缺点:分层结构复杂,需要较大的样本量才能覆盖所有组合;同时也可能增加抽样设计和数据分析的难度。

总结

这三种分层技术分别适用于不同的数据情境和研究需求:

  • 目录抽样适合已有明确分类的对象,通过目录信息快速划分层。
  • 事后分层适合在数据收集后调整样本的代表性,提高统计估计的精度。
  • 多指标分层抽样则适合特征复杂、需要考虑多重因素的情况,可以精确地反映总体多维结构。

这些方法可以根据具体的研究需求灵活选择,以优化抽样设计的效率和精度。