简单随机抽样

一、抽样方法与特点

定义:

简单随机抽样

从含有 N 个单元的有限总体中抽取 n 个单元组成样本,如果抽样是放回的,称为有放回简单随机抽样

如果抽样是无放回的,称为无放回简单随机抽样

无放回简单随机抽样有更高的效率,实践中常采用。


性质1 简单随机抽样下,每个样本被抽中的概率相等。

性质2 简单随机抽样下,总体各单元入样概率相等,最终包含概率也相等。


抽样方法:
抽签法
随机数表
计算机抽样程序(目前常用) 等

二、估计量与估计量性质

三个常用估计量:

  • 均值估计:$\hat{\bar{Y}}=\bar{y}=\sum_{i=1}^ny_i$
  • 总量估计:$\hat{Y}=N\bar{y}$

  • 比例估计:$\hat{P}=p=\frac{a}{n}$

对应性质(期望和方差):

均值估计:

  1. 期望${E}(\hat{\bar{Y}})=\bar{Y}$ 无偏估计
  2. 方差${V}(\hat{\bar{Y}})=\frac{1-f}{n}S^2$

    实际工作中不知道真正的$S^2$,故用$s^2$来估计$S^2$,进而评估估计量的方差。

    估计量方差的无偏估计[个人理解估计量的估计换小写]:${v}(\hat{\bar{Y}})=\frac{1-f}{n}s^2$

总量估计:

  1. 期望
    $E(\hat{Y})=N\bar{Y}$
    无偏估计。
  2. 方差
    $V(\hat{Y})=N^2\cdot\frac{1-f}{n}S^2$
    用样本方差$s^2$代替总体的$S^2$来估计。

    估计量方差的无偏估计:
    $v(\hat{Y})=N^2\cdot\frac{1-f}{n}s^2$

比例估计:

  1. 期望
    $E(\hat{P})=P$
    无偏估计。
  2. 方差

由于$N$和$P$未知,本质上是$S_p$未知,在实际工作中用样本比例$s_p^2=\frac{np(1-p)}{n-1}$来估计总体比例$S_p^2=\frac{NP(1-P)}{N-1}$。
估计量方差的无偏估计:


补充:放回简单随机抽样:

放回简单随机抽样中的估计量及其性质

设$y_1, y_2, \cdots, y_n$为样本量为$n$的放回简单随机样本,$y_i$表示第$i$次抽取得到的标志值。

由于放回抽样中每次抽取时总体结构不变,因此$y_i$相互独立并服从相同分布,总体中每个单位$Y_j(j=1,2,\cdots,N)$被抽取的概率均为$\frac{1}{N}$。

均值估计:

  1. 期望
    样本均值$\bar{y}$作为总体均值$\bar{Y}$的估计,具有以下性质:

    无偏估计。

  2. 方差
    样本均值的方差为:

    其中$\sigma^2=\frac{1}{N}\sum_{j=1}^N(Y_j-\bar{Y})^2$为总体方差。

总量估计:

  1. 期望
    总量估计为$\hat{Y}=N\bar{y}$,其期望为:

    无偏估计。

  2. 方差
    总量估计的方差为:


实际上,类似于上面的估计量估计,这里也可以用$s^2$估计$\sigma^2$。

对比:

  1. 放回简单随机抽样:样本方差$s^2$均为总体方差$\sigma^2$的无偏估计
  2. 不放回简单随机抽样:样本方差$s^2$均为总体方差$S^2$的无偏估计

具体证明详见课本P32。

放回抽样与不放回抽样的比较

  1. 设计效应(Design Effect, deff)
    不放回抽样的估计量方差为$\frac{1-f}{n}S^2$,而放回抽样的估计量方差为$\frac{1}{n}\sigma^2$,二者的倍数关系为:其中$f=\frac{n}{N}$为抽样率。显然,与不放回简单随机抽样相比,放回简单随机抽样的设计效应应满足$\text{deff}>1$。
  2. 精度原因探究看P32。

三、样本量的确定(广义讨论)

影响样本量的因素:费用估计精度,以及估计量本身的性质(波动程度)

高精度往往伴随着高费用,因此我们必须在高精度和低费用之间抉择。
客观上,合适的样本量受到估计量本身性质约束。

1. 费用:

费用函数 $C=c_0+c_1 n$

𝐶一定时,可得到样本量上限


2.估计精度:

A. 精度要求与样本量的关系:

自己的思考:误差置信水平估计量方差(一般由样本量决定)三位一体,知道其中二者可确定第三者。

B. 精度-误差和置信水平讨论:

精度关键在于两个参数:
误差 置信水平

在知道参数估计量方差的情况下,误差置信水平可以相互确定。

对于估计参数$\theta$的调查精度要求,通常使用绝对误差$d$或相对误差$r$表示,即在置信水平$1-\alpha$下,保证估计量$\hat{\theta}$与待估参数$\theta$的误差满足以下关系:

绝对误差表示:

相对误差表示:

C. 估计量方差与精度(误差和置信水平)关系

当样本量$n$较大(通常$n > 30$)时,根据中心极限定理,估计量$\hat{\theta}$近似服从正态分布:

在置信水平$1-\alpha$下,有:

其中,$u$是标准正态分布的双侧$\alpha$分位数。当$\alpha=0.05$时,$u=1.96$。

因此,绝对误差$d$和相对误差$r$可表示为:

  • 绝对误差
  • 相对误差

3, 求得合适样本量

根据调查精度对绝对误差$d$或相对误差$r$的要求以及设定置信水平$1-\alpha$,由公式$(2.28)$和$(2.29)$可以确定抽样方差$V(\hat{\theta})$,进而计算所需的样本量$n$。

对于简单随机抽样,抽样方差$V(\hat{\theta})$通常只与总体特征和样本量有关。总特征确定时,样本方差是样本量的函数。通过调节相关关系,可以解出所需要的样本量$n$。


四、样本量的确定(简单随机抽样)

均值估计:

已知绝对误差d:

已知绝对误差r:

比例估计:


分层抽样

一、抽样方法与特点

  • 利用辅助信息,在抽样之前将总体的N个单元划分为互不重叠的L个层,每一层包含的单元数分别为$N1,N_2,…N_L$,且$N=N_1+N_2+⋯N_L$。随后抽样在每个层中独立地进行,分别从各个层中抽取容量为$𝑛_1,𝑛_2,…𝑛_L$的样本,得到容量为$𝑛(𝑛=𝑛_1+𝑛_2+⋯𝑛𝑙)$的样本称为分层样本。
  • 分层抽样特征:
  1. 实现样本结构与总体结构一致,提高估计效率;
  2. 在各层中可以采用不同概率抽样方法;
  3. 可以对各层的参数进行估计,增加分析内容的层次 。

应用条件:各层差异较大,有进行分层的辅助信息。

  • 若每层中的抽样都是简单随机抽样,那么分层抽样就称为分层随机抽样,所得样本称为分层随机样本。

二、估计量与估计量性质

三个常用估计量:

均值估计:

$\hat{\bar{Y{st}}}=\sum{h=1}^L Wh \hat{\bar{Y}_h}=\frac{1}{N}\sum{h=1}^L N_h \hat{\bar{Y}_h}$

对于分层随机抽样:
${\bar{y}{st}}=\sum{h=1}^L Wh \hat{\bar{y}_h}=\frac{1}{N}\sum{h=1}^L N_h \hat{\bar{y}_h}$

总量估计:

$\hat{Y}{st} = N \hat{\bar{Y}}{st} = \sum{h=1}^L \hat{Y}_h$
对于分层随机抽样:
$y
{st} = N \bar{y}{st} = \sum{h=1}^L y_h$

比例估计:

$\hat{P}=p{st}=\sum{h=1}^L W_h p_h$

特征数量估计:

$\hat{A} = N\hat{P} = \sum_{h=1}^L N_h p_h$


对应性质(期望和方差):

均值估计:

  • 性质 1一般分层抽样无偏估计方差

若$E(\hat{\overline{Y}}_h)=\bar{Y}_h$($h=1, 2, \cdots, L$)

则$E(\hat{\overline{Y}}_{st})=\bar{Y}$的无偏估计。
总体均值估计量方差

  • 性质 2分层随机抽样无偏估计方差
    $E({\overline{y}}_{st})=\bar{Y}$
    总体均值估计量方差

  • 性质 3分层随机抽样方差无偏估计
    用$s_h^2$估计$S_h^2$即可:
    总体均值估计量方差


总量估计:

  • 性质 1一般分层抽样无偏估计方差
    若$E(\hat{\overline{Y}}h) = \bar{Y}_h$($h = 1, 2, \cdots, L$)
    则总体总量的估计为: $E(\hat{Y}
    {st}) = N\hat{\bar{Y}}_{st} = N\bar{Y}$
    总体总量估计量方差:

  • 性质 2分层随机抽样无偏估计方差
    分层随机抽样下: $E({y}_{st}) = {Y}$
    总体总量估计量方差

  • 性质 3分层随机抽样方差无偏估计
    用$s_h^2$估计$S_h^2$,则总体总量估计量的方差无偏估计为:

比例估计:

  • 性质 1一般分层抽样无偏估计方差
    若$E(ph)=P_h$
    则$E(p
    {st})=P$
    比例估计的方差为:

  • 性质 2分层随机抽样无偏估计方差
    $E(p_{st})=P$
    比例估计的方差为:

  • 性质 3:分层随机抽样的方差无偏估计

比例估计方差的无偏估计为:

特征数量估计

  • 性质 1一般分层抽样无偏估计方差
    若$E(p_h)=P_h$
    则$E(\hat{A})=A$
    其方差为:

  • 性质 2分层随机抽样无偏估计方差
    $E(\hat{A})=A$
    其方差为:

  • 性质 3分层随机抽样方差无偏估计
    在实际工作中用样本比例$s{p_h}^2=\frac{np(1-p)}{n-1}$来估计总体比例$S{p_h}^2=\frac{NP(1-P)}{N-1}$。
    特征数量估计的方差无偏估计为:

三、 样本量在各层的分配

1. 比例分配

比例分配指的是按各层单元数占总单元数的比例,也就是按各层的层权进行分配。此时:

对于分层随机抽样,总体均值 $\overline{Y}$ 的估计为:

其中,下标 prop 即 proportional(按比例)的缩写。

总体比例 $P$ 的估计为:

这是因为总体中的任意一个单元,不管它在哪一层,都以同样的概率入样。因此按比例分配的分层随机抽样,估计量的形式特别简单。这种样本也称为自加权的样本。

$\overline{y}_{\text{prop}}$ 的方差为:

$p_{\text{prop}}$ 的方差为:


2. 最优分配

分层随机抽样,将样本量分配到各层,

条件:在总费用给定</span >,目标:估计量的方差达到最小</span >

条件:估计量方差给定</span >,目标:总费用最少

能满足这个条件的样本量分配就是最优分配。

如果我们考虑简单线性费用函数,总费用为:

则此时的最优分配是:

由公式 (3.25) 可以看出,如果某一层单元数较多、内部差异较大、费用比较省,则对这一层的样本量要多分配一些。


3. 奈曼分配

对于分层随机抽样,作为特例,如果每层抽样的费用相同,即 $c_h = c$ 时,最优分配可简化为

这种分配称为奈曼(Neyman)分配。这时,$V(\overline{y}_{st})$ 达到最小:


四、总样本量的确定[关键在于理解n和V的负相关关系]

1. 分层抽样样本量确定一般公式

令 $n_h = n w_h$,其中 $w_h$ 已经选定,于是当方差 $V$ 给定时,

进一步化简得

得到确定样本量的一般公式为


2. 不同应用场合

估计量的精度取决于每层样本量的大小

因此:

在总样本量给定的情况下对于不同的样本量分配形式精度也不同

在同一精度要求下,对于不同的样本量分配形式,计算得到的总样本量也有差异</span></span>。

因此:

目标:确定总样本量 要求:先确定样本量的分配形式

个人的理解:总样本量(n)、分配方式$w_h$、精度 三位一体。

如果估计精度是以误差限制的形式给出,则

其中,$ d $ 为绝对误差限制;$ r $ 为相对误差限制;$ u $ 为标准正态分布的双侧 $ \alpha $ 分位数;$ \overline{Y} $ 为总体均值。这样,(3.29) 式也可以表示为:

根据不同的分配方式:

  1. 按比例分配:$w_h = W_h$

  1. 按最优分配,$wh = \frac{W_h S_h / \sqrt{c_h}}{\sum{h=1}^{L} W_h S_h / \sqrt{c_h}}$,将它直接代入 (3.29) 式,有

  2. 按奈曼分配,$wh = \frac{W_h S_h}{\sum{h=1}^{L} W_h S_h}$

在$W_h<1$条件下,
故奈曼分配样本量小于比例分配样本量


五、划分层问题

1. 层的界限

累计平方根法是一种将数据划分为多个层的方法,主要用于在不均匀区间的情况下确定分层边界。该方法通过频数的平方根累计求和来实现。具体步骤如下:

  1. 确定每个区间的频数:首先,计算并记录每个区间内的数据频数,记作 $x$。

  2. 计算频数的平方根:对每个区间的频数 $x$ 求平方根。如果区间的大小不一致,需要进行调整。例如,假设标准区间大小为 5,而某个区间的大小为 10,则应使用公式调整平方根:

  3. 累计平方根:将每个区间的平方根累计求和,得到从第一个区间到最后一个区间的累计平方根值。

  4. 确定划分点:根据需要的层数,将总的累计平方根值除以层数,得到每个层的划分间距。然后,根据这个间距划分累积值,以确定每一层的分界点。

此方法通过频数的平方根求和和累积来实现分层,适用于频数不均或区间大小不一致的数据集。


2. 层数的确定

但在实际工作中,$Y$ 本身未知,只能通过与 $Y$ 高度相关的辅助指标 $X$ 来进行。这时估计量的方差可以分为两部分,一部分与层数有关,另一部分与层数无关,用模型表示为 $\frac{R^2}{L^2} + (1 - R^2)$,其中 $R^2$ 是方差中受层数影响的部分,$1 - R^2$ 是不受层数影响的部分。因此,当层数增加到一定程度时,在精度上的收益将非常小。

除非 $Y$ 与 $X$ 的相关系数 $\rho > 0.95$,否则层数一般不超过 6 为宜。

同时,分层是需要费用的,因此要考虑增加层数提高的精度与总费用之间的平衡。因为在总费用一定的条件下,增加层数必然导致降低样本量,这时就要考虑增加层数而降低样本量在精度上是否合算。


五、其他分层技术

1. 目录抽样

目录抽样
目录抽样与区域抽样相对应,凡是按照目录名单的抽样框抽取样本,都可以称为目录抽样。
目录抽样在某种意义上是一种特殊的分层抽样,它将总体分为两层,一层全面调查层,一层为抽样调查层。如我国对工业企业的调查,对主营业务收入2000万元以上的采用全面调查,2000万元以下的采用抽样调查。

优缺点

  • 优点:操作简便、节省时间和资源。
  • 缺点:目录可能不总是准确地反映抽样对象的特征,尤其是在分类信息过时或不精确的情况下。

2。 事后分层

事后分层
在实际中,有时进行事先分层会存在定的困难。例如:

  1. 各层的抽样框无法得到。
  2. 几个变量都适宜于分层,而要进行事先的多重交叉分层存在一定困难,同时也不需要了解交叉分层后每个子层的信息。
  3. 一个单位到底属于哪一层要在收集到样本数据以后才知道。
  4. 总体规模 N太大,事先分层太费事等。
    在这些情况下,如果还想利用分层抽样在精度上的得益或者想得到每个子总体的估计,就可以采用事后分层(post-stratification) 技术。

实施办法
先采用简单随机抽样的方法从总体中抽取一个样本量为$N$的样本,然后对样本中的单元按某些特征进行分层。假设在$N$ 个样本中,落入第$h$层样本数为$𝑚ℎ$,有$∑{ℎ=1}^𝐿𝑚_ℎ =𝑛$,则此时对总体均值的事后分层估计为

下标“pst”代表“post-stratification”;层权$wH$已知; $y{h_i}$代表落入第$h$层的第$i$个样本的指标值。

由于$𝑚_h$代表$n$个样本中落入第$h$层的样本数,所以$𝑚_h$会随抽取样本的不同而发生化,同时$𝑚_h$ $(h=1,2,··,L)$中的一个或更多个可能等于0,如果出现这种情况,在估计之前就需要对层进行合并。
由事后分层估计量方差可知,当样本量足够大时,事后分层的精度与按比例分配事先分层的精度相当。

整群抽样

一、抽样方法与特点

  • 整群抽样(cluster sampling)或集团抽样,是将总体划分为若干群,然后以群为抽样单元,从总体中随机抽取一部分群,对中选群中的所有基本单元进行调查的一种抽样技术。

  • 特点:

  1. 抽样框编制得以简化:在大规模抽样调查中,常常没有或很难编制出包括总体所有次级单元在内的抽样框,而整群抽样则不需要编制庞大的抽样框。
  2. 实施调查便利,节省费用
  3. 整群抽样的随机性体现在群与群间不重叠,也无遗漏,总体任何一个基本单元都必须且只能归于某一群,群的抽选按概率确定
  4. 如果把每一个群看作一个单位,则整群抽样可以被理解为是一种特殊的简单随机抽样。理解这一点对给出整群抽样的估计量的方差有帮助.
  5. 整群抽样也是多阶段抽样的前提和基础
  6. 整群抽样有特殊的用途。有些现象的研究,如果直接调查作为基本单元的个体,很难说明问题,必须以一定范围所包括的基本单元为群体,进行整群抽样,才能满足调查的目的。
  7. 整群抽样要求分群后各群所含次级单元数目应该确知,否则会给抽样推断带来不便。
  8. 整群抽样由于调查单位只能集中在若干群上,而不能均匀分布在总体的各个部分,因此,它的精度比起简单随机抽样来要低一些

二、估计量与估计量性质

估计量:

群规模相等时均值估计:

群规模相等时比例估计:

群规模不等时均值估计:

等概抽样简单估计
等概抽样加权估计

若总体平均规模未知,可用样本平均规模代替。

等概抽样比例估计

群规模不等时比例估计:

群的抽取:采用简单随机抽样,则总体比例的估计量:


对应性质(期望和方差):

群规模相等时均值估计:

  • 性质 1无偏估计
    $E(\hat{\overline{\overline{Y}}})=E({\overline{\overline{y}}})=\frac{\overline{Y}}{M}=\overline{\overline{Y}}$
  • 性质 2方差
    $V(\hat{\overline{\overline{Y}}})=V({\overline{\overline{y}}})=\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^N(\overline{Y_i}-\overline{\overline{Y}})^2=\frac{1-f}{nM}S_b^2$
  • 性质 3方差无偏估计
    用$s_b^2$估计$S_b^2$即可:
    $v(\hat{\overline{\overline{Y}}})=v({\overline{\overline{y}}})=\frac{1-f}{nM}s_b^2$

群规模相等时比例估计:

  • 性质 1无偏估计

  • 性质 2方差
    $
    V(p) = \frac{1 - f}{n} \cdot \frac{\sum_{i=1}^N (P_i - P)^2}{N - 1}
    $

  • 性质 3方差无偏估计
    $
    v(p) = \frac{1 - f}{n(n - 1)} \sum_{i=1}^n (p_i - p)^2
    $

群规模不等时均值估计:

等概抽样简单估计:

  • 性质 1有偏估计

  • 性质 2方差
    $V(\hat{\overline{\overline{Y}}})=V({\overline{\overline{y}}})=\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^N(\overline{Y_i}-\overline{\overline{Y}})=\frac{1-f}{nM}S_b^2$

  • 性质 3方差估计
    用$s_b^2$估计$S_b^2$即可:
    $v(\hat{\overline{\overline{Y}}})=v({\overline{\overline{y}}})=\frac{1-f}{nM}s_b^2$

等概抽样加权估计:

  • 性质 1无偏估计

  • 性质 2方差
    $V(\hat)=V({N{\overline{y}}})=N^2\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^N({Y_i}-{\overline{Y}})$

  • 性质 3方差无偏估计
    $v(\hat)=v({N{\overline{y}}})=N^2\frac{1-f}{n}\frac{1}{n-1}\sum_{i=1}^N({y_i}-{\overline{y}})$

等概抽样比例估计:

  • 性质 1有偏估计

  • 性质 2方差

  • 性质 3方差无偏估计

群规模不等时比例估计:

  • 性质 1方差
  • 性质2方差的估计

若$\bar{M}$未知,可用样本值 $\overline{m}$ 替代。


三、群的划分

1. 原则:

划分群时应使群内方差尽可能大,群间方差尽可能小
这意味着每个群均具有足够的代表性。如果划分的群相互之间颇多相似之处,那么少量群的抽取足以提供良好的精度。

原因:由于整群抽样是对入选群中的所有单元都进行调查,因此影响整群抽样误差的主要是群间方差。为了提高整群抽样估计的精度,划分群时应使群内方差尽可能大,群间方差尽可能小。

2.一些方案:

  1. 根据行政或地域形成的群体;
    如:村庄、城镇、一片森林等
  2. 调查人员人为确定的;
    对可控制规模的群,群规模不宜过大

四、 群的规模(群的单元的数量)

即组成群的单元的数量。整群抽样中,如何有效地对群的大小进行计量,直接关系到抽样估计效率的高低。研究表明,对群的大小的最优计量尺度是各群在所研究标志上的标志总量大小。但在实际工作中,它是未知的。因此通常选择与所研究标志高度线性相关的另一辅助标志作为计量尺度。

  • 群的规模大,估计的精度差但费用省;群的规模小,估计的精度高但费用增大。
  • 当各群所含次级单元数相等时,就称群的大小相等;当各群所含次级单元数不相等时,就称群的大小不相等。
  • 当群的大小接近时,常采用简单随机抽样抽取群;
  • 当群的大小相差比较大时,为提高效率则更多地采用不等概率(按与群的大小成比例的概率抽样)方法。

五、 整群抽样效率分析

  • 整群抽样的估计精度与群内相关系数$\rho$有关。

分子可写成:

大分母可看作$NC_M^2$

分母可写成:

于是$\rho$又可以写成:

$\overline{\overline{y}}$ 的方差可以用群内相关系数近似表示:

补充:


  • 若采用简单随机抽样,则样本均值 $\overline{y}$ 的方差为:

  • 等群抽样的设计效应为:

  • 说明整群抽样的方差约为简单随机抽样方差的 $1 + (M - 1)\rho$ 倍。


补充:
此外,群内相关系数也可以用群内方差 $S_w^2$ 和群间方差 $S_b^2$ 表示:

当群间方差等于0,即各群均值 $\overline{Y}_i$ 都相等时,$\rho$ 有极小值 $-\frac{1}{M-1}$,所以 $\rho$ 的取值范围是 $\left[ -\frac{1}{M-1}, 1 \right]$。

  • 当 $\rho = 1$ 时,$\textbf{deff} = M$
    群内方差为0。

  • 当 $\rho = 0$ 时,$\textbf{deff} = 1$
    群间方差为0。

  • 当 $\rho$ 为负时,$\textbf{deff} < 1$
    群内方差大于总体方差相等。


二阶段抽样

一、抽样方法与特点

概述:

在整群抽样中,如果抽中的群内所含的次级单元个数相当地多,此时对该群作普查会感到“心有余而力不足”。
特别当群内的次级单元差异不大,即 $\rho$ 比较大,这种情况下对群内所有的次级单元——访问似乎完全没有必要,一个省时省钱又省力的念头会在调查者的头脑中油然而生:何不在抽到的群内再作一定方式的抽样呢?这种在选中的初级单元中再进行抽样的方法称为二阶段抽样
倘若在抽取的次级单元中又包含许多更次一级的单元,在这些单元中继续抽样就自然地称为三阶段抽样

定义:

设总体由N个初级单元组成,每个初级单元又由若干次级单元组成,若在总体中按一定方法抽取n个初级单元,对每个被抽中的初级单元再抽取若干次级单元进行调查,这种抽样称为二阶抽样。

如果第一阶段抽样采用全面调查,二阶抽样就成了分层抽样;
如果第二阶段抽样采用全面调查,二阶抽样就成了整群抽样。

二阶与多阶抽样的优点:

  1. 抽样框获取方便
    它具有实施上的方便,比如在编制抽样框时那些没有被抽到的群或次一级群内的单元就没有必要也去编制抽样框。仅需对那些已抽中的单元才去准备下一级单元的抽样框,而且许多抽样调查常常采用行政系统及隶属单元,这给多阶抽样本身创造了有利的条件。
    能够满足各级政府部门对抽样调查资料的需求。因为各级政府领导都关心全国和本地区、本部门的社会经济发展状况,希望抽样调查能同时满足全国性和地方性的需要。因而采用二阶或多阶抽样,在一定程度上能够满足各级政府、部门对调查资料的需求。
  2. 抽样方式灵活,有利于提高抽烟的估计效率
    有利于减少抽样误差、提高抽样估计精度。这种抽样调查方法,可以使每个一阶样本单位分布比较均匀,具有很好的代表性;对于方差大的阶段多抽些样本单位以提高精度。
  3. 保持样本分布集中的优点,克服由样本相似性引起的效率降低问题

二、理论基础

性质1:对于两阶段抽样,有

(1)

(2)

式中,$\mathbb{E}_2, \mathbb{V}_2$ 为在固定初级单元时对第二阶段抽样求均值和方差;$\mathbb{E}_1, \mathbb{V}_1$ 为对第一阶段抽样求均值和方差。

证明:

记 $\mathbb{E}(\hat{\theta}) = \tilde{\theta}$

由 $\mathbb{E}_2 (\hat{\theta} - \tilde{\theta})^2 = \mathbb{E}_2((\hat{\theta})^2) - 2\tilde{\theta} \mathbb{E}_2(\hat{\theta}) + \tilde{\theta}^2$
$
= [\mathbb{E}_2(\hat{\theta})]^2 + V_2(\hat{\theta}) - 2\tilde{\theta} \mathbb{E}_2(\hat{\theta}) + \tilde{\theta}^2
$

对上述两边求 $\mathbb{E}_1$,得

二、估计量与估计量性质

1. 初级单元大小相等时的二阶抽样

均值估计

性质1:无偏估计

性质2: 方差
其方差为:

性质3:方差的无偏估计:


总值估计

性质1

性质2: 方差

性质3:方差的无偏估计:


补充:

定理:若两阶段的抽样都是简单随机抽样的,则:

(1) $\overline{\overline{y}}$ 是 $\overline{Y}$ 的无偏估计量;


(2)

其中


(3)

其中

证明可以借助“理论基础”易得。

总值估计

性质1

性质2: 方差

性质3:方差的无偏估计:

2. 初级单元大小不等时的二阶抽样

  • 第一阶段抽样:按简单随机抽样从$N$个初级单元中抽取$n$个;
  • 第二阶段抽样:按简单随机抽样,在抽中的初级单元中分别独立抽取次级单元。

(1) 简单估计:

性质1:无偏估计

性质2:方差:

性质3:方差的无偏估计:

(2) 比估计:

可用比估计,以 $M_i$ 为辅助变量:

性质2 方差近似为:

其中:

性质3 方差的无偏估计为:

其中:


三、样本量的确定

1.初级单元大小相等时,最优样本量 $m$ 与 $n$ 的确定:

m的确定
线性费用函数:


根据柯西-许瓦兹不等式,达到最小值的充要条件是:

因此 $m$ 的最优值为:

令 $m’$ 为 $m_{\text{opt}}$ 的整数部分,则 $m$ 的取值规则为:

  • 当 $m_{\text{opt}}^2 > m’ (m’ + 1)$,则取 $m = m’ + 1$;
  • 当 $m_{\text{opt}}^2 \leq m’ (m’ + 1)$,则取 $m = m’$;

  • 当 $m_{\text{opt}} > M$ 或 $\left( S_1^2 - \frac{S_2^2}{M} \right) < 0$,则取 $m = M$;

$m$ 确定后,再根据 $\mathbf{C_T}$ 或 $\mathbf{V}$ 求出 $n$。

πPS抽样

πPS抽样是一种特殊的不放回不等概抽样,其性质包括:

  • 不放回抽样:相对效率较高,但估计量方差计算复杂,缺乏操作性(实施困难)。
  • 包含概率要求:总体中每个单元的包含概率与其规模成比例。
  • 样本量要求:样本量 $n$ 固定。

特别说明

  • 如果每个单元的入样概率与其大小或规模严格成比例,则对于固定的 $n$,有:

    这种情形的抽样称为严格的πPS抽样

  • πPS抽样下二阶包含概率 $\pi_{ij}$ 很难求得,因此方差的估计也非常困难。

    • 当样本量 $n=2$ 时,πPS抽样的实施和估计较为可行。
    • 当 $n>2$ 时,严格的πPS抽样相当复杂。实际应用中,通常通过分层,在每层中再进行严格的样本量为2的πPS抽样。

特例:单元规模相等时

此时,不放回简单随机抽样是πPS抽样的一个特例。


估计量

霍维茨-汤普森(Horvitz-Thompson)估计量

霍维茨-汤普森估计量立足于包含概率,也称为π估计量

  1. 总量 $Y$ 的HT估计

  2. 期望

  3. 方差

  4. 方差估计


【证明】

定义示性函数:

Horvitz-Thompson估计量:

由此得:

  • $E(I_i) = \pi_i$
  • $\text{Cov}(Ii, I_j) = \pi{ij} - \pii \pi_j$,注意 $\pi{ii} = \pi_i$

期望的计算:

方差计算

Horvitz-Thompson估计量的方差为:

由协方差公式 $\text{Cov}(Ii, I_j) = \pi{ij} - \pi_i \pi_j$,得:

方差估计的期望

根据期望的性质:

比率估计和回归估计

定义比较

比率估计回归估计都是利用辅助变量的信息改进估计的方法,二者都是非线性估计。

比率估计

  • 比率是两个变量的比值。
  • 设目标变量为 $Y$,另一个与 $Y$ 有关的辅助变量为 $X$,对样本中的每一个单元获得 $Y$ 和 $X$ 的调查值 $Y_i$ 和 $X_i$,然后计算样本比率,作为总体比率的估计。如每百人拥有病床数。
  • 比率估计不是抽样方式,而是估计方法。

回归估计

  • 利用目标变量与辅助变量的线性回归关系来提高估计效果的方法。
  • 比率估计是假定回归线通过原点,但如果𝑌和𝑋之间存在近似的线性关系,但这(直)线并不通过𝑌和𝑋构成的平面坐标的原点,也就是所谓截距不等于0,那么这时利用比率估计显然不合适,可以构造𝑌对𝑋的线性回归关系进行估计。

    应用条件

  1. 目标变量与辅助变量存在相关关系;
  2. 有相应辅助变量的总体均值或总值;
  3. 样本量较大。

比率估计与估计量

简单随机抽样(SRS)下的比率估计

总体比率

估计量

总体均值的估计

总体总量的估计

偏倚与渐近无偏性

对于简单随机抽样,比率估计 $\hat{R}$、$\bar{y}_R$ 和 $\hat{Y}_R$ 是有偏的,但当样本量 $n$ 较大时,它们是渐近无偏的:

方差

方差估计


分层抽样(ST)下的比率估计

分别比率估计

分别计算各层比率:

然后合成总体估计:

当各层样本量 $n_h$ 较大时:

估计量的方差

分别比率估计的方差公式:


联合比率估计

  1. 按分层抽样估计方法计算总体的样本均值 $\bar{y}{st}$ 和 $\bar{x}{st}$;
  2. 再采用比率估计:

当总样本量 $n$ 较大时:

估计量的方差

联合比率估计的方差公式:


两者效率比较

分别比率估计

联合比率估计


使用建议

  1. 样本量较大:分别比率估计效果更好;
  2. 样本量较小:联合比率估计效果更好;
  3. 各层比率 $r_h$ 相似:联合比率估计更适合;
  4. 各层比率 $r_h$ 差异显著且样本量较大:分别比率估计更合适。

SRS下的回归估计

总体均值的回归估计量定义

  • $\beta = 0$:为简单估计量;
  • $\beta = R$:为比率估计;
  • $\beta = 1$:为差值估计。

因此,简单估计量与比率估计量都是回归估计量的特例。


总量估计

对于简单随机抽样回归估计量,作为 Y̅ 和 $Y$ 的回归估计:


估计量的方差

方差的估计式:


回归系数未知时的估计

此时需要用样本回归系数(最小二乘估计)来代替总体回归系数:

回归估计量的性质

  1. 性质1:简单随机抽样回归估计量 $\bar{y}_{lr} = \bar{y} + b (\bar{X} - \bar{x})$ 是有偏的,但当样本量充分大时,估计量的偏倚趋于零,因此回归估计量是 渐近无偏的
  2. 性质2:当样本量较大时,$\bar{y}_{lr}$ 的均方误差约等于方差:

    均方误差的估计:

    其中,$s_e^2$ 为样本的残差方差:


ST下回归估计

当各层样本量较小时,通常采用 联合回归估计;当各层样本量较大时,可采用 分别回归估计

两者的区别:

  • 分别回归估计:先“回归”再“加权”。
  • 联合回归估计:先“加权”再“回归”。

分别回归估计

均值估计

总量估计

方差估计

当各层的回归系数 $\beta_{0h}$ 为事先给定的常数时,估计量无偏,其方差为:

最小方差条件

当 $\beta{0h} = B_h = \frac{S{xyh}}{S_{xh}^2}$ 时,方差达到最小值:

样本回归系数

如果 $\beta_h$ 未知,用样本回归系数 $b_h$ 估计:

此时估计量有偏,但当每层样本量 $n_h$ 较大时,偏倚可以忽略,方差近似为:

式中:


联合回归估计

均值估计

总量估计

样本回归系数

当回归系数未知时,用样本回归系数 $b_c$ 代替:

方差估计

方差的样本估计:


两者效率比较

  1. 分别回归估计 的方差:

  2. 联合回归估计 的方差:

比较:

  • 各层样本量大时,分别回归估计更优;
  • 总样本量较大但各层样本量较小时,联合回归估计更优;
  • 当各层回归系数相似时,联合回归估计更优;
  • 当各层回归系数差异较大且样本量较大时,分别回归估计更优。

回归估计与比率估计比较

对于简单随机抽样:

  1. 简单估计量的方差:
  2. 比率估计量的方差:

比率估计优于简单估计的条件:

当 $B = R$ 时,回归估计与比率估计效率相同;否则,回归估计优于比率估计。