参考教材:

  1. 韦来生. 数理统计(第二版). 科学出版社, 2015.12
  2. 茆诗松,吕晓玲. 数理统计学(第二版). 中国人民大学出版社, 2016.1

1.1 数理统计学

1.1.1 定义与任务

定义数理统计数学 的一个分支,它是研究如何有效地 收集使用 带有随机性影响的数据 的一门学科。

(1)有效地收集数据

收集数据的方法:

  1. 全面观察(普查)【人口普查】
  2. 抽样调查【满意度调查】
  3. 安排试验【试验寻找最优生产方案】

(2)有效地使用数据

获取数据后,需要用有效地方法去集中和提取数据中的有关信息,以对所研究的问题作出一定的结论————“推断”。

要进行统计推断,需要

  1. 对数据建立一个统计模型
  2. 提出统计推断的方法
  3. 给定某些准则去评判不同统计模型的优劣

(3)数理统计学与各种专门学科的关系

统计方法只是从事物外在数量上的表现去推断该事物可能的规律性。统计方法本身不能说明何以会有这个规律性。

(4)数理统计方法的归纳性质

数理统计是数学的一个分支,但其推理方法不同。
统计方法的本质是归纳式的,而其他数学学科则是演绎式的。
统计方法的归纳性质,源于在它作结论时,是根据所观察到的大量的“个别”情况“归纳”起来所得,而不是从一些假设、命题或已知事实出发,按照一定的逻辑推理得出来的。

归纳推理的不确定性的出现是一种逻辑的必然。
归纳推理所依据的数据具有随机性,因此人们不可能作出十分肯定的结论。
但是,不确定性的推理仍然是可行的,关键在于推理的不确定性程度是可以用概率计算的。

总而言之,统计推断归纳推理方法,其作出的推断不是100%可靠,但它的可靠程度可以通过概率来度量。

1.1.2 数理统计学的应用

  1. 行政机关需要收集数据和资料,为决策提供合理依据。
  2. 工农业生产中,需要试验设计来找到好的生产方式。
  3. 经济和金融领域————时间序列预测,“计量经济学”
  4. 生物医学
  5. 气象预报、水文、地震、地质应用

1.1.3 统计学发展简史

暂略

1.2 基本概念

1.2.1 总体和样本

概念:

  1. 总体:所有对象+性质
    有限总体 & 无限总体
  2. 个体:每个对象+性质
  3. 样本:从总体抽出的一些个体
  4. 样本大小/容量:样本中个体的数目
  5. 抽样:从总体中按照某种法则抽取一组样本的过程

统计学的目的不是要了解总体中的个体,而是要了解总体的分布。

定义1.2.1 一个统计问题所研究的对象(+性质)的全体称为总体。在数理统计中总体可以用一个随机变量及其概率分布来描述。

针对要研究的参数X

总体可以用 r.v. X 【random variable随机变量】来表示;

也可以用其分布函数F来表示。若F有密度,记为f,则此总体也可以用f来表示。

当有一个从该总体中抽取的相互独立同分布(i.i.d)【independent and identically distributed 独立同分布】的大小为n的样本$X_1,…,X_n$,则常记为:

若F有密度f,可记为

若考虑的总体用$r.v. X$表示,其分布函数为F,则样本$X_1,…,X_n$可视为$r.v. X$

1.2.2 样本空间和样本的概率性

1. 样本空间

样本是由总体中抽取的一部分个体组成的。设 $X = (X_1, \dots, X_n)$ 是从总体中抽取的样本,其样本空间定义如下:

定义1.2.2
样本 $X = (X_1, \dots, X_n)$ 可简称为样本,构成样本空间(sample space),记为 $\mathcal{X}$。

例子 1.2.3

打靶试验,每次打三发,每次中靶的概率。加样本 $X = (5, 1, 9)$ 表示三次打靶分别中 5 环、1 环和 9 环,此时样本空间为:

这个样本空间中样本是离散有限值的,例 1.2.2 的样本空间中的样本是离散无限的。

2. 样本的二重性

样本的二重性定义,样本空间可以是成具体值的数,X也可以是随机变量(或随机向量)。在实际抽样后,它是具体值的数; 在实验抽样前,它被看成随机变量(或随机向量)。因为在实验具体抽样之前无法预测抽样的结果,只能预测它可能取值的范围,因此可以把它看成随机变量(或随机向量),从而对样本的概率性有更深的认识和理解。

样本既然是随机变量,就有分布而言,这样才存在统计推断问题。

3. 简单随机样本

简单随机抽样,它满足下列要求。

(1)代表性。总体中的每一个个体都有等概率被抽入样本,这意味着样本中每个个体与总体中的个体都是有相同分布,因此,在一个样本中的个体都具有代表性。

(2)独立性。样本中每一个个体相互独立,不能影响其他个体中体的值。这意味着样本中每一个个体 $X_1, X_2, \dots, X_n$ 是相互独立的随机变量。

由简单随机抽样获得的样本 $(X_1, \dots, X_n)$ 称为简单随机样本。其定义如下:

定义1.2.3
设有一总体 $F$, $X_1, \dots, X_n$ 为从 $F$ 中抽取的容量为 $n$ 的样本,若:

(1)$X_1, \dots, X_n$ 相互独立,

(2)$X_1, \dots, X_n$ 相同分布,即同有分布 $F$。

则称 $X_1, \dots, X_n$ 为简单随机样本,有时简称为简单样本或随机样本。

设总体为 $F$, $X_1, \dots, X_n$ 为从总体中抽取的简单随机样本,则 $X_1, \dots, X_n$ 的联合分布函数 $F(x_1, \dots, x_n)$ 可表示为

若 $F$ 有密度 $f$,则联合密度函数 $f(x_1, \dots, x_n)$ 可表示为

简单随机样本是独立的,如从一大群人中抽取样本人,抽出身人的身高和体重。用随机向量 $(X, Y)$ 或用其余分布函数 $F(x, y)$ 记身高 $(X_1, Y_1), \dots, (X_n, Y_n)$ 都是从这一总体中抽取的一组简单随机样本,其联合分布函数为

若 $F(x, y)$ 有密度 $f(x, y)$,则联合密度函数为

显然,有独立抽样条件的样本是简单随机样本。当前中包含的个体数据大致所抽样本在总体中所占比例较小时,可以把无限抽样条件的样本与简单随机样本相对应。

1.2.3 样本分布

样本既然是随机变量,就有一定的概率分布,这个概率分布就是样本分布

1.2.4 统计模型

一个问题的统计模型,就是指研究该问题时所抽样本的分布,也常称为概率模型或数学模型。

  1. 统计模型的确定
  2. 很多性质不一样的问题,可以归入到同一模型下
  3. 同一模型下可以提出很多不同的统计问题

1.2.5 统计推断

  1. 参数和参数空间

    统计模型就是样本分布,当样本分布不完全已知时才有存在统计推断的必要。

    在一空间域中参数组合未知,但根据参数的性质可给出参数取值的范围,参数取值的范围称为参数空间(parametric space)。

    例1:参数空间 $\Theta = {(a, \sigma) : a > 0, \sigma > 0}$; $\Theta = {\lambda : \lambda > 0}$。

    例2:参数空间 $\Theta = {(a, b, \sigma_1, \sigma_2, p) : a > 0, b > 0, \sigma_1 > 0, \sigma_2 > 0, |p| < 1}$。

  2. 样本分布族

    样本分布族概念包含未知参数,说明可能的样本分布不止一个。当参数取不同值时,样本分布族有不同的分布,因此这些样本分布就构成一个分布族。

    样例样本分布族:

    其中 $\lambda$ 为参数,它的一个可能的值对应于一个具体分布。
    统计模型就是样本分布族。

    样本分布族,连同其参数空间,从总体的方面确定了统计问题的范围。分布族越小,问题的确定度越高,意味着可能作出更精确和更可靠的结论。

  3. 统计推断
    从总体中抽取一定大小的样本去推断总体的概率分布的方法称为统计推断(statistical inference)。

    数据统计是着手于样本,着眼于总体,其任务是用样本去推断总体。当样本分布完全已知时是不存在任何统计推断的问题的。

    当样本分布有形式已知,但含有未知的实参数时,统计推断的任务是确定未知参数的值,这种情况下的统计推断问题称为 参数统计推断问题

    在另一类问题的情形就更复杂一些。这类问题中样本分布的形式未知,有关统计推断的问题称为 非参数统计推断问题

    参数统计推断有种种不同的形式:主要有关数估计和假设检验问题。

    非参数统计推断问题中,统计推断的主要任务是通过样本对总体的分布作出推断。

    由于样本的随机性,统计推断的结论不可能 100% 的正确,但可以给出衡量推断正确程度的指标。

    统计推断包括下列三方面内容:

    1. 提出和研究统计推断的方法;
    2. 计算有关推断方法性能的数量指标,如前述例子中用 $\overline{X}$ 估计 $N(α, σ^2)$ 中的 $α$,用 $P(| \overline{X} - α |> c)$ 表示推断性能的数量指标;
    3. 在一定的条件和优良性准则下寻找最优的统计推断方法,或证明某种统计推断方法是最优的。
  4. 概率论和数理统计
    概率论更倾向于已知分布去研究随机变量。

1.3.1 统计量的定义

定义1.3.1
由样本算出的量称为统计量 (statistic). 或者说,统计量是样本的函数。

  1. 统计量只与样本有关,不能与未知参数变量有关。

    例如,$X \sim N(a, \sigma^2)$, $X1, \dots, X_n$ 是从总体 $X$ 中抽取的 i.i.d. 样本,则 $\sum{i=1}^n Xi$ 和 $\sum{i=1}^n X_i^2$ 都是统计量,

    当 $a$ 和 $\sigma^2$ 皆为未知参数时,$\sum{i=1}^n (X_i - a)$ 和 $\sum{i=1}^n X_i^2 / \sigma^2$ 都不是统计量。

  2. 由于样本具有两重性,它既可以看成具体值的数,又可以看成随机变量(或随机向量);

    统计量是样本的函数,因此统计量也具有两重性。

    正因为统计量可以看成随机变量(或随机向量),才具有概率分布,这是利用统计量进行统计推断的依据。

  3. 在某个问题中抽用样本分布,要有问题的性质。

    一般来说,所提出的统计量必须是最低误差集中于样本中估计值偏差的。

    通常是从直观或理论推断出最适合样本中估计值偏差的统计量。

1.3.2 关于常用的统计量

  1. 样本均值:反映了总体均值的估计
  1. 样本方差:反映了总体方差的信息,$S$ 称为样本标准差

一些教科书上也采用样本方差的定义:

用 $S^2$ 定义样本方差的好处是 $E(S^2) = \sigma^2 = D(X)$,其中 $n-1$ 称为自由度。

样本均值和样本方差是两个最常用的统计量,它们具有如下三个性质:

  1. 设非零常数 $a$ 和 $b$ 为常数,作变换 $Y_i = aX_i + b$,$i = 1,2, \dots, n$,

    则 $Y_1, \dots, Y_n$ 的样本均值为 $\bar{Y} = a\bar{X} + b$,其样本方差 $S_Y^2 = a^2 S_X^2$,

    其中 $S_X^2$ 和 $S_Y^2$ 分别表示 $X_1, \dots, X_n$ 和 $Y_1, \dots, Y_n$ 的样本方差。

  2. 对于任何常数 $c$,有

    且等号只在 $c = \bar{X}$ 时成立。这个性质表明,在偏差平方和最小的准则下,用总体均值 $a$ 的 $n$ 次测量值的算术平均值估计 $a$ 是最好的。

3. 样本矩

样本 $k$ 阶原点矩:

特别当 $k=1$ 时,$a_{n,1} = \bar{X}$,即样本均值

样本 k 阶中心矩:

。特别 k = 2 时,

样本的原点矩和中心矩统称为样本矩(sample moments)。

4. 二维随机向量的样本矩

设 $(X_1, Y_1), \dots, (X_n, Y_n)$ 为从二维总体 $F(x, y)$ 中抽取的样本,则

分别称为 $X$ 和 $Y$ 的样本均值样本方差$X$ 和 $Y$ 的样本协方差(sample covariance)。

样本相关系数 $r{XY}=\frac{S{XY}}{S_X S_Y}$

5. 次序统计量及其有关统计量

设 $X_1, \dots, X_n$ 为从总体 $F$ 中抽取的样本,将其按大小排列为

则 $(X{(1)}, X{(2)}, \dots, X{(n)})$ 称为样本 $(X_1, \dots, X_n)$ 的次序统计量(order statistics)。$(X{(1)}, \dots, X_{(n)})$ 的任一部分也称为次序统计量。

利用次序统计量可以定义下列统计量

  1. 样本中位数

    称为样本中位数(sample median),反映总体中位数的信息。

  2. 极值

    $X{(1)}$ 和 $X{(n)}$ 称为样本的极小值极大值,它们统称为样本极值(extremum of sample)。极值统计量在关于灾害问题和材料试验的统计分析中是常用的统计量。

  3. 样本 p 分位数($0 < p < 1$)可定义为

    此处 $\lfloor a \rfloor$ 表示实数 $a$ 的整数部分。当 $p = \frac{1}{2}$,$n$ 为奇数时,此定义与样本中位数相同。

    样本 p 分位数(sample p-fractile)反映了总体 p 分位数信息。

  4. 样本极差

    ,它是反映总体分布离散程度的信息。

  5. 四分位极差(interquartile range)【上四分位数(Q3) 与下四分位
    数(Q1) 的差】

    ,即

    反映了中间50%数据的离散幅度,其数值越小,说明中间的数
    据越集中,其数值越大,说明中间的数据越分散。

    相关应用:箱线图(boxplot)亦称"箱形图""盒须图"。包含常用的分
    位数统计量,能提供数据位置,对称性及离散情况等的关键信
    息的图。图中给出了基于一组数据所绘箱线图中重要的线与点
    所表示的含义,其中主要包含七个统计量的观测值。这七个统
    计量从下到上依次为最小次序统计量$X(1)$,$Q1−15IQR$,下四
    分位数$Q1$ ,中位数$M$,上四分位数$Q3$, $Q3+15IQR$,最大次序
    统计量$X(n)$ 。这里,$IQR=Q3−Q1$ 为四分位极差。

箱型图

6. 样本变异系数

样本变异系数:反映了总体变异系数(population coefficient of variation)的信息

总体变异系数的定义是

衡量总体离散程度的量,但该离散程度是以总体均值为单位来度量。

7. 样本偏度

设 $X_1, \dots, X_n$ 为从总体 $F$ 中抽取的样本,则称

样本偏度(sample skewness)。它反映了总体偏度(population skewness)的信息。总体偏度的定义是 $\beta_1 = \mu_3 / \mu_2^{3/2}$,此处 $\mu_i (i = 2,3)$ 是总体的 $i$ 阶中心矩。$\beta_1$ 是反映总体分布的非对称性或”偏倚性”的一种度量正态分布 $N(a, \sigma^2)$ 的偏度为零。

8. 样本峰度

设 $X_1, \dots, X_n$ 为从总体 $F$ 中抽取的样本,则称

样本峰度(sample kurtosis)。它反映了总体峰度(population kurtosis)的信息。总体峰度的定义是 $\beta_2 = \mu_4 / \mu_2^2 - 3$,其中 $\mu_i (i = 2,4)$ 是总体的 $i$ 阶中心矩。$\beta_2$ 是反映总体分布的密度函数在众数(即密度函数的最大值点)附近”峰”的尖峰程度的一种度量。正态分布 $N(a, \sigma^2)$ 的峰度为零。

1.3.3 经验分布函数

定义 1.3.2 设 $X_1, \dots, X_n$ 为从总体 $F(x)$ 中抽取的 i.i.d. 样本,将其按大小排列为

对任意实数 $x$,称下列函数

经验分布函数(empirical distribution function)。

易见经验分布函数单调、非降、左连续函数,具有分布函数的基本性质。它在 $x = X_{(k)}, k = 1,2, \dots, n$ 处有间断,它是在每个间断点跳跃的幅度为 $1/n$ 的阶梯函数。$F_n(x)$ 可以看成总体分布函数 $F(x) = P(X < x)$ 的一个估计量

若记示性函数

则 $F_n(x)$ 可表示为

由定义可知 $F_n(x)$ 依概率依赖于样本 $X_1, X_2, \dots, X_n$,因此它是统计量

它可能取值为$0, 1/n, 2/n, \dots, (n-1)/n, 1$。若记 $Yi = I{(-\infty, x)}(X_i)$,$i = 1,2, \dots, n$,则

且 $Y_1, Y_2, \dots, Y_n$ 是 i.i.d. 服从二项分布 $b(1, F(x))$,故

因此对 $k = 0,1,\dots,n$,有

利用三项分布的性质可知对于任一固定的 $x \in (-\infty, \infty)$,$F_n(x)$ 具有如下大样本性质

  1. 由中心极限定理,则当 $n \to \infty$ 时有

    这里 $\overset{\mathcal{L}}{\longrightarrow}$ 表示依分布收敛

  2. 由 Bernoulli(或辛钦)大数定律,则在 $n \to \infty$ 时有

  3. 由 Borel 强大数定律,则有

  4. 更进一步,有下列格里文科-康特利定理(Glivenko-Cantelli Theorem):

    定理 1.3.1 设 $F(x)$ 为 r.v. $X$ 的分布函数,$X_1, \dots, X_n$ 为取自总体 $F(x)$ 的简单随机样本,$F_n(x)$ 为其经验分布函数,记

    则有