第 14 章 假设检验的构建

14.1 什么是假设检验

一般来说,我们的假设(或者叫假说) 是对与我们实验观察数据来自的总体(或人群) 的概率分布的描述。在参数检验的背景下,就是要检验描述这个总体(或人群) 的概率分布的参数 (parameters)。最典型的情况是,我们提出两个互补的假设,一个叫作零假设(或者叫原假设) ,null hypothesis (\(H_0\));另一个是与之对应的(互补的) 替代假设,althernative hypothesis (\(H_1/H_A\))。

例如,若 \(X\) 是一个服从二项分布的随机离散变量 \(X\sim Bin(5, \theta)\)。可以考虑如下的零假设和替代假设:\(H_0: \theta=\frac{1}{2}; H_1: \theta=\frac{2}{3}\)

当建立了零假设和替代假设以后,假设检验就是要建立如下的规则以确定:

  1. 从样本中计算所得的参数估计值为多少时,拒绝零假设。 (接受替代假设为“真”)
  2. 从样本中计算所得的参数估计值为多少时,零假设不被拒绝。 (接受零假设为“真”)

注意:(这一段很绕)

上面的例子是零假设和替代假设均为简单假设的情况,实际操作中常常会设计更加复杂的(不对称的) 假设:即简单的 \(H_0\),复杂的 \(H_1\)。如此一来当零假设 \(H_0\) 不被拒绝时,我们并不一定就接受之。因为无证据证明 \(H_1\) 不等于有证据证明 \(H_0\)(Absence of evidence is not evidence of absence). 换句话说,无证据让我们拒绝 \(H_0\) 本身并不成为支持 \(H_0\) 为“真”的证据。因为在实际操作中,当我们设定的简单的零假设没有被拒绝,可能还存在其他符合样本数据的零假设;相反地,当样本数据的计算结果拒绝了零假设,我们只能接受替代假设。所以,反对零假设的证据,同时就是支持替代假设的证据。

在样本空间(sample space) 中,决定了零假设 \(H_0\) 会被拒绝的子集( subset),被命名为拒绝域(rejection region ) 或者判别区域(critical region),用 \(\mathfrak{R}\) 来标记。

14.2 错误概率和效能方程

这一部分也可以参考本笔记的临床试验样本量计算 (Section 30 ) 部分。

Definition of Type I and Type II error
SAMPLE
\(\underline{x} \notin \mathfrak{R}\) Accept \(H_0\) \(\underline{x} \in \mathfrak{R}\) Reject \(H_0\)
TRUTH \(H_0\) is true \(\checkmark\) \(\alpha\)
Type I error
\(H_1\) is true \(\beta\)
Type II error
\(\checkmark\)

假如一个假设检验是关于总体参数 \(\theta\) 的:

\[H_0: \theta=\theta_0 \text{ v.s. } H_1: \theta=\theta_1 \]

这个检验的效能被定义为当替代假设为“真”时,拒绝零假设的概率(该检验方法能够检验出有真实差别的能力) :

\[\text{Power}=\text{Prob}(\underline{x}\in\mathfrak{R}|H_1\text{ is true}) = 1-\text{Prob}(\text{Type II error })\]

观察数据只有两种可能:落在拒绝域内,或者落在拒绝域之外。第二类错误我们常常使用 \(\beta\) 来表示,所以 \(\text{Power}=1-\beta\)

检验的显著性水平用 \(\alpha\) 来表示。 \(\alpha\) 的直观意义就是,检验结果错误的拒绝了零假设 \(H_0\),接受了替代假设 \(H_1\),即假阳性的概率。

\[\text{Prob}(\underline{x}\in \mathfrak{R} |H_0 \text{ is true})=\text{Prob(Type I error)}\] ### 以二项分布为例

用本文开头的例子: \(X\sim Bin(5,\theta)\)。和我们建立的零假设和替代假设:\(H_0: \theta=\frac{1}{2}; H_1: \theta=\frac{2}{3}\)

考虑两种检验方法:

  1. A 方法:当且仅当5次观察都为“成功”时才拒绝 \(H_0 (\text{i.e.}\; X=5)\)。所以此时判别区域 \(\mathfrak{R}\)\(5\)。检验效能 \(\text{Power}=1-\beta\) 为:\(Prob(X=5|H_1 \text{ is true})=(\frac{2}{3})^5=0.1317\)。显著性水平 \(\alpha\)\(Prob(X=5|H_0 \text{ is true})=(\frac{1}{2})^5=0.03125\)
  2. B 方法:当观察到3,4,5次“成功”时,拒绝 \(H_0 (\text{i.e.} X=3,4,5)\)。此时判别区域 \(\mathfrak{R}\)\(3,4,5\)。检验效能\(Power\) 为:\(Prob(X=3,4,\text{ or }5|H_1 \text{ is ture})=\sum_{i=3}^5(\frac{2}{3} )^i(\frac{1}{3})^{5-i}\approx0.7901\);显著性水平\(\alpha\) 为:\(Prob(X=3,4,5|H_0 \text{ is true})=\sum_{i=3}^5(\frac{1}{2})^i(\frac{1}{2})^{5-i}=0.5\)
# the power in test B
dbinom(3,5,2/3)+dbinom(4,5,2/3)+dbinom(5,5,2/3)
## [1] 0.7901235
# the size in test B
dbinom(3,5,0.5)+dbinom(4,5,0.5)+dbinom(5,5,0.5)
## [1] 0.5

比较上面两种检验方法,可以看到,用B方法时,我们有更高的概率获得假阳性结果(犯第一类错误,错误地拒绝\(H_0\),接受\(H_1\)),但是也有更高的检验效能\(1-\beta\)(真阳性更高) 。这个例子就说明了,试图提高检验效能的同时,会提高犯第一类错误的概率。实际操作中我们常常将第一类错误的概率固定,例如 \(\alpha=0.05\),然后尽可能选择检验效能最高的检验方法。

14.3 如何选择要检验的统计量

在上面的二项分布的实验中,“成功的次数” 是我们感兴趣的要检验的统计量。但也可能是第一次出现 “成功” 之前的实验次数,或者,任何与假设相关的统计量。相似的,如果观察不是离散变量而是连续的,可以拿来检验的指标就有很多,如均值,中位数,众数,几何平均值等。

幸运地是,当明确了零假设和替代假设后,我们可以利用Neyman-Pearson lemma 似然比公式1:

来决定使用哪个统计量做检验最有效

\[\text{Neyman-Pearson lemma}=\frac{L_{H_0}}{L_{H_1}}\]

这公式很直观,因为当观察数据更加支持 \(H_1\) 时 (\(L_{H_1}\) 更大),\(H_0\) 的可能性相对更小,就更应该被拒绝。而且,由于似然比越小,他的对数就越小,实际计算时我们常使用对数似然比:\(\ell_{H_0}-\ell_{H_1}\)

问题来了,那到底要多小才算小?这个进入拒绝域的阈值由两个指标来决定:

  1. 被检验统计量的样本分布 (the sampling distribution of the test statistic)
  2. 第一类错误概率 \(\alpha\) (the required value of \(\alpha\))

14.3.1 以已知方差的正态分布为例

假如已知 \(X_1, \cdots, X_n \stackrel{i.i.d}{\sim} N(\mu, \sigma^2)\) 而且方差 \(\sigma^2\) 也是已知的。如果令\(H_0: \mu=5\; ;H_1: \mu=10\) 可以通过如下的方法找到我们需要的最佳检验统计量best statistic 根据之前的推导(Section @ ref(llr)) 可知正态分布的似然方程如下:

\[\ell(\mu|\underline{x}) =-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2\] 所以已知 \(\sigma^2\) 时,我们的零假设和替代假设之间的对数似然比 \(\ell_{H_0}-\ell_{H_1}\) 为:

\[\ell_{H_0}-\ell_{H_1}=-\frac{1}{2\sigma^2}(\sum_{i=1}^n(x_i-5)^2-\sum_{i= 1}^n(x_i-10)^2)\]

然而,我们只需要考虑随着数据变化的部分,所以忽略掉不变的部分2

\[ \begin{aligned} \ell_{H_0}-\ell_{H_1} & = -(\sum_{i=1}^n(x_i-5)^2-\sum_{i=i}^n(x_i-10)^2)\ \ & = 75n - 2\times(10-5)\sum_{i=1}^nx_i \\ \end{aligned} \]

所以只要样本和 (sum of sample) \(\sum_{i=1}^nx_i\) (最佳统计量 best statistic) 足够大,零假设就会被拒绝。而且注意到最佳统计量可以乘以任何常数用作新的最佳统计量。为了方便我们就用样本均数 \(\frac{1}{n}\sum_{i=1}^nx_i\) 作此处的最佳统计量。所以此时,我们的最佳检验就是当样本均值足够大,超过某个阈值时,我们拒绝零假设。而且,样本均值的样本分布是可以知道的,这样就便于我们继续计算下一步:拒绝域 (判别区域) 。

14.4 复合假设

目前为止我们讨论的假设检验限制太多,实际操作时,我们多考虑类似如下的假设:

  1. \(H_0: \theta=\theta_0 \;\text{v.s.}\; H_1: \theta>\theta_0\) [单侧的替代假设]
  2. \(H_0: \theta=\theta_0 \;\text{v.s.}\; H_1: \theta\neq\theta_0\) [双侧的替代假设]

所以我们面临的问题是简单假设中用于判定的最佳统计量,是始终如一地适用?我们一一来看:

14.4.1 单侧替代假设

本章目前为止的推导中我们发现,样本均值越大,零假设和替代假设的对数似然比 \(\ell_{H_0}-\ell_{H_1}\) 越小。所以我们在样本均值较大时,拒绝零假设,那么就可以把原来使用的简单替代假设\(H_1: \mu=10\) 扩展为,任意大于\(5\)\(\mu\) ,即$>5 $ 。因为大于 \(5\) 的任何均值,都提供了更小的对数似然比,都会让我们拒绝零假设。所以在正态分布时,单侧替代假设的最佳检验统计量还是样本均值

14.4.2 双侧替代假设

双侧替代假设的情况下,我们无法继续使用样本均值作为最佳统计量。因为当我们想检验:\(H_0: \mu=5 \;\text{v.s.}\; H_1: \mu<5\) 时,必须获得足够小的样本均值才能让我们拒绝零假设。此处暂且先按下不表。

14.5 为反对零假设 \(H_0\) 的证据定量

重新再考虑复合假设:\(H_0: \theta=\theta_0\;\text{v.s.}\;H_1: \theta>\theta_0\) 假如存在一个总是可用的最佳检验统计量,用\(T\) 来标记(或\(T(x)\)), 这个统计量足够大时,我们拒绝\(H_0\)。别忘了我们还要给事先固定好的显著性水平 \(\alpha\) 定义与之相关的判别区域:

\[\text{Prob}(\underline{x}\in\mathfrak{R}|H_0)=\alpha\]

如果我们知道 \(T\) 的样本分布,我们就可以使用一个阈值 \(c\) 来定义这个判别区域:

\[Prob(T\geqslant c|H_0)=\alpha\]

更加正式的,我们定义判别区域 \(\mathfrak{R}\) 为:

\[\{\underline{x}:\text{Prob}(T(x)\geqslant c|H_0)=\alpha\}\]

换句话说,当统计量 \(T>c\) 时,我们拒绝 \(H_0\) 。如果先不考虑拒绝或不拒绝的二元判定,我们可以用一个连续型测量值来量化反对零假设 \(H_0\) 的证据。再考虑从观察数据中获得的 \(T\) ,即数据告诉我们的 \(t\) 。所以,当 \(t\) 值越大,说明观察值相对零假设 \(H_0\) 越往极端的方向走。因此我们可以用 \(T\) 的样本分布来计算观察值大大于等于这个阈值(极端值) 时的概率:

\[p=\text{Prob}(T\geqslant t|H_0)\]

这个概率公式被称为是单侧 \(p\)(one-side p-value)。单侧 \(p\) 值越小,统计量 \(T\) 的样本空间就有越小比例(越强) 的证据支持零假设 \(H_0\)

我们把这以思想用到假设检验中时,就可以认为:

\[p<\alpha \Leftrightarrow t>c\]

所以用我们一贯的设定 \(\alpha=0.05\),所以如果计算获得 \(p<0.05\) 我们就认为获得了足够强的拒绝零假设 \(H_0\) 的证据。

14.5.1 回到正态分布的均值比较问题上来(单侧替代假设)

继续考虑\(X_1,\cdots,X_n\stackrel{i.i.d}{\sim} N(\mu, \sigma^2)\),假设\(\sigma^2=10\),我们要检验的是\(H_0: \mu =5 \;\text{v.s}.\; H_1: \mu>5\)

  1. 确定最佳检验统计量:已经证明过,单侧替代假设的最佳检验统计量是样本均值 \(\bar{x}\)
  2. 确定该统计量的样本分布:已知样本均数的样本分布是 \(\bar{X}\sim N(\mu,\sigma^2/n)\)
    \(\Rightarrow Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)\),所以在\(H_0\) 条件下,\(\ Rightarrow Z=\frac{\bar{X}-5}{\sqrt{10}/\sqrt{n}} \sim N(0,1)\)
  3. 所以当一个检验的显著性水平设定为\(\alpha=0.05\) 时,我们用判别区域\(\mathfrak{R}\),使统计量据落在该判别区域内的概率为\(0.05\)
    \(\text{Prob}(\bar{X}\geqslant c|H_0) = 0.05\)
    已知在标准正态分布时,\(\text{Prob}(Z\geqslant1.64)=0.05= \text{Prob}(\frac{\bar{X}-5}{\sqrt{10}/\sqrt{n}}\geqslant1.64)\)
  4. 假设样本量是 \(10\),那么数据的判别区域 \(\mathfrak{R}\) 就是 \(\bar{X}\geqslant6.64\)
  5. 假设观察数据告诉我们,\(\bar{X}=7.76\) 。那么这一组观察数据计算得到的统计量落在了判别区域内,就提供了足够的证据拒绝接受 \(H_0\)
  6. 我们可以给这个观察数据计算相应的单侧\(p\) 值:
    \(p=\text{Prob}(\bar{X}\geqslant7.76|H_0)=\text{Prob}(Z +5\geqslant7.76)\\=\text{Prob}(Z\geqslant2.76)=0.003\)
    所以,观察数据告诉我们,在\(H_0\) 的前提下,观察值出现的概率是\(0.3 \%\) 。即,在无数次重复取样实验中,仅有 \(0.3\%\) 的结果可以给出支持 \(H_0\) 的证据。因此我们拒绝 \(H_0\) 接受 \(H_1\)

14.6 双侧替代假设情况下,双侧 \(p\) 值的定量方法

Deliberately use an assymmetrical distribution to highlight the issues

图 14.1: Deliberately use an assymmetrical distribution to highlight the issues

此处故意使用一个左右不对称的概率密度分布来解释。

现在的替代假设是双侧的:

\[H_0: \theta=\theta_0 \;\text{v.s.}\; H_1: \theta\neq\theta_0\]

正常来说,双侧的假设检验应该分成两个单侧检验。即:

  1. \(H_1: \theta>\theta_0\);
  2. \(H_1: \theta<\theta_0\).

每个单侧检验都有自己的最佳检验统计量。令 \(T\) 是 1. 的最佳检验统计量,该统计量的样本分布如上图 14.1 所示(左右不对称) 。假如观察数据给出的统计量为 \(t_{\text{obs}}\),那么在概率上反对零假设的情况可以有两种:

  1. \(T\geqslant t_{\text{obs}}\) 其中, \(\text{Prob}(T\geqslant t_{\text{obs}}|H_0)=\tilde p\);
  2. \(T\leqslant t^\prime\) 其中,\(t^\prime\) 满足: \(\text{Prob}(T\leqslant t^\prime|H_0) =\tilde p\)。 (图14.1)

所以概率密度分布两侧的距离可以不对称,但是只要左右两侧概率密度分布的面积(\(=\tilde p\))相同,那么就可以直接认为,双侧\(p\) 值是两侧面积之和(\(p=2\times \tilde p\)),且观察数据提供的统计量落在这两个面积内的话,都足以提供证据拒绝零假设\(H_0\)

注意:

  • 被选中的 \(t^\prime\) 值大小不大可能满足:\(|t^\prime - E(T|\theta_0)|=|t_{obs}-E(T|\theta_0)|\)。因为那只有在完全左右对称的分布中才会出现。但是,此处我们关心的是面积左右两边的尾部要相等即可,所以我们只需要知道右半边,较大的那个 \(t_{obs}\) 就完全足够了。

回到上面的均值比较问题 (Section 14.5.1)。现在我们要进行双侧假设检验,即: \(H_0: \mu=5 \text{ v.s. } H_1: \mu\neq5\),最佳统计量依然还是样本均数 \(\bar{X}\)。数据告诉我们说\(\bar{X}=7.76\),因此双侧\(p\) 值就是将已求得的单侧\(\tilde p\) 值乘以\(2\)\(\text{two-sided } p= 2\tilde p= 0.006\)

当然,实际操作中我们很少进行这样繁琐的论证,多数情况下就直接报告双侧 \(p\) 值。

14.7 假设检验构建之总结

按照如下的步骤一一构建我们的假设检验过程:

  1. 先建立零假设,和替代假设 (Section 14.1);
  2. 定义最佳检验统计量 (用 Neyman-Pearson lemma) (Section 14.3);
  3. 取得零假设条件下,最佳统计量的样本分布(通常都较为困难,有时候我们会倾向于使用“不太理想”,但是计算较为简便的过程。) ;
  4. 定义拒绝域(判别区域) (常用 \(\alpha=0.05\)) ;
  5. 计算观察数据的检验统计量;
  6. 如果观察数据的检验统计量落在了提前定义好的拒绝域内,那么我们的检验结论就是:观察数据拒绝了零假设支持替代假设。然而在实际操作时,如果发现数据的检验统计量不在拒绝域内,我们仅仅只能下结论说:观察数据无法拒绝零假设(而不是接受零假设!) ;
  7. 报告计算得到的反对零假设的定量 \(p\) 值。

作为统计学家,我们的任务是评价数据提供的证据,而不是简单的去接受或者拒绝一个假设。


  1. 区分与之前讨论的对数似然比(Section ??),之前讨论的对数似然比指的是所有的似然和极大似然之间的比,此处的似然比只是纯粹在探讨两个假设之间的似然比,与极大似然无关↩︎

  2. Rememer that \(\ell_{H_0}-\ell_{H_1}\) is a random variable: the data varies **each time* * we sample, with consequently varying relative support for the hypotheses, and so we are only interested in that part of \(\ell_{H_0}-\ell_{H_1}\) which depends on the results, the data, which vary with each sample (i.e. which contains the random part); the constant part provides no information on the relative support the data give to the hypotheses, so we ignore it.↩︎