第 14 章假设检验的构建

14.1 什么是假设检验

一般来说，我们的假设(或者叫假说) 是对与我们实验观察数据来自的总体(或人群) 的概率分布的描述。在参数检验的背景下，就是要检验描述这个总体(或人群) 的概率分布的参数 (parameters)。最典型的情况是，我们提出两个互补的假设，一个叫作零假设(或者叫原假设) ，null hypothesis ($H_0$)；另一个是与之对应的(互补的) 替代假设，althernative hypothesis ($H_1/H_A$)。

例如，若 $X$ 是一个服从二项分布的随机离散变量 $X\sim Bin(5, \theta)$。可以考虑如下的零假设和替代假设：$H_0: \theta=\frac{1}{2}; H_1: \theta=\frac{2}{3}$。

当建立了零假设和替代假设以后，假设检验就是要建立如下的规则以确定：

从样本中计算所得的参数估计值为多少时，拒绝零假设。 (接受替代假设为“真”)
从样本中计算所得的参数估计值为多少时，零假设不被拒绝。 (接受零假设为“真”)

注意：(这一段很绕)

上面的例子是零假设和替代假设均为简单假设的情况，实际操作中常常会设计更加复杂的(不对称的) 假设：即简单的 $H_0$，复杂的 $H_1$。如此一来当零假设 $H_0$ 不被拒绝时，我们并不一定就接受之。因为无证据证明 $H_1$ 不等于有证据证明 $H_0$。 (Absence of evidence is not evidence of absence). 换句话说，无证据让我们拒绝 $H_0$ 本身并不成为支持 $H_0$ 为“真”的证据。因为在实际操作中，当我们设定的简单的零假设没有被拒绝，可能还存在其他符合样本数据的零假设；相反地，当样本数据的计算结果拒绝了零假设，我们只能接受替代假设。所以，反对零假设的证据，同时就是支持替代假设的证据。

在样本空间(sample space) 中，决定了零假设 $H_0$ 会被拒绝的子集( subset)，被命名为拒绝域(rejection region ) 或者判别区域(critical region)，用 $\mathfrak{R}$ 来标记。

14.2 错误概率和效能方程

这一部分也可以参考本笔记的临床试验样本量计算 (Section 30 ) 部分。

Definition of Type I and Type II error
		SAMPLE
		$\underline{x} \notin \mathfrak{R}$ Accept $H_0$	$\underline{x} \in \mathfrak{R}$ Reject $H_0$
TRUTH	$H_0$ is true	$\checkmark$	$\alpha$ Type I error
TRUTH	$H_1$ is true	$\beta$ Type II error	$\checkmark$

假如一个假设检验是关于总体参数 $\theta$ 的：

\[H_0: \theta=\theta_0 \text{ v.s. } H_1: \theta=\theta_1 \]

这个检验的效能被定义为当替代假设为“真”时，拒绝零假设的概率(该检验方法能够检验出有真实差别的能力) ：

\[\text{Power}=\text{Prob}(\underline{x}\in\mathfrak{R}|H_1\text{ is true}) = 1-\text{Prob}(\text{Type II error })\]

观察数据只有两种可能：落在拒绝域内，或者落在拒绝域之外。第二类错误我们常常使用 $\beta$ 来表示，所以 $\text{Power}=1-\beta$。

检验的显著性水平用 $\alpha$ 来表示。 $\alpha$ 的直观意义就是，检验结果错误的拒绝了零假设 $H_0$，接受了替代假设 $H_1$，即假阳性的概率。

\[\text{Prob}(\underline{x}\in \mathfrak{R} |H_0 \text{ is true})=\text{Prob(Type I error)}\] ### 以二项分布为例

用本文开头的例子： $X\sim Bin(5,\theta)$。和我们建立的零假设和替代假设：$H_0: \theta=\frac{1}{2}; H_1: \theta=\frac{2}{3}$：

考虑两种检验方法：

A 方法：当且仅当5次观察都为“成功”时才拒绝 $H_0 (\text{i.e.}\; X=5)$。所以此时判别区域 $\mathfrak{R}$ 为 $5$。检验效能 $\text{Power}=1-\beta$ 为：$Prob(X=5|H_1 \text{ is true})=(\frac{2}{3})^5=0.1317$。显著性水平 $\alpha$ 为 $Prob(X=5|H_0 \text{ is true})=(\frac{1}{2})^5=0.03125$。
B 方法：当观察到3,4,5次“成功”时，拒绝 $H_0 (\text{i.e.} X=3,4,5)$。此时判别区域 $\mathfrak{R}$ 为 $3,4,5$。检验效能$Power$ 为：$Prob(X=3,4,\text{ or }5|H_1 \text{ is ture})=\sum_{i=3}^5(\frac{2}{3} )^i(\frac{1}{3})^{5-i}\approx0.7901$；显著性水平$\alpha$ 为：$Prob(X=3,4,5|H_0 \text{ is true})=\sum_{i=3}^5(\frac{1}{2})^i(\frac{1}{2})^{5-i}=0.5$

# the power in test B
dbinom(3,5,2/3)+dbinom(4,5,2/3)+dbinom(5,5,2/3)

## [1] 0.7901235

# the size in test B
dbinom(3,5,0.5)+dbinom(4,5,0.5)+dbinom(5,5,0.5)

## [1] 0.5

比较上面两种检验方法，可以看到，用B方法时，我们有更高的概率获得假阳性结果(犯第一类错误，错误地拒绝$H_0$，接受$H_1$)，但是也有更高的检验效能$1-\beta$(真阳性更高) 。这个例子就说明了，试图提高检验效能的同时，会提高犯第一类错误的概率。实际操作中我们常常将第一类错误的概率固定，例如 $\alpha=0.05$，然后尽可能选择检验效能最高的检验方法。

14.3 如何选择要检验的统计量

在上面的二项分布的实验中，“成功的次数” 是我们感兴趣的要检验的统计量。但也可能是第一次出现 “成功” 之前的实验次数，或者，任何与假设相关的统计量。相似的，如果观察不是离散变量而是连续的，可以拿来检验的指标就有很多，如均值，中位数，众数，几何平均值等。

幸运地是，当明确了零假设和替代假设后，我们可以利用Neyman-Pearson lemma 似然比公式¹:

来决定使用哪个统计量做检验最有效：

\[\text{Neyman-Pearson lemma}=\frac{L_{H_0}}{L_{H_1}}\]

这公式很直观，因为当观察数据更加支持 $H_1$ 时 ($L_{H_1}$ 更大)，$H_0$ 的可能性相对更小，就更应该被拒绝。而且，由于似然比越小，他的对数就越小，实际计算时我们常使用对数似然比：$\ell_{H_0}-\ell_{H_1}$。

问题来了，那到底要多小才算小？这个进入拒绝域的阈值由两个指标来决定：

被检验统计量的样本分布 (the sampling distribution of the test statistic)
第一类错误概率 $\alpha$ (the required value of $\alpha$)

14.3.1 以已知方差的正态分布为例

假如已知 $X_1, \cdots, X_n \stackrel{i.i.d}{\sim} N(\mu, \sigma^2)$ 而且方差 $\sigma^2$ 也是已知的。如果令$H_0: \mu=5\; ;H_1: \mu=10$ 可以通过如下的方法找到我们需要的最佳检验统计量best statistic 根据之前的推导(Section @ ref(llr)) 可知正态分布的似然方程如下：

\[\ell(\mu|\underline{x}) =-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2\] 所以已知 $\sigma^2$ 时，我们的零假设和替代假设之间的对数似然比 $\ell_{H_0}-\ell_{H_1}$ 为:

\[\ell_{H_0}-\ell_{H_1}=-\frac{1}{2\sigma^2}(\sum_{i=1}^n(x_i-5)^2-\sum_{i= 1}^n(x_i-10)^2)\]

然而，我们只需要考虑随着数据变化的部分，所以忽略掉不变的部分²：

\[ \begin{aligned} \ell_{H_0}-\ell_{H_1} & = -(\sum_{i=1}^n(x_i-5)^2-\sum_{i=i}^n(x_i-10)^2)\ \ & = 75n - 2\times(10-5)\sum_{i=1}^nx_i \\ \end{aligned} \]

所以只要样本和 (sum of sample) $\sum_{i=1}^nx_i$ (最佳统计量 best statistic) 足够大，零假设就会被拒绝。而且注意到最佳统计量可以乘以任何常数用作新的最佳统计量。为了方便我们就用样本均数 $\frac{1}{n}\sum_{i=1}^nx_i$ 作此处的最佳统计量。所以此时，我们的最佳检验就是当样本均值足够大，超过某个阈值时，我们拒绝零假设。而且，样本均值的样本分布是可以知道的，这样就便于我们继续计算下一步：拒绝域 (判别区域) 。

14.4 复合假设

目前为止我们讨论的假设检验限制太多，实际操作时，我们多考虑类似如下的假设：

$H_0: \theta=\theta_0 \;\text{v.s.}\; H_1: \theta>\theta_0$ [单侧的替代假设]
$H_0: \theta=\theta_0 \;\text{v.s.}\; H_1: \theta\neq\theta_0$ [双侧的替代假设]

所以我们面临的问题是简单假设中用于判定的最佳统计量，是始终如一地适用？我们一一来看：

14.4.1 单侧替代假设

本章目前为止的推导中我们发现，样本均值越大，零假设和替代假设的对数似然比 $\ell_{H_0}-\ell_{H_1}$ 越小。所以我们在样本均值较大时，拒绝零假设，那么就可以把原来使用的简单替代假设$H_1: \mu=10$ 扩展为，任意大于$5$ 的$\mu$ ，即$>5 $ 。因为大于 $5$ 的任何均值，都提供了更小的对数似然比，都会让我们拒绝零假设。所以在正态分布时，单侧替代假设的最佳检验统计量还是样本均值。

14.4.2 双侧替代假设

双侧替代假设的情况下，我们无法继续使用样本均值作为最佳统计量。因为当我们想检验：$H_0: \mu=5 \;\text{v.s.}\; H_1: \mu<5$ 时，必须获得足够小的样本均值才能让我们拒绝零假设。此处暂且先按下不表。

14.5 为反对零假设 $H_0$ 的证据定量

重新再考虑复合假设：$H_0: \theta=\theta_0\;\text{v.s.}\;H_1: \theta>\theta_0$ 假如存在一个总是可用的最佳检验统计量，用$T$ 来标记(或$T(x)$)，这个统计量足够大时，我们拒绝$H_0$。别忘了我们还要给事先固定好的显著性水平 $\alpha$ 定义与之相关的判别区域：

\[\text{Prob}(\underline{x}\in\mathfrak{R}|H_0)=\alpha\]

如果我们知道 $T$ 的样本分布，我们就可以使用一个阈值 $c$ 来定义这个判别区域：

\[Prob(T\geqslant c|H_0)=\alpha\]

更加正式的，我们定义判别区域 $\mathfrak{R}$ 为：

\[\{\underline{x}:\text{Prob}(T(x)\geqslant c|H_0)=\alpha\}\]

换句话说，当统计量 $T>c$ 时，我们拒绝 $H_0$ 。如果先不考虑拒绝或不拒绝的二元判定，我们可以用一个连续型测量值来量化反对零假设 $H_0$ 的证据。再考虑从观察数据中获得的 $T$ ，即数据告诉我们的 $t$ 。所以，当 $t$ 值越大，说明观察值相对零假设 $H_0$ 越往极端的方向走。因此我们可以用 $T$ 的样本分布来计算观察值大大于等于这个阈值(极端值) 时的概率：

\[p=\text{Prob}(T\geqslant t|H_0)\]

这个概率公式被称为是单侧 $p$ 值 (one-side p-value)。单侧 $p$ 值越小，统计量 $T$ 的样本空间就有越小比例(越强) 的证据支持零假设 $H_0$。

我们把这以思想用到假设检验中时，就可以认为：

\[p<\alpha \Leftrightarrow t>c\]

所以用我们一贯的设定 $\alpha=0.05$，所以如果计算获得 $p<0.05$ 我们就认为获得了足够强的拒绝零假设 $H_0$ 的证据。

14.5.1 回到正态分布的均值比较问题上来(单侧替代假设)

继续考虑$X_1,\cdots,X_n\stackrel{i.i.d}{\sim} N(\mu, \sigma^2)$，假设$\sigma^2=10$，我们要检验的是$H_0: \mu =5 \;\text{v.s}.\; H_1: \mu>5$

确定最佳检验统计量：已经证明过，单侧替代假设的最佳检验统计量是样本均值 $\bar{x}$。
确定该统计量的样本分布：已知样本均数的样本分布是 $\bar{X}\sim N(\mu,\sigma^2/n)$ 。
$\Rightarrow Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)$，所以在$H_0$ 条件下，$\ Rightarrow Z=\frac{\bar{X}-5}{\sqrt{10}/\sqrt{n}} \sim N(0,1)$
所以当一个检验的显著性水平设定为$\alpha=0.05$ 时，我们用判别区域$\mathfrak{R}$，使统计量据落在该判别区域内的概率为$0.05$：
$\text{Prob}(\bar{X}\geqslant c|H_0) = 0.05$
已知在标准正态分布时，$\text{Prob}(Z\geqslant1.64)=0.05= \text{Prob}(\frac{\bar{X}-5}{\sqrt{10}/\sqrt{n}}\geqslant1.64)$
假设样本量是 $10$，那么数据的判别区域 $\mathfrak{R}$ 就是 $\bar{X}\geqslant6.64$。
假设观察数据告诉我们，$\bar{X}=7.76$ 。那么这一组观察数据计算得到的统计量落在了判别区域内，就提供了足够的证据拒绝接受 $H_0$。
我们可以给这个观察数据计算相应的单侧$p$ 值：
$p=\text{Prob}(\bar{X}\geqslant7.76|H_0)=\text{Prob}(Z +5\geqslant7.76)\\=\text{Prob}(Z\geqslant2.76)=0.003$
所以，观察数据告诉我们，在$H_0$ 的前提下，观察值出现的概率是$0.3 \%$ 。即，在无数次重复取样实验中，仅有 $0.3\%$ 的结果可以给出支持 $H_0$ 的证据。因此我们拒绝 $H_0$ 接受 $H_1$。

14.6 双侧替代假设情况下，双侧 $p$ 值的定量方法

图 14.1: Deliberately use an assymmetrical distribution to highlight the issues

此处故意使用一个左右不对称的概率密度分布来解释。

现在的替代假设是双侧的：

\[H_0: \theta=\theta_0 \;\text{v.s.}\; H_1: \theta\neq\theta_0\]

正常来说，双侧的假设检验应该分成两个单侧检验。即：

$H_1: \theta>\theta_0$;
$H_1: \theta<\theta_0$.

每个单侧检验都有自己的最佳检验统计量。令 $T$ 是 1. 的最佳检验统计量，该统计量的样本分布如上图 14.1 所示(左右不对称) 。假如观察数据给出的统计量为 $t_{\text{obs}}$，那么在概率上反对零假设的情况可以有两种：

$T\geqslant t_{\text{obs}}$ 其中， $\text{Prob}(T\geqslant t_{\text{obs}}|H_0)=\tilde p$;
$T\leqslant t^\prime$ 其中，$t^\prime$ 满足： $\text{Prob}(T\leqslant t^\prime|H_0) =\tilde p$。 (图14.1)

所以概率密度分布两侧的距离可以不对称，但是只要左右两侧概率密度分布的面积($=\tilde p$)相同，那么就可以直接认为，双侧$p$ 值是两侧面积之和($p=2\times \tilde p$)，且观察数据提供的统计量落在这两个面积内的话，都足以提供证据拒绝零假设$H_0$。

注意：

被选中的 $t^\prime$ 值大小不大可能满足：$|t^\prime - E(T|\theta_0)|=|t_{obs}-E(T|\theta_0)|$。因为那只有在完全左右对称的分布中才会出现。但是，此处我们关心的是面积左右两边的尾部要相等即可，所以我们只需要知道右半边，较大的那个 $t_{obs}$ 就完全足够了。

回到上面的均值比较问题 (Section 14.5.1)。现在我们要进行双侧假设检验，即： $H_0: \mu=5 \text{ v.s. } H_1: \mu\neq5$，最佳统计量依然还是样本均数 $\bar{X}$。数据告诉我们说$\bar{X}=7.76$，因此双侧$p$ 值就是将已求得的单侧$\tilde p$ 值乘以$2$： $\text{two-sided } p= 2\tilde p= 0.006$

当然，实际操作中我们很少进行这样繁琐的论证，多数情况下就直接报告双侧 $p$ 值。

14.7 假设检验构建之总结

按照如下的步骤一一构建我们的假设检验过程：

先建立零假设，和替代假设 (Section 14.1)；
定义最佳检验统计量 (用 Neyman-Pearson lemma) (Section 14.3)；
取得零假设条件下，最佳统计量的样本分布(通常都较为困难，有时候我们会倾向于使用“不太理想”，但是计算较为简便的过程。) ；
定义拒绝域(判别区域) (常用 $\alpha=0.05$) ；
计算观察数据的检验统计量；
如果观察数据的检验统计量落在了提前定义好的拒绝域内，那么我们的检验结论就是：观察数据拒绝了零假设支持替代假设。然而在实际操作时，如果发现数据的检验统计量不在拒绝域内，我们仅仅只能下结论说：观察数据无法拒绝零假设(而不是接受零假设！) ；
报告计算得到的反对零假设的定量 $p$ 值。

作为统计学家，我们的任务是评价数据提供的证据，而不是简单的去接受或者拒绝一个假设。

区分与之前讨论的对数似然比(Section ??)，之前讨论的对数似然比指的是所有的似然和极大似然之间的比，此处的似然比只是纯粹在探讨两个假设之间的似然比，与极大似然无关。 ↩︎
Rememer that $\ell_{H_0}-\ell_{H_1}$ is a random variable: the data varies **each time* * we sample, with consequently varying relative support for the hypotheses, and so we are only interested in that part of $\ell_{H_0}-\ell_{H_1}$ which depends on the results, the data, which vary with each sample (i.e. which contains the random part); the constant part provides no information on the relative support the data give to the hypotheses, so we ignore it.↩︎

		SAMPLE
		\(\underline{x} \notin \mathfrak{R}\) Accept \(H_0\)	\(\underline{x} \in \mathfrak{R}\) Reject \(H_0\)
TRUTH	\(H_0\) is true	\(\checkmark\)	\(\alpha\) Type I error
TRUTH	\(H_1\) is true	\(\beta\) Type II error	\(\checkmark\)

R语言与医学统计

第 14 章假设检验的构建

14.1 什么是假设检验

14.2 错误概率和效能方程

14.3 如何选择要检验的统计量

14.3.1 以已知方差的正态分布为例

14.4 复合假设

14.4.1 单侧替代假设

14.4.2 双侧替代假设

14.5 为反对零假设 \(H_0\) 的证据定量

14.5.1 回到正态分布的均值比较问题上来(单侧替代假设)

14.6 双侧替代假设情况下，双侧 \(p\) 值的定量方法

14.7 假设检验构建之总结

第 14 章 假设检验的构建

14.1 什么是假设检验

14.2 错误概率和效能方程

14.3 如何选择要检验的统计量

14.3.1 以已知方差的正态分布为例

14.4 复合假设

14.4.1 单侧替代假设

14.4.2 双侧替代假设

14.5 为反对零假设 \(H_0\) 的证据定量

14.5.1 回到正态分布的均值比较问题上来(单侧替代假设)

14.6 双侧替代假设情况下，双侧 \(p\) 值的定量方法

14.7 假设检验构建之总结

第 14 章假设检验的构建