第 30 章 样本量计算问题

30.1 背景

计划临床实验的时候,为了避免偏倚和带有偏见的结论,应当将注意力放在

  1. 如何将实验对象随机分配 (randomisation)
  2. 设计对照组 (control group)
  3. 合适(且必须)的贯彻盲法 (blinding)

另外一个同样重要的问题是–“我到底需要多少样本?”

一项临床实验,应该提供足够的证据来证明新药物(新治疗方法)是否有效,是否安全。影响一个实验设计的样本量的因素可能有如下几种:

  1. 统计学方案。
    从统计学上可以推算出,需要多少样本来获得一个坚实可信的证据来证明药物的实际有效性。
  2. 经济上的因素。
    然而实际上可能还有经济上,时间上,人力物力资源上的现实因素,会制约到底一个实验能够收集到多少样本量。
  3. 伦理道德上的因素。
    许多临床实验还必须受制于医学伦理因素。在伦理上一个实验到底可以维持多久。或者说,要考虑当实验中一些受试者的结果不理想,或者是有副作用的时候,我们何时该及时停止该实验?
  4. 实验本身的可信度。
    如果一个临床实验的规模在设计上就很小,可能它本身的可信度就很低。

这里我们只考虑没有其他任何因素的影响下,1. 统计学方案上该如何计算准确的所需样本量的大小。

比较下列两个同样比较了溶栓酶和安慰剂在预防心肌梗塞患者死亡的临床实验:

表 30.1: Results from the 1st Australian and ISIS-2 trials for reducing mortality from post-MI
治疗组 溶栓酶 安慰剂 p.values
1st Australian n=264 n=253
死亡人数 26 (9.8%) 32 (12.6%) p = 0.32
评价指标 Risk ratio 0.78 (95% CI: 0.48 to 1.27)
ISIS-2 n=8592 n=8595
死亡人数 791 (9.2%) 1029 (12.0%) p < 0.001
评价指标 Risk ratio 0.77 (95% CI: 0.70 to 0.84)

这两个临床实验获得的治疗效果 (treatment effect),在数字的百分比上几乎十分接近。然而由于样本量巨大的差距,可以看到第一个实验的信赖区间十分的大,使得实验结果是无意义的。而第二个大样本的实验结果就告诉我们,溶栓酶的治疗效果是有效降低了心肌梗死患者死亡概率(降低了23%)。第一个实验收集了近500个病例,却仍然不能提供确实有效的证据证明溶栓酶的治疗效果(提供了强的关联结果,却是极弱的证据。strong correlation, but weak evidence) 。

30.2 决定所需样本量大小的统计学因素

  1. 实验主要结果的测量/比较方法是什么? What is the principal outcome measure of the trial?
    一项临床实验的主要结果,应该是切合该实验的主要目的的。并且应当能够客观评价。 (如死亡率的改善,治愈率的提高等等)

  2. 实验数据准备分析的方案是什么? How will the data be analysed to detect a treatment difference?
    实验结果获得的数据是连续型的 (血压,血糖值,BMI)?还是分类的离散变量 (死亡的发生与否,疾病的治愈与否)?统计学上认为的,治疗结果提示有意义的差别时的概率。通常定为 5%。 (p < 0.05)

  3. 对照组的试验期望结果是怎样的? What results are expected in the control group?
    当然我们不可能事先预知实验对照组可能出现的结果。此处只讨论我们的预期结果。大多数情况下,我们可以从已经进行过的类似临床试验报告中获得,或者是从非临床干预型研究(观察型研究)报告中获得对照组的期望结果。

  4. 如果实验药物在治疗上确实有差异,当这个差异最小为多少时希望能从设计的实验中被检测到? How small a treatment difference, if it exists, is important to detect?
    这一条恐怕是每个临床实验在设计阶段最重要,最敏感也是最难做出决定的。如果我们已知这个药物疗效和对照相比差别很大,那么样本量不用很大,就足以提供值得信赖的证据。不过临床上常常会认为疗效差距不必非常的显著,但是在临床意义上也是十分重要的。
    常常在这个问题上会引起众多讨论,因为医生和患者可能认为任何一点差异都是有临床意义的。但是如果我们想检测出较小的差距,会需要非常巨大的样本量,这将会是十分不切合实际的。

  5. 在上面第 4 条被决定了以后,还要确定的是我们需要多大的把握来相信这个被检测出来的疗效差别?
    在实际临床实验中,结论是从观察数据中得来的,而不是从我们预想的那个“未知的实验效果”。观察获得的疗效差别,可能比预想的大(有效),也很可能比预想的小(无效)。设计较好的临床实验应该有足够机率观察到有意义的疗效差别,即使观察得到的结果不如预期的大。当然要增加我们观察到有意义的疗效差别,最简单的办法是增加样本量。这个条件的含义是,当疗效真差别真实存在,我们要有足够大的把握把它通过实验观察到。

30.3 第一类和第二类错误 Type I and type II errors

下面罗列一下我们在进行实验设计时要用到的概念和相应的标记,注意虽然我们无法知道真正的人群里真实参数 (parameter) 的大小,但是我们需要用一些估计 (estimator) 来代替:

  • \(p_1=\) the observed percentage in those on standard treatment
    意为施行标准治疗法时观察到的(治愈/有效)百分比
  • \(p_2=\) the observed percentage in those on “new” treatment
    意为施行“新疗法”时观察到的(治愈/有效)的百分比

\(\Rightarrow p_1-p_2=\) observed treatment effect
意为可以观察到的治疗效果。

  • \(\pi_1=\) the anticipated percentage in those on standard treatment
    意为施行标准治疗法时,我们预期的(治愈/有效)百分比
  • \(\pi_2=\) the anticipated percentage in those on “new” treatment
    意为施行“新疗法”时,我们预期的(治疗/有效)百分比

\(\Rightarrow \pi_1-\pi_2=\) is the true difference which has been decided it is important to detect
意为上面第 4 条中我们设定好的希望通过实验证实的真实的疗效差别。

其余的数学标记包括:

  • \(\alpha=\) 有意义的疗效差异,在统计学上的水平 (概率水平,通常设定为 0.05 or 5%)
  • \(1-\beta=\) Degree of certainty that a true difference of \(\pi_1 - \pi_2\) would be detected.
    效能, power。意为有多大的把握能通过实验检测出疗效差别。 (通常将目标值设定为 \(1-\beta=90\%\)
Table 33.2: Observed trial results compared to the truth of 1) no difference; 2) a true \(\pi_1-\pi_2\) diffrence
真实情况
Truth
无差别 真实差别存在 \(\pi_1-\pi_2\)
观察到不存在有意义差别 \(1−\alpha\) \(\beta\)
Type II error
观察到存在有意义差别 \(\alpha\)
Type I error
\(1-\beta\)
Power

考虑上面这个表格,可以很容易想到,一个理想的实验设计,我们希望这个临床实验获得的结果尽可能地落在上表中的

  1. 左上角:即如果真实情况是无差别的,实验结果也应该观察到不存在有意义的差别。
  2. 右下角:即如果真实情况是是存在真实差别 \(\pi_1-\pi_2\) 的,试验结果也应该观察到有意义的差别。

然而,我们在获得临床实验结果之后常常犯的两类错误,同样在上面的表格中显示:

  • Type I error: A type I error is when a treatment difference is claimed based on a statistically significant observed result when in truth no such difference exists, i.e. a false positive result.
    左下角为一类错误,即实验结果观察到有显著的疗效差异,然而,真实情况是并没有差异的话,被认为是假阳性判断。 \(\alpha\) 表示一类错误发生的概率。
  • Type II error: A type II error is when in truth there exists a difference of \(\pi_1-\pi_2\) but the observed results fail to reach statistical significance, i.e. a false negative result.
    右上角为二类错误,即实验结果观察到没有显著的疗效差异,然而,真实情况是有差异的话,被认为是假阴性判断。 \(\beta\) 表示二类错误发生的概率。

Alternative ways of describing \(\alpha\) and \(\beta\) are as follows:

  • \(\alpha\) is the risk of a Type I error; \(\alpha\) 也被叫做检验的显著水平, significant level。
  • \(\beta\) is the risk of a Type II error. \(1-\beta\) is termed statistical power. 其中 \(1-\beta\) 被叫做检验效能。

\(\alpha, 1-\beta\) 的水平需要事先被确定,否则无法进行进一步的样本量的计算。

30.4 比较两组之间的百分比 (percentages or proportions)

30.4.1 样本量计算公式 (使用显著水平 5%, 和检验效能 90%)

\[n=10.5\times\frac{[\pi_1\times(100-\pi_1)+\pi_2\times(100-\pi_2)]}{(\pi_1-\pi_2)^2}\times2\]

注意:

  • 上面的公式后面有 \(\times2\) 是因为前一半公式计算的只是一组(治疗或对照组)所需的样本量。
  • 这里使用的是百分比。所以当使用比例的时候,要把 \(100\) 改成 \(1\)
  • 使用公式计算的所需样本量,并不是说我们需要的病例数就是计算出来的结果。上面的公式获得的结果只是对所需样本量的估算。

30.4.2 样本量计算公式的一般化 (不同的显著水平和检验效能条件下)

\[n=f(\alpha, \beta)\times\frac{[\pi_1\times(100-\pi_1)+\pi_2\times(100-\pi_2)]}{(\pi_1-\pi_2)^ 2}\times2\]

其中, \(f(\alpha, \beta)\) 指的是关于检验显著水平 \(\alpha\) 和检验效能 \(\beta\) 的函数。可以参考下面的表格:

Table 33.2: Values of \(f(\alpha, \beta)\) for different levels of \(\alpha\) and \(\beta\)
\(\alpha\)
\(\beta\)
0.05 0.1 0.2 0.5
(\(95\%\) power) (\(90\%\) power) (\(80\%\) power) (\(50\%\) power)
0.05 13.0 10.5 7.85 3.84
0.01 17.8 14.9 11.7 6.63

要注意的是,除了上面表格中提供的 \(f(\alpha, \beta)\) 数值,可以通过以下公式计算得出:

\[f(\alpha, \beta)=(Z_{1-\frac{\alpha}{2}}+Z_{1-\beta})^2\]

例如:

  • \(\alpha=0.05, \beta=0.1\) 时:\(f(\alpha, \beta)=(1.96+1.282)^2=10.5\);
  • \(\alpha=0.05, \beta=0.2\) 时:\(f(\alpha, \beta)=(1.96+0.84)^2=7.85\)

30.5 比较两组之间的均值

许多临床实验不光关心患者是否被治愈或者死亡,另外还有许多实验的主要结果是连续变量:例如,肾功能(肾小球滤过率),或收缩期血压。然而背后的原理其实还是一样的。

30.5.1 样本量计算公式

然而,另外一个必须考虑的因素:治疗组对照组测量结果的标准差 (standard deviation, \(sd, \sigma\))。这里先考虑两者标准差相同的情况。标准差的数据通常来自与先行研究的科学文献,有些(土豪)实验会先进行预实验获得想要的实验数据–标准差。通常,建议像比较百分比那样,调整改变一下不同的检验显著水品和检验效能,计算多个所需样本量来互相比较参考。

比较两组均值时需要用到的数学标记:

  1. \(\mu_1=\) 标准治疗法(对照组)的期待平均值;
  2. \(\mu_2=\) 新治疗法(治疗组)的期待平均值;
  3. \(\sigma=\) 两组的标准差(假设两组标准差相同);
  4. \(\alpha=\) 一类错误发生的概率,检验显著水平;
  5. \(\beta=\) 二类错误发生的概率,\(1-\beta\) 是检验效能。

用上面标记表示的公式如下:

\[n=f(\alpha, \beta)\times\frac{2\sigma^2}{(\mu_1-\mu_2)^2}\times2\]

可以认为,上面的公式中 \(\mu_1-\mu_2\) ,各组的平均值本身并不重要,两组之间均值的差是我们关心的。如果用 \(\delta\) 表示两组之间均值差的期待值,那么公式可以改写为:

\[n=f(\alpha, \beta)\times\frac{2\sigma^2}{\delta^2}\times2\]

30.6 样本量计算的调整

如果我们无法成功随访部分患者,那么这部分人的数据就无法获得,实验数据的说服力就会下降。如果我们预估计有 \(Q\%\) 的人会失去随访,那么我们可以将之前步骤中计算获得的数字乘以 \(\frac{1}{1-Q\%}\)

如果实验设计是我们会在某个时间点允许治疗组或对照组中的部分人变更自己的实验方案(即治疗组的参与者改进入对照组,反之亦然)。那么所需样本量的计算调整的方法为:

  • \(Q_1=\) 第一组中改成第二组治疗方案的人数比例;
  • \(Q_2=\) 第二组中改成第一组治疗方案的人数比例;
  • 将之前步骤中计算获得的样本量数字乘以 \(\frac{1}{(1-Q_1-Q_2)^2}\)

如果预期参与实验治疗组(而不是对照组)的人中有部分人(比例为\(Q\))会中断实验进程,那么调整公式为:\(\frac{1}{(1-Q)^2}\)

还有的实验会使用大于 \(1:1\) 的比例设计对照组和实验组的人数。假设这一比例为 \(r:1\) 那么调整的样本量数字还要乘以:\(\frac{(r+1)^2}{4r}\)