第 44 章配对实验数据的分析法

配对实验是指观察对象中的一个以上 (通常是2-3个) 以事先确定的条件进行配对 (matched under conditions)。配对实验中根据条件配对后的观察对象常常被称为一个个区块 (block)。

例1： 配对交叉设计实验，结果变量为连续型。

给予五十名实验对象抗高血压药物用于降低其舒张期血压 (diastolic blood pressure)。舒张期血压在实验前 $(y_{i1})$ 和实验后 $(y_{i2})$ 分别测量。此时的实验区块是每个患者的自身前后对照数据。

例2： 干预实验，结果变量为二进制型。

77名已经有眼底病变的糖尿病患者被选为实验对象，每人随机选取一只眼睛接受最新的雷射激光治疗，另一只眼睛使用标准治疗法。经过五年的随访，观察患者的两只眼睛是病变为全盲 (是/否)。此时的实验区块是每个患者自己，左右眼互为对照。

例3： 队列研究中的配对设计，结果变量为二进制型。

100 名观察对像根据性别年龄和 100 名服他汀类药物 (statin) 的患者，以高胆固醇血症的有无作为对照变量 (病例对照同时患病，或同时无病) 一一对应。这 200 名对象被追踪随访 3 年，记录他们是否罹患心血管疾病。此时的实验区块，是 100 个成对的实验对象。

例4： 配对病例对照实验。

20 名肺癌患者，和另外 20 名没有肺癌的对照以同年龄，同性别为条件配对。研究人员询问每个实验参与者过去的吸烟史。本实验的结果变量为对象是否吸过香烟。此时的实验区块是一名肺癌患者和一名同年龄，同性别的对照。

配对实验中，我们通常认为在每个区块里的个人，或者他们的测量值应该比不同一区块里的观察对象的测量值更加相似。

例1 中，每个个体实验前后的血压值，理论上会比另外一个个体的血压值相比更加接近，无论他是否接受抗高血压治疗，故每个个体本身，构成了“完美”的病例(实验前) 和对照(实验后)。
例3 中，无论一个人是否服用他汀类药物，两个同时都是高胆固醇血症的人理论上会比无此症状的人更加有可能罹患心血管疾病。
例4 中，年龄和性别可能既和一个人是否患有肺癌有关系，也和一个人是否吸烟有关。所以，在考察吸烟和肺癌关系的时候，需要在相同年龄，性别的条件下才是公平的。

44.1 配对的原理

不同的实验，配对的设计可能有不同的理由：

在 RCT 设计中，配对实验是为了提升实验数据对治疗的真实效果的估计 (to improve the precision of the estimated effect of the treatment on the outcome)；
队列研究和病例对照研究中，使用配对实验设计 主要是为了在实验设计阶段就控制已知的混杂因素。当然有时也有人使用配对设计去提升差异估计的精确度。

44.1.1 为了提升估计的精确度

使用配对实验设计，获得数据以后就应使用相应的统计手法，从而达到提高差异估计的精确度的目的。因为配对实验设计允许我们在分析阶段去除掉 “区块差异 block variability”：

\[ \begin{aligned} Y_{ij} & = C_j + P_i + O_{ij} \\ \text{Where } Y_{ij} & = \text{outcome for block } i \text{ under treatment } j\\ C_j & = \text{component of outcome due to treatment } j \\ P_i & = \text{component of outcome due to characteristics of block } i\\ O_{ij} & = \text{residual component of outcome} \end{aligned} \]

在上述式子描述的配对实验设计下，如果成对的观察值是$Y_{i1}, Y_{i2} (i = 1,\cdots, n)$，那么可以把二者的差用于估计治疗效果：

\[ \begin{equation} Y_{i2} - Y_{i1} = C_2 - C_1 + O_{i2} - O_{i1} \end{equation} \tag{44.1} \]

所以，配对实验中，由于区块 $(P_i)$ 造成的估计的方差被从随机变异 (random variation) 中去除掉，$C_j$ 之间的差异的估计精确度得到提高。这一结论在结果变量是连续型或是二进制型中同样适用。

44.1.2 控制混杂因素

在病例对照实验中，常常用配对设计来控制已知的混杂。但是必须强调的是，如果实验设计中用了配对，那么统计分析时，也必须用配对实验的分析方法。

队列研究中：暴露组对象和非暴露组对象之间的配对根据一些已知的混杂变量，常见的如年龄和性别配对。

病例对照研究中：病例和对照之间通过某些特征配对，从而控制这些特征的混杂，常见的也是年龄和性别。另外还有的病例会从他/她居住的区域附近中寻找相似的对照，或者从他/她的家庭医生的患者中寻找相似的对象，这时配对设计为的是控制那些可能无法精确测量的如社会经济条件，或环境因子。有些研究会寻找病例同一家族中的非患病者作为对照，从而达到控制 “遗传因素” 这一混杂因子的效果。

44.2 结果变量为连续型变量的配对实验

用 $Y_{i1}, Y_{i2}, (i = 1,\cdots, n)$ 标记 $n$ 组配对实验对象的结果变量的测量值。所以每对实验对象中的两个成员，分别被给予不同的实验条件 (治疗或安慰剂，暴露或非暴露)，用数字 $1,2$ 表示。所以，分析此种数据的策略是，计算每个实验区块的结果变量之差：

\[ \begin{equation} Y_{i2} - Y_{i1}, (i = 1, \cdots, n) \end{equation} \tag{44.2} \]

那么，配对实验的结果变量是连续型变量时，等同于单样本的假设检验，零假设是结果变量在不同实验条件下的差等于零。

44.2.1 一般检验方法

常用的有：

均值的配对 $t$ 检验。其实就是和 $0$ 作比较的单样本 $t$ 检验 (Section 19.3.3)；
Wilcoxon 配对检验 (Wilcoxon matched pairs test)。此法其实是Wilcoxon 符号秩和检验(Wilcoxon signed rank test)，在零假设是两组数据中位数之差等于零的条件下的假设检验(Section 31.2) 。
符号检验 (Sign test) (Section 31.1)。

例：17名实验对象同时给予抗高血压治疗，数据记录了实验前后收缩压的测量值：

library(haven)
sbp <- read_dta("../Datas/sbp.dta")
sbp

# A tibble: 17 × 4
    ptid sbp_A sbp_B diff_AB
   <dbl> <dbl> <dbl>   <dbl>
 1     1   148   132      16
 2     2   128   120       8
 3     3   152   148       4
 4     4   135   134       1
 5     5   150   128      22
 6     6   165   140      25
 7     7   155   138      17
 8     8   132   136      -4
 9     9   140   135       5
10    10   165   144      21
11    11   145   115      30
12    12   140   126      14
13    13   135   140      -5
14    14   135   130       5
15    15   122   132     -10
16    16   144   118      26
17    17   158   115      43

## Wilcoxon signed-rank test
wilcox.test(sbp$sbp_A, sbp$sbp_B, paired = TRUE, correct = FALSE)


    Wilcoxon signed rank test

data:  sbp$sbp_A and sbp$sbp_B
V = 137.5, p-value = 0.003857
alternative hypothesis: true location shift is not equal to 0

## 秩和检验结果提示，数据提供了显著性水平低于 1% (0.0038567) 的证据
## 证明实验前后收缩期血压值的变化的中位数不等于零。
## 由此可以下结论，数据能够提供足够的证据证明实验前后的收缩期血压的
## 分布，是不同的。
## 注意，这不是一个 RCT，所以，这样的不同不一定是由于抗高血压治疗。

## 3 different methods to conduct sign test

Positive_n <- sum(sbp$diff_AB >0)
total_n <- length(sbp$diff_AB)
2*pbinom(total_n-Positive_n, total_n, 0.5) ## sign test -- just p-value

[1] 0.01272583

binom.test(Positive_n, total_n,0.5) ## sign test through binomial test


    Exact binomial test

data:  Positive_n and total_n
number of successes = 14, number of trials = 17, p-value = 0.01273
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.5656821 0.9620149
sample estimates:
probability of success 
             0.8235294

BSDA::SIGN.test(sbp$sbp_A, sbp$sbp_B) ## sign-test from BSDA package


    Dependent-samples Sign-Test

data:  sbp$sbp_A and sbp$sbp_B
S = 14, p-value = 0.01273
alternative hypothesis: true median difference is not equal to 0
95 percent confidence interval:
  4.010149 21.989851
sample estimates:
median of x-y 
           14 

Achieved and Interpolated Confidence Intervals: 

                  Conf.Level L.E.pt  U.E.pt
Lower Achieved CI     0.8565 5.0000 21.0000
Interpolated CI       0.9500 4.0101 21.9899
Upper Achieved CI     0.9510 4.0000 22.0000

符号检验的结果，相比 Wilcoxon 秩和检验的结果来说， P 值稍大，由于符号检验需要的假设前提比 Wilcoxon 秩和检验更少，更稳健 (检验效能更低, lacks power)。即便如此，数据依然提供足够的证据 (p = 0.01273) 证明，实验前后的收缩期血压的中位数之差不等于零。

下面是 STATA 中同一数据的 Wilcoxon 秩和检验和符号检验的结果，和上面的 R 输出结果作比较：

. signrank sbp_A = sbp_B

Wilcoxon signed-rank test

        sign |      obs   sum ranks    expected
-------------+---------------------------------
    positive |       14       137.5        76.5
    negative |        3        15.5        76.5
        zero |        0           0           0
-------------+---------------------------------
         all |       17         153         153

unadjusted variance      446.25
adjustment for ties       -0.63
adjustment for zeros       0.00
                     ----------
adjusted variance        445.63

Ho: sbp_A = sbp_B
             z =   2.890
    Prob > |z| =   0.0039

. signtest sbp_A = sbp_B

Sign test

        sign |    observed    expected
-------------+------------------------
    positive |          14         8.5
    negative |           3         8.5
        zero |           0           0
-------------+------------------------
         all |          17          17

One-sided tests:
  Ho: median of sbp_A - sbp_B = 0 vs.
  Ha: median of sbp_A - sbp_B > 0
      Pr(#positive >= 14) =
         Binomial(n = 17, x >= 14, p = 0.5) =  0.0064

  Ho:median of sbp_A - sbp_B = 0 vs.
  Ha: median of sbp_A - sbp_B < 0
      Pr(#negative >= 3) =
         Binomial(n = 17, x >= 3, p = 0.5) =  0.9988

Two-sided test:
  Ho: median of sbp_A - sbp_B = 0 vs.
  Ha: median of sbp_A - sbp_B != 0
      Pr(#positive >= 14 or #negative >= 14) =
         min(1, 2*Binomial(n = 17, x >= 14, p = 0.5)) =  0.0127

44.2.2 用回归法分析

配对实验数据还可以使用回归手段分析。使用回归分析时，需要考虑两种不同的情形：

配对使用的特征具有唯一性，即有且只有一个对照。
- 自己作自己的对照，如实验前实验后的观测值变化；
- 同一个实验对象，左右两眼随机抽取一只作病例，一只作对照；
- 病例和自己的配偶配对。
配对使用的特征不具有唯一性，病例可以有多个潜在对照。
- 病例和性别相同，年龄相近的对照；

第 1 种情况：配对使用的特征具有唯一性

用 $Y_{ij}$ 标记第 $j$ 个配对实验区块中第 $i$ 个对象的观测结果。我们可以使用下面的回归模型：

\[ \begin{equation} Y_{ij} = \beta_0 + \beta_1 X_{ij} + \gamma_j + \varepsilon_{ij} \end{equation} \tag{44.3} \]

其中， $\gamma_j$ 是第 $j$ 个配对实验区块的固定效应 (fixed effect)；$\varepsilon_{ij}$ 是残差。这个模型可以在简单线性回归中直接加入一个代表不同配对实验区块的变量 (分类型) 进行调整即可。用简单线性回归拟合 (44.3) 是一个等同于配对 $t$ 检验的回归方程。

注意：在回归模型中加入代表实验区块的分类型变量调整仅适用与简单线性回归。 非线性回归例如逻辑回归，方程中试图加入区块变量作为固定效应是不合适的。

在模型中加入随机效应 (random effect)，作为另一种回归手段，则可以同时应用于线性回归和非线性回归。这种模型被叫做分层回归模型 (hierarchical models)，或混合效应模型 (mixed effect model)，或随机效应模型 (random effect model)。这将会在等级线性回归 (Section 46) 这一章节中详细讨论，此处且先按下不表。

第 2 种情况：配对使用的特征不具有唯一性

用 $Y_i$ 标记第 $i$ 个个体的观测结果， $X_i$ 标记主要关心的暴露变量，$W_i$ 标记用于配对的一系列变量的向量。那么我们可以拟合两种回归模型，差别在于是否调整配对变量向量：

\[ \begin{equation} Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i \end{equation} \tag{44.4} \]

\[ \begin{equation} Y_i = \beta_0 + \beta_1 X_i + \beta_2^TW_i + \delta_i \end{equation} \tag{44.5} \]

需要指出的是，这两个模型，都是合理有效的回归模型，理论上会给出相同或者十分近似的 $\beta_1$ 估计。因为配对，意味着在该样本中，$X_i$ 和 $W_i$ 是无关的，所以加入 $W_i$ 不会影响 $\beta_1$ 的估计值。即使，实验样本所来自的潜在人群(the unerlying population) 中，$X_i, W_i$ 是相关的(也是最主要的要拿$W_i$ 进行配对的动机所在)，两个模型给出的$\ beta_1$ 估计理论上也不会有太大差距。但是，如果说配对是为了控制混杂 (即人群中 $X_i, W_i$ 是相关的)，建议应该使用模型 (44.5)。因为模型 (44.5) 给出的 $\beta_1$ 的标准误估计会比较小 (更小的置信区间，更精确)。

前一节提到的一般检验法，是直接把“配对”这个条件放在检验过程中，它们只关心差异大小是否有意义。本小节讨论的回归方法，则需要一些前提假设 (参考简单线性回归的前提和逻辑回归的前提)。当前提条件可以满足时，我们会更推荐使用回归方法对配对数据进行检验。因为通常除了拿来配对的变量，我们对观察对象还收集了其他的潜在混杂因子数据，使用回归方法可以进一步对其余未用于配对的变量进行调整。

44.3 结果变量是二进制变量的配对实验

用$Y_{i1}, Y_{i2} (i = 1,\cdots,n)$ 标记$n$ 个配对的二进制型的结果变量，其对应的暴露变量是$X_{i1}, X_{i2 }$。

这样的数据，有两种方法来分析暴露和结果之间是否相关：

McNemar’s test;
Odds ratio.

用前文中糖尿病患者眼底病变和是否变盲的例子来说明就是：第$i$ 个实验对象，他/她接受标准治疗的眼睛是否变盲，决定了$Y_{i1} = 1 \text{ or } 0$；他/她接受新的治疗的那只眼睛是否变盲决定了$Y_{i2} = 1 \text{ or } 0$。

但是，用病例对照实验 (肺癌例) 来解释时，20 名肺癌患者被一一和同性别，年龄相近的 20 名非肺癌对象配对，每个实验对象都被询问其吸烟史。这样的配对病例对照实验的设计，决定了其实际上是把我们关心的问题 (吸烟是否导致肺癌) 逆转了的 (肺癌患者中吸烟的比例是否大于没有患肺癌的人)。此时应当使用 比值比 Odds ratio 来评价吸烟和肺癌之间的关系。

44.3.1 第一步对数据作表格

有两种方式对结果变量是二进制变量的实验数据作表格归纳。其一，配对与否的信息被忽略掉 (表格 44.1)；其二，包含配对信息 (表格 44.2)。

表 44.1: Unmatched presentation of data from a study with binary outcome and binary treatment
	New treatment	Standard treatment
Blind	10	34
Not blind	67	43
Total	77	77

表 44.2: Matched presentation of data from a study with binary outcome and binary treatment
	New treatment
		Not blind	Blind
Standard treatment	Not blind	39	4	43
Standard treatment	Blind	28	6	34
Standard treatment		67	10	77

44.3.2 McNemar’s test

下面的表格，是前面表格 44.2 的一般化形式。可以用于 McNemar 检验。在暴露对象中，结果变量等于$Y_{i1} = 1$ 的配对数量的比例是$p_1 = (n_{10} + n_{11})/n$；在非暴露对象中，结果变量等于$ Y_{i2} = 2$ 的配对数量的比例是$p_2 = (n_{01} + n_{11})/n$。

General arrangement of data for McNemar’s test
	Exposed $(j = 1)$
		Failure $(Y_{i1} = 0)$	Success $(Y_{i1} = 1)$
Unexposed $(j = 2)$	Failure $(Y_{i2} = 0)$	$n_{00}$	$n_{10}$	$n_{00}+n_{10}$
	Success $(Y_{i2} = 1)$	$n_{01}$	$n_{11}$	$n_{01}+n_{11}$
		$n_{00}+n_{01}$	$n_{10}+n_{11}$	$n$

McNemar 检验的零假设是，$p_2 - p_1 = 0$，其实这等价于比较表格中 $n_{10}, n_{01}$ 是否相等。所以，在零假设条件下：

\[ n_{10} \sim \text{Binomial}(n_{10} + n_{01}, 0.5) \]

此时既可以选用精确的二项分布检验，也可以用正态分布近似法进行假设检验。用表格 44.2 的数据进行的检验结果如下：

binom.test(28, 32, 0.5)


    Exact binomial test

data:  28 and 32
number of successes = 28, number of trials = 32, p-value = 1.93e-05
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.7100516 0.9648693
sample estimates:
probability of success 
                 0.875

44.3.3 二进制型结果变量配对实验的比值比

McNemar 检验只能用于判断暴露和结果之间是否有关系。衡量这个关系的大小，还需要用比值比 (odds ratio)。我们已知可以用 Mantel Haenszel 方法来总结以某个分类变量为条件的分层/合并比值比。同样的方法也可以用于配对实验数据的分析。此时的分层变量使用的是配对的实验区块 (blocks)。每个实验区块的数据可以归纳成下面的表格：

Example of matched data in stratum $i$: numbers of individuals in stratum $i$ with each combination
	Unexposed (0)	Exposed (1)
Outcome 0	$a_i$	$b_i$
Outcome 1	$c_i$	$d_i$

实验区块 $i$ 的比值比 OR 是：

\[ \text{OR} = \frac{a_id_i}{b_ic_i} \]

Mantel Haenszel 合并 OR 是：

\[ \Psi = \frac{\sum_i(a_id_i/n_i)}{\sum_i(b_ic_i/n_i)} \\ \text{where } n_i = 2 \]

可以继续推导：

\[ \begin{aligned} \Psi & = \frac{\sum_i(a_id_i/n_i)}{\sum_i(b_ic_i/n_i)} \\ & = \frac{\text{number of blocks with } Y_{i1} = 1 \;\&\; Y_{i2} = 0}{\text{number of blocks with } Y_{i1} = 0 \;\ &\; Y_{i2} = 1} \\ & = \frac{n_{10}}{n_{01}} \end{aligned} \]

所以，从上述推导可知，在配对实验中，比值比只取决于那些配对中出现了不同结果的数据。这些结果不一致的配对被命名为不一致配对 (discordant pairs)。那些结果变量相同的配对对最终的比值比估计毫无用处。

44.3.4 配对实验比值比的置信区间

配对实验比值比置信区间的精确计算步骤如下：

$\pi$ 标记暴露对象中，结果变量等于$Y_{i1} = 1$，且非暴露对象中，结果变量等于$Y_{i2} = 0$ 的配对数在全部不一致配对数中所占的比例：\[\hat\pi = \frac{n_{10}}{n_{10} + n_{01}}\]
$\Psi$ 为不一致配对的比值比：\[\hat\Psi = \frac{n_{10}}{n_{01}}\]
$\pi, \Psi$ 之间的关系是：\[\Psi = \frac{\pi}{1-\pi}\]
$n_{10}$ 服从二项分布：\[n_{10}\sim \text{Binomial}(n_{10} + n_{01}, \pi)\]
根据二项分布的性质计算 $\pi$ 的置信区间： \[\pi_L, \pi_U\]
所以 $\Psi$ 的置信区间就可以计算为：\[(\frac{\pi_L}{1-\pi_L},\frac{\pi_U}{1-\pi_U})\]

用表格44.2 的数据计算其比值比估计：

\[\hat{\text{OR}} = \frac{n_{10}}{n_{01}} = \frac{4}{28} = 0.14\]

$n_{10} = 4 \sim \text{Binomial}(32, \pi = 4/32 = 0.125)$

所以 $\pi$ 的 95% 置信区间为：

FSA::binCI(4, 32)

              95% LCI   95% UCI
Exact      0.03513065 0.2899484
Wilson     0.04970134 0.2806831
Asymptotic 0.01041385 0.2395862

那么该比值比的精确 95% 置信区间为：

\[ \begin{aligned} & (\frac{0.03513065}{1-0.03513065},\frac{0.2899484}{1-0.2899484}) \\ =& (0.036, 0.408) \end{aligned} \]

精确计算的结果和 R 里获得的结果一致：

library(exact2x2)
mcnemar.exact(matrix(c(39, 28, 4, 6),2,2))


    Exact McNemar test (with central confidence intervals)

data:  matrix(c(39, 28, 4, 6), 2, 2)
b = 4, c = 28, p-value = 1.93e-05
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.03640975 0.40834839
sample estimates:
odds ratio 
 0.1428571

44.4 条件 (conditional) 比值比和边际 (marginal) 比值比

从配对实验获得的比值比是条件比值比 (conditional odds ratio)，所谓条件比值比，意思就是从配对实验获得的比值比是以配对的试验区块为条件的。

用表格 44.2 的糖尿病患者眼底病变的数据来进一步解释：该实验获得的条件比值比为 0.143，实验区块是每位眼底发生病变的糖尿病患者本身。这个条件比值比应被正确解读为：每位眼底发生病变的患者中的两只眼睛中接受新疗法的眼睛最终失明的机率(odds)，和另一只接受标准疗法的眼睛最终失明的机率的比值是0.143。数学表达式标记为：

\[ \text{Conditional OR} = \frac{\frac{\text{Pr(Blind|new, individual) } i}{\text{Pr(Not Blind|new, individual) } i}}{\frac{\text {Pr(Blind|standard, individual) } i}{\text{Pr(Not blind|standard, individual) } i}} \]

此条件比值比被认为在不同的发生眼底病变的糖尿病患者$(i)$中保持不变。需要指出的是这个条件比值比不等同于认为在糖尿病人群中接受新疗法治疗的眼睛失明机率和接受标准疗法的眼睛失明机率之比为0.134 (边际比值比marginal odds ratio) 。边际比值比的数学表达式为：

\[ \text{Marginal OR} = \frac{\text{Pr(Blind | new)/Pr(Not blind | new)}}{\text{Pr(Blind | standard)/Pr(Not blind | standard)}} \]

如果要估计上式的边际比值比，我们需要有糖尿病人群中失明的危险度 (the risk of blindness in the population)，以及失明高危人群，低危人群各自接受标准疗法的失明概率。假如已知如下的信息：

糖尿病人群中有 50% 的人可以被归类为失明高危人群 (high risk, HR)，另 50% 可以被归类会失明低危人群 (low risk, LR)；
接受标准疗法时，高危人群失明的概率是 90%，低危人群失明的概率是 10%。

上述信息告诉我们，总体糖尿病人群中接受标准疗法失明的概率 $\text{Pr(Blind|standard)}$ 是：

\[ \begin{aligned} \text{Pr(Blind|standard)} & = \text{Pr(Blind|standard,HR)Pr(HR)} \\ & \;\;\;+ \text{Pr(Blind|standard, LR)Pr(LR)} \\ & = 0.9\times0.5 + 0.1\times0.5 = 0.5 \end{aligned} \]

再利用条件比值比 $0.143$ 我们可以计算糖尿病人群中接受新疗法失明的概率 $\text{Pr(Blind | new)}$ 是：

\[ \begin{aligned} \frac{\text{Pr(Blind|new, HR)}}{\text{PR(Not blind | new, HR)}} & = 0.143 \times \frac{\text{Pr(Blind|standard, HR) }}{\text{Pr(Not blind|standard, HR)}} \\ & = 0.143 \times \frac{0.9}{0.1} = 1.287 \\ \frac{\text{Pr(Blind|new, LR)}}{\text{PR(Not blind | new, LR)}} & = 0.143 \times \frac{\text{Pr(Blind|standard, LR) }}{\text{Pr(Not blind|standard, LR)}} \\ & = 0.143 \times \frac{0.1}{0.9} = 0.016 \\ \Rightarrow \text{Pr(Blind|new, HR)} & = 1.287/(1+1.287) = 0.563 \\ \text{Pr(Blind|new, LR)} & = 0/016/(1+0.016) = 0.016 \\ \Rightarrow\;\;\; \text{Pr(Blind | new)} & = \text{Pr(Blind|new, HR)Pr(HR)} + \text{Pr(Blind|new, LR)PR( LR)} \\ & = 0.563\times0.5 + 0.016\times0.5 = 0.290 \end{aligned} \]

获得了$\text{Pr(Blind|standard), Pr(Blind | new)}$ 之后，边际比值比(糖尿病人群中接受新疗法治疗的眼睛失明机率和接受标准疗法的眼睛失明机率之比) ：

\[ \begin{aligned} \text{Marginal OR} & = \frac{\text{Pr(Blind | new)/Pr(Not blind | new)}}{\text{Pr(Blind | standard)/Pr(Not blind | standard)}} \\ & = \frac{0.5/(1-0.5)}{0.290/(1-0.290)} = 0.408 \end{aligned} \]

比起条件比值比 (0.143)，边际比值比 (0.408) 要大出许多来。

	Exposed \((j = 1)\)
		Failure \((Y_{i1} = 0)\)	Success \((Y_{i1} = 1)\)
Unexposed \((j = 2)\)	Failure \((Y_{i2} = 0)\)	\(n_{00}\)	\(n_{10}\)	\(n_{00}+n_{10}\)
	Success \((Y_{i2} = 1)\)	\(n_{01}\)	\(n_{11}\)	\(n_{01}+n_{11}\)
		\(n_{00}+n_{01}\)	\(n_{10}+n_{11}\)	\(n\)

第 44 章 配对实验数据的分析法