第 16 章 简单总结

统计推断是十分具有挑战性的一个章节,在此做个简单的复习和总结,用一些常见的问题来结束。

16.1 快速回顾

对于收集到的样本数据 data,我们需要提出一个所谓的“科学问题 scientific question”。

为了回答这个“科学问题”,我们会设想,并提出一个合适的 统计学模型 statistical model,确认提出的统计学模型中的参数 parameters。通过样本数据的信息对参数进行估计 estimation,或者进行假设检验 hypothesis tests

统计学模型具有自己的概率分布,通过相应的参数,和模型的分布可以解释观察数据的分布,并且利用这些信息进行我们需要的推断。同时,我们还需要利用观察数据对我们提出的模型是否拟合数据做出合适的诊断

估计和假设检验,是以似然方程为基础的。通常我们会利用便于计算的对数似然(比),进行假设检验。

获得似然方程以后,我们可以用对数似然比,进一步进行推断:

  1. 确认最佳估计 \(MLE\),和它的方差 (标准误);
  2. 计算参数的点估计量,和置信区间;
  3. 为感兴趣的参数实施假设检验。

16.2 实例

16.2.1 试为下面的医学研究问题提出合适的统计学模型

  1. 在一所医院收集了 80 名患者的血压和体重的数据,医生想要分析血压 (bp) 跟体重 (weight) 之间是否有相关性。

答: 用简单线性回归模型。 (r.v. = random variable)

\[ Y \text{ r.v. for bp } Y_j | \text{weight}_j \stackrel{i}{\sim} N(\alpha + \beta \text{weight}, \sigma^2), j = 1,2, \cdots,80; \text{H}_0: \beta=0 \]

  1. 为了调查某市青光眼的患病率 (prevalence),从一般人群中随机抽取了 100 人进行眼部检查。

答:用二项分布模型。

\[ K \text{ r.v. for number of people found with glaucoma } \\ K \sim \text{Bin}(100, \pi); \text{ Estimate } \pi \text{ with CI.} \]

  1. 另一个医生拿到了 2. 的数据,打算分析这100人中青光眼的患病与否是否和血压相关。

答:用逻辑回归模型。 \(\text{logit}\pi = \text{log}\frac{\pi}{1-\pi}\)

\[ K_i | bp_i \sim \text{Bin}(100, \pi_i), \text{logit}(\pi_i) = \alpha + \beta bp_i; \text{H}_0: \beta = 0 \]

  1. 有好事者打算调查 25 名研究对象的血清胆固醇水平是否在实验前后 (实验时间3个月) 发生有意义的改变。

答:正态分布模型,单样本 \(t\) 检验。

\[ D \text{ r.v. for cholesterol change; } D_j \stackrel{i.i.d}{\sim} N(\delta, \sigma^2), j= 1,\cdots,25; \text{H}_0: \delta = 0\\ \text{Where } D_j = \text{chol}_{j,3m} - \text{chol}_{j,entry} \]

  1. 前一题的好事者,打算进一步分析胆固醇水平的变化在某些进行特殊饮食的观察对象中是否更加显著。

答:简单线性回归模型。

\[ D_j | \text{diet}_j \stackrel{i}{\sim} N(\alpha + \beta \text{diet}_j, \sigma^2), j=1,\cdots,25; \text{H }_0: \beta = 0 \]

  1. 某降压药物已知能有效地降低高血压患者的血压。某项实验将收集来的高血压患者分成 6 个小组,每组给予的药物剂量不同,最低 1 毫克每次,最高 6 毫克每次,每组相差 1 毫克剂量。研究者希望通过实验确定该药物的降压效果是否在某个剂量时达到最大,如果没有,是否降压药物的效果随着剂量增加而增加。

\[ \begin{aligned} & bp_j | \text{dose}_j \stackrel{\cdot}{\sim} N(\alpha + \beta\text{dose}_j + \gamma\text{dose}^2_j, \sigma^2), j =1,\cdots,n;\\ \text{1) test } & \text{ H}_0: \gamma=0; \text{ if do not reject, then do next test } \\ & bp_j | \text{dose}_j \stackrel{\cdot}{\sim} N(\alpha + \beta\text{dose}_j, \sigma^2) \text{2) test } & \text{ H}_0: \beta=0 \end{aligned} \]

16.2.2 医生的统计问题

  1. 一个“临床医生”来找你问了这样的一个常见的问题:当我们使用\(t\) 检验的时候,为什么前提假设是数据服从正态分布? 而不使用服从\(t\) 分布 这样的前提条件,因为我们实施该检验的时候明明就在用\(t\) 分布?

答:我们从未假定观察数据服从 \(t\) 分布,我们假定的前提是检验统计量,也就是样本均值和标准误服从 \(t\) 分布。因为我们不知道收集获得的数据来自的人群的方差是多少,需要使用样本数据对方差也进行估计的时候,不得已而必须使用\(t\) 分布来获得估计的样本均值的标准误差,用于计算置信区间和实施假设检验。

  1. 还是那个有好奇心的“临床医生”又来问一个弱智问题:当我们使用正态分布近似法对一个服从二项分布的比例的单样本检验的时候,我们把计算的检验统计量拿去跟正态分布的特征值作比较。然而,不用正态分布近似,直接对连续型变量实施单样本 \(t\) 检验的时候却把计算的检验统计量拿去和 \(t\) 分布的特征值作比较,这是为什么?

答:对连续型变量实施单样本 \(t\) 检验的时候,我们需要用样本数据同时估计均值和标准误。但是对于二项分布的数据来说,它的样本比例的标准误是总体比例的一个方程,所以只要用样本比例估计总体比例以后,总体的标准误就已经可以知道,不必再作估计。所以,二项分布的正态近似法就真的使用标准正态分布的特征值,但是连续型变量的总体标准误同时被估计,它的不确定性也要考虑进来,只能使用\(t\)分布。

  1. “临床医生”假装很热心想学习统计跑来问问题:该医生实施的临床试验,比较病例和对照之间某指标是否不同。但是,病例组看上去的年龄似乎比对照组要高一些,该医生记得自己统计课上听老师说过混杂因素的知识。所以他跑回家自己实施了一下病例组和对照组之间年龄是否有差别的 \(t\) 检验,结果显示病例组对照组的年龄没有显著性差异。所以他认为可以从线性模型中去掉年龄这一变量。但是身为统计学家的你坚持必须要保留年龄在模型里。所以医生问你是否关心年龄有差别所以才坚持要调整年龄。你的回答是“对不起大哥,我对病例对照之间的年龄差是否有统计学意义完全没有兴趣。”医生更加困惑了。 \(\text{variable}_i = \alpha + \beta\text{patient}_i + \gamma\text{age}_i + \varepsilon_i\)

答:年龄是否会混杂了病人分组和指标之间的关系,不是通过比较两组来自的人群的年龄是否有差别来判断的。如果样本的年龄有差别,就很有可能会对你想要分析的关系造成混淆。因为你进行的年龄均值是否有差异的 \(t\) 检验,比较的并不是样本年龄的差别,而是用样本估计来自的人群的年龄之间的比较。