第 10 章 估计和精确度

10.1 估计量和他们的样本分布

例子: 最大呼气量 (Forced Expoiratory Volume in one second, FEV1) 用于测量一个人的肺功能,它的测量值是连续的。我们从前来门诊的人中随机抽取 \(n\) 人作为样本,用这个样本的 FEV1 平均值来估计这个诊所的患者的平均肺功能。

模型假设: 在这个例子中,我们的假设有如下:每个随机抽取的FEV1 测量值都是从同一个总体(人群) 中抽取,每一个观察值\(Y_i\) 都互相独立互不影响。我们用缩写 iid 表示这些随机抽取的样本是服从独立同分布 (independent and identically distributed)。另外,总体的分布也假定为正态分布,且总体均值为 \(\mu\),总体方差为 \(\sigma^2\)。那么这个模型可以简单的被写成:

\[Y_i \stackrel{i.i.d}{\sim} N(\mu, \sigma^2), i=1,2,\dots,n\]

总体均值\(\mu\) 的估计量: 显然算术平均值: \(\bar{Y}=\frac{1}{n}\sum_{i=1}^ny_i\) 是我们用于估计总体均值的估计量。

估计量的样本分布: \[\bar{Y}\stackrel{i.i.d}{\sim}N(\mu, \frac{\sigma^2}{n})\]

证明

\[ \begin{aligned} E(\bar{Y}) &= E(\frac{1}{n}\sum Y_i) \\ &= \frac{1}{n}E(\sum Y_i) \\ &= \frac{1}{n}\sum E(Y_i) \\ &= \frac{1}{n}n\mu = \mu \\ Var(\bar{Y}) &= Var(\frac{1}{n}\sum Y_i) \\ \because Y_i \;\text{are} &\; \text{independent} \\ &= \frac{1}{n^2}\sum Var(Y_i) \\ &= \frac{1}{n^2} n Var(Y_i) \\ &= \frac{\sigma^2}{n} \end{aligned} \]

证明当 \(Z=\frac{\bar{Y}-\mu}{\sqrt{Var(\bar{Y})}}\) 时, \(Z\sim N(0,1)\):

由式子可知, \(Z\) 只是由一组服从正态分布的数据 \(\bar{Y}\) 线性转换 (linear transformation) 而来,所以 \(Z\) 本身也服从正态分布

\[ \begin{aligned} E(Z) &= \frac{1}{\sqrt{Var(\bar{Y})}}E[\bar{Y}-\mu] \\ &= \frac{1}{\sqrt{Var(\bar{Y})}}[\mu-\mu] = 0 \\ Var(Z) &= \frac{1}{Var(\bar{Y})}Var[\bar{Y}-\mu] \\ &= \frac{1}{Var(\bar{Y})}Var(\bar{Y}) =1 \\ \therefore Z \;&\sim N(0,1) \end{aligned} \]

均值 \(\mu\) 的置信区间: 上节说道,

置信区间通常是成对成对的出现的,即有上限和下限。这样的一对从样本数据中计算得来的统计量,同样也是有样本分布的。 每次我们重新从总体或人群中抽样,计算获得的置信区间都不同,这些置信区间就组成了置信区间的样本分布。总体和人群的参数落在这些置信区间范围内的概率,就是我们常说的置信区间的水平(\(95\%\)) 。 常用的这个概率值就是 \(95\%, 90\%, 99\%\)

假定我们用 \(95\%\) 作为置信区间的水平。那么下面我们尝试推导一下置信区间的计算公式。从长远来说(也就是假设我们从总体中抽样无数次,每次都进行置信区间的计算,也获得无数个置信区间) ,这些置信区间中有\(95\%\) 是包含了总体的真实均值(但是却是未知) 的,而且这些置信区间由于是从一个服从正态分布的数据而来,它们也服从正态分布(对真实均值左右对称) 。所以我们有理由相信,可以找到一个数值 \(c\)

\[Prob(\bar{Y} > \mu+c) = 0.025 \\ Prob(\bar{Y} < \mu-c) = 0.025\]

因此,我们可以定义 \(95\%\) 置信区间的上限和下限分别是:

\[L=\bar{Y}-c \Rightarrow Prob(L>\mu)=0.025 \\ U=\bar{Y}+c \Rightarrow Prob(U<\mu)=0.025\]

接下来就是推倒 \(c\) 的过程啦:

\[ \begin{aligned} Prob(\bar{Y}>\mu+c)=Prob(\bar{Y}-\mu>c) \;&= 0.025 \\ \Rightarrow Prob(\frac{\bar{Y}-\mu}{\sqrt{Var(\bar{Y})}} > \frac{c}{\sqrt{Var(\bar{Y})}}) \;&= 0.025 \\ \Rightarrow Prob(Z>\frac{c}{\sqrt{Var(\bar{Y})}}) \;&= 0.025 \\ we\;have\;proved\; Z\sim N(0,1) \\ we\;also\;know\; Prob(Z>1.96) \;&= 0.025 \\ so\;let\; \frac{c}{\sqrt{Var(\bar{Y})}} =1.96 \\ \Rightarrow c=1.96\sqrt{Var(\bar{Y})} \\ the\;95\%\;confidence\;interval \;of\; &the\;population\;mean\;is\\ \mu = \bar{Y}\pm1.96\sqrt{Var(\bar{Y})}=\bar{Y}\pm & 1.96\frac{\sigma}{\sqrt{n}} \end{aligned} \]

其中,\(\sqrt{Var(\bar{Y})}\) 就是我们熟知的估计量 \(\bar{Y}\) 的标准误。

10.2 估计量的特质

考虑以下的问题:

  1. 什么因素决定了一个估计量 (estimator) 的好坏,是否实用?
  2. 如果有其他的可选择估计量,该如何取舍呢?
  3. 当情况复杂的时候,我们该如何寻找合适的估计量?

10.2.1 偏倚

假设 \(T\) 是我们估计总体参数 \(\theta\) 的一个估计量。一般来说我们希望估计量的样本分布可以在 “正确的位置” 左右均匀分布。换句话说我们希望:

\[E(T)=\theta\]

如果实现了这个条件,我们说这样的估计量是无偏的 (unbiased)。然而,天下哪有这等好事,我们叫真实值和估计量之间的差距为偏倚:

\[bias(T) = E(T)-\theta\]

其实偏倚完全等于零并不是最重要,许多常见的估计量都是有偏倚的。重要的是,这个偏倚会随着样本量的增加而逐渐趋近于零。所以我们就可以认为这样的估计量是渐进无偏的 (asymptotically unbiased):

\[T\;is\;an\;\textbf{unbiased}\;estimator\;for\;\theta\;if\;\\E(T)=\theta\\ T\;is\;an\;\textbf{asymptotically unbiased}\;estimator\;for\;\theta\;if\;\\lim_{n\rightarrow\infty}E(T)=\theta\]

10.2.2 估计量的效能

通常,我们希望一个估计量 (estimator) 的偏倚要小,同时,它的样本分布也希望能尽可能的不要波动太大。换句话说,我们还希望估计量的方差越小越好。

如果说,两个估计量有相同的偏倚,均可以选择来推断总体,我们说,其中样本分布的方差小的那个 (波动幅度小) 的那个估计量是相对更好的。因为样本分布方差越小,说明可以更加精确的估计总体参数。这两个估计量的方差之比:\(Var(S)/Var(T)\) 被叫做这两个估计量的相对效能 (relative efficiency)。所以我们用估计量去推断总体时,需要选用效能最高,精确度最好的估计量 (the minimum variance unbiased estimator/an efficient estimator)

10.2.3 均值和中位数的相对效能

在一个服从 \(N(\mu,\sigma^2)\) 正态分布的数据中,中位数和均值是一样的,也都同时等于总体均值参数 \(\mu\)。而且,样本均数 \(\bar{Y}\) 和样本中位数 \(\dot{Y}\) 都是对总体均值的无偏估计量。那么应该选用中位数还是平均值呢?

之前证明过当 \(Y_i \sim N(\mu,\sigma^2)\) 时, \(Var(\bar{Y})=\sigma^2/n\)。然而,当 \(n\) 较大的时候,可以证明的是:

\[Var(\dot{Y})=\frac{\pi}{2}\frac{\sigma^2}{n}\approx1.571\frac{\sigma^2}{n}\]

因此,这两个估计量的相对效能就是:

\[\frac{Var(\dot{Y})}{Var(\bar{Y})}\approx1.571\]

所以总体是正态分布时,平均值就是较中位数更适合用来估计总体的估计量。

10.2.4 均方差

两个估计量的偏倚不同时,可以比较他们和总体参数之间的差距,这被叫做均方差, Mean Square Error (MSE)。

\[MSE(T)=E[(T-\theta)^2]\]

这里用一个数学技巧,将式子中的估计量和总体参数之间的差,分成两个部分:一是估计量本身的方差(\(T-E(T)\)),一是估计量的偏倚($ E(T)-$)。

\[ \begin{aligned} MSE(T) &= E[(T-\theta)^2] \\ &= E\{[T-E(T)+E(T)-\theta]^2\} \\ &= E\{[T-E(T)]^2+[E(T)-\theta]^2 \\ & \;\;\;\;\; \;\;+2[T-E(T)][E(T)-\theta]\} \\ &= E\{[T-E(T)]^2\}+E\{[E(T)-\theta]^2\} + 0\\ &= Var(T) + [bias(T)^2] \end{aligned} \]

10.3 总体方差的估计,自由度

如果 \(Y_i \sim (\mu, \sigma^2)\),并不需要默认或者假定它服从正态分布或者任何分布。那么它的方差我们会用:

\[V_{\mu}=\frac{1}{n}\sum_{i=1}^n(Y_i-\mu)^2\]

证明 \(V_{\mu}\)\(\sigma^2\) 的无偏估计:

\[ \begin{aligned} V_{\mu} &= \frac{1}{n}\sum_{i=1}^n(Y_i-\mu)^2 \\ we\;need\;to\;prove &E(V_{\mu}) = \sigma^2 \\ \Rightarrow E(V_{\mu}) &= \frac{1}{n}\sum_{i=1}^nE(Y_i-\mu)^2 \\ &= \frac{1}{n}\sum_{i=1}^nVar(Y_i) \\ &= \frac{1}{n}\sum_{i=1}^n\sigma^2 \\ &= \sigma^2 \end{aligned} \]

然而通常情况下,我们并不知道总体的均值 \(\mu\)。因此,只好用样本的均值 \(\bar{Y}\) 来估计 \(\mu\)。所以上面的方程就变成了:

\[V_{\mu}=\frac{1}{n}\sum_{i=1}^n(Y_i-\bar{Y})^2\]

你如果仔细观察认真思考,就会发现,上面这个式子是有问题的。这个大问题就在于,\(Y_i-\bar{Y}\) 中我们忽略掉了样本均值\(\bar{Y}\) 和总体均值\(\mu\) 之间的差(${Y}-$)。因此上面的计算式来估计总体方差时,很显然是会低估平均平方差,从而低估了总体方差。

这里需要引入自由度 (degree of freedom) 在参数估计中的概念。

字面上可以理解为:自由度是估计过程中使用了多少互相独立的信息。所以在上面第一个公式中:\(V_{\mu}=\frac{1}{n}\sum_{i=1}^n(Y_i-\mu)^2\)。所有的 \(n\) 个观察值互相独立,不仅如此,他们还对总体均值独立。然而在第二个我们用 \(\bar{Y}\) 取代了 \(\mu\) 的公式中,样本均数则与观察值不互相独立。因为样本均数必然总是落在观察值的中间。然而总体均数并不一定就会落在观察值中间。总体均数,和观察值之间是自由,独立的。因此,当我们观察到 \(n-1\) 个观察值时,剩下的最后一个观察值,决定了样本均值的大小。所以说,样本均值的自由度,是 \(n-1\)

所以,加入了自由度的讨论,我们可以相信,用样本估计总体的方差时,使用下面的公式将会是总体方差的无偏估计:

\[V_{n-1}=\frac{1}{n-1}\sum_{i=1}^n(Y_i-\bar{Y})=\frac{n}{n-1}V_n\]

证明

利用上面也用到过的证明方法 – 把样本和总体均值之间的差分成两部分:

\[ \begin{aligned} V_{\mu} &= \frac{1}{n}\sum_{i=1}^n(Y_i-\mu)^2 \\ &= \frac{1}{n}\sum_{i=1}^n[(Y_i-\bar{Y})+(\bar{Y}-\mu)]^2 \\ &= \frac{1}{n}\sum_{i=1}^n[(Y_i-\bar{Y})^2+(\bar{Y}-\mu)^2\\ &\;\;\;\;\;\;\;\;\;\;\;\;+2(Y_i-\bar{Y})(\bar{Y}-\mu)]\\ &=\frac{1}{n}\sum_{i=1}^n(Y_i-\bar{Y})^2+\frac{1}{n}\sum_{i=1}^n(\bar{Y}-\mu)^2\\ &\;\;\;\;\;\;\;\;\;\;\;\;+\frac{2}{n}(\bar{Y}-\mu)\sum_{i=1}^n(Y_i-\bar{Y}) \\ &= V_n+(\bar{Y}-\mu)^2 \\ &\;\;\;\;\;\;\;\;\;\;\;\;(\text{note that}\;\sum_{i=1}^n(Y_i-\bar{Y})=0) \\ \Rightarrow V_n &= V_{\mu}-(\bar{Y}-\mu)^2 \\ \therefore E(V_n)&= E(V_{\mu}) - E[(\bar{Y}-\mu)^2] \\ &= Var(Y)-Var(\bar{Y}) \\ &= \sigma^2-\frac{\sigma^2}{n} \\ &= \sigma^2(\frac{n-1}{n}) \end{aligned} \]

因此,我们看见 \(V_n\) 正如上面讨论的那样,是低估了总体方差的。虽然当 \(n\rightarrow\infty\) 时无限接近 \(\sigma^2\) 但是依然是低估了的。所以,我们可以对之进行修正:

\[ \begin{aligned} E[\frac{n}{n-1}V_n] &= \frac{n}{n-1}E[V_n] =\sigma^2 \\ \Rightarrow E[V_{n-1}] &= \sigma^2 \end{aligned} \]

10.4 样本方差的样本分布

\(S^2\) 常用来标记样本方差,取代上面我们用到的 \(V_{n-1}\)

\[S^2=\frac{1}{n-1}\sum_{i=1}^n(Y_i-\bar{Y})^2\]

而且上面也证明了,\(E(S^2)=\sigma^2\) 是总体方差的无偏估计。然而,要注意的是,样本标准差 \(\sqrt{S^2}\) 却不是总体标准差 \(\sigma\) 的无偏估计(因为并不是线性变换,而是开了根号) 。

证明样本标准差 \(S\) 不是总体标准差 \(\sigma\) 的无偏估计

\[ \begin{aligned} Var(S) &=E(S^2)-[E(S)]^2 \\ \Rightarrow [E(S)]^2 &=E(S^2)-Var(S) \\ \because E(S^2) &=\sigma^2 \\ \therefore [E(S)]^2 &=\sigma^2-Var(S) \\ E(S) &=\sqrt{\sigma^2-Var(S)} \\ \end{aligned} \]

可见样本标准差是低估了总体标准差的。

另外可以被证明的是:

\[\frac{n-1}{\sigma^2}S^2\sim \mathcal{X}_{n-1}^2\\ Var(S^2)=\frac{2\sigma^4}{n-1}\]

\(\mathcal{X}^2_m\): 自由度为 \(m\) 的卡方分布 (Section 11)。是在图形上向右歪曲的分布。当自由度增加时,会越来越接近正态分布。