第 5 章 二项分布
二项分布在医学研究中至关重要,一组二项分布的数据,指的通常是\(n\) 次相互独立的成功率为\(\pi\) 的伯努利实验 (\(n\) independent Bernoulli trials) 中成功的次数。
当 \(X\) 服从二项分布,记为 \(X \sim binomial(n, \pi)\) 或\(X \sim bin(n, \pi)\)。它的(第 \(x\) 次实验的)概率被定义为:
\[ \begin{align} P(X=x) &= ^nC_x\pi^x(1-\pi)^{n-x} \\ &= \binom{n}{x}\pi^x(1-\pi)^{n-x} \\ & for\;\; x = 0,1,2,\dots,n \end{align} \]
5.1 二项分布的期望和方差
- 期望 \(E(X)\)
- 若 \(X \sim bin(n,\pi)\),那么 \(X\) 就是这一系列独立伯努利实验中成功的次数。
- 用 \(X_i, i =1,\dots, n\) 标记每个相互独立的伯努利实验。
- 那么我们可以知道 \(X=\sum_{i=1}^nX_i\)。
\[ \begin{align} E(X) &= E(\sum_{i=1}^nX_i)\\ &= E(X_1+X_2+\cdots+X_n) \\ &= E(X_1)+E(X_2)+\cdots+E(X_n)\\ &= \sum_{i=1}^nE(X_i)\\ &= \sum_{i=1}^n\pi \\ &= n\pi \end{align} \]
- 方差 \(Var(X)\)
\[ \begin{align} Var(X) &= Var(\sum_{i=1}^nX_i) \\ &= Var(X_i+X_2+\cdots+X_n) \\ &= Var(X_i)+Var(X_2)+\cdots+Var(X_n) \\ &= \sum_{i=1}^nVar(X_i) \\ &= n\pi(1-\pi) \\ \end{align} \]
5.2 超几何分布 hypergeometric distribution
假设我们从总人数为 \(N\) 的人群中,采集一个样本 \(n\)。假如已知在总体人群中(\(N\))有 \(M\) 人患有某种疾病。请问采集的样本 \(X=n\) 中患有这种疾病的人,服从怎样的分布?
- 从人群(\(N\))中取出样本(\(n\)),有 \(^NC_n\) 种方法。
- 从患病人群(\(M\))中取出患有该病的人(\(x\))有 \(^MC_x\) 种方法。
- 样本中不患病的人(\(n-x\))被采样的方法有 \(^{N-M}C_{n-x}\) 种。
- 采集一次 \(n\) 人作为样本的概率都一样。因此:
\[P(X=x)=\frac{\binom{M}{x}\binom{N-M}{n-x}}{\binom{N}{n}}\]
5.3 中奖概率问题
- 从数字 \(1\sim59\) 中选取 \(6\) 个任意号码
- 开奖时从 \(59\) 个号码球中随机抽取 \(6\) 个
- 如果六个号码全部猜中(不分顺序),你可以成为百万富翁。请问一次猜中全部 \(6\) 个号码的概率是多少?
从 \(59\) 个号码中随机取出任意 \(6\) 个号码的方法有 \(^{59}C_6\) 种。 \[^{59}C_6=\frac{59!}{6!(59-6)!}=45,057,474\]
每次选取六个号码做为一组的可能性相同,所以,你买了一组号码,能中奖的概率就是 \(1/45,057,474 = 0.00000002219\)。你还会再去买彩票么?
如果我只想中其中的 \(3\) 个号码,概率有多大?
用超几何分布的概率公式:
\[ \begin{align} P(X=3) &= \frac{^6C_3\times ^{53}C_3}{^{59}C_6} \\ &= 0.010 \end{align} \]
你有 \(1\%\) 的可能中奖。换句话说,如果中三个以上的数字算中奖的话,你买的彩票中奖的概率低于 \(1\%\)。是不是觉得下次送钱给博彩公司的时候还不如买几根鸡腿划算?