10._离散型_超几何分布

抽查一个产品,质量可能合格或者不合格,这是两点分布,为了检查一批产品质量是否合格,我们可以抽查nn个产品(每个产品都有合格或者不合格两种可能),这是二项分布 。但是实际情况更好复杂。对于一个产品,不仅仅只有合格或者不合格两个结果,有时候可能有更多的结果。比如抽查产品的结果使用“正品,次品,废品”表示这是多项分布, 在抽查产品里,我们不断的抽取直到首次抽到正品的概率这是几何分布(放回抽样),有时,我们抽取一个是不合格的,抽取一个是不合格的,一共抽取了rr次,第r+1r+1次才出现合格的,这种分布就是负二项分布。 在上面的抽查检查里,默认都是放回检验,但是有时候抽查完不放回,这种不放回检验就是本节介绍的超几何分布。可以证明,当样品量很大时,放回和不放回区别不大,比如从1000个产品里抽取5个检验是否合格,那么每次检验把这5个放回或者不放回对整体影响不大。

超几何分布

超几何公式

设有 NN 件产品,其中有 MM 件次品,现从中任取 nn 件,问:其中恰有 k(kmin{n,M})k(k \leqslant \min \{n, M\})件次品的概率是多少?

解 在 NN 件产品中任取 nn 件,所有可能的取法共有 CNn\mathrm{C}_N^n 种. 在 MM 件次品中任取 kk 件,所有可能的取法共有 CMk\mathrm{C}_M^k 种;在 NMN-M 件正品中取 nkn-k 件,所有可能的取法共有 CNMnk\mathrm{C}_{N-M}^{n-k} 种.由乘法原理,在 NN 件产品中任取 nn 件,其中恰有 kk 件次品的取法共有 CMkCNMnk\mathrm{C}_M^k \mathrm{C}_{N-M}^{n-k} 种。

因此,恰有 kk 件次品的概率为

P=CMkCNMnkCNn.P=\frac{\mathrm{C}_M^k \mathrm{C}_{N-M}^{n-k}}{\mathrm{C}_N^n} .

上式称为超几何公式,在超几何公式中我们将得到超几何分布.

超几何分布

回忆上面例题:袋子中装有 NN 个球,其中 MM 个白球, NMN - M个黑球,从中无放回地随机取 nn 个球,令 XX 表示取出的白球个数,则

P{X=k}=CMkCNMnkCNn,k=0,1,2,,n\boxed{ P\{X=k\}=\frac{C_M^k C_{N-M}^{n-k}}{C_N^n}, k=0,1,2, \cdots, n }

(规定 k>Mk > MCMk=0)\left.C_M^k=0\right) ,我们称X服从参数 n,N,Mn , N , M 的超几何分布。

注意NNMM 相比 nn 很大时,有放回与无放回取球没什么差别,因为每次取到白球的概率都近似为固定值 p=M/Np = M / N ,直观上不难看出此时 XX 近似服从参数为 n,pn , p 的二项分布,此结论的严格证明我们不再介绍。

在一个口袋中装有 30 个球,其中有 10 个红球,其余为白球,这些球除颜色外完全相同。游戏者一次从中摸出 5 个球。摸到至少 4 个红球就中一等奖,那么获一等奖的概率是多少?

解:由题意可见此问题归结为超几何分布模型。 其中 N=30.D=10.n=5N=30 . D=10 . n=5PP(一等奖)=P(X=4)+P(X=5)=P(X=4)+P(X=5) 由公式 P(X=k)=CDkCNDnkCNn,k=0,1,2,P(X=k)=\frac{C_D^k C_{N-D}^{n-k}}{C_N^n}, k =0,1,2, \ldots 得:

P(X=4)=C104C201C305P(X=5)=C105C200C305\begin{aligned} & P(X=4)=\frac{C_{10}^4 C_{20}^1}{C_{30}^5} \\ & P(X=5)=\frac{C_{10}^5 C_{20}^0}{C_{30}^5} \end{aligned}

P(P( 一等奖 )=106/3393)=106 / 3393

从 50 名学生中随机选出 5 名学生代表,求甲被选中的概率.

解:设 XX 表示选出的 5 名学生中含甲的人数(只能取 0或 1),则 XX 服从超几何分布,且 N=50,M=1,n=5N=50, M=1, n=5 .因此甲被选中的概率为

P(X=1)=C11C994C505=110.P(X=1)=\frac{C_1^1 C_{99}^4}{C_{50}^5}=\frac{1}{10} .

容易发现,每个人被抽到的概率都是 110\frac{1}{10} .这个结论非常直观,这里给出了严格的推导.

超几何分布的数学期望和方差

Xh(n,N,M)X \sim h(n, N, M), 则 XX 的数学期望为

E(X)=k=0rk(Mk)(NMnk)(Nn)=nMNk=1r(M1k1)(NMnk)(N1n1)=nMNE(X)=\sum_{k=0}^r k \frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}=n \frac{M}{N} \sum_{k=1}^r \frac{\binom{M-1}{k-1}\binom{N-M}{n-k}}{\binom{N-1}{n-1}}=n \frac{M}{N}

又因为

E(X2)=k=1k2(Mk)(NMnk)(Nn)=k=2rk(k1)(Mk)(NMnk)(Nn)+nMN=M(M1)(Nn)k=2r(M2k2)(NMnk)+nMN\begin{aligned} E\left(X^2\right) & =\sum_{k=1}^{\prime} k^2 \frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}=\sum_{k=2}^r k(k-1) \frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}+n \frac{M}{N} \\ & =\frac{M(M-1)}{\binom{N}{n}} \sum_{k=2}^r\binom{M-2}{k-2}\binom{N-M}{n-k}+n \frac{M}{N} \end{aligned}
=M(M1)(Nn)(N2n2)+nMN=M(M1)n(n1)N(N1)+nMN=\frac{M(M-1)}{\binom{N}{n}}\binom{N-2}{n-2}+n \frac{M}{N}=\frac{M(M-1) n(n-1)}{N(N-1)}+n \frac{M}{N}

由此得XX的方差为

D(X)=E(X2)[E(X)]2=nM(NM)(Nn)N2(N1).D(X)=E\left(X^2\right)-[E(X)]^2=\frac{n M(N-M)(N-n)}{N^2(N-1)} .

关于更多概率分布表见附录1:常见概率分布表

通俗理解超几何分布的数学期望

设随机变量 XX 服从超几何分布,则 XX 可以解释为从包含 MM 件次品的 NN 件产品中,不放回地随机抽取 nn 件产品中的次品数.令 p=MNp=\frac{M}{N} ,则 ppNN 件产品的次品率,而 Xn\frac{X}{n} 是抽取的 nn 件产品的次品率,我们猜想 E(Xn)=pE\left(\frac{X}{n}\right)=p ,即 E(X)=npE(X)=n p

实际上,由随机变量均值的定义,令 m=max(0,nN+M),r=min(n,M)m=\max (0, n-N+M), r=\min (n, M) ,有

E(X)=k=mrkCMkCNMnkCNn=Mk=mrCM1k1CNMnkCNn.E(X)=\sum_{k=m}^r k \frac{C_M^k C_{N-M}^{n-k}}{C_N^n}=M \sum_{k=m}^r \frac{C_{M-1}^{k-1} C_{N-M}^{n-k}}{C_N^n} .

因为 k=mrCM1k1CNMnk=CN1n1\sum_{k=m}^r C _{M-1}^{k-1} C _{N-M}^{n-k}= C _{N-1}^{n-1} ,所以

E(X)=MCNnk=mrCM1k1CNMnk=MCN1n1CNn=nMN=npE(X)=\frac{M}{C_N^n} \sum_{k=m}^r C_{M-1}^{k-1} C_{N-M}^{n-k}=\frac{M C_{N-1}^{n-1}}{C_N^n}=\frac{n M}{N}=n p

超几何分布的二项近似

超几何分布与二项分布常常容易被混淆,需要分清楚两个分布之间的主要区别:超几何分布是不放回抽取,二项分布是放回抽取,因此,二项分布中每个事件之间是相互独立的,而超几何分布不独立. 两个分布之间也有联系,当总体的容量N非常大时,超几何分布近似于二项 分布,例如,仓库中有10万件产品,抽20件做检验,虽然是不放回抽样,但因为产品的总数远远大于被抽样的件数,所以“放回”与“不放回”的误差可以忽略不计,故可以用二项分布来近似超几何分布.

在实际应用中,当 n<<Nn \lt \lt N 时,即抽取个数 nn 远小于产品总数 NN 时,每次抽取后,总体中的不合格 品率 p=MNp=\frac{M}{N} 改变很微小,所以不放回抽样可以近似地看出放回抽样,这时超几何分布可用二项分布近似,以减少计算量。

10._离散型_超几何分布 - 概率论与数理统计 | OpenTech