抽查一个产品,质量可能合格或者不合格,这是两点分布,为了检查一批产品质量是否合格,我们可以抽查n个产品(每个产品都有合格或者不合格两种可能),这是二项分布 。但是实际情况更好复杂。对于一个产品,不仅仅只有合格或者不合格两个结果,有时候可能有更多的结果。比如抽查产品的结果使用“正品,次品,废品”表示这是多项分布, 在抽查产品里,我们不断的抽取直到首次抽到正品的概率这是几何分布(放回抽样),有时,我们抽取一个是不合格的,抽取一个是不合格的,一共抽取了r次,第r+1次才出现合格的,这种分布就是负二项分布。
在上面的抽查检查里,默认都是放回检验,但是有时候抽查完不放回,这种不放回检验就是本节介绍的超几何分布。可以证明,当样品量很大时,放回和不放回区别不大,比如从1000个产品里抽取5个检验是否合格,那么每次检验把这5个放回或者不放回对整体影响不大。
超几何分布
超几何公式
设有 N 件产品,其中有 M 件次品,现从中任取 n 件,问:其中恰有 k(k⩽min{n,M})件次品的概率是多少?
解 在 N 件产品中任取 n 件,所有可能的取法共有 CNn 种.
在 M 件次品中任取 k 件,所有可能的取法共有 CMk 种;在 N−M 件正品中取 n−k 件,所有可能的取法共有 CN−Mn−k 种.由乘法原理,在 N 件产品中任取 n 件,其中恰有 k 件次品的取法共有 CMkCN−Mn−k 种。
因此,恰有 k 件次品的概率为
P=CNnCMkCN−Mn−k. 上式称为超几何公式,在超几何公式中我们将得到超几何分布.
超几何分布
回忆上面例题:袋子中装有 N 个球,其中 M 个白球, N−M个黑球,从中无放回地随机取 n 个球,令 X 表示取出的白球个数,则
P{X=k}=CNnCMkCN−Mn−k,k=0,1,2,⋯,n (规定 k>M时 CMk=0) ,我们称X服从参数 n,N,M 的超几何分布。
注意当 N 和 M 相比 n 很大时,有放回与无放回取球没什么差别,因为每次取到白球的概率都近似为固定值 p=M/N ,直观上不难看出此时 X 近似服从参数为 n,p 的二项分布,此结论的严格证明我们不再介绍。
例在一个口袋中装有 30 个球,其中有 10 个红球,其余为白球,这些球除颜色外完全相同。游戏者一次从中摸出 5 个球。摸到至少 4 个红球就中一等奖,那么获一等奖的概率是多少?
解:由题意可见此问题归结为超几何分布模型。
其中 N=30.D=10.n=5 .
P(一等奖)=P(X=4)+P(X=5)
由公式 P(X=k)=CNnCDkCN−Dn−k,k=0,1,2,… 得:
P(X=4)=C305C104C201P(X=5)=C305C105C200 P( 一等奖 )=106/3393
例 从 50 名学生中随机选出 5 名学生代表,求甲被选中的概率.
解:设 X 表示选出的 5 名学生中含甲的人数(只能取 0或 1),则 X 服从超几何分布,且 N=50,M=1,n=5 .因此甲被选中的概率为
P(X=1)=C505C11C994=101. 容易发现,每个人被抽到的概率都是 101 .这个结论非常直观,这里给出了严格的推导.
超几何分布的数学期望和方差
若 X∼h(n,N,M), 则 X 的数学期望为
E(X)=k=0∑rk(nN)(kM)(n−kN−M)=nNMk=1∑r(n−1N−1)(k−1M−1)(n−kN−M)=nNM 又因为
E(X2)=k=1∑′k2(nN)(kM)(n−kN−M)=k=2∑rk(k−1)(nN)(kM)(n−kN−M)+nNM=(nN)M(M−1)k=2∑r(k−2M−2)(n−kN−M)+nNM =(nN)M(M−1)(n−2N−2)+nNM=N(N−1)M(M−1)n(n−1)+nNM 由此得X的方差为
D(X)=E(X2)−[E(X)]2=N2(N−1)nM(N−M)(N−n). 关于更多概率分布表见附录1:常见概率分布表
通俗理解超几何分布的数学期望
设随机变量 X 服从超几何分布,则 X 可以解释为从包含 M 件次品的 N 件产品中,不放回地随机抽取 n 件产品中的次品数.令 p=NM ,则 p 是 N 件产品的次品率,而 nX 是抽取的 n 件产品的次品率,我们猜想 E(nX)=p ,即 E(X)=np .
实际上,由随机变量均值的定义,令 m=max(0,n−N+M),r=min(n,M) ,有
E(X)=k=m∑rkCNnCMkCN−Mn−k=Mk=m∑rCNnCM−1k−1CN−Mn−k. 因为 ∑k=mrCM−1k−1CN−Mn−k=CN−1n−1 ,所以
E(X)=CNnMk=m∑rCM−1k−1CN−Mn−k=CNnMCN−1n−1=NnM=np 超几何分布的二项近似
超几何分布与二项分布常常容易被混淆,需要分清楚两个分布之间的主要区别:超几何分布是不放回抽取,二项分布是放回抽取,因此,二项分布中每个事件之间是相互独立的,而超几何分布不独立.
两个分布之间也有联系,当总体的容量N非常大时,超几何分布近似于二项
分布,例如,仓库中有10万件产品,抽20件做检验,虽然是不放回抽样,但因为产品的总数远远大于被抽样的件数,所以“放回”与“不放回”的误差可以忽略不计,故可以用二项分布来近似超几何分布.
在实际应用中,当 n<<N 时,即抽取个数 n 远小于产品总数 N 时,每次抽取后,总体中的不合格 品率 p=NM 改变很微小,所以不放回抽样可以近似地看出放回抽样,这时超几何分布可用二项分布近似,以减少计算量。