抽查一个产品,质量可能合格或者不合格,这是两点分布,为了检查一批产品质量是否合格,我们可以抽查n个产品(每个产品都有合格或者不合格两种可能),这是二项分布 。但是实际情况更好复杂。对于一个产品,不仅仅只有合格或者不合格两个结果,有时候可能有更多的结果。比如抽查产品的结果使用“正品,次品,废品”表示这是多项分布,下面将介绍的是几何分布。抽查一个产品,它把成功的概率指定为 p ,失败的概率指定为 1−p .我们现在要做的是不断重复这个试验,直到首次成功为止.我们用随机变量 X 表示首次成功时已经完成的试验次数.我们称 X 是一个服从几何分布的随机变量Geometric Distribution.
几何分布
在伯努利试验序列中, 记每次试验中事件 A 发生的概率为 p, 如果 X 为事件 A 首次出现时的试验次数, 则 X 的可能取值为 1,2,⋯, 称 X 服从几何分布, 记为 X∼Ge(p),其分布列为
P(X=k)=p(1−p)k−1,k=1,2,⋯. 几何分布因其分布律为几何级数 ∑k=1+∞pqk−1 的一般项而得名。
通俗理解
上面式子看起来并不好理解,但是,如果稍微改动下,就容易理解了。假设某个试验成功的概率为 p ,除了成功就是失败,没有中间地带,所以失败的概率为 1−p ,设为 q 。现在进行这个试验,如果成功就立即停止试验,如果失败就继续试验,一直到成功为止。假设这个试验进行了r 次,即在第 r 次取得了成功。可以用公式表示如下:
P(X=r)=qr−1p 看到这个式子的比较好理解,意为在失败(q )了 r−1 次之后,终于在第 r 次迎来了成功( p )。 r 只取正整数,属于离散型随机变量
几何分布应用背景
实际问题中有不少随机变量服从几何分布,臂如,
某产品的不合格率为 0.05 , 则首次查到不合格品的检查次数 X∼Ge(0.05).
某射手的命中率为 0.8 , 则首次击中目标的射击次数 Y∼Ge(0.8).
掷一颗股子, 首次出现 6 点的投掷次数 Z∼Ge(1/6).
同时掷两颗骰子, 首次达到两个点数之和为 8 的投掷次数 W∼Ge(5/36).
几何分布的数学期望和方差
设随机变量 X 服从几何分布 Ge(p), 令 q=1−p, 利用逐项微分可得 X 的数学期望为
E(X)=k=1∑∞kpqk−1=pk=1∑∞kqk−1=pk=1∑∞dqdqk=pdqd(k=0∑∞qk)=pdqd(1−q1)=(1−q)2p=p1. 又因为
E(X2)=k=1∑∞k2pqk−1=p[k=1∑∞k(k−1)qk−1+k=1∑∞kqk−1] =pqk=1∑∞k(k−1)qk−2+p1=pqk=1∑∞dq2d2qk+p1=pqdq2d2(k=0∑∞qk)+p1=pqdq2d2(1−q1)+p1=pq(1−q)32+p1=p22q+p1 由此得 X 的方差为
D(X)=E(X2)−[E(X)]2=p22q+p1−p21=p21−p. 从几何分布的数学期望可以看出:掷一颗骰子,首次出现点数 6 的平均投掷次数为 6 次.
几个分布常见的题目是求:第一次,比如抽奖第一次抽中的概率,破解密码第一次破解成功的概率,开门的概率等等,详见下面例题
例某人有 n 把钥匙,仅有一把能打开门.随机取一把试开,开后放回,直到打开为止.求第 k 次才打开门的概率?
解 设 X 为开门次数,由已知,得 X 服从几何分布,且 p=n1 .
所以
P{X=k}=(1−n1)k−1⋅n1(k=1,2,3,⋯). 例设一盒产品中有 6 件正品, 2 件次品.现每次有放回地任取一件,直到取到正品为止。求抽取次数的分布律。
解 用 X 表示抽取的次数,则其取值是所有正整数。抽取 k 次意味着前 (k−1) 次都没有取到正品,而最后一次取到正品。因为每次是否取到正品是相互独立的,且每一次取得正品的概率都为 C81C61=43 ,所以 X 的分布律为
P{X=k}=(1−43)k−1⋅43=4k3(k=1,2,⋯). 几何分布的无记忆性
定理 (几何分布的无记忆性) 设 X∼Ge(p), 则对任意正整数 m 与 n 有
P(X>m+n∣X>m)=P(X>n). 在证明之前先解释上述概率等式的含义. 在一列伯努利试验序列中, 若首次成功 (A) 出现的试验次数 X 服从几何分布, 则事件 {X>m} 表示前 m 次试验中 A 没有出现.假如在接下去的 n 次试验中 A 仍末出现, 这个事件记为 {X>m+n}.
这个定理表明: 在前 m 次试验中 A 没有出现的条件下, 在接下去的 n 次试验中 A 仍末出现的概率只与 n 有关, 而与以前的 m 次试验无关, 似乎忘记了前 m 次试验结果, 这就是无记忆性.
几何分布更通俗的解释:抽奖,几个人抽奖先抽和后抽每个人抽到的概率相等,在不知道结果的情况下,前面的人抽后,对后面人抽奖没有影响
再举个例子,我们都知道,连续掷 10 次硬币全是反面的概率是很小的(小于千分之一);那么在连续掷了 9 次硬币全是反面的条件下,掷第 10 次硬币出现正面的可能性会不会大一些?答案是不会的!不论你前面失败了多少次,但它不会帮你记住!
例 有三个朋友去喝咖啡,他们决定用掷硬币的方式确定谁付账:每人掷一枚硬币,如果有人掷出的结果与其他两人不一样,那么由他付账;如果三个人掷出的结果是一样的,那么就重新掷,一直这样下去,直到确定了由谁来付账。
解 记 X= 所掷的轮数,则 X∼Ge(p) ,其中
1−p=P( 重新掷 )=P(出现三个正面或出现三个反面)
=81+81=41, 所以 p=43 .
进行了 3 轮还没有确定付账人的概率为
P(X>3)=1−P(X=1)−P(X=2)−P(X=3)=1−43−41×43−(41)2×43=641=0.0156 关于更多概率分布表见附录1:常见概率分布表
几何分布名称的由来
一个首项为 1 公比为 5 的几何数列,写为 1,5,25,125,625…… 而一个首项为 1 ,公比为 5+n 的超几何数列,n 为项数,也就是第几项,前面提到的下脚标,那么会写成 1,6,42,336,3024… .看看下面的递推公式就更清楚了。
AnAn+1=5AnAn+1=5+n 由于比值不再是一个常数,而与项数 n 有关,第二项变成了 1∗(5+1) ,第三项成了 1∗(5+1)∗(5+2) ,依次类推。并且通项公式也会不同,可以自己求一求。
An=5n−1 An=5!(4+n)! 我们同样也可以由通项公式求公比和首项,你可以试一试,令 n 为 n+1、n相比得到公比,令 n 为 1 得到首项。我们可以注意到通项公式里有关于变量 n 的阶乘形式的,这样的数列就会是一个超几何数列。
有了这些例子,我想超几何分布就不是什么难题了,如下。
Am=CNnCMmCN−Mn−m=(N−M+m−n)!(M−m)!(n−m)!N!m!(N−M)!(N−n)!M!n! 令 m 为 0、m+1、m 求得首项和公比。
A0AmAm+1=(N−M−n)!N!(N−M)!(N−n)!=CNnCN−Mn,=(N−M+m−n+1)(m+1)(M−m)!(n−m)! 因为公比是一个关于下脚标 m 的函数,依据超几何数列的定义,我们可以知道该数列为超几何数列。