9._离散型_负二项分布

抽查一个产品,质量可能合格或者不合格,这是两点分布,为了检查一批产品质量是否合格,我们可以抽查nn个产品(每个产品都有合格或者不合格两种可能),这是二项分布 。但是实际情况更好复杂。对于一个产品,不仅仅只有合格或者不合格两个结果,有时候可能有更多的结果。比如抽查产品的结果使用“正品,次品,废品”表示这是多项分布, 在抽查产品里,我们不断的抽取直到首次抽到正品的概率这是几何分布,下面的定义将介绍负二项分布:在抽查的产品里,我们抽取一个是不合格的,抽取一个是不合格的,一共抽取了rr次,r+1r+1次才出现合格的,这种分布就是负二项分布。

注意:负二项分布在业界并没有统一的规定。比如有些人支持从0开始,有些人支持从1开始,有些人用p表示成功的概率, 有些人用p表示失败的概率.所以当你用不同的教材给出的公式进行比较时,仔细检查这些教材使用的标准形式

负二项分布

负二项分布是几何分布的一个延伸.在伯努利试验中,记每次试验中 AA 事件发生的概率 P(A)=p(0<p<1)P(A)=p(0<p<1) ,设随机变量 XX 表示 AA 事件第 rr 次出现时的试验次 数,则 XX 的取值为 r,r+1,,r+n,r, r+1, \cdots, r+n, \cdots ,相应的分布律为:

P(X=k)=(k1r1)pr(1p)kr,0<p<1,k=r,r+1,,r+n,P(X=k)=\left(\begin{array}{c} k-1 \\ r-1 \end{array}\right) p^r(1-p)^{k-r}, \quad 0<p<1, \quad k=r, r+1, \cdots, r+n, \cdots

根据组合数定义:

(x+r1x)=(x+r1)(x+r2)rx!=(1)x(r(x1))(r(x2))(r)x!=(1)x(r)(r1)(r(x1))x!=(1)x(rx)\begin{aligned} \binom{x+r-1}{x} & =\frac{(x+r-1)(x+r-2) \cdots r}{x!} \\ & =(-1)^x \frac{(-r-(x-1))(-r-(x-2)) \cdots(-r)}{x!} \\ & =(-1)^x \frac{(-r)(-r-1) \cdots(-r-(x-1))}{x!} \\ & =(-1)^x\binom{-r}{x} \end{aligned}

称随机变量 XX 服从参数为 r,pr, p 的负二顶分市,记为 XNB(r,p)X \sim \mathrm{NB}(r, p) 。其中当 r=1r=1 时,即为几何分布.

负是指负二项级数, "负" 除了告诉我们负二项分布的由来

从伯努利过程的视角出发,也能自然的能理解负二项分布,实际上,负二项分布描述的是第 r 次成功前失败的次数,记为 kk ,那么有:

Pr(X=k)=(k+r1r1)(1p)kpr\operatorname{Pr}(X=k)=\binom{k+r-1}{r-1} \cdot(1-p)^k p^r

负二项分布和二项分布的区别

负二项分布就像一个“倒计时”分布: 二项分布是:“我给你10次机会(固定次数),你去试试能成功几次(随机结果)。” 负二项分布是:“你必须要成功3次(固定目标),去吧,我会数着你失败了多少次(随机结果)才做到。” 所以,当你关心的是 “为了达到某个确定的成功次数,所需付出的代价(失败次数)是多少” 时,你就是在和负二项分布打交道了。它的名字里的“负”字,某种程度上就体现了这种“从目标倒推过程”的意味。

某人向同一目标独立重复射击,每次射击命中目标的概率为 p ,求此人第 4 次射击恰好第 2 次命中目标的概率。

解: 拿到题目要进行语义分解:题目就是说"直到命中两次就停止射击",故射击的次数 X 服从参数为 2,p2, p 的负二项分布,从而 P0{X=4}=C31p2(1p)42=3p2(1p)2P_0\{X=4\}=C_3^1 p^2(1-p)^{4-2}=3 p^2(1-p)^2

(巴拿赫火柴问题)某个抽烟的数学家总是在左右口袋里各放一盒火柴,每次他需要火柴时,都随机地从两个口袋中任取一盒,并从中取出一根火柴。假设开始时两盒中都有 nn 根火柴,当他第一次发现其中有一盒已经空了时,另一盒中恰好有 kk 根火柴的概率是多少? -分析与解:设事件A表示"数学家第一次发现右口袋中的火柴盒空了时,左口袋的火柴盒中还有 kk 根火柴",当A发生时,此人已经从两个口袋中总共取了 n+(nk)=2nkn+(n-k)=2 n-k 根火柴,且第 2nk+12 n-k+1 次发现右口袋已空。如果将"从右口袋取火柴"看作试验成功,依题意累计成功 n+1n + 1 次即停止试验(第 n+1n +1次成功即发现右口袋已空),此时试验的总次数XX服从参数为 r=n+1,p=1/2r=n+1, p=1 / 2 的负二项分布,从而有 P(A)=P{X=2nk+1}=C2nkn{12}2nk+1P(A)=P\{X=2 n-k+1\}=C_{2 n-k}^n\left\{\frac{1}{2}\right\}^{2 n-k+1} 。显然事件"第一次发现左口袋中的火柴盒空了时,右口袋的火柴盒中还有 kk 根火柴"发生的概率与 P(A)P(A) 相等,而且这两个事件是互不相容的,从而所求概率 2P(A)=122nkC2nkn\Rightarrow 2 P(A)=\frac{1}{2^{2 n-k}} C_{2 n-k}^n

最后指出,虽然考研数学中并不要求掌握本节介绍的这些离散分布,但完全能够以应用问题的形式去考查,比如曾有一道考研选择题,其背景知识就是负二项分布,情况下题。

负二项分布的数学期望与方差

可以算得负二项分布的数学期望为 r/pr / p, 方差为 r(1p)/p2r(1-p) / p^2. 从直观上看这是合理的, 因为首次出现 AA 的平均试验次数是 1/p1 / p, 那么第 rrAA 出现所需的平均试验次数是 r/pr / p.

我们发现,在NB中,方差总是大于期望的;而当r(stopping parameter)趋于无穷大的时候,方差与期望相等。前面我们已经推导了当r趋于无穷的时候,NB就成了泊松分布。这里再次印证了这个结论。

我们不妨把 1/r1 / r 称为 dispersion parameter,它能够帮助我们检验数据的overdispersion情况(利用 Wald test检验原假设 1/r=01 / r=0 是否成立)。

9._离散型_负二项分布 - 概率论与数理统计 | OpenTech