9._离散型_负二项分布
抽查一个产品,质量可能合格或者不合格,这是两点分布,为了检查一批产品质量是否合格,我们可以抽查个产品(每个产品都有合格或者不合格两种可能),这是二项分布 。但是实际情况更好复杂。对于一个产品,不仅仅只有合格或者不合格两个结果,有时候可能有更多的结果。比如抽查产品的结果使用“正品,次品,废品”表示这是多项分布, 在抽查产品里,我们不断的抽取直到首次抽到正品的概率这是几何分布,下面的定义将介绍负二项分布:在抽查的产品里,我们抽取一个是不合格的,抽取一个是不合格的,一共抽取了次,第次才出现合格的,这种分布就是负二项分布。
注意:负二项分布在业界并没有统一的规定。比如有些人支持从0开始,有些人支持从1开始,有些人用p表示成功的概率, 有些人用p表示失败的概率.所以当你用不同的教材给出的公式进行比较时,仔细检查这些教材使用的标准形式
负二项分布
负二项分布是几何分布的一个延伸.在伯努利试验中,记每次试验中 事件发生的概率 ,设随机变量 表示 事件第 次出现时的试验次 数,则 的取值为 ,相应的分布律为:
根据组合数定义:
称随机变量 服从参数为 的负二顶分市,记为 。其中当 时,即为几何分布.
负是指负二项级数, "负" 除了告诉我们负二项分布的由来
从伯努利过程的视角出发,也能自然的能理解负二项分布,实际上,负二项分布描述的是第 r 次成功前失败的次数,记为 ,那么有:
负二项分布和二项分布的区别
负二项分布就像一个“倒计时”分布: 二项分布是:“我给你10次机会(固定次数),你去试试能成功几次(随机结果)。” 负二项分布是:“你必须要成功3次(固定目标),去吧,我会数着你失败了多少次(随机结果)才做到。” 所以,当你关心的是 “为了达到某个确定的成功次数,所需付出的代价(失败次数)是多少” 时,你就是在和负二项分布打交道了。它的名字里的“负”字,某种程度上就体现了这种“从目标倒推过程”的意味。
例某人向同一目标独立重复射击,每次射击命中目标的概率为 p ,求此人第 4 次射击恰好第 2 次命中目标的概率。
解: 拿到题目要进行语义分解:题目就是说"直到命中两次就停止射击",故射击的次数 X 服从参数为 的负二项分布,从而 。
例 (巴拿赫火柴问题)某个抽烟的数学家总是在左右口袋里各放一盒火柴,每次他需要火柴时,都随机地从两个口袋中任取一盒,并从中取出一根火柴。假设开始时两盒中都有 根火柴,当他第一次发现其中有一盒已经空了时,另一盒中恰好有 根火柴的概率是多少?
-分析与解:设事件A表示"数学家第一次发现右口袋中的火柴盒空了时,左口袋的火柴盒中还有 根火柴",当A发生时,此人已经从两个口袋中总共取了 根火柴,且第 次发现右口袋已空。如果将"从右口袋取火柴"看作试验成功,依题意累计成功 次即停止试验(第 次成功即发现右口袋已空),此时试验的总次数服从参数为 的负二项分布,从而有 。显然事件"第一次发现左口袋中的火柴盒空了时,右口袋的火柴盒中还有 根火柴"发生的概率与 相等,而且这两个事件是互不相容的,从而所求概率 。
最后指出,虽然考研数学中并不要求掌握本节介绍的这些离散分布,但完全能够以应用问题的形式去考查,比如曾有一道考研选择题,其背景知识就是负二项分布,情况下题。
负二项分布的数学期望与方差
可以算得负二项分布的数学期望为 , 方差为 . 从直观上看这是合理的, 因为首次出现 的平均试验次数是 , 那么第 个 出现所需的平均试验次数是 .
我们发现,在NB中,方差总是大于期望的;而当r(stopping parameter)趋于无穷大的时候,方差与期望相等。前面我们已经推导了当r趋于无穷的时候,NB就成了泊松分布。这里再次印证了这个结论。
我们不妨把 称为 dispersion parameter,它能够帮助我们检验数据的overdispersion情况(利用 Wald test检验原假设 是否成立)。