抽查一个产品,质量可能合格或者不合格,这是两点分布,为了检查一批产品质量是否合格,我们可以抽查n个产品(每个产品都有合格或者不合格两种可能),这是二项分布 。但是实际情况更好复杂。对于一个产品,不仅仅只有合格或者不合格两个结果,有时候可能有更多的结果。比如抽查产品的结果使用“正品,次品,废品”表示这是多项分布, 在抽查产品里(放回抽样),我们不断的抽取直到首次抽到正品的概率这是几何分布, 在抽查的产品里,我们抽取一个是不合格的,抽取一个是不合格的,一共抽取了r次,第r+1次才出现合格的,这种分布就是负二项分布。 如果不放回抽样就是超几何分布, 下面介绍的是泊松分布。特别的,当样本量很大时,二项分布可以用泊松近似,他常被应用于研究稀有事件。比如某种疾病的发病率为0.001,现在单位有5000人,问患这种疾病不超过5人的概率?虽然可以用二项分布计算,但是计算量很大,此时就可以使用泊松分布近似计算,详见泊松定理。
注:在概率论里,和连续分布相关的基本上都和“时间”相关,因为时间是连续的。泊松过程的三个重要分布在概率论和随机过程理论中经常出现,它们分别是:泊松分布(Poisson Distribution):描述固定时间内发生事件的数量。指数分布(Exponential Distribution):描述事件间隔时间的分布。伽马分布(Gamma Distribution):描述多个事件发生时间的分布。点击他们的分布链接可以了解三者之间的区别和联系。
到目前为止,我们前面研究的离散分布都与伯努利分布有关.接下来的例子也与伯努利分布有关,但关联并不是那么密切。虽然我们可以定义服从泊松分布的随机变量,但它其实可以被定义为参数为 n 和 p 的二项分布的极限,其中 n→∞ 且 np→λ . 你可以把泊松分布看成一个全新的分布。
为什么要引入泊松分布?
答案就一句话:预测未来发生的事件数! 更准确地说, 在固定的时间间隔内,预测给定事件数量的可能性。
日常生活中,大量事件是有固定频率的。
某医院平均每小时出生3个婴儿
某公司平均每10分钟接到1个电话
某超市平均每天销售4包奶粉
某网站平均每分钟有3个访客
城市每天发生1次火灾
这类事件的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?有可能一下子出生6个,也有可能一个都不出生。这是我们没法知道的
而泊松分布就是描述某段时间内,事件具体的发生概率。
泊松分布
1837 年法国数学家(Poisson,1781—1840 年)首次提出泊松分布. 设随机变量 X 的概率密度函数为
P(X=k)=k!λke−λ,k=0,1,2,…;λ>0 则称 X 服从参数为 λ 的泊松分布, 记为 X∼P(λ).
由无穷级数知识知: ∑k=0∞k!λke−λ=1
泊松分布的密度函数图
{width=500px}
初学者看到泊松密度会感觉一脸迷茫,怎么又是k,又是λ,又是e的,且看下文慢慢介绍。
例题-感性认知泊松分布
为了方便读者对识泊松分布有感性认识,我们通过一个例题进行快速讲解释。
一个售后服务中心,平均每周接到客户投诉 2.5 次。求下周没有接到客户投诉的概率是?接到客户投诉是 3 次的概率。
解:我们已知每周接到2.5次客户投诉,那下周会有多少客户投诉?可能为0一个没有,也可能为10次投诉,也可能是无穷大投诉,本题里,我们要做的是预测0次投诉的概率和3次投诉的概率。
直接把参数往泊松分布的公式里带即可。
(1)客户0次投诉
当客户无投诉时,即k=0, 而每周投诉2.5次,就是 λ=2.5 带入数据得
n=0P(X=n)=n!e−λλn=0!e−2.5×2.50=1e−2.5×1=0.082 (2)客户3次投诉
n=3P(X=n)=n!e−λλn=3!e−2.5×2.53=3×2×1e−2.5×15.625=0.214 通过这题,你大致知道泊松分布的作用,现在我被0投诉的概率为8.3%,而被投诉3次的概率为 21.4%, 这就是泊松分布的奇妙之处,把完全把几乎不可预测的事情,给预测出来了。
后面会介绍,泊松分布的期望为λ, 沿用本例子,在一周之内预计发生客户投诉次数为 2.5 次。
泊松分布的方差为λ , 沿用本例子,在一周之内预计发生客户的投诉次数的方差为 2.5 次。
以下情景可以使用泊松分布进行预测:
阅读:泊松分布是如何来的
假设我有一个个人博客,用户阅读博客并可以对喜欢的内容进行点赞。 已经知道过去每周平均有 17 个人为我的文章点赞,我想预测下周会点赞的的人数,比如下周有10个人、20个人甚至50个人为我文章点赞的概率是多少?
现在,假设我们对泊松分布一无所知。那我们该如何构造泊松分布呢?前面介绍过二项分布,即
P(X=k)=Cnkpk(1−p)n−k,k=0,1,⋯,n, 当n趋于无穷大时,二项分布就可以看成泊松分布,因此,我们可以使用二项分布构造泊松分布。
上面介绍的博客点赞场景是二项式分布的经典应用,因为我们正在计算成功事件(点赞)次数的概率。
二项式随机变量是在n重复试验中成功的次数x 的概率,并且我们假设在每个试验中成功的概率p是恒定的。然而,在这里我们只给出了一点信息:17个点赞/周,这是一个"速率"(每周平均点赞次数,或 x 的预期值),我们不知道点赞概率 p ,也不知道博客访问者的人数 n 。
因此,我们需要更多信息来解决此问题。我们需要哪些额外信息才能将此概率构建为二项式问题?我们需要两件事:成功的概率 p 和试验的次数(访问者)n 。
让我们从以往的数据中获取:

上表是一年的统计数据。共有 59 k 人阅读了我的博客。在 59k 人中,有 888 人点赞,一年按52周计算,因此,每周阅读我的博客的人数 (n) 为 59k/52=1134 。每周点赞的人数 (x) 为 888/52=17 。 由此可以得到下面的数据:
每周浏览人数 (n)=59K/52=1134
每周点赞人数 (X)=888/52=17
成功概率 (p): 888/59k=0.015=1.5%
使用二项式分布,下周我将获得 20 个成功(点赞的 20 个人)的概率是多少?
n=1134p=0.015x=20 使用 二项式的 PMF(概率质量函数):
在相同 n 和 p ,可以用 python 计算不同 x 的二项式 概率:

可以看到,不用泊松分布,只用二项分布就能估算出下周点击我博客人数次数的概率。 既然如此,为什么还要泊松分布呢?泊松是干什么的呢?只有泊松可以做的事情,而二项式做不到的是什么?
二项式分布的局限性
a.二项式分布的二元性质
二项式随机变量是二元制,即取值只能为0或1。在上面的示例中,我们有 17 点赞/周。这意味着每天有 17/7=2.4 个人点赞/每天,每小时有 17 / (7∗24)=0.1 个人点赞/每小时。
如果我们使用二项式随机变量按小时( 0.1 个人/小时)对成功概率进行建模,那么这意味着大多数小时会获得0个赞,但有些小时内会恰好得到 1 个赞。进一步的,某些小时也很有可能会超过1个赞(入2、3、5等)。
二项式的局限性在于它不能在单位时间内包含超过 1 个事件(在这种情况下,单位时间是 1 小时)。单位时间只能有 0 或 1 个事件。
然后,如果将 1 个小时划分为 60 分钟,并将单位时间缩短为一分钟呢?这将允许在一小时内发生多个事件(尽管每一分钟仍将包含一个或零个事件)
现在我们的问题解决了吗?有点儿难。但是,如果在那一分钟内,我们得到了多次赞,该怎么办?(即某人在微信上分享了您的博客文章,并且那一刻的流量激增。)然后呢?我们可以将一分钟分为几秒。然后我们的时间单位变成一秒钟,一分钟又可以包含多个事件。但是,这种二进制容器问题将在越来越小的时间单位中始终存在。
为了真正克服这个限制,我们的想法是我们可以通过将单位时间划分为较小的单位来使二项式随机变量处理多个事件。通过使用较小的划分,我们可以使原始单位时间包含一个以下的事件。
在数学上,这意味着 n→∞ 。由于我们假设速率(rate)是固定的,因此我们必须将 p→0 。否则, n∗p(即事件数)将爆炸。
使用该限制,单位时间现在是无限的。我们不再需要担心在同一单位时间内发生多个事件。这是泊松分布推导的基础。
b.在二项分布中,应事先知道试验次数( n ):
如果使用二项式,则不能仅以该速率(即 17/周)来计算成功概率。您需要"更多信息"即 n 和 p 才能使用二项式PMF。
另一方面,泊松分布不需要您知道 n 或 p 。我们假设 n 无限大而 p 无限小。泊松分布的唯一参数是比率 λ( x 的期望值)。
在现实生活中,仅了解比例(例如即在下午 2 点 ∼ 下午 4 点期间,我接了 3 个电话)比了解 n 和 p 要容易得多。
让我们从二项式中推导泊松Poisson公式
下面使用二项式分布来推导泊松分布
记 npn=λn, 则 pn=nλn, 我们可得 (kn)pnk(1−pn)n−k=k!n(n−1)⋯(n−k+1)(nλn)k(1−nλn)n−k=k!λnknkn(n−1)⋯(n−k+1)(1−nλn)n−k=k!λnk(1−n1)(1−n2)⋯(1−nk−1)(1−nλn)n−k 因为 n→∞lim(1−n1)(1−n2)⋯(1−nk−1)=1n→∞limλn=λ n→∞lim(1−nλn)n−k=n→∞lim(1+λn−n1)λn−n∗nn−k∗(−λn)=n→∞lime−λn=e−λ 其中,上面用到了第二重要极限公式 lim(1+1/x)x=e(x→∞)
所以, limn→∞(kn)pnk(1−pn)n−k=k!λke−λ
这样我们就有了泊松公式!泊松分布适用于n很大,p很小,n∗p适中的情况。
注意事项:
1.即使泊松分布对稀有事件进行建模,比率 λ 也可以是任意数字,它并不总是必须很小。
2.泊松分布是不对称的-总是向右倾斜。因为它被左侧的零发生障碍(没有“减一”点赞)抑制,而另一侧是无限的。
3.随着 λ 变大,该图看起来更像正态分布。
4.泊松模型假设每单位时间的平均事件发生率是恒定的
这意味着现实中,每小时访问您的博客的人数可能不遵循Poisson分布,因为每小时费率不是恒定的(白天的费率较高,夜间的费率较低)。使用月度费率获取消费者/生物数据也只是一个近似值,因为季节性影响在该域中并非无关紧要,但是这不重要,毕竟这本身就是一个估计值。
使用泊松分布建模
因为泊松分布只需要一个参数:λ,下面是二项分布和泊松分布估计网站博客点赞概率的两者结果之间的差异: 从表中看两种是近似的,而且n越大p越小,近似程度越好

例题
例 某一城市每天发生火灾的次数 X 服从参数 λ=0.8 的泊松分布,求该城市一天内发生 3 次或 3 次以上火灾的概率。
解 由概率的性质,得
P(X⩾3)=1−P(X<3)=1−P(X=0)−P(X=1)−P(X=2)=1−e−0.8×(0!0.80+1!0.81+2!0.82)≈0.0474 例 一繁忙的汽车站有大量汽车通过,设每辆汽车在一天的某段时间内出事故的概率为 0.0001 ,在某天的该段时间内有 1000 辆汽车通过。问出事故的次数不少于 2 的概率是多少?
解 设该段时间内出事故的次数为 X 。由题意,可知 X∼B(1000,0.0001) 。因为该分布中 n 很大而概率 p 很小,所以相应概率可通过参数 λ=np=0.1 的泊松分布近似计算,即
P{X⩾2}=1−P{X<2}=1−P{X=0}−P{X=1}=1−0!0.10e−0.1−1!0.1e−0.1≈0.0047 例 设随机变量 X 有分布律 P(X=k)=k!c×3k(k=0,1,2,⋯) ,求 c 的值,并求解 P(X≤2).
解 根据分布律的定义有 ∑k=0+∞k!c×3k=1⇒c=e−3.
事实上,不难看出 x∼P(3) ,所以 c=e−3 。
P(X≤2)=P(X=0)+P(X=1)+P(X=2)=0!e−3×30+1!e−3×31+2!e−3×32=217e−3。 例 已知一购物网站每周销售的某款手表的数量X服从参数为 6 的泊松分布.问周初 至少预备多少货源才能保证该周不脱销的概率不小于0.9.假定上周没有库存, 且本周不再进货.
解 设该款手表每周的需求量为 X 则有 X∼P(6) ;设至少需要进 n 块该款手 表,才能满足不脱销的概率不小于 0.9 ,即要满足
P(X≤n)≥0.9P(X≤n−1)<0.9 解得 P(X≤8)=0.847237,P(X≤9)=0.916076
所以周初预备 9 块时,能满足 90% 的顾客需求而不脱销。
泊松分布的数学期望与方差
设随机变量 X∼P(λ), 则
E(X)=k=0∑∞kk!λke−λ=λe−λk=1∑∞(k−1)!λk−1=λe−λeλ=λ. 这表明:泊松分布 P(λ) 的数学期望就是参数 λ.
又因为
E(X2)=k=0∑∞k2k!λke−λ=k=1∑∞k(k−1)!λke−λ=k=1∑∞[(k−1)+1](k−1)!λke−λ=λ2e−λk=2∑∞(k−2)!λk−2+λe−λk=1∑∞(k−1)!λk−1=λ2+λ 由此得 X 的方差为
D(X)=E(X2)−(E(X))2=λ2+λ−λ2=λ. 也就是说,泊松分布 P(λ) 中的参数 λ 既是数学期望又是方差.
最后,我们给出关于泊松分布的一个高级注释.
泊松分布的均值和方差都等于 λ 起初看起来好像有些奇怪,
因为这可能意味着均值和方差具有相同的单位(其实,并不是这样的。一般情况下,均值与标准差的单位是相同的)。这是怎么回事呢?
记住,概率密度函数是 P(X=n)=e−λλn/n! 。如果 λ 有单位,那么 e−λ 就没有意义了,这是因为 e−λ 就等于 1+λ+λ2/2!+λ3/3!+⋯ ,这将要求各种不同的表达式具有相同的单位.这是很荒谬的,会导致 λ 和 λ2 具有相同的单位. 所以, 在泊松分布里λ是没有单位的。 详细说明请参考指数分布
注:本文部分摘自微信公众号《金朝老师来上课》
关于更多概率分布表见附录1:常见概率分布表