7._离散型_多项分布

离散型(多项分布)

抽查一个产品,质量可能合格或者不合格,这是两点分布,为了检查一批产品质量是否合格,我们可以抽查nn个产品(每个产品都有合格或者不合格两种可能),这是二项分布。但是实际情况更复杂。这就像红绿灯,我们知道红灯停,绿灯行,但是中间还有一个黄灯,在黄灯亮起的情况下,虽然不推荐行走,但是如果真的行走也并不违法。 换句话说,对于一个产品,不仅仅只有合格或者不合格两个结果,有时候可能有更多的结果。比如抽查产品的结果不用合格或者不合格表示,而使用“正品,次品,废品”3个状态表示,足球比赛的结果有胜、平、负三种,这就是本节介绍的多项分布。

推广伯努利分布的方法有若干种.我们得到的第一个结果是二项分布,用来研究这种情况:我们进行多次独立重复的试验,并且每次试验都有两种可能结果.对于所有试验来说,每种结果出现的概率都是一样的。你可以把这个过程想像成抛掷硬币,或者在只有两种选择的选举中投票。显然,只有两种选择是相当有限的,这表明了我们应该把二项分布进一步推广到多项分布。与二项分布一样,多项分布考虑的是进行多次独立重复的试验,并且每种结果在任意一次试验中发生的概率都相同。但是,如果每次试验有两种以上的可能结果,那么多项分布将给出不同结果的概率.这是很有用的,因为现实生活中经常出现两种以上的可能结果!

假设我们进行了 nn 次试验,并且每次试验有 kk 个互不相容的结果,其概率分别是 p1,p2,,pkp_1, p_2, \cdots, p_k 。让 f(x1,x2,,xk)f\left(x_1, x_2, \cdots, x_k\right) 表示在这 nn 次试验中,第 ii 种可能的结果出现了 xix_i 次的概率,其中 1ik1 \leqslant i \leqslant k 。我们一定有 x1+x2++xk=nx_1+x_2+\cdots+x_k=n .为了求出 f(x1,x2,,xk)f\left(x_1, x_2, \cdots, x_k\right) ,首先注意到,按照某种特定顺序得到这些结果的概率是 p1x1p2x2pkxkp_1^{x_1} p_2^{x_2} \cdots p_k^{x_k} .现在来计算能够得到这些结果的可能顺序有多少种。第1种结果出现 x1x_1 次的方法有 Cnx1C_n^{x_1} 种,第 2 种结果出现 x2x_2 次的方法有 Cnx1x2C_{n-x_1}^{x_2} 种,依此类推,第 kk 种结果出现 xkx_k 次的方法有 Cnx1x2...xkxkC_{n-x_1-x_2-...x_k}^{x_k} .因此,排序方法的总数为

Cnx1Cnx1x2...Cnx1x2...xkxk=n!(nx1)!x1!(nx1)!(nx1x2)!x2!(nx1xk1)!(nx1xk)!xk!.\begin{aligned} & C_n^{x_1} C_{n-x_1}^{x_2} ...C_{n-x_1-x_2-...x_k}^{x_k} = \frac{n!}{\left(n-x_1\right)!x_{1}!} \cdot \frac{\left(n-x_1\right)!}{\left(n-x_1-x_2\right)!x_{2}!} \cdots \frac{\left(n-x_1-\cdots-x_{k-1}\right)!}{\left(n-x_1-\cdots-x_k\right)!x_{k}!} . \end{aligned}

通过约分,现在只剩下了

=n!x1!x2!xk!...(2.1)=\dfrac{n!}{x_{1}!x_{2}!\cdots x_{k}!} ...(2.1)

式(2.1)被称为多项式系数,记作

Cnx1,x2,...xkC_n^{x_1,x_2,...x_k}

利用多项式系数,我们看到

f(x1,x2,,xn)=n!x1!x2!xk!p1x1p2x2pkxkf\left(x_1, x_2, \cdots, x_n\right)=\dfrac{n!}{x_{1}!x_{2}!\cdots x_{k}!} p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}

这是一个多项分布.我们经常写成 f(x1,x2,,xn;p1,p2,,pk)f\left(x_1, x_2, \cdots, x_n ; p_1, p_2, \cdots, p_k\right) ,从而强调该分布对参数的依赖性(参数通常会放在分号的后面).

我们也可以通过重复使用二项式定理和分组方法来导出多项分布.例如,当 k=3k=3 时,一共有三种结果,不妨设为 A,BA, BCC 。我们可以合并 BBCC ,并考虑只有两种结果的情况:AA 和非 AA .如果让 p1p_1 等于 AA 的概率,让 1p11-p_1 等于非 AA 的概率,那么 AA 出现 x1x_1 次且非 AA 出现 nx1n-x_1 次的概率就是

(nx1)p1x1(1p1)nx1\binom{n}{x_1} p_1^{x_1}\left(1-p_1\right)^{n-x_1}

p2p_2 是结果 BB 的概率,p3p_3 是结果 CC 的概率.如果已知 AA 不发生,那么 BB 发生的概率就是 p2p2+p3,C\frac{p_2}{p_2+p_3}, C 发生的概率就是 p3p2+p3\frac{p_3}{p_2+p_3} .注意,这些是条件概率,它们的和之所以等于 1 是因为 p2p2+p3+p3p2+p3=1\frac{p_2}{p_2+p_3}+\frac{p_3}{p_2+p_3}=1

因此,结果 AA 出现 x1x_1 次,结果 BB 出现 x2x_2 次且结果 CC 出现 x3=nx1x2x_3=n-x_1-x_2次的概率就等于

(nx1)p1x1[(nx1x2)(p2p2+p3)x2(p3p2+p3)n1x1x2](1p1)nx1\binom{n}{x_1} p_1^{x_1}\left[\binom{n-x_1}{x_2}\left(\frac{p_2}{p_2+p_3}\right)^{x_2}\left(\frac{p_3}{p_2+p_3}\right)^{n_1-x_1-x_2}\right]\left(1-p_1\right)^{n-x_1}

注意,当 x2x_2 遍历 0 到 nx1n-x_1 时,由二项式定理可知,括号内表达式的连加和就等于 1 .这并非偶然,它与我们的展开式有关(我们是从 AA 和非 AA 开始的).

利用 1p1=p2+p31-p_1=p_2+p_3(nx1)(nx1x2)=n!x1!x2!x3!\binom{n}{x_1}\binom{n-x_1}{x_2}=\frac{n!}{x_{1}!x_{2}!x_{3}!} ,可以进一步简化这个式子,于是得到了

n!x1!x2!x3!p1x1p2x2p3n1x1x2\frac{n!}{x_{1}!x_{2}!x_{3}!} p_1^{x_1} p_2^{x_2} p_3^{n_1-x_1-x_2}

这与上述结果一致.把我们的发现分离出来,就会得到以下结果.

多项分布与多项式系数

多项分布与多项式系数:设 n,kn, k 是正整数且 p1,p2,,pn[0,1]p_1, p_2, \cdots, p_n \in[0,1] 满足 p1++p_1+\cdots+ pn=1p_n=1 .设 x1,,xn{0,1,,n}x_1, \cdots, x_n \in\{0,1, \cdots, n\} 满足 x1++xn=nx_1+\cdots+x_n=n .那么,相应的多项式系数就是

(nx1,x2,,xk)=n!x1!x2!xk!,\binom{n}{x_1, x_2, \cdots, x_k}=\frac{n!}{x_{1}!x_{2}!\cdots x_{k}!},

且其余 xix_i 的值都为 0 .仅当 (x1,,xk)\left(x_1, \cdots, x_k\right) 满足上述条件时,参数为 n, kn, ~ kp1,,pkp_1, \cdots, p_k 的多项分布才不为 0 ,其概率密度函数为

(nx1,x2,,xk)p1x1p2x2pkxk\binom{n}{x_1, x_2, \cdots, x_k} p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}

记作 XM(n,k,p1,,pk)X \sim \operatorname{M}\left(n, k, p_1, \cdots, p_k\right)

把产品分为一等品 (A1)\left(A_1\right) ,二等品 (A2)\left(A_2\right) ,三等品 (A3)\left(A_3\right) 和不合格品 (A4)\left(A_4\right) 四类 ,若设

P(A1)=0.15,P(A2)=0.60,P(A3)=0.20,P(A4)=0.05P\left(A_1\right)=0.15, P\left(A_2\right)=0.60, P\left(A_3\right)=0.20, P\left(A_4\right)=0.05

如今从一大批产品中随机取出 10 个,其中一等品有 2 个、二等品有 6 个、三等品有 2 个、而没有不合格品的概率为

P(X1=2,X2=6,X3=2,X4=0)=10!2!6!2!0!(0.15)2(0.60)6(0.20)2(0.50)0=0.0529\begin{aligned} & P\left(X_1=2, X_2=6, X_3=2, X_4=0\right) \\ & \quad=\frac{10!}{2!6!2!0!}(0.15)^2(0.60)^6(0.20)^2(0.50)^0 \\ & \quad=0.0529 \end{aligned}

其中 X1,X2,X3,X4X_1, X_2, X_3, X_4 分别表示 10 个产品中一、二、三等品和不合格品的个数。

应用背景

考虑一个罐子,里面装满了三种美味可口的饼干:巧克力薄片,涂鸦饼干和糖饼。假设饼干的数量实在太多了,即便扔掉其中一些也无关紧要,拿到另一种饼干的可能性不会发生改变.拿到一块巧克力薄片的概率是 45%45 \% ,拿到一块涂鸦饼干的概率是 30%30 \% ,拿到一块糖饼的概率是 25%25 \% 。在随机拿到的 6 块饼干中,有三块巧克力薄片,两块涂鸦饼干和一块糖饼的概率是多少?如果你不喜欢这种近似(因为现在取到一块巧克力薄片一定会影响下次取到巧克力薄片的概率),那么可以把这个问题看作有放回取样。这意味着我们会逐次取出 6 块饼干,每次都记录下饼干的类型,然后立即把饼干放回罐子里。

解答:对于具有多种可能性的问题,你不必感到奇怪,这是个多项分布的例子.我们有 p1=0.45,p2=0.30p_1=0.45, p_2=0.30p3=0.25p_3=0.25 .已知的值有 n=6,x1=3,x2=2n=6, x_1=3, x_2=2x3=1x_3=1 .于是

P(X1=3,X2=2,X3=1)=6!3!2!1!(0.45)3(0.30)2(0.25)10.123\operatorname{P}\left(X_1=3, X_2=2, X_3=1\right)=\frac{6!}{3!2!1!}(0.45)^3(0.30)^2(0.25)^1 \approx 0.123

多项分布的数学期望与方差

多项分布对其每一个结果都有均值和方差,分别为 E(xi)=npi E\left(x_i\right)=n p_i

D(xi)=npi(1pi)D\left(x_i\right)=n p_i\left(1-p_i\right)

证明:略