11._二维条件分布

考察某城市的全体居民,从中随机地抽取一个居民,假设该居民的收入和支出分别为随机变量X和Y,则X, Y各自的分布为边缘分布,(X ,Y )的分布为联合分布.对联合分布与边缘分布的研究有助于我们了解这个城市收入与支出的情况,除此之外,我们还希望了解在收入固定时支出的分布规律,例如当X=5 000(元)时,Y的分布,也就是条件分布.很显然,是否有“X=5 000”这个条件,支出Y的分布是不一样的,因此,对条件分布的研究非常有必要,它突显了在一个随机变量取值固定的条件下,另一个随机变量的统计规律

二维离散型随机变量的条件分布

定义(X,Y)(X, Y) 是二维离散型随机变量, 对于固定的 jj, 若 P(Y=yj)>0P\left(Y=y_j\right)>0, 则称

P(X=xiY=yj)=P(X=xi,Y=yj)P(Y=yj),i=1,2,,P\left(X=x_i \mid Y=y_j\right)=\frac{P\left(X=x_i, Y=y_j\right)}{P\left(Y=y_j\right)}, \quad i=1,2, \cdots,

为在 Y=yjY=y_j 条件下随机变量 XX 的条件分布列(Conditional Distribution)。 同样, 对于固定的 ii, 若 P(X=xi)>0P\left(X=x_i\right)>0, 则称 P(Y=yjX=xi)=P(X=xi,Y=yj)P(X=xi),j=1,2,P\left(Y=y_j \mid X=x_i\right)=\frac{P\left(X=x_i, Y=y_j\right)}{P\left(X=x_i\right)}, j=1,2, \cdots为在 X=xiX=x_i 条件下随机变量 YY 的条件分布列.

一个加油站既有自助服务,又有人工服务.在一次加油中,令X表示特定时间内自助加油使用的油枪数量,Y表示人工加油使用的油枪数量.随机变量( X,Y )的联合分布律

图片

X=1X=1 时,求 YY 的条件分布律. 解 由联合分布律可以求出:P{X=1}=0.08+0.20+0.06=0.34P\{X=1\}=0.08+0.20+0.06=0.34 .根据条件分布律的定义可知,

P{Y=0X=1}=P{X=1,Y=0}P{X=1}=0.080.34=417,P\{Y=0 \mid X=1\}=\frac{P\{X=1, Y=0\}}{P\{X=1\}}=\frac{0.08}{0.34}=\frac{4}{17},
P{Y=1X=1}=P{X=1,Y=1}P{X=1}=0.200.34=1017,P{Y=2X=1}=P{X=1,Y=2}P{X=1}=0.060.34=317.\begin{aligned} & P\{Y=1 \mid X=1\}=\frac{P\{X=1, Y=1\}}{P\{X=1\}}=\frac{0.20}{0.34}=\frac{10}{17}, \\ & P\{Y=2 \mid X=1\}=\frac{P\{X=1, Y=2\}}{P\{X=1\}}=\frac{0.06}{0.34}=\frac{3}{17} . \end{aligned}

所以,当 X=1X=1 时,YY 的条件分布律如下.

图片

二维连续型随机变量的条件分布

引例

二元连续型要比离散型复杂,先看一个例子. 设二维连续型随机变量 (X,Y)(X, Y) 的概率密度为

f(x,y)={3x,0<x<1,0<y<x,0, 其他. f(x, y)= \begin{cases}3 x, & 0<x<1,0<y<x, \\ 0, & \text { 其他. }\end{cases}

求概率 P{Y18X=14}P\left\{\left.Y \leqslant \frac{1}{8} \right\rvert\, X=\frac{1}{4}\right\} . 分析 P{Y18X=14}P\left\{\left.Y \leqslant \frac{1}{8} \right\rvert\, X=\frac{1}{4}\right\} 是否等于 P{X=14,Y18}P{X=14}\frac{P\left\{X=\frac{1}{4}, Y \leqslant \frac{1}{8}\right\}}{P\left\{X=\frac{1}{4}\right\}} 呢? 因为 P{X=14}=0P\left\{X=\frac{1}{4}\right\}=0 ,所以 P{Y18X=14}P{X=14,Y18}P{X=14}P\left\{\left.Y \leqslant \frac{1}{8} \right\rvert\, X=\frac{1}{4}\right\} \neq \frac{P\left\{X=\frac{1}{4}, Y \leqslant \frac{1}{8}\right\}}{P\left\{X=\frac{1}{4}\right\}} . 本例中,(X,Y)(X, Y) 是二维连续型随机变量,因为 X,YX, Y 在一点处的概率为零,即 P{X=x}=0P\{X=x\}=0P{Y=y}=0P\{Y=y\}=0 ,所以不能直接代入条件概率公式.对于这样的问题应该如何求解概率呢?通过下面的学习我们将找到答案.

定义

对于连续型随机变量 (X,Y)(X, Y), 因为 P(X=x,Y=y)=0P(X=x, Y=y)=0, 所以不能直接由离散的定义条件分布, 但是对于任意的 ε>0\varepsilon>0, 若 P(yε<Yy+ε)>0P(y-\varepsilon<Y \leqslant y+\varepsilon)>0, 则可以考虑

P(Xxyε<Yy+ε)=P(Xx,yε<Yy+ε)P(yε<Yy+ε).P(X \leqslant x \mid y-\varepsilon<Y \leqslant y+\varepsilon)=\frac{P(X \leqslant x, y-\varepsilon<Y \leqslant y+\varepsilon)}{P(y-\varepsilon<Y \leqslant y+\varepsilon)} .

ε0+\varepsilon \rightarrow 0^{+}时, 上述条件概率的极限存在, 自然可以将此极限值定义为在 Y=yY=y 条件下 XX 的条件分布.

定义 设对于任何固定的 ε>0,P(yε<Yy+ε)>0\varepsilon>0, P(y-\varepsilon<Y \leqslant y+\varepsilon)>0, 若

limε0+P(Xxyε<Yy+ε)=limε0+P(Xx,yε<Yy+ε)P(yε<Yy+ε)\lim _{\varepsilon \rightarrow 0^{+}} P(X \leqslant x \mid y-\varepsilon<Y \leqslant y+\varepsilon)=\lim _{\varepsilon \rightarrow 0^{+}} \frac{P(X \leqslant x, y-\varepsilon<Y \leqslant y+\varepsilon)}{P(y-\varepsilon<Y \leqslant y+\varepsilon)}

存在, 则称此极限为在 Y=yY=y 的条件下 XX 的条件分布函数, 记为 P(XxY=y)P(X \leqslant x \mid Y=y)FXY(xy)F_{X \mid Y}(x \mid y).

设二维连续型随机变量 (X,Y)(X, Y) 的分布函数为 F(x,y)F(x, y) ,分布密度函数为 f(x,y)f(x, y) ,且 f(x,y)f(x, y)和边缘分布密度函数 fY(y)(fY(y)>0)f_Y(y) \quad\left(f_Y(y)>0\right) 连续,不难验证,在 Y=yY=y 的条件下 XX 的条件分布函数为

FXY(xy)=xf(u,y)fY(y)du...分布函数\boxed{ F_{X \mid Y}(x \mid y)=\int_{-\infty}^x \frac{f(u, y)}{f_Y(y)} d u ...\text{分布函数} }

若记 fXY(xy)f_{X \mid Y}(x \mid y) 为在 Y=yY=y 的条件下 XX 的条件分布密度, 则

fXY(xy)=f(x,y)fY(y)...密度函数\boxed{ f_{X \mid Y}(x \mid y)=\frac{f(x, y)}{f_Y(y)} ...\text{密度函数} }

类似地, 若边缘分布密度函数 fX(x)(fX(x)>0)f_X(x) \quad\left(f_X(x)>0\right) 连续, 则在 X=xX=x 的条件下 YY 的条件分布函数为

FYX(yx)=yf(x,v)fX(x)dv.F_{Y \mid X}(y \mid x)=\int_{-\infty}^y \frac{f(x, v)}{f_X(x)} d v .

若记 fYX(yx)f_{Y \mid X}(y \mid x) 为在 X=xX=x 的条件下 YY 的条件分布密度, 则

fYX(yx)=f(x,y)fX(x).f_{Y \mid X}(y \mid x)=\frac{f(x, y)}{f_X(x)} .

设二维连续型随机变量 (X,Y)(X, Y) 的概率密度为

f(x,y)={3x,0<x<1,0<y<x,0, 其他. f(x, y)= \begin{cases}3 x, & 0<x<1,0<y<x, \\ 0, & \text { 其他. }\end{cases}

求概率 P{Y18X=14}P\left\{\left.Y \leqslant \frac{1}{8} \right\rvert\, X=\frac{1}{4}\right\} . 解 先求边缘概率密度.

fX(x)=+f(x,y)dy={0x3x dy,0<x<1,0, 其他 ={3x2,0<x<1,0, 其他. \begin{aligned} f_X(x) & =\int_{-\infty}^{+\infty} f(x, y) \mathrm{d} y \\ & =\left\{\begin{array}{ll} \int_0^x 3 x \mathrm{~d} y, & 0<x<1, \\ 0, & \text { 其他 } \end{array}= \begin{cases}3 x^2, & 0<x<1, \\ 0, & \text { 其他. }\end{cases} \right. \end{aligned}

再求条件概率密度. 当 0<x<10<x<1 时,

fYX(yx)=f(x,y)fX(x)={1x,0<y<x,0, 其他. f_{Y \mid X}(y \mid x)=\frac{f(x, y)}{f_X(x)}= \begin{cases}\frac{1}{x}, & 0<y<x, \\ 0, & \text { 其他. }\end{cases}

x=14x=\frac{1}{4} 时,

fYX(yx=14)={4,0<y<14,0, 其他. f_{Y \mid X}\left(y \left\lvert\, x=\frac{1}{4}\right.\right)= \begin{cases}4, & 0<y<\frac{1}{4}, \\ 0, & \text { 其他. }\end{cases}

所以,P{Y18X=14}=18fYX(yx=14)dy=0184 dy=12P\left\{\left.Y \leqslant \frac{1}{8} \right\rvert\, X=\frac{1}{4}\right\}=\int_{-\infty}^{\frac{1}{8}} f_{Y \mid X}\left(y \left\lvert\, x=\frac{1}{4}\right.\right) \mathrm{d} y=\int_0^{\frac{1}{8}} 4 \mathrm{~d} y=\frac{1}{2}

一射手进行射击,击中的概率为 p(0<p<1)p(0<p<1) ,射击到击中目标两次为止.记 XX表示首次击中目标时的射击次数,YY 表示射击的总次数.试求 X, YX, ~ Y 的联合分布列与条件分布列.

解 依题意,X=m,Y=nX=m, Y=n 表示前 m1m-1 次不中,第 mm 次击中,接着又 n1mn-1-m 次不中,第 nn 次击中.因各次射击是独立的,故 X, YX, ~ Y 的联合分布列为

P(X=m,Y=n)=p2(1p)n2,1m<n=2,3,,P(X=m, Y=n)=p^2(1-p)^{n-2}, \quad 1 \leqslant m<n=2,3, \cdots,

又因

P(X=m)=n=m+1P(X=m,Y=n)=n=m+1p2(1p)n2=p2n=m+1(1p)n2=p(1p)m1,m=1,2,,P(Y=n)=(n1)p2(1p)n2,n=2,3,\begin{gathered} P(X=m)=\sum_{n=m+1}^{\infty} P(X=m, Y=n)=\sum_{n=m+1}^{\infty} p^2(1-p)^{n-2} \\ =p^2 \sum_{n=m+1}^{\infty}(1-p)^{n-2}=p(1-p)^{m-1}, \quad m=1,2, \cdots, \\ P(Y=n)=(n-1) p^2(1-p)^{n-2}, \quad n=2,3, \cdots \end{gathered}

因此,所求的条件分布列为

P(X=mY=n)=P(X=m,Y=n)P(Y=n)=p2(1p)n2(n1)p2(1p)n2=1n1,1m<n=2,3,P(Y=nX=m)=P(X=m,Y=n)P(X=m)=p2(1p)n2p(1p)m1=p(1p)nm1,m<n,m=1,2,\begin{aligned} & P(X=m \mid Y=n)=\frac{P(X=m, Y=n)}{P(Y=n)}=\frac{p^2(1-p)^{n-2}}{(n-1) p^2(1-p)^{n-2}}=\frac{1}{n-1}, \quad 1 \leqslant m<n=2,3, \cdots \\ & P(Y=n \mid X=m)=\frac{P(X=m, Y=n)}{P(X=m)}=\frac{p^2(1-p)^{n-2}}{p(1-p)^{m-1}}=p(1-p)^{n-m-1}, \quad m<n, m=1,2, \cdots \end{aligned}

设随机变量 XU(0,1)X \sim U(0,1) ,当观察到 X=x(0<x<1)X=x(0<x<1) 时,YU(x,1)Y \sim U(x, 1) ,求 YY 的概率密度 fY(y)f_Y(y)

解 按题意,XX 具有概率密度

fX(x)={1,0<x<10, 其他 .f_X(x)=\left\{\begin{array}{ll} 1, & 0<x<1 \\ 0, & \text { 其他 } \end{array} .\right.

类似地,对于任意给定的值 x(0<x<1)x(0<x<1) ,在 X=xX=x 的条件下,YY 的条件概率密度

fYX(yx)={11x,x<y<10, 其他 f_{Y \mid X}(y \mid x)= \begin{cases}\frac{1}{1-x}, & x<y<1 \\ 0, & \text { 其他 }\end{cases}

因此,XXYY 的联合概率密度为

f(x,y)=fYX(yx)fX(x)={11x,0<x<y<10, 其他 ,f(x, y)=f_{Y \mid X}(y \mid x) f_X(x)=\left\{\begin{array}{ll} \frac{1}{1-x}, & 0<x<y<1 \\ 0, & \text { 其他 } \end{array},\right.

于是,关于 YY 的边缘概率密度为

fY(y)=+f(x,y)dx={0y11xdx=ln(1y),0<y<10, 其他 .f_Y(y)=\int_{-\infty}^{+\infty} f(x, y) d x=\left\{\begin{array}{ll} \int_0^y \frac{1}{1-x} d x=-\ln (1-y), & 0<y<1 \\ 0, & \text { 其他 } \end{array} .\right.