9._二维正态分布 - 概率论与数理统计

在《概率论与数理统计》这门课里，初学者遇到第一个难懂的概念就是密度函数和分布函数，有概率就行了，为啥还要搞这么多复杂的概念。这是因为，我们要研究现实的世界，而很多分布我们是不清楚的，我们唯一能做的就是：统计。由统计得来的数字来逆推物态所呈现的可能的概率。比如仍一个硬币，通过观察他的正反面，发现他和我们“库”里的0-1分布很像，那我们就说，仍硬币就服从0-1分布，而不是正态分布，通过大量的经验，我们知道，概率分布可能很多，但是常见的就那几个：一维的包括：二项分布，泊松分布，指数分布，正态分布，而二维的包括均匀分布和正态分布。换句话说我们学“随机变量与分布”核心是掌握这几个分布的概念和性质，一则这几个分布是最常用的分布，基本上够以后工作使用了，另外一则，学会了这几个分布的学习方法，就算遇到不熟悉的分布，也能自学。记住应用场景很重要，比如一本书的印刷错误主要服从泊松分布，比如测量产品的误差服从正态分布，比如电子设备的寿命服从指数分布，而指数分布无记忆性。我们学习概率论，就是学会了解每个分布分布特点，数学期望与方差，记住他们密度函数的图像特点，相反并不需要你记住密度函数或者分布函数的表达式(考研的例外)。

在二维分布里，主要掌握两个分布：二维均匀分布和二维正态分布，上一节介绍了二维均匀分布，接下来介绍二维正态分布。

二维正态分布

如果 $(X, Y)$ 的联合密度函数为

\boxed{ \begin{aligned} & f(x, y)=\frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \cdot e^ \left\{-\dfrac{1}{2\left(1-\rho^2\right)}\left[\dfrac{\left(x-\mu_1\right)^2}{\sigma_1^2}-\dfrac{2 \rho\left(x-\mu_1\right)\left(y-\mu_2\right)}{\sigma_1 \sigma_2}+\dfrac{\left(y-\mu_2\right)^2}{\sigma_2^2}\right]\right\} \end{aligned} }

其中， $\mu_1, \mu_2, \sigma_1, \sigma_2, \rho$ 都是常数，且 $\sigma_1>0, \sigma_2>0,-1<\rho<1$ ．我们称（ $X, Y$ ）为服从参数为 $\mu_1, \mu_2, \sigma_1, \sigma_2, \rho$ 的二维正态分布，记为 $(X, Y) \sim N\left(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho\right)$ ．

定义域中 $-\infty < x < +\infty,-\infty < y < +\infty$ ，其中五个参数的取值范围是

-\infty<\mu_1, \mu_2<+\infty, \sigma_1, \sigma_2>0,|\rho|<1,

以后将指出: $\mu_1, \mu_2$ 分别是 $X$ 与 $Y$ 的均值, $\sigma_1^2, \sigma_2^2$ 分别是 $X$ 与 $Y$ 的方差, $\rho$ 是 $X$ 与 $Y$ 的相关系数.

二维分布的公式很长，可能吓跑我们，但是记住：我们无需记住密度函数公式，只要掌握它的形状和特点就可以了。(注意：普通考试不需要记住这些公式，但是考研一族例外哦^_^，如果你是考研的需要记住这些公式，甚至下面介绍的推导过程也要会)。

下图显示了二维正态分布的密度函数图像，从图像上看，他就像一个凸起的小山包。二维正态分布的概率密度虽然较复杂，但它是一个在数学、物理和工程等领域都有广泛应用的分布，有“漂亮”的结论，无论在理论研究还是实际应用中都起着至关重要的作用．

$图片$

特别，当 $\mu_1=\mu_2=0, \sigma_1=\sigma_2=1$ 时，则称 $(X, Y)$ 服从标准正态分布．

性质： $(X, Y) \sim N\left(\mu_1, \sigma_1^2 ; \mu_2, \sigma_2^2 ; \rho\right) \Rightarrow X \sim N\left(\mu_1, \sigma_1^2\right), Y \sim N\left(\mu_2, \sigma_2^2\right)$ ．逆命题不成立．

后面这个性质说明：二维正态联合分布可以唯一决定其每个分量都是正态分布，但反过来不成立。即知道 $X$ 与 $Y$ 是正态分布，不代表其联合分布也是正态分布。比如考虑两个二维正态分布

N(0,0,1,1,1 / 2) \text { 和 } N(0,0,1,1,1 / 3)

它们的任一边缘分布都是标准正态分布 $N(0,1)$ 。但这两个二维正态分布是不同分布，因为其参数 $\rho$ 的数値不同。引起这个现象的原因是：二维联合分布不仅含有每个分量的概率分布，而且还含有两个变量 $X$ 与 $Y$ 之间关系的信息，后者正是人们研究多维随机变量的原因。以后会看到，这里参数 $\rho$ 的值将会反映二个变量 $X$ 与 $Y$ 之间关系密切的程度

后面这个性质可以做一个简单比喻：学生身高服从正态分布，学生体重服从正态分布，所以，学生的“身高和体重”服从二维正态分布基本上是正确的。学生身高服从正态分布，机器包装产品误差也服从正态分布，我们不能说“学生身高和机器包装误差也服从二维正态分布”，很明显，学生身高和机器包装产品误差是风马牛不相及的两件事。

例 设 $(X, Y)$ 服从二维正态分布，且概率密度函数为

f(x, y)=\frac{1}{2 \pi \times 10^2} \mathrm{e}^{-\frac{x^2+y^2}{2 \times 10^2}}

求 $P\{Y \geqslant X\}$ ．解如图所示

$图片$ $P\{Y \geqslant X\}=\iint_{y \geqslant x} f(x, y) \mathrm{d} x \mathrm{~d} y$ 。利用极坐标变换，令 $\left\{\begin{array}{l}x=r \cos \theta \\ y=r \sin \theta\end{array}\right.$ , 可得

\begin{aligned} \text { 上式 } & =\frac{1}{2 \pi \times 10^2} \int_{\frac{\pi}{4}}^{\frac{5 \pi}{4}} \mathrm{~d} \theta \int_0^{+\infty} \mathrm{e}^{-\frac{r^2}{2 \times 10^2}} r \mathrm{~d} r \\ & =\frac{1}{2 \times 10^2} \int_0^{+\infty} \mathrm{e}^{-\frac{r^2}{2 \times 10^2}} r \mathrm{~d} r=\frac{1}{2} . \end{aligned}

看懂二维正态分布密度图

我们在一维平面里说过，概率密度 $(a,b)$ 曲线下的面积是事件发生在 $(a,b)$ 间的频率，详见此处, 那么如何理解二维概率密度呢？ $图片$ {width=600px}

首先，我们要明白，二维概率事件是由3个参数决定：比如射靶，我们说“射在(1,2)的概率为0.01”，那么这里就有 $X=1,Y=2,Z=0.01$ 三个参数因此，如果把密度函数画在坐标系里，他需要是三维空间，如下图，他就是二维正态密度函数分布图：

$图片$ {width=600px}

这个图形很像农民带的草帽，我们通常称呼这个图形为“草帽”图形。因为密度函数必须大于等于零，所以这个草帽可以认为为平底的，又因为所有射靶所有的概率最多为1，因此，这个概率的体积最大只能为1.

如果我们从俯视图的视角从下看这个草帽，可以发现他的定义域D就是一个二维平面。 $图片$ {width=800px}

想想一下我们用一把刀沿着 $X,Y$ 切开草帽，因为分布函数的定义为 $F(x, y)=P(X \leqslant x, Y \leqslant y)=\int_{-\infty}^{x} \int_{-\infty}^{y} p(x, y) d x d y$ ,所以，我们取的西瓜就是左边下边的那一部分。

如果把二维随机变量 $(X, Y)$ 视为平面上随机点的坐标, 那么, 分布函数 $F(x, y)$ 在点 $(x, y)$ 处的函数值就是随机点 $(X, Y)$ 落在直线 $X=x$ 的左侧和直线 $Y=y$ 的下方以 $(x, y)$ 为顶点的无穷直角区域内的概率, 如图所示. $图片$

二维正态密度图的通俗理解

我们知道，一个学生的身高服从正态分布，一个学生的体重也服从正态分布，如果以身高和体重为参数画在空间坐标里，毫无疑问，身高在 165cm-175cm 之间，体重在 55kg-75kg 之间应该是最多，即中心点应该是最密集的，如下图

如果我们固定一个参数，比如身高，让身高取值为 $-\infty < x < +\infty$ , 那么Y平面上体重的投影就是就是一维正态分布，即边缘分布。

$图片$

公式验证

证明：该函数是一个概率密度函数，其应该满足概率密度函数的基本性质：一是大于零，二是全空间上的积分等于 1 。第一点显而易见，下面给出条件二的证明。

做变换

u=\frac{1}{\sqrt{1-\rho^2}}\left(\frac{x_1-\mu_1}{\sigma_1}\right), v=\frac{1}{\sqrt{1-\rho^2}}\left(\frac{x_2-\mu_2}{\sigma_2}\right)

得

\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x, y) d x d y=\frac{1}{2 \pi} \sqrt{1-\rho^2} \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \exp \left[-\frac{1}{2}\left(u^2-2 \rho u v+v^2\right)\right] d u d v

再做变量代换

t_1=u-\rho v, t_2=\sqrt{1-\rho^2} v

注意到

\begin{aligned} &\text { 得 } u^2-2 \rho u v+v^2=(u-\rho v)^2+\left(1-\rho^2\right) v^2=t_1^2+t_2^2\\ &\begin{aligned} & \quad \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x, y) d x d y=\frac{\sqrt{1-\rho^2}}{2 \pi \sqrt{1-\rho^2}} \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \exp \left[-\frac{1}{2}\left(t_1^2+t_2^2\right)\right] d t_1 d t_2 \\ & = \\ & \frac{1}{2 \pi} \int_{-\infty}^{\infty} \exp \left(-\frac{1}{2} t_1^2\right) d t_1 \int_{-\infty}^{\infty} \exp \left(-\frac{1}{2} t_2^2\right) d t_2 \\ & = \\ & \frac{1}{2 \pi} \sqrt{2 \pi} \sqrt{2 \pi}=1 \end{aligned} \end{aligned}

哇，好巧，积分正好结果正好是1，其实一点都不巧，比如为什么前面要除以一个 $2\pi$ 因为只有这样才能积分结果等于1啊，这属于人为的增加一个系数让等式平衡。

二维正态分布密度函数图像

二维正态密度函数的图形很像一顶四周无限延伸的草帽, 其中心点在 $\left(\mu_1, \mu_2\right)$ 处,其等高线是椭圆.平行 $x O_p$ 平面 (或平行 $y O_p$ 平面) 的截面显示正态曲线

$图片$ {width=500px}

从上图看，我们可以看出二维概率密度函数是高度对称的，无论从XOY面，还是XOZ面，还是YOZ面。当然对于这个例子而言，甚至在XOY面上，整个图像还是关于原点中心对称的哦！不过这个可不是所有多维高二维正态分布都满足的哦，这个所谓的中心对称这是因为这个例子太特殊了哈! 若是我们给定均值还是为 0 ，而协方差矩阵变为 $\Sigma=[1,1 ; 1,2]$ ，结果为:

$图片$ {width=500px}

对比两个图和我们给出的协方差矩阵，可以发现，XOY面中心对称的时候，事实上随机向量的两个分量是独立的（协方差矩阵中非对角元素为0），当然也可以说成当两个分量是独立的时候XOY面存在中心对称的情况哦！

边缘概率密度

二维正态分布的两个边缘分布都是一维正态分布的形式：并且都不依赖于参数 $\rho$ ，即 $\mu_1, \mu_2, \sigma_1, \sigma_2$ , 不同的 $\rho$ 对应不同的二维正态分布，但它们的边缘分布是一样的。这一事实表明，单由关于 $X$ 和关于 $Y$ 的边缘分布，不能确定随机变量 $X$ 和 $Y$ 的联合分布，但加入了结合紧密程度的参数 $\rho$ ，就可以确定。

f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}},-\infty<x<\infty

证明 $f_X(x)=\int_{-\infty}^{\infty} f(x, y) d y$ 是一维正态分布由于 $\frac{\left(y-\mu_2\right)^2}{\sigma_2^2}-2 \rho \frac{\left(x-\mu_1\right)\left(y-\mu_2\right)}{\sigma_1 \sigma_2}=\left(\frac{y-\mu_2}{\sigma_2}-\rho \frac{x-\mu_1}{\sigma_1}\right)^2-\rho^2 \frac{\left(x-\mu_1\right)^2}{\sigma_1^2}$ 于是

\begin{aligned} & f_X(x)=\frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} e^{-\frac{\left(x-\mu_1\right)^2}{2 \sigma_1^2}} \int_{-\infty}^{\infty} e^{-\frac{\left(\frac{y-\mu_2}{\sigma_2}-\rho \frac{x-\mu_1}{\sigma}\right)^2}{2\left(1-\rho^2\right)}} d y \\ & \text { 令 } t=\frac{1}{\sqrt{1-\rho^2}}\left(\frac{y-\mu_2}{\sigma_2}-\rho \frac{x-\mu_1}{\sigma_1}\right) \end{aligned}

则有 $f_X(x)=\frac{1}{2 \pi \sigma_1} e^{-\frac{\left(x-\mu_1\right)^2}{2 \sigma_1^2}} \int_{-\infty}^{\infty} e^{-\frac{t^2}{2}} d t$

f_X(x)=\frac{1}{\sqrt{2 \pi} \sigma_1} e^{-\frac{\left(x-\mu_1\right)^2}{2 \sigma_1^2}},-\infty<x<\infty

同理

f_Y(y)=\frac{1}{\sqrt{2 \pi} \sigma_2} e^{-\frac{\left(y-\mu_2\right)^2}{2 \sigma_2^2}},-\infty<y<\infty

上面这个结论需要记住：二维正态分布的两个边缘分布都是一维正态分布的形式。

独立性

对于二维正态随机变量 $(X, Y), X$ 和 $Y$ 相互独立的充要条件是参数 $\rho=0$ 。也即二维正态随机变量独立和不相关可以互推。以下给出证明过程。

必要性: 如果 $p =0 f(x, y)=\frac{1}{2 \pi \sigma_1 \sigma_2} \exp \left[-\frac{1}{2}\left(\frac{\left(x-\mu_1\right)^2}{\sigma_1^2}+\frac{\left(y-\mu_2\right)^2}{\sigma_2^2}\right)\right]$

f_X(x) f_Y(y)=\frac{1}{2 \pi \sigma_1 \sigma_2} e^{-\frac{\left(x-\mu_1\right)^2}{2 \sigma_1^2}-\frac{\left(y-\mu_2\right)^2}{2 \sigma_2^2}}

有 $f(x, y)=f_X(x) f_Y(y)$ 充分性：如果X和Y相互独立，由于 $f(x, y), f_X(x), f_Y(y)$ 都是连续函数，有 $f(x, y)=f_X(x) f_Y(y)$ 。

特别令 $x=\mu_1, y=\mu_2$ 。得到

\frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}}=\frac{1}{2 \pi \sigma_1 \sigma_2}

为使这一等式成立，从而 $\rho=0$ 。

这个结论也需要记住。

二维正态分布常用结论

从二维正态分布公式可以推出如下结论：具体推导可以参考相关书籍，这里给出必须记住的揭露。

【结论1】 若 $(X, Y) \sim N\left(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho\right)$ , 其边缘分布为一维正态分布, 即: $X \sim N\left(\mu_1, \sigma_1^2\right), Y \sim N\left(\mu_2, \sigma_2^2\right)$ ,也就是已知两随机变量服从二维正态，各随机变量分别服从一维正态，与 $X, Y$ 独立与否无关。

【易混点】 $(X, Y)$ 的边缘分布均为正态分布 $(X, Y$ 相关与否), 都不能推出 $(X, Y)$ 服从二维正态分布

【结论2】 若 $X, Y$ 均服从正态分布, 且 $X, Y$ 相互独立, 即 $(X, Y)$ 服从二维正态分布, 也就是“一维正态 +独立”可以推出二维正态。即 $X \sim N(0,1)$ . Y〜N $(0,1) . P_{X Y}=0$ .

【易混点1】若 $X, Y$ 均服从正态分布 ( $X, Y$ 不一定独立), 不能认为 $\eta=a X+b Y$ 一定服从正态分布【易混点2】若 $X, Y$ 均服从正态分布 ( $X, Y$ 不一定独立), 不能认为 $(X, Y)$ 一定服从二维正态分布

【结论3】 $( X, Y)$ 服从二维正态分布的充要条件是对于任一个非零线性组合 $\eta=a X+b Y$ 均服从一维正态分布。推广: $n$ 维随机变量 $X=\left(X_1, X_2, \ldots, X_n\right)^T$ 服从 $n$ 元正态分布 $N(\mu, B)$ 的充要条件是它的任何一个非零线性组合 $Z=\sum_{j=1}^n l_j X_j$ 均服从一元正态分布。即 $\left(X_1, x_2, \cdots, X_\eta\right) \sim N(\mu ., \Sigma)$

【结论4】 若 $X, Y$ 不相关, 且均为正态随机变量, 则 $X, Y$ 不独立的充要条件是 $(X, Y)$ 不服从二维正态分布。

【结论5】 只要 $(X, Y) \sim N\left(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho\right)$ , 无论 $X, Y$ 是否独立, (对于 $a, b$ 不全为 0 ) 均服从一维正态分布 $a X+b Y-N\left(a \mu_1+b \mu_2, a^2 \sigma_1^2+b^2 \sigma_2^2+2 a b \rho \sigma_1 \sigma_2\right)$ , 若刚好 $X, Y$ 相互独立, 即 $\rho=0$ , 则有: $a X+b Y \sim N\left(a \mu_1+b \mu_2, a^2 \sigma_1^2+b^2 \sigma_2^2\right)$

应用背景

生活中有不少二维随机变量是服从二维正态分布的，例如，射击时炮弹的弹着点在平面上的散布或枪弹的弹着点在靶面上的分布都是二维正态分布；又如某种生物的体长和体重一般也服从二维正态分布.

例 设 $(X, Y)$ 服从二维正态分布，概率密度为

f(x, y)=\frac{1}{2 \pi \times 10^2} e^{-\frac{x^2+y^2}{2 \times 10^2}},

求 $P\{Y \geqslant X\}$ ． $图片$

\begin{aligned} & =\frac{1}{2 \pi \times 10^2} \int_{\frac{\pi}{4}}^{\frac{5 \pi}{4}} d \theta \int_0^{+\infty} e-\frac{r^2}{2 \times 10^2} \cdot r d r \\ & =-\frac{1}{2} \int_0^{+\infty} e^{-\frac{r^2}{2 \times 10^2}} d\left(-\frac{r^2}{2 \times 10^2}\right)=-\left.\frac{1}{2} e^{-\frac{r^2}{2 \times 10^2}}\right|_0 ^{+\infty} \\ & =\frac{1}{2} . \end{aligned}

这里的难点是大量计算使用二重积分，如果微积分基础不好，很难做正确。

下面这个例题是普通高校期末考试考的内容。 例 若 $X \sim N\left(\mu_1, \sigma_1^2\right), Y \sim N\left(\mu_2, \sigma_2^2\right)$ 那么 A. $(X, Y)$ 二元正态分布, 且 $\rho=0$ B. $(X, Y)$ 为二元正态分布, 且 $\rho$ 不确定 C. $(X, Y)$ 末必是二元正态分布 D. $X-Y \sim N\left(\mu_1-\mu_2, \sigma_1^2-\sigma_2^2\right)$

下面这个例题可能属于重点高校期末考试的内容（难度加深）

例 设 $(X, Y) \sim N\left(0,0, \sigma^2, \sigma^2, 0\right)$ , 求 $P(Y>X)$ . 解易知 $f(x, y)=\frac{1}{2 \pi \sigma^2} e ^{-\frac{x^2+y^2}{2 \sigma^2}}(-\infty<x, y<+\infty)$ , 所以

P(Y>X)=\iint_{x<y} \frac{1}{2 \pi \sigma^2} e^{-\frac{x^2+y^2}{2 \sigma^2}} d x d y .

引进极坐标

x=r \cos \theta, \quad y=r \sin \theta,

则

P(X<Y)=\int_{\frac{\pi}{4}}^{\frac{5 \pi}{4}} \int_0^{+\infty} \frac{1}{2 \pi \sigma^2} r e^{-\frac{r^2}{2 \sigma^2}} d r d \theta=\frac{1}{2} .

下面这个例题，是考研一族爱考的内容。

例设二维随机变量 $(X, Y) \sim N\left(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho\right)$ , 求 $(X, Y)$ 落在区域

D=\left\{(x, y): \frac{\left(x-\mu_1\right)^2}{\sigma_1^2}-2 \rho \frac{\left(x-\mu_1\right)\left(y-\mu_2\right)}{\sigma_1 \sigma_2}+\frac{\left(y-\mu_2\right)^2}{\sigma_2^2} \leqslant \lambda^2\right\}

内的概率.

解所求概率为

\begin{aligned} p= & \frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \iint_D \exp \left\{-\frac{1}{2\left(1-\rho^2\right)}\left[\left(\frac{x-\mu_1}{\sigma_1}\right)^2-\right.\right. \\ & \left.\left.2 \rho \frac{\left(x-\mu_1\right)\left(y-\mu_2\right)}{\sigma_1 \sigma_2}+\left(\frac{y-\mu_2}{\sigma_2}\right)^2\right]\right\} d x d y \end{aligned}

作变换

\left\{\begin{array}{l} u=\frac{x-\mu_1}{\sigma_1}-\rho \frac{y-\mu_2}{\sigma_2}, \\ v=\frac{y-\mu_2}{\sigma_2} \sqrt{1-\rho^2} . \end{array}\right.

则可得

J^{-1}=\frac{\partial(u, v)}{\partial(x, y)}=\left|\begin{array}{cc} \frac{1}{\sigma_1} & -\frac{\rho}{\sigma_2} \\ 0 & \frac{\sqrt{1-\rho^2}}{\sigma_2} \end{array}\right|=\frac{\sqrt{1-\rho^2}}{\sigma_1 \sigma_2},

由此得

p=\frac{1}{2 \pi\left(1-\rho^2\right)} \iint_{u^2+v^2 \leqslant \lambda^2} \exp \left\{-\frac{u^2+v^2}{2\left(1-\rho^2\right)}\right\} d u d v .

再作极坐标变换

\left\{\begin{array}{l} u=r \sin \alpha \\ v=r \cos \alpha \end{array}\right.

则可得

J^{-1}=\frac{\partial(u, v)}{\partial(r, \alpha)}=\left|\begin{array}{cc} \sin \alpha & r \cos \alpha \\ \cos \alpha & -r \sin \alpha \end{array}\right|=-r\left(\sin ^2 \alpha+\cos ^2 \alpha\right)=-r,

最后得

\begin{aligned} p & =\frac{1}{2 \pi\left(1-\rho^2\right)} \int_0^{2 \pi} d \alpha \int_0^\lambda r \exp \left\{-\frac{r^2}{2\left(1-\rho^2\right)}\right\} d r \\ & =\int_0^1 \exp \left\{-\frac{r^2}{2\left(1-\rho^2\right)}\right\} d\left(\frac{r^2}{2\left(1-\rho^2\right)}\right) \\ & =-\left.\exp \left\{-\frac{r^2}{2\left(1-\rho^2\right)}\right\}\right|_0 ^1=1-\exp \left\{-\frac{\lambda^2}{2\left(1-\rho^2\right)}\right\} \end{aligned}