8._相关系数

相关系数的通俗解释

问题:考试砸了回到家,母亲打我的概率是 1/2,父亲打我的概率也是 1/2,那我被打的概率是多少

解答:你被打的概率与你爸妈行为之间的相关性密不可分。首先,为了建模,我们适当地对问题做以下简化假设:(1)仅关注挨打与否的概率,而暂不关注挨打的强度。也即只关注打没打,暂不关注挨几顿打,毕竟自己爸妈嘛,应该不至于往死里打。(2)假设你爸妈的行为之间仅存在线性相关性,而不存在复杂的非线性相关关系。线性相关程度则可通过相关性系数来描述。

记你挨打的概率为PP,你爸妈行为之间的相关性系数为ρ\rho

我们先看三种特殊ρ值的情况。

(1)假设 ρ=0\rho=0 ,也即你爸是否打你和你妈是否打你两个随机变量 之间不存在线性相关性,由于我们先假设了两者之间不存在复杂的非线性相关关系,因此可以认为两者相互独立,那么问题其实就等价于"抛两次硬币,求抛出至少一次反面的概率"。显然地,你被打的概率等于 1 减去你不被打的概率,也即 11/21/2=3/41-1 / 2^* 1 / 2=3 / 4 ,也即 75%75 \% 。 (2)假设 ρ=1\rho=1 ,也即你爸妈的行为完全正相关,也就是完全趋同。如果其中一个打你,另外一个也会一起打你。如果其中一个放过你,另外一个也放过你。那么你被打的概率是 1/21 / 2 ,也即 50%50 \%

(3)假设 p=1p=-1 ,也即假设你爸妈的行为完全负相关,也就是完全反着来。如果其中一个打你,另外一个选择放过你。如果其中一个选择放过你,另外一个就一定打你。那么很遗憾,你被打的概率是 1,也即 100%100 \%

假设 p 取 [1,1][-1,1] 区间的其它值,就需要有 PP 关于 ρ\rho 的表达式,推理稍微有些复杂。但由于概率 PP 和相关性 ρ\rho 之间的线性关系(严格来说需要证明),而且根据上面三种特殊情况,已经明确的知道了直线上三个特殊点的坐标分别为 (0,0.75)(0,0.75)(1,0.5)(1,0.5)(1,1)(-1,1) 。通过其中任意两点可以推出 PP 关于 ρ\rho 的线性关系式为 P=0.750.25ρP=0.75-0.25 \rho

由于 ρ\rho 的取值范围是 [1,1][-1,1] ,易得出概率 PP 的取值范围是 [0.5,1][0.5,1] 区间。整体趋势而言是你爸妈的行为越趋同,你被打的概率越低。行为越趋反,你挨打的概率越高。

如果你爸妈平时感情很好总是夫唱妇随的话,你勇敢进家门就好了,好歹有约一半的概率不被打(当然也有约一半的概率遭遇男女混合双打)。如果他俩喜欢唱反调,或者总是喜欢红脸黑脸地演戏,你看下今晚能不能去爷爷奶奶家或者同学家借住一宿,但尽量别去网吧通宵。

相关系数的定义与性质

定义 设 (X,Y)(X, Y) 为二维随机变量,D(X)>0,D(Y)>0D(X)>0, D(Y)>0 ,称

Cov(X,Y)D(X)D(Y)\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}

为随机变量 XXYY 的相关系数(Correlation Coefficient)或标准协方差(Standard Covariance)。记为 ρXY\rho_{X Y} ,即

ρXY=Cov(X,Y)D(X)D(Y)\rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X) D(Y)}}

在不引起混淆的情况下,有时也记 ρXY\rho_{X Y}ρ\rho 。 下面给出相关系数 ρXY\rho_{X Y} 的几条重要性质,并说明 ρXY\rho_{X Y} 的含义.

性质1 ρXY1\left|\rho_{X Y}\right| \leqslant 1 . 性质2 若 XXYY 相互独立,则 ρXY=0\rho_{X Y}=0 . 性质3 ρXY=1\left|\rho_{X Y}\right|=1 的充要条件是存在常数 a,b(a0)a, b(a \neq 0) ,使 P{Y=aX+b}=1P\{Y=a X+b\}=1 ,而且当 a>0a>0时,ρXY=1\rho_{X Y}=1 ;当 a<0a<0 时,ρXY=1\rho_{X Y}=-1

由协方差的性质及相关系数的定义可知性质2 成立,性质3 的证明较复杂,从略.下面仅证明性质1.

证明 对任意实数 tt ,有

D(YtX)=E[(YtX)E(YtX)]2=E[(YE(Y))t(XE(X))]2=E[YE(Y)]22tE[YE(Y)][XE(X)]+t2E[XE(X)]2=t2D(X)2tCov(X,Y)+D(Y)=D(X)[tCov(X,Y)D(X)]2+D(Y)[Cov(X,Y)]2D(X)\begin{aligned} D(Y-t X) & =E[(Y-t X)-E(Y-t X)]^2=E[(Y-E(Y))-t(X-E(X))]^2 \\ & =E[Y-E(Y)]^2-2 t E[Y-E(Y)][X-E(X)]+t^2 E[X-E(X)]^2 \\ & =t^2 D(X)-2 t \operatorname{Cov}(X, Y)+D(Y) \\ & =D(X)\left[t-\frac{\operatorname{Cov}(X, Y)}{D(X)}\right]^2+D(Y)-\frac{[\operatorname{Cov}(X, Y)]^2}{D(X)} \end{aligned}

t=Cov(X,Y)D(X)=bt=\frac{\operatorname{Cov}(X, Y)}{D(X)}=b ,于是

D(YbX)=D(Y)[Cov(X,Y)]2D(X)=D(Y)[1[Cov(X,Y)]2D(X)D(Y)]=D(Y)(1ρXY2)D(Y-b X)=D(Y)-\frac{[\operatorname{Cov}(X, Y)]^2}{D(X)}=D(Y)\left[1-\frac{[\operatorname{Cov}(X, Y)]^2}{D(X) D(Y)}\right]=D(Y)\left(1-\rho_{X Y}^2\right)

由于方差不能为负,所以 1ρXY201-\rho_{X Y}^2 \geqslant 0 ,从而 ρXY1\left|\rho_{X Y}\right| \leqslant 1

注意:相关系数 ρXY\rho_{X Y} 刻画了随机变量 YYXX 之间的"线性相关"程度.ρXY\left|\rho_{X Y}\right| 的值越接近 1,Y1, YXX 的线性相关程度越高;ρXY\left|\rho_{X Y}\right| 的值越接近 0,Y0, YXX 的线性相关程度越弱。当 ρXY=1\left|\rho_{X Y}\right|=1时,YYXX 的变化可完全由 XX 的线性函数给出,即 XXYY 存在着完全线性关系,是一种极端情况;当 ρ=1\rho=1 时,称为完全正相关;当 ρ=1\rho=-1 时,称为完全负相关;当 ρXY=0\rho_{X Y}=0 时,YYXX之间不是线性关系,是另一种极端情况。

ρXY=0\rho_{X Y}=0 时,称 XXYY 不相关,由性质 4.3.2 可知,当 XXYY 相互独立时,ρXY=0\rho_{X Y}=0 ,即称 XXYY 不相关.反之,成立否?

设保险公司对投保人的汽车保险和财产保险分别设定了免赔额(单位:元),现任选一位同时投保汽车保险和财产保险的客户,XX 表示其汽车保单的免赔额,YY 表示其财产保单的免赔额,随机变量 (X,Y)(X, Y) 的联合分布律如下。 图片cov(X,Y)\operatorname{cov}(X, Y)ρXY\rho_{X Y} . 解:由联合分布律,可得随机变量 X,YX, Y 的分布律如下. 图片

 从而可得 E(X)=100×0.5+250×0.5=175E(X2)=1002×0.5+2502×0.5=36250\begin{aligned} &\text { 从而可得 }\\ &\begin{aligned} & E(X)=100 \times 0.5+250 \times 0.5=175 \\ & E\left(X^2\right)=100^2 \times 0.5+250^2 \times 0.5=36250 \end{aligned} \end{aligned}
D(X)=E(X2)[E(X)]2=5625.D(X)=E\left(X^2\right)-[E(X)]^2=5625 .

同理

E(Y)=125,D(Y)=6875.E(Y)=125, D(Y)=6875 .

E(XY)=ij(xiyj)pij=23750E(X Y)=\sum_i \sum_j\left(x_i y_j\right) p_{i j}=23750

cov(X,Y)=E(XY)E(X)E(Y)=1875,ρXY=cov(X,Y)D(X)D(Y)=0.302.\begin{aligned} & \operatorname{cov}(X, Y)=E(X Y)-E(X) E(Y)=1875, \\ & \rho_{X Y}=\frac{\operatorname{cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}=0.302 . \end{aligned}

已知 D(X)=4,D(Y)=1,ρXY=0.5D(X)=4, D(Y)=1, \rho_{X Y}=0.5 ,求 D(3X2Y)D(3 X-2 Y) . 解 由方差、协方差的性质及相关系数的定义可得

D(3X2Y)=D(3X)+D(2Y)2cov(3X,2Y)=9D(X)+4D(Y)12cov(X,Y)=9D(X)+4D(Y)12ρXYD(X)D(Y)=9×4+4×112×0.5×2×1=28\begin{aligned} D(3 X-2 Y) & =D(3 X)+D(2 Y)-2 \operatorname{cov}(3 X, 2 Y)=9 D(X)+4 D(Y)-12 \operatorname{cov}(X, Y) \\ & =9 D(X)+4 D(Y)-12 \rho_{X Y} \sqrt{D(X)} \sqrt{D(Y)}=9 \times 4+4 \times 1-12 \times 0.5 \times 2 \times 1=28 \end{aligned}

θ\theta 服从 [π,π][-\pi, \pi] 上的均匀分布,X=sinθ,Y=cosθX=\sin \theta, Y=\cos \theta .判断 XXYY 是否不相关,是否独立。

解 由于 E(X)=12πππsinθdθ=0,E(Y)=12πππcosθdθ=0E(X)=\frac{1}{2 \pi} \int_{-\pi}^\pi \sin \theta d \theta=0, E(Y)=\frac{1}{2 \pi} \int_{-\pi}^\pi \cos \theta d \theta=0 , 而 E(XY)=12πππsinθcosθdθ=0E(X Y)=\frac{1}{2 \pi} \int_{-\pi}^\pi \sin \theta \cos \theta d \theta=0 . 因此 ρXY=Cov(X,Y)D(X)D(Y)=E(XY)E(X)E(Y)D(X)D(Y)=0\rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X) D(Y)}}=\frac{E(X Y)-E(X) E(Y)}{\sqrt{D(X) D(Y)}}=0 ,从而 XXYY 不相关。但由于 XXYY 满足关系 X2+Y2=1X^2+Y^2=1 ,所以 XXYY 不独立.

注意:当两个随机变量不相关时,它们并不一定相互独立,它们之间还可能存在其他的函数关系.

设二维随机变量 (X,Y)N(μ1,μ2,σ1,σ2,ρ)(X, Y) \sim N\left(\mu_1, \mu_2, \sigma_1, \sigma_2, \rho\right) ,求相关系数 ρXY\rho_{X Y} . 解 根据二维正态分布的边缘概率密度知

E(X)=μ1,E(Y)=μ2,D(X)=σ12,D(Y)=σ22,E(X)=\mu_1, E(Y)=\mu_2, D(X)=\sigma_1^2, D(Y)=\sigma_2^2,

Cov(X,Y)=++(xμ1)(xμ2)f(x,y)dxdy=12πσ1σ21ρ2++(xμ1)(yμ2)×exp[12(1ρ2)(yμ2σ2ρxμ1σ1)2(xμ1)22σ12]dxdy\begin{aligned} \operatorname{Cov}(X, Y)= & \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty}\left(x-\mu_1\right)\left(x-\mu_2\right) f(x, y) d x d y=\frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty}\left(x-\mu_1\right)\left(y-\mu_2\right) \times \\ & \exp \left[\frac{-1}{2\left(1-\rho^2\right)}\left(\frac{y-\mu_2}{\sigma_2}-\rho \frac{x-\mu_1}{\sigma_1}\right)^2-\frac{\left(x-\mu_1\right)^2}{2 \sigma_1^2}\right] d x d y \end{aligned}

t=11ρ2(yμ2σ2ρxμ1σ1),u=xμ1σ1t=\frac{1}{\sqrt{1-\rho^2}}\left(\frac{y-\mu_2}{\sigma_2}-\rho \frac{x-\mu_1}{\sigma_1}\right), u=\frac{x-\mu_1}{\sigma_1} ,则有

Cov(X,Y)=12π++(σ1σ21ρ2tu+ρσ1σ2u2)e(u2+t2)/2dtdu=ρσ1σ22π(+u2eu22du)(+et22dt)+σ1σ21ρ22π(+ueu22du)(+tet22dt)=ρσ1σ22π2π2π\begin{aligned} \operatorname{Cov}(X, Y) & =\frac{1}{2 \pi} \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty}\left(\sigma_1 \sigma_2 \sqrt{1-\rho^2} t u+\rho \sigma_1 \sigma_2 u^2\right) e^{-\left(u^2+t^2\right) / 2} d t d u \\ & =\frac{\rho \sigma_1 \sigma_2}{2 \pi}\left(\int_{-\infty}^{+\infty} u^2 e^{-\frac{u^2}{2}} d u\right)\left(\int_{-\infty}^{+\infty} e^{-\frac{t^2}{2}} d t\right)+\frac{\sigma_1 \sigma_2 \sqrt{1-\rho^2}}{2 \pi}\left(\int_{-\infty}^{+\infty} u e^{-\frac{u^2}{2}} d u\right)\left(\int_{-\infty}^{+\infty} t e^{-\frac{t^2}{2}} d t\right) \\ & =\frac{\rho \sigma_1 \sigma_2}{2 \pi} \sqrt{2 \pi} \cdot \sqrt{2 \pi} \end{aligned}

即有 Cov(X,Y)=ρσ1σ2\operatorname{Cov}(X, Y)=\rho \sigma_1 \sigma_2 ,于是 ρXY=Cov(X,Y)D(X)D(Y)=ρ\rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}=\rho . 注意:从本例的结果可见,二维正态随机变量 (X,Y)(X, Y) 的分布完全由 XXYY 各自的数学期望、方差及它们的相关系数所确定. 此外,易见有结论:若( , ) XY服从二维正态分布,则X与Y相互独立,当且仅当X与Y不相关.