12._卡方分布χ²-密度与分布函数的性质-Part3

假设车间生产了一批螺丝,你想检验这些产品质量情况,你随机抽查了一些螺丝,此时就可以使用统计抽样的四大分布是:正态分布、卡方分布、t分布和F分布,他们分别对应 Z检验、卡方检验、t检验和F检验。 如果你抽查的样本比较多(n>30)优先使用Z检验(对应正态分布),如果抽查样本比较少(n<20)则使用t检验(对应t分布),如果你想比较两个机床生产的螺丝质量差异则使用F检验(对应F分布)。如果像分析螺丝质量和原材料质量的关系则使用χ²卡方检验(对应卡方分布)

χ²分布、t分布、F分布的主要用途,其实不是拿来用于自然现象的建模,而是用于假设检验用的。只有正态分布既可以进行建模又可以进行检验

引入

①假设你是一个初中中学的校长,有一天,你希望了解一下全校初一年级学生的平均身高,学校初一年级共10个班级,为了减少干扰,你随机找了三个初一班级的班主任,记做X1,X2,X3X_1,X_2,X_3,告诉他们,统计一下该班里学生的平均身高。 这3个年级每个班都有100人,班主任为了不干扰学生学习同时又能完成上面给的任务,因此,3个班主任随机从对应班级里找10名徐学生测量他们的身高: X1={x1.65,1.68,1.7,1.6,1.58,1.66,1.66,1.67,1.69,1.65}X_1=\{x|1.65,1.68,1.7,1.6,1.58,1.66,1.66,1.67,1.69,1.65 \} X2={x1.75,1.72,1.54,1.60,1.66,1.66,1.66,1.67,1.68,1.65}X_2=\{x|1.75,1.72,1.54,1.60,1.66,1.66,1.66,1.67,1.68,1.65 \} X3={x1.6,1.61,1.7,1.66,1.64,1.65,1.66,1.67,1.68,1.9}X_3=\{x|1.6,1.61,1.7,1.66,1.64,1.65,1.66,1.67,1.68,1.9 \} 我们知道,学生的身高基本上是服从正态分布的,现在我们要做的是,怎么能通过现有的数据来推出初一学生的平均身高呢?毫无疑问,在推出全体的身高时,希望误差越小越小,为此,我们就需要研究一下Y=X12+X22+X32Y=X_1^2+X_2^2+X_3^2 是一个什么分布

②想象你在玩掷骰子的游戏,每掷一次就记录下来点数。如果你掷了很多次,比如几百甚至几千次,你可能会好奇:我得到的这些点数分布,是否真的是公平的?即每个点数出现的概率都是相同的?卡方分布就是用来回答这类问题的一个工具。它能帮助我们检验观察到的数据与预期数据之间是否有显著差异。例如你有一个骰子,掷了 600 次,想检验它是否是公平的。理论上,每个面出现的次数应该是 100 次,实际观察到的次数可能是 [95,105,93,107,100,100][95,105,93,107,100,100] ,通过卡方检验可以判断这种偏差是否在可接受范围内,这被称作拟合优度检验。

特定概率分布为某种情况在进行数学建模时,事物长期结果较为稳定,能够清晰进行把握。但是期望与事实存在差异怎么办?偏差是正常的小幅度波动?还是建模错误?此时,利用卡方分布分析结果,排除可疑结果。【事实与期望不符合情况下使用卡方分布进行检验】

比如:抽奖机,肯定都不陌生,现在一些商场超市门口都有放置。正常情况下出奖概率是一定的,基本商家收益。倘若突然某段时间内总是出奖,甚是反常,那么到底是某阶段是小概率事件还是有人进行操作了?抽奖机怎么了?针对这种现象或者类似这种现象问题则可以借助卡方进行检验,具体如何检验后面会介绍。这里说明一下基础知识。

这里为什么要使用X2X^2,这是因为,在上面引例里数据都是正的,但是比如测量物体长度,误差可正可负,为了防止正负抵消,所以使用平方进行分析。

在上节里,得到一个重要公式

( 观察值  预期值 )2 预期值 { \sum \dfrac{(\text { 观察值 }- \text { 预期值 })^2}{\text { 预期值 }} }

现在我们对上面公式进行抽象,改写为

χc2=(OiEi)2Ei\boxed{ \chi_c^2=\sum \frac{\left(O_i-E_i\right)^2}{E_i} }

用于卡方检验的卡方统计量。 c:自由度。O:观测值。E:期望值。 这个等式是什么意思?为什么这个公式是卡方检验的检验统计量?

提示:检验统计量看起来类似于方差公式 (xiμ)2/n\sum\left(x_i-\mu\right)^2 / n

卡方检验统计量基本上是观察值与期望值之间标准化的平方差之和。之所以说它是标准化的,是因为它将平方差除以预期值,就像任何典型的标准化一样。基本上,这个检验统计量可以告诉你观测值与预期值的偏差有多大。

χ2\chi^2卡方分布

定义

X1,,XnX_1, \cdots, X_n 是独立同分布的随机变量,且都服从标准正 态分布 N(0,1)N(0,1) , 则称随机变量 Y=X11+X22+...+Xn2=i=1nXi2Y = X_1^1+X_2^2+...+X_n^2=\sum_{i=1}^n X_i^2 所服从的分布为自由度为 nnχ2\chi^2 分布,记为 Yχ2(n)Y \sim \chi^2(n).

(1)n=1n=1n=2n=2 和后面n=3,4,5...n=3,4,5...的曲线完全不同。 (2)nn越大,越接近正态分布。

自由度是指上式右端所包含的独立变量的个数

χ2\chi^2卡方分布里的二次方是一个整体,从定义可以看到他是X2X^2的和,为了保持“量纲”一致,所以用的是χ2\chi^2,不能拆成χχ\chi * \chi

卡方χ2\chi^2分布的背后逻辑与推导

借助上一节“吸烟与肺癌”的例子

图片{width=600px}

我们看上面卡方的定义,当 XiX_i 是一个独立的标准正态变量时,那么这些随机变量的和 X2X^2

X2=X12+X22+.+Xn2X^2=X_1^2+X_2^2+\ldots .+X_n^2

遵循卡平方分布 。

等等,我们的观测值( 39,1521,2539,15,21,25)是独立的标准正态分布变量吗?

如果它们服从正态分布,它们就可以转换为标准正态分布。因为正态分布中的任何一点 (x)(x)都可以通过公式 z=(xz=(x- mean )/std) / s t d 转换为标准正态分布 (z)( z )

那么我们的观测值( 39,1521,2539,15,21,25)是否服从正态分布?

这就涉及到本章第六篇介绍的:大数定律与中心极限定理 的内容了。

根据大数定律与中心极限定理(CLT),如果从一个总体中抽取足够大的样本(一般认为样本量大于30),不论总体是什么分布,但是样本的均值都会趋于正态分布。

因此,上面例子里,我们的平均值(39,1521,2539,15,21,25)不是其他数字的平均值。它们就是数据本身的意义。如果是这样的话,我们为什么要假设这些数据遵循正态分布呢?

让我们来仔细看看我们的列联表。

图片{width=600px}

你能从这里看出伯努利试验的影子吗? 是的。因为每个变量(吸烟和不吸烟)都有两种可能的结果 ("患肺癌"和"未患肺癌")。

从二项分布的角度来看,患者总数为 nn ,每个比率( 54/10054 / 100 表示吸烟比例, 60/10060 / 100表示患肺癌比例)为 pp

在二项分布中,随着 nn 的增大,XiX_i 将服从均值为 μ=np\mu=n p 、标准差为 σ=np(1p))\sigma=\sqrt{n p(1-p))}的正态分布。 这被称为二项分布的正态逼近。详见此处

对于足够大的 nn ,具有 nn 次试验和成功概率 pp 的二项分布越来越接近正态分布。正态分布将具有与二项分布相同的均值 μ=np\mu=n p 和标准差为 σ=np(1p))\sigma=\sqrt{n p(1-p))}

让我们把以上这些知识点串连起来。

首先,二项分布告诉我们:一个事件如果只有两个结果:成功和不成功,可以使用二项分布建模,当我们抽样时,如果样品足够大,二项分布会越来越接近正态分布。 因此,我们可以认为我们是从正态分布里取样。那么,(观测值-期望值)也将遵循正态分布,因为 E 是一个常数。那么,使用卡平方分布来检验统计量就完全合理了,因为卡平方分布是n个标准正态分布的平方和。

再次理解自由度

卡方分布的定义是

X2=X12+X22+.+Xn2X^2=X_1^2+X_2^2+\ldots .+X_n^2

而在上节推导的卡方分布公式是

\begin{aligned} \chi^2 & =\dfrac{n \mu_{A B}^2}{p_A p_B}+\dfrac{n \mu_{\bar{A} B}^2}{p_\bar{A} p_B}+\dfrac{n \mu_{A \bar{B}}^2}{p_A p_\bar{B}}+\dfrac{n \mu_{\bar{A} \bar{B}}^2}{p_\bar{A} p_\bar{B}} \end{aligned}

从这里看,上面吸烟肺癌的例子里,自由度应该为4,为什么是1呢

我们再次看一下 2 乘 2 的列联表。我们知道样本总数。在这种情况下, 自由度是多少?是 1。为什么? 因为一旦你知道了 2 乘 2 表中的一个数字,那么表中的其他单元格也就确定了,因为有了总数。 图片{width=600px}

比如一共100人,如果我知道有54人吸烟,那么就知道46人不吸烟。同样,如果我知道60人患肺癌,那么就知道40人不患肺癌。 所以,对于一个有 rr 行和 cc 列的列联表,计算卡方检验自由度的公式应该是:自由度 =(r1)(c1)=(r-1)(c-1)2×22 \times 2 列表联里带入,可以看到为 1

卡方分布的密度函数

χ2(n)\chi^2(n) 分布的概率密度为

f(y)={12n/2Γ(n/2)yn21e12y,y>00,y0,f(y)=\left\{\begin{array}{ll} \dfrac{1}{2^{n / 2} \Gamma(n / 2)} y^{\frac{n}{2}-1} e^{-\frac{1}{2} y}, & y>0 \\ 0, & y \leqslant 0 \end{array},\right.

其中, Γ()\Gamma(\cdot) 为 Gamma 函数, f(y)f(y) 的图形如图 所示. 下图分别是当 n=1,4,9n=1,4,9 时的概率密度函数图形. 是偏峰的倒钟形.

图片

自由度

卡方分布一个重要参数是自由度,也就是是由几个正态函数相加的。从上图可以看到,自由度为1,2和 3,4,5... 很不同,而且自由度越大,越接近正态分布。比如抽查产品包装是否合格,抽查了4次,自由度就是4.

不同自由度适用于不同检验场景:在拟合优度检验中,自由度通常等于类别数减11; 详见卡方检验

在独立性检验中,自由度等于(行数1-1 )×(列数1-1 )。例如,在一个检验某种疾病在不同年龄段 (33个年龄段)和不同性别 (22个性别)之间的发病是否独立的列联表分析中,自由度为(31)×(21)=2(3 - 1)\times(2 - 1)= 2

如果是用χ²分布,自由度为k

χ2\chi^2 分布的性质

由定义可知,若 X1,X2X_1, X_2 相互独立且都服从 N(0,1)N(0,1) ,则 (1) X12χ2(1)X_1^2 \sim \chi^2(1) (2) 2X22χ2(1)2 X_2^2 \sim \chi^2(1) (3) X12+X22χ2(2)X_1^2+X_2^2 \sim \chi^2(2).

χ2\chi^2 分布性质

(1)χ2\chi^2的数学期望与方差。当 Yχ2(n)Y \sim \chi^2(n) 时, E(Y)=n,D(Y)=2nE(Y)=n, D(Y)=2 n ; (2) χ2\chi^2 分布的可加性Xχ2(m),Yχ2(n)X \sim \chi^2(m), Y \sim \chi^2(n) ,且 XXYY 相互独立,则 X+Yχ2(m+n)X+Y \sim \chi^2(m+n).

证明:(1): E(Y)=n,D(Y)=2nE(Y)=n, D(Y)=2 n

χ2\chi^2 分布定义知

E(Y)=E(i=1nXi2)=i=1nE(Xi2)=n(D(X1)+E2(X1))=nD(Y)=D(i=1nXi2)=i=1nD(Xi2)=n(E(X14)E2(X12))=n(31)=2n\begin{aligned} E(Y) & =E\left(\sum_{i=1}^n X_i^2\right)=\sum_{i=1}^n E\left(X_i^2\right) \\ & =n\left(D\left(X_1\right)+E^2\left(X_1\right)\right)=n \\ D(Y) & =D\left(\sum_{i=1}^n X_i^2\right)=\sum_{i=1}^n D\left(X_i^2\right) \\ & =n\left(E\left(X_1^4\right)-E^2\left(X_1^2\right)\right)=n(3-1)=2 n \end{aligned}

(3): 设 Xχ2(m),Yχ2(n)X \sim \chi^2(m), Y \sim \chi^2(n) , 且 XXYY 相互独立 由 χ2\chi^2 分布定义知 X=i=1mXi2;Y=i=1nYi2X=\sum_{i=1}^m X_i^2 ; Y=\sum_{i=1}^n Y_i^2 , 其中 X1,,Xm,Y1,,YnX_1, \cdots, X_m, Y_1, \cdots, Y_n 都是相互独立的标准正态分布 则:

X+Y=i=1mXi2+i=1nYi2χ2(m+n).X+Y=\sum_{i=1}^m X_i^2+\sum_{i=1}^n Y_i^2 \sim \chi^2(m+n) .

如何理解卡方分布?

下面通过简单例子来理解卡方分布,假设有一批化肥服从 X(50,22)X \sim (50,2^2) 的正态分布,拿到这句话你想到了什么? 根据正态分布的定义,意味着这批化肥平均重量是50kg,但是因为包装误差,实际包装的质量在485248-52 之间(μ=50,σ=2\mu=50,\sigma=2), 现在抽查5袋化肥重量,可能的值为 48,49.5,50,50.5,50.548,49.5,50,50.5,50.5, 然后把他标准化,即利用(Xμ)/σ(X-\mu)/\sigma 后变成XN(0,1)X \sim N(0,1) 分布后的数据为: 1,0.25,0,0.25,0.25-1,-0.25,0,0.25,0.25 这样,取采样平方相加就是卡方分布,即 (1)2+(0.25)2+02+0.252+0.252(-1)^2 + (-0.25)^2 +0^2 +0.25^2 +0.25^2 服从χ2\chi^2的自由度为5的分布。

从这个定义,我们直接就能推断出两件事情:

第一,卡方变量都是正的。(当然,你见过那个平方和是负数么?,平方后相当于方差,抹平了负号的影响); 下图显示了n=1的密度函数图像

图片{width=500px}

第二,随着自由度n的增加,卡方分布会往坐标轴右边移动,并且会逐渐变成对称分布。(n增大,表明累加的平方越多,数值越大,当然往坐标轴的右边移动啦)。

第三 n增大,意味着在正态分布的中间值取到的得越多,所以,卡方分布也会变成中间鼓两边扁的对称分布。

图片{width=500px}

如何理解卡方分布的期望?

卡方分布的数学期望为nn,即 E(χ2)=nE(\chi^2)=n, 这个 nn 是什么意思? 这里的nn 表示的是自由度,他本身没有单位。 事实上,如果你仔细看一下卡方密度函数图像他有横坐标n和纵坐标p,那么这里n有单位吗?n是千克?厘米?还是其它的吗? 没有。 这里的n就是表示 当你取5个正态样本时,应该使用后面编制的n=5的卡方标进行查他。

下面给出的是简表。 图片

χ2\chi^2 分布的分位数

Xχ2(n)X \sim \chi^2(n) ,记它的 α\alpha 分位数为 χα2(n)\chi_\alpha^2(n) ,即 χα2(n)\chi_\alpha^2(n) 满足 P(Xχα2(n))=αP\left(X \leq \chi_\alpha^2(n)\right)=\alpha. 见图示.

分位数值可查表得到,比如 χ0.952(4)=9.488\chi_{0.95}^2(4)=9.488

图片

下表给出概率值ppχ2\chi^2关系表。通常用p=0.05p=0.05作为阈值,即95%的可信度。

卡方分布的分位数和正态分布的分位数意思一样,详细点击附录1:置信区间与上α\alpha 分位数

例题

X1,,X6X_1, \cdots, X_6 是来自总体 N(0,1)N(0,1) 的样本, 又设

Y=(X1+X2+X3)2+(X4+X5+X6)2,Y=\left(X_1+X_2+X_3\right)^2+\left(X_4+X_5+X_6\right)^2,

试求常数 CC, 使 CYC Y 服从 χ2\chi^2 分布. 解 因为 X1+X2+X3N(0,3),X4+X5+X6N(0,3)X_1+X_2+X_3 \sim N(0,3), \quad X_4+X_5+X_6 \sim N(0,3) 所以

X1+X2+X33N(0,1),X4+X5+X63N(0,1),\frac{X_1+X_2+X_3}{\sqrt{3}} \sim N(0,1), \quad \frac{X_4+X_5+X_6}{\sqrt{3}} \sim N(0,1),

且相互独立,于是

(X1+X2+X33)2+(X4+X5+X63)2χ2(2)\left(\frac{X_1+X_2+X_3}{\sqrt{3}}\right)^2+\left(\frac{X_4+X_5+X_6}{\sqrt{3}}\right)^2 \sim \chi^2(2)

故应取 C=13C=\frac{1}{3}, 则有 13Yχ2(2)\frac{1}{3} Y \sim \chi^2(2).

(X1,X2,,X6)\left(X_1, X_2, \cdots, X_6\right) 是取自总体 N(0,1)N(0,1) 的简单随机样本, 求下列三个统计量的分布 (1) X12+X22X_1^2+X_2^2; (2) X12X_1^2; (3) Q=X12+a(X2+X3)2+b(X4X5+X6)2Q=X_1^2+a\left(X_2+X_3\right)^2+b\left(X_4-X_5+X_6\right)^2 解: (1) 由样本的定义可知, X1,X2,,X6X_1, X_2, \cdots, X_6 相互独立,且都服从 N(0,1)N(0,1) , 所以根据 χ2\chi^2 分布的定义可知 X12+X22χ2(2)X_1^2+X_2^2 \sim \chi^2(2) ; (2) 同上, X12χ2(1)X_1^2 \sim \chi^2(1) ; (3) X2+X3N(0,2)X2+X32N(0,1)X_2+X_3 \sim N(0,2) \Rightarrow \frac{X_2+X_3}{\sqrt{2}} \sim N(0,1),

X4X5+X6N(0,3)X4X5+X63N(0,1)X_4-X_5+X_6 \sim N(0,3) \Rightarrow \frac{X_4-X_5+X_6}{\sqrt{3}} \sim N(0,1) \text {, }

X1,12(X2+X3),13(X4X5+X6)X_1, \frac{1}{\sqrt{2}}\left(X_2+X_3\right), \frac{1}{\sqrt{3}}\left(X_4-X_5+X_6\right) 相互独立, 再由 χ2\chi^2 分布的定义

X12+(X2+X32)2+(X4X5+X63)2χ2(3).X_1^2+\left(\frac{X_2+X_3}{\sqrt{2}}\right)^2+\left(\frac{X_4-X_5+X_6}{\sqrt{3}}\right)^2 \sim \chi^2(3) .

可得 a=12,b=13a=\frac{1}{2}, b=\frac{1}{3}

X1,,XnX_1, \cdots, X_n 是来自正态总体 N(0,σ2)N\left(0, \sigma^2\right) 的样本,试证: (1) 1σ2i=1nXi2χ2(n)\frac{1}{\sigma^2} \sum_{i=1}^n X_i^2 \sim \chi^2(n); (2) 1nσ2(i=1nXi)2χ2(1)\frac{1}{n \sigma^2}\left(\sum_{i=1}^n X_i\right)^2 \sim \chi^2(1)

证明 (1) Xiσ,i=1,,n\frac{X_i}{\sigma}, i=1, \cdots, n 独立同分布于 N(0,1)N (0,1) ,由 χ\chi^{\prime} 分布的定义, i=1n(Xiσ)2χ2(n)\sum_{i=1}^n\left(\frac{X_i}{\sigma}\right)^2 \sim \chi^2(n) ,即 1σ2i=1nXi2χ2(n)\frac{1}{\sigma^2} \sum_{i=1}^n X_i^2 \sim \chi^2(n).

(2)易见, i=1nXiN(0,nσ2)\sum_{i=1}^n X_i \sim N\left(0, n \sigma^2\right) ,即 i=1nXinσ2N(0,1)\frac{\sum_{i=1}^n X_i}{\sqrt{n \sigma^2}} \sim N(0,1) ,由 χ2\chi^2 分布的定义, (i=1nXinσ2)2χ2(1)\left(\frac{\sum_{i=1}^n X_i}{\sqrt{n \sigma^2}}\right)^2 \sim \chi^2(1) ,即 1nσ2(i=1nXi)2χ2(1)\frac{1}{n \sigma^2}\left(\sum_{i=1}^n X_i\right)^2 \sim \chi^2(1).

(X1,X2,,Xn)\left(X_1, X_2, \cdots, X_n\right) 是取自总体 Xχ2(n)X \sim \chi^2(n) 的一个样本, 定义 Xˉ=1ni=1nXi\bar{X}=\frac{1}{n} \sum_{i=1}^n X_i ,试求 E(Xˉ),D(Xˉ)E(\bar{X}), D(\bar{X}).

解 由 χ2\chi^2 分布性质知 E(X)=n,D(X)=2nE(X)=n, D(X)=2 n, 故

E(Xˉ)=E(1ni=1nXi)=1ni=1nE(Xi)=n.E(\bar{X})=E\left(\frac{1}{n} \sum_{i=1}^n X_i\right)=\frac{1}{n} \sum_{i=1}^n E\left(X_i\right)=n .

χ2\chi^2 分布性质知 E(X)=n,D(X)=2nE(X)=n, D(X)=2 n, 故

D(Xˉ)=D(1ni=1nXi)=1n2D(i=1nXi)=1n2i=1nD(Xi)=1nD(X)=2.\begin{aligned} D(\bar{X}) & =D\left(\frac{1}{n} \sum_{i=1}^n X_i\right)=\frac{1}{n^2} D\left(\sum_{i=1}^n X_i\right) \\ & =\frac{1}{n^2} \sum_{i=1}^n D\left(X_i\right)=\frac{1}{n} D(X)=2 . \end{aligned}

卡方分布和正态分布的区别

一个随机变量ZZ总是与一个概率分布有关。当一个随机变量经历数学变换后,基本的概率分布就不再保持不变了。考虑一个随机变量 ZN(μ=0,σ2=1)Z \sim N\left(\mu=0, \sigma^2=1\right) ,其遵循标准正态分布。现在,如果该随机变量被平方化(一种数学变换),那么 Z2Z^2 就不再是标准正态分布了。新转换的分布被称为自由度为 1 的卡方分布(Chi-Squared)分布。ZZZ2Z^2 的分布如下所示。随机变量ZZ的平均值为 E(Z)=0E (Z)=0 ,对于变换后的变量 Z2Z^2 ,其均值为 E(Z2)=1E\left(Z^2\right)=1图片{width=500px} 同样,随机变量Z的方差是 D(Z)=1D(Z)=1 ,而转换后的随机变量 Z2Z^2 的方差是 D(Z2)=2D\left(Z^2\right)=2 。除了平均值和方差,分布的形状也发生了变化。变换后的变量 Z2Z^2 的分布不再是对称的了。事实上,分布是向一边倾斜的。此外,随机变量 Z2Z^2 只能取正值,而随机变量Z也可以取负值(注意上图中两幅图的X轴)。由于新的变换只基于一个参数(Z),所以这个变换的自由度是1。

因此,转换后的随机变量 Z2Z^2 遵循卡方分布,有1个自由度。假设 Z1,Z2,,ZkZ_1, Z_2, \ldots, Z_k 是遵循标准正态分布的独立随机变量, ZkN(0,1)Z_k \sim N(0,1) ,那么变换

χk2=Z12+Z22++Zk2\chi_k^2=Z_1^2+Z_2^2+\ldots+Z_k^2

是一个具有k个自由度的卡方分布