8._总体分布的卡方检验法

总体分布的卡方检验法

前面讨论的参数检验问题是在总体分布类型已知的情况下,对其中的未知参数进行检验。在实际问题中,有时并不知道总体的具体分布情况,这时就需要从总体中抽取的样本对总体的分布进行推断,以判断总体服从何种分布,这类统计检验称为非参数检验。例如检验假设"总体服从正态分布"等。本节仅介绍 χ2\chi^2 拟合优度检验,又简称 χ2\chi^2 检验法,它是英国统计学家老皮尔逊(K.Pearson,1857-1936年)于1900年提出的,不少人把此项工作视为近代统计学的开端。 χ2\chi^2 检验法是在总体 XX 的分布未知时,根据来自总体的样本,检验总体分布的假设的一种检验方法.设 X1,X2,,XnX_1, X_2, \cdots, X_n 是来自总体 F(x)F(x) 的样本,F0(x)F_0(x) 是理论分布,检验问题的原假设是

H0:F(x)=F0(x),H_0: F(x)=F_0(x),

该分布的检验问题是根据样本的观察值 x1,x2,,xnx_1, x_2, \cdots, x_n 的数据判断是否与理论分布相合.样本量较大时,可以用 χ2\chi^2 拟合优度检验。这类问题可以分以下两种情况来讨论。

总体 XX 为离散型分布

设总体 XX 是取值为有限个或可列个 b1,b2,b_1, b_2, \cdots 的离散随机变量,将相邻的某些 bib_i 合并为一类,且样本观察值 x1,x2,,xnx_1, x_2, \cdots, x_n 落入每一个类内的个数不小于 5 ,记 B1,B2,,BkB_1, B_2, \cdots, B_kb1,b2,b_1, b_2, \cdots 被分的 kk 个类,nin_i 为每一个 BiB_i 内的个数.记

P(XBi)=pi(i=1,2,,k),P\left(X \in B_i\right)=p_i \quad(i=1,2, \cdots, k),

则假设

H0:F(x)=F0(x)H_0: F(x)=F_0(x)

可以转化为如下假设

H0:Bi 所占的比例为 pi(i=1,2,,k)H_0: B_i \text { 所占的比例为 } p_i \quad(i=1,2, \cdots, k) \text {, }

H0:P(Bi)=pi(i=1,2,,k)H_0: \quad P\left(B_i\right)=p_i \quad(i=1,2, \cdots, k)

现对总体做了 nn 次观察,各类出现的观察频数分别为 n1,n2,,nkn_1, n_2, \cdots, n_k ,且

i=1kni=n\sum_{i=1}^k n_i=n

H0H_0 为真时,则各概率 pip_i 与频率 nin\frac{n_i}{n} 相差应该不大,或者各观察频数 nin_i 对期望频数 npin p_i的偏差( ninpin_i-n p_i )不大.英国统计学家老皮尔逊提出了基于观察频数和期望频数之差的检验统计量

χ2=i=1k(ninpi)2npi.\chi^2=\sum_{i=1}^k \frac{\left(n_i-n p_i\right)^2}{n p_i} .

其中取偏差平方是为了把偏差积累起来,每项除以 npin p_i 是要求期望频数 npin p_i 较小时,偏差平方 (ninpi)2\left(n_i-n p_i\right)^2 更小才合理。并证明了下列结论。

定理 当 nn 充分大 (n50)(n \geqslant 50) 时,则统计量 χ2=i=1k(nnpi)2npi\chi^2=\sum_{i=1}^k \frac{\left(n-n p_i\right)^2}{n p_i} 近似服从 χ2(k1)\chi^2(k-1) 分布. 证明 略。 根据该定理,对给定的显著性水平 α\alpha ,确定 ll 值,使

P{χ2>l}=αP\left\{\chi^2>l\right\}=\alpha

求得 l=χα2(k1)l=\chi_\alpha^2(k-1) ,所以拒绝域为

χ2>χα2(k1)\chi^2>\chi_\alpha^2(k-1)

若由所给的样本值 x1,x2,,xnx_1, x_2, \cdots, x_n 算得统计量 χ2\chi^2 的实测值落入拒绝域,则拒绝原假设 H0H_0 ,否则就认为差异不显著而接受原假设 H0H_0

将一颗骰子郑 120 次,所得数据为 图片

问这颗骰子是否均匀,对称(取 α=0.05\alpha=0.05 )? 解 若这颗骰子是均匀的,对称的,则 161 \sim 6 点中每点出现的可能性相同,都为 1/61 / 6 .如果用 AiA_i 表示第 ii 点出现 (i=1,2,,6)(i=1,2, \cdots, 6) ,则待检验假设 H0:P(Ai)=1/6,i=1,2,6H_0: P\left(A_i\right)=1 / 6, i=1,2 \cdots, 6

H0H_0 成立的条件下,理论概率 pi=p(Ai)=1/6p_i=p\left(A_i\right)=1 / 6 ,由 n=120n=120 得频率 npi=20n p_i=20 . 计算结果如下. 图片 图片

因此分布不含未知参数,又 k=6,α=0.05k=6, \alpha=0.05 ,查表得 χα2(k1)=χ0.052(5)=11.071\chi_\alpha^2(k-1)=\chi_{0.05}^2(5)=11.071 . 由上表知 χ2=i=16(ninpi)2npi=4.8<11.071\chi^2=\sum_{i=1}^6 \frac{\left(n_i-n p_i\right)^2}{n p_i}=4.8<11.071 ,故接受 H0H_0 ,认为这颗骰子是均匀对称的.

总体 XX 为连续型分布

X1,X2,,XnX_1, X_2, \cdots, X_n 是来自总体 XX 的一个样本,其观察值为 x1,x2,,xnx_1, x_2, \cdots, x_n ,总体分布未知,现想用一个已知连续分布函数 F0(x)F_0(x) 去拟合这批数据,故需要对如下假设做出检验:

H0:X 服从连续分布 F0(x)H_0: X \text { 服从连续分布 } F_0(x)

这类问题称为连续分布的拟合优度检验问题。具体步骤如下. (1)把 XX 的取值范围划分为 kk 个互不相交的小区间,记为 A1,A2,,AkA_1, A_2, \cdots, A_k ,如可取为

(a0,a1],(a1,a2],,(ak2,ak1],(ak1,ak)\left(a_0, a_1\right],\left(a_1, a_2\right], \cdots,\left(a_{k-2}, a_{k-1}\right],\left(a_{k-1}, a_k\right)

其中 a0<a1<<ak1<ak,a0a_0<a_1<\cdots<a_{k-1}<a_k, a_0 可取 ,ak-\infty, a_k 可取 ++\infty ;区间的划分视具体情况而定,使每个小区间所含样本值个数不小于 5 ,而区间个数 kk 不要太大,也不要太小; (2)当落入第 ii 个区间内时,就把它看成属于 AiA_i 类,因此这 kk 个区间相当于 kk 类.在 H0H_0 为真时,可算出总体 XX 的值落入第 ii 个小区间 AiA_i 的概率

pi=P(ai1<X<ai)=F0(ai)F0(ai1),i=1,2,,kp_i=P\left(a_{i-1}<X<a_i\right)=F_0\left(a_i\right)-F_0\left(a_{i-1}\right), \quad i=1,2, \cdots, k

样本观测值落入这 kk 个区间的频数分别为 n1,n2,,nkn_1, n_2, \cdots, n_k .接下来的步骤与离散型分布类似. 在对总体分布的假设检验中,有时只知道总体 XX 的分布函数的形式,但其中还含有末知参数,即分布函数为

F(x,θ1,θ2,,θr),F\left(x, \theta_1, \theta_2, \cdots, \theta_r\right),

其中 θ1,θ2,,θr\theta_1, \theta_2, \cdots, \theta_r 为未知参数.设 X1,X2,,XnX_1, X_2, \cdots, X_n 是取自总体 XX 的样本,现要用此样本来检验假设:

H0 : 总体 X 的分布函数为 F(x,θ1,θ2,,θr)H_0 \text { : 总体 } X \text { 的分布函数为 } F\left(x, \theta_1, \theta_2, \cdots, \theta_r\right) \text {, }

此类情况可按如下步骤进行检验: (1)利用样本 X1,X2,,XnX_1, X_2, \cdots, X_n 求出 θ1,θ2,,θr\theta_1, \theta_2, \cdots, \theta_r 的最大似然估计 θ^1,θ^2,,θ^r\hat{\theta}_1, \hat{\theta}_2, \cdots, \hat{\theta}_r ; (2)用 θ^i\hat{\theta}_i 代替 F(x,θ1,θ2,,θr)F\left(x, \theta_1, \theta_2, \cdots, \theta_r\right) 中的 θi(i=1,2,,r)\theta_i(i=1,2, \cdots, r) ; (3)利用 F(x,θ^1,θ^2,,θ^r)F\left(x, \hat{\theta}_1, \hat{\theta}_2, \cdots, \hat{\theta}_r\right) 计算 pip_i 的估计值 p^i(i=1,2,,k)\hat{p}_i(i=1,2, \cdots, k) ; (4)计算要检验的统计量

χ2=i=1k(ninp^i)2/np^i\chi^2=\sum_{i=1}^k\left(n_i-n \hat{p}_i\right)^2 / n \hat{p}_i

nn 充分大时,统计量 χ2\chi^2 近似服从 χα2(kr1)\chi_\alpha^2(k-r-1) 分布,其中 kk 为互不相交的小区间的个数, rr 是被估计的参数的个数。 (5)对给定的显著性水平 α\alpha ,得拒绝域

χ2=i=1k(ninp^i)2/np^i>χα2(kr1).\chi^2=\sum_{i=1}^k\left(n_i-n \hat{p}_i\right)^2 / n \hat{p}_i>\chi_\alpha^2(k-r-1) .

注意:在使用皮尔逊 χ2\chi^2 检验法时,要求 n50n \geqslant 50 ,以及每个理论频数 npi5(i=1,,k)n p_i \geqslant 5(i=1, \cdots, k) ,否则应适当地合并相邻的小区间,使 npin p_i 满足要求。

研究混凝土抗压强度的分布. 200 件混凝土制件的抗压强度以分组形式列出(如表 8.4.1 所示).n=i=16ni=200n=\sum_{i=1}^6 n_i=200 .要求在给定的检验水平 α=0.05\alpha=0.05 下检验假设

H0: 抗压强度 XN(μ,σ2)H_0: \text { 抗压强度 } X \sim N\left(\mu, \sigma^2\right) \text {. }

表 8.4.1 200 件混凝土制件的抗压强度 图片 解 原假设所定的正态分布的参数是未知的,需先求 μ\muσ2\sigma^2 的极大似然估计值.由第 7章知,μ\muσ2\sigma^2 的极大似然估计值为

μ^=xˉσ^2=i=1n(xixˉ)2/n\begin{gathered} \hat{\mu}=\bar{x} \\ \hat{\sigma}^2=\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 / n \end{gathered}

xix_i^* 为第 ii 组的组中值,有

xˉ=1ni=16xini=195×10+205×26++245×14200=221,σ^2=1ni=1n(xixˉ)2ni=1200{(26)2×10+(16)2×26++242×14}=152,σ^=12.33.\begin{gathered} \bar{x}=\frac{1}{n} \sum_{i=1}^6 x_i^* n_i=\frac{195 \times 10+205 \times 26+\cdots+245 \times 14}{200}=221, \\ \hat{\sigma}^2=\frac{1}{n} \sum_{i=1}^n\left(x_i^*-\bar{x}\right)^2 n_i=\frac{1}{200}\left\{(-26)^2 \times 10+(-16)^2 \times 26+\cdots+24^2 \times 14\right\}=152, \\ \hat{\sigma}=12.33 . \end{gathered}

原假设 H0H_0 改写成 XX 是正态 N(221,12.332)N\left(221,12.33^2\right) 分布,计算每个区间的理论概率值

p^i=P(ai1<X<ai)=Φ(μi)Φ(μi1),i=1,2,,6\hat{p}_i=P\left(a_{i-1}<X<a_i\right)=\Phi\left(\mu_i\right)-\Phi\left(\mu_{i-1}\right), \quad i=1,2, \cdots, 6

其中

μi=aixˉσ^\mu_i=\frac{a_i-\bar{x}}{\hat{\sigma}}
Φ(μi)=12πμiet22dt\Phi\left(\mu_i\right)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{\mu_i} e^{-\frac{t^2}{2}} d t

为了计算统计量 χ2\chi^2 的值,把需要进行的计算列表,如表 8.4.2 所示. 图片

从上面计算得出 χ2\chi^2 的观察值为 1.33 .在检验水平 a=0.05a=0.05 下,查自由度 m=621=3m=6-2-1=3χ2\chi^2分布表,得到临界值 χ0.052(3)=7.815\chi_{0.05}^2(3)=7.815 .由于 χ2=1.33<7.815=χ0.052(3)\chi^2=1.33<7.815=\chi_{0.05}^2(3) ,不能拒绝原假设,所以认为混凝土制件的抗压强度的分布是正态分布 N(221,152)N(221,152)