11._卡方分布χ²-拟合度检验-Part2

拟合优度检验

在实际问题中,经常不知道总体服从什么分布,这时只能假定其为某种分布,那么就需要根据样本数据来检验假设是否合理,即检验假设的总体分布是否可以被接受, 又称为分布的拟合检验, 常用的方法有 χ2\chi^2 拟合优度检验.

检验一枚骰子是否是均匀的分布,首先抛掷一枚骰子 120 次 得到如下结果记录 图片

在显著性水平 α=0.01\alpha=0.01 水平下, 请问, 这枚骰子是否是均匀的?

分析 设 XX 为骰子出现的点数,根据题意可以假设 XX 的分布为

H0:P(X=i)=pi=16,i=1,2,,6.H_0: P(X=i)=p_i=\frac{1}{6}, i=1,2, \cdots, 6 .

如果骰子是均匀的,即在 H0H_0 成立的假定下,投掷 120 次,平均来说每个点面应该都出现 npi=12016=20n p_i=120 \cdot \frac{1}{6}=20 次, 这称为理论频数, 如果每个点面实际出现次数与 20 次相差不大, 那么可以说明股子是均匀的, 如果相差太大, 例如有些点面严重偏多, 而另外一些点面严重偏少,那么可以说明股子是不均匀的。

由于有正偏差就一定有负偏差,所以用偏差平方的方式来计算每一个点面出现的偏差, 并计算所有点面累积的总偏差, 如果总偏差太大,超过了容忍的最大值 cc ,就拒绝原假设,即认为骰子是不均匀的,反之,则不拒绝骰子是均匀的原假设.

根据上述分析,我们构造拒绝域的形式为 W={i=1k(Ninpi)2>c}W=\left\{\sum_{i=1}^k\left(N_i-n p_i\right)^2>c\right\} ,其中 NiN_i 表示第 ii 个点面实际出现的次数,又称为实际频数

当我们有了一组样本观测值以后, NiN_i 的观测值记为 nin_i. 其中的 kk 表示总体分布取值分组的组数,例如在例 1 中, kk 取 6 。

那么这里的容忍最大值 cc 取何值呢? 根据显著性水平的定义,容忍最大值 cc 需满足

P((X1,X2,,Xn)W)=P(i=1k(Ninpi)2>cH0 成立 )α.P\left(\left(X_1, X_2, \cdots, X_n\right) \in W\right)=P\left(\sum_{i=1}^k\left(N_i-n p_i\right)^2>c \mid H_0 \text { 成立 }\right) \leqslant \alpha .

统计学家 K - 皮尔逊基于上述拒绝域的形式构造了一个检验统计量

χ2=i=1k(Ninpi)2npi\boxed{ \chi^2=\sum_{i=1}^k \dfrac{\left(N_i-n p_i\right)^2}{n p_i} }

并证明了如下重要的结论, 我们以定理的方式不加证明地给出.

如果你想看皮尔逊当时是怎么推导过程,可以点击此处

定理1 如果原假设 H0:P(X=i)=pi,i=1,2,,kH_0: P(X=i)=p_i, i=1,2, \cdots, k 成立, 则当样本量 nn \rightarrow \infty 时, χ2=i=1k(Ninpi)2npi\chi^2=\sum_{i=1}^k \frac{\left(N_i-n p_i\right)^2}{n p_i} 的极限分布是自由度为 k1k-1χ2\chi^2 分布,即

χ2=i=1k(Ninpi)2npiχ2(k1),\chi^2=\sum_{i=1}^k \frac{\left(N_i-n p_i\right)^2}{n p_i} \sim \chi^2(k-1),

所以

P((X1,X2,,Xn)W)=P(i=1k(Ninpi)2npi>X1α2(k1)H0 成立 )α.P\left(\left(X_1, X_2, \cdots, X_n\right) \in W\right)=P\left(\left.\sum_{i=1}^k \frac{\left(N_i-n p_i\right)^2}{n p_i}>X_{1-\alpha}^2(k-1) \right\rvert\, H_0 \text { 成立 }\right) \leqslant \alpha .

即拒绝域为

W={i=1k(Ninpi)2npi>χ1α2(k1)}.W=\left\{\sum_{i=1}^k \frac{\left(N_i-n p_i\right)^2}{n p_i}>\chi_{1-\alpha}^2(k-1)\right\} .

在例 1 中, χ2\chi^2 检验统计量的观测值,

χ2=i=1k(ninpi)2npi=(2320)220+(2620)220+(2120)220+(2020)220+(1520)220+(1520)220=4.8.\begin{aligned} \chi^2 & =\sum_{i=1}^k \frac{\left(n_i-n p_i\right)^2}{n p_i} \\ & =\frac{(23-20)^2}{20}+\frac{(26-20)^2}{20}+\frac{(21-20)^2}{20}+\frac{(20-20)^2}{20}+\frac{(15-20)^2}{20}+\frac{(15-20)^2}{20} \\ & =4.8 . \end{aligned}

查表 可得, χ0.992(5)=15.0863>4.8\chi_{0.99}^2(5)=15.0863>4.8, 所以, 在显著性水平 α=0.01\alpha=0.01 下接受原假设,即可认为这枚骰子是均匀的。 下一节将正式介绍 卡方分布

11._卡方分布χ²-拟合度检验-Part2 - 概率论与数理统计 | OpenTech