11._卡方分布χ²-拟合度检验-Part2 - 概率论与数理统计

拟合优度检验

在实际问题中，经常不知道总体服从什么分布，这时只能假定其为某种分布，那么就需要根据样本数据来检验假设是否合理，即检验假设的总体分布是否可以被接受, 又称为分布的拟合检验, 常用的方法有 $\chi^2$ 拟合优度检验.

例 检验一枚骰子是否是均匀的分布，首先抛掷一枚骰子１２０次得到如下结果记录 $图片$

在显著性水平 $\alpha=0.01$ 水平下, 请问, 这枚骰子是否是均匀的?

分析设 $X$ 为骰子出现的点数，根据题意可以假设 $X$ 的分布为

H_0: P(X=i)=p_i=\frac{1}{6}, i=1,2, \cdots, 6 .

如果骰子是均匀的，即在 $H_0$ 成立的假定下，投掷 120 次，平均来说每个点面应该都出现 $n p_i=120 \cdot \frac{1}{6}=20$ 次, 这称为理论频数, 如果每个点面实际出现次数与 20 次相差不大, 那么可以说明股子是均匀的, 如果相差太大, 例如有些点面严重偏多, 而另外一些点面严重偏少，那么可以说明股子是不均匀的。

由于有正偏差就一定有负偏差，所以用偏差平方的方式来计算每一个点面出现的偏差, 并计算所有点面累积的总偏差, 如果总偏差太大，超过了容忍的最大值 $c$ ，就拒绝原假设，即认为骰子是不均匀的，反之，则不拒绝骰子是均匀的原假设.

根据上述分析，我们构造拒绝域的形式为 $W=\left\{\sum_{i=1}^k\left(N_i-n p_i\right)^2>c\right\}$ ，其中 $N_i$ 表示第 $i$ 个点面实际出现的次数，又称为实际频数；

当我们有了一组样本观测值以后， $N_i$ 的观测值记为 $n_i$ . 其中的 $k$ 表示总体分布取值分组的组数，例如在例 1 中， $k$ 取 6 。

那么这里的容忍最大值 $c$ 取何值呢? 根据显著性水平的定义，容忍最大值 $c$ 需满足

P\left(\left(X_1, X_2, \cdots, X_n\right) \in W\right)=P\left(\sum_{i=1}^k\left(N_i-n p_i\right)^2>c \mid H_0 \text { 成立 }\right) \leqslant \alpha .

统计学家 K - 皮尔逊基于上述拒绝域的形式构造了一个检验统计量

\boxed{ \chi^2=\sum_{i=1}^k \dfrac{\left(N_i-n p_i\right)^2}{n p_i} }

并证明了如下重要的结论, 我们以定理的方式不加证明地给出.

如果你想看皮尔逊当时是怎么推导过程，可以点击此处

定理1 如果原假设 $H_0: P(X=i)=p_i, i=1,2, \cdots, k$ 成立, 则当样本量 $n \rightarrow \infty$ 时, $\chi^2=\sum_{i=1}^k \frac{\left(N_i-n p_i\right)^2}{n p_i}$ 的极限分布是自由度为 $k-1$ 的 $\chi^2$ 分布，即

\chi^2=\sum_{i=1}^k \frac{\left(N_i-n p_i\right)^2}{n p_i} \sim \chi^2(k-1),

所以

P\left(\left(X_1, X_2, \cdots, X_n\right) \in W\right)=P\left(\left.\sum_{i=1}^k \frac{\left(N_i-n p_i\right)^2}{n p_i}>X_{1-\alpha}^2(k-1) \right\rvert\, H_0 \text { 成立 }\right) \leqslant \alpha .

即拒绝域为

W=\left\{\sum_{i=1}^k \frac{\left(N_i-n p_i\right)^2}{n p_i}>\chi_{1-\alpha}^2(k-1)\right\} .

在例 1 中, $\chi^2$ 检验统计量的观测值,

\begin{aligned} \chi^2 & =\sum_{i=1}^k \frac{\left(n_i-n p_i\right)^2}{n p_i} \\ & =\frac{(23-20)^2}{20}+\frac{(26-20)^2}{20}+\frac{(21-20)^2}{20}+\frac{(20-20)^2}{20}+\frac{(15-20)^2}{20}+\frac{(15-20)^2}{20} \\ & =4.8 . \end{aligned}

查表可得, $\chi_{0.99}^2(5)=15.0863>4.8$ , 所以, 在显著性水平 $\alpha=0.01$ 下接受原假设,即可认为这枚骰子是均匀的。下一节将正式介绍卡方分布