拟合优度检验
在实际问题中,经常不知道总体服从什么分布,这时只能假定其为某种分布,那么就需要根据样本数据来检验假设是否合理,即检验假设的总体分布是否可以被接受, 又称为分布的拟合检验, 常用的方法有 χ2 拟合优度检验.
例 检验一枚骰子是否是均匀的分布,首先抛掷一枚骰子 120 次 得到如下结果记录

在显著性水平 α=0.01 水平下, 请问, 这枚骰子是否是均匀的?
分析 设 X 为骰子出现的点数,根据题意可以假设 X 的分布为
H0:P(X=i)=pi=61,i=1,2,⋯,6. 如果骰子是均匀的,即在 H0 成立的假定下,投掷 120 次,平均来说每个点面应该都出现 npi=120⋅61=20 次, 这称为理论频数, 如果每个点面实际出现次数与 20 次相差不大, 那么可以说明股子是均匀的, 如果相差太大, 例如有些点面严重偏多, 而另外一些点面严重偏少,那么可以说明股子是不均匀的。
由于有正偏差就一定有负偏差,所以用偏差平方的方式来计算每一个点面出现的偏差, 并计算所有点面累积的总偏差, 如果总偏差太大,超过了容忍的最大值 c ,就拒绝原假设,即认为骰子是不均匀的,反之,则不拒绝骰子是均匀的原假设.
根据上述分析,我们构造拒绝域的形式为 W={∑i=1k(Ni−npi)2>c} ,其中 Ni 表示第 i 个点面实际出现的次数,又称为实际频数;
当我们有了一组样本观测值以后, Ni 的观测值记为 ni. 其中的 k 表示总体分布取值分组的组数,例如在例 1 中, k 取 6 。
那么这里的容忍最大值 c 取何值呢?
根据显著性水平的定义,容忍最大值 c 需满足
P((X1,X2,⋯,Xn)∈W)=P(i=1∑k(Ni−npi)2>c∣H0 成立 )⩽α. 统计学家 K - 皮尔逊基于上述拒绝域的形式构造了一个检验统计量
χ2=i=1∑knpi(Ni−npi)2 并证明了如下重要的结论, 我们以定理的方式不加证明地给出.
如果你想看皮尔逊当时是怎么推导过程,可以点击此处
定理1 如果原假设 H0:P(X=i)=pi,i=1,2,⋯,k 成立, 则当样本量 n→∞ 时, χ2=∑i=1knpi(Ni−npi)2 的极限分布是自由度为 k−1 的 χ2 分布,即
χ2=i=1∑knpi(Ni−npi)2∼χ2(k−1), 所以
P((X1,X2,⋯,Xn)∈W)=P(i=1∑knpi(Ni−npi)2>X1−α2(k−1)H0 成立 )⩽α. 即拒绝域为
W={i=1∑knpi(Ni−npi)2>χ1−α2(k−1)}. 在例 1 中, χ2 检验统计量的观测值,
χ2=i=1∑knpi(ni−npi)2=20(23−20)2+20(26−20)2+20(21−20)2+20(20−20)2+20(15−20)2+20(15−20)2=4.8. 查表 可得, χ0.992(5)=15.0863>4.8, 所以, 在显著性水平 α=0.01 下接受原假设,即可认为这枚骰子是均匀的。
下一节将正式介绍 卡方分布