假设检验的背景 在实际问题中,假设检验有着广泛的应用,请看三个引例。
引例1 某洗衣粉厂用自动包装机进行包装,正常情况下包装质量 (单位:g g g ) X ∼ N ( 500 , 9 ) X \sim N(500,9) X ∼ N ( 500 , 9 ) 正态分布 ,现随机抽取 25 袋洗衣粉,测得平均质量 x ˉ = \bar{x}= x ˉ = 501.5 g ,假定方差不变,问可否认为平均包装质量 μ \mu μ 仍为 500 g ?
这个问题实际上是根据理论分析,要求在 μ = 500 \mu=500 μ = 500 和其对立面 μ ≠ 500 \mu \neq 500 μ = 500 之间作出选择.如果选择了 μ = 500 \mu=500 μ = 500 ,则包装机继续工作;否则,应选择 μ ≠ \mu \neq μ = 500 ,说明自动包装机工作出现不正常,应该停机检查.
引例2 设有某车间生产的甲、乙两批同型号的产品,其次品率分别为 p 1 p_1 p 1 和 p 2 p_2 p 2 ,其中 p 1 p_1 p 1 和 p 2 p_2 p 2 均未知.现从甲批产品中任取 36 件,发现有 2 件次品;再从乙批产品中任取 50 件,发现有 3 件次品,问是否有 p 1 < p 2 p_1<p_2 p 1 < p 2 ?
此例是要求在 p 1 < p 2 p_1<p_2 p 1 < p 2 和其对立面 p 1 ⩾ p 2 p_1 \geqslant p_2 p 1 ⩾ p 2 中,作出理论判断.如果 p 1 < p 2 p_1 <p_2 p 1 < p 2 成立,表明甲批产品的次品率低于乙批产品的次品率,否则,甲批产品的次品率不低于(大于或等于)乙批产品的次品率.
引例3 将一枚骰子随机地掷 120 次,并统计出各点数出现的次数如下
问这枚骰子的六个面是否均匀?
这里检验的对象是该骰子的六个面均匀或不均匀,如果该骰子的六个面是均匀的,则意味着任意掷一次骰子所出现的点数X应具有下列分布律
因此,此例实际上是对X所服从的分布进行检验
总结
以上三个例子均为假设检验问题,由此可见,假设检验问题是非常丰富多样的。按检验的内容,假设检验可分为参数检验 和非参数检验
如果总体X的分布类型已知,检验只涉及其中的某些参数,这类假设检验称为参数检验如引例1中,已知包装量X服从正态分布,检验μ = 500 \mu=500 μ = 500 还是μ ≠ 500 \mu \ne 500 μ = 500 ,这属于参数检验问题
X = { 0 , 如果从甲批产品中任取一个产品为正品, 1 , 如果从甲批产品中任取一个产品为次品, X=\left\{\begin{array}{l}0, \text { 如果从甲批产品中任取一个产品为正品,} \\ 1, \text { 如果从甲批产品中任取一个产品为次品,}\end{array}\right. X = { 0 , 如果从甲批产品中任取一个产品为正品, 1 , 如果从甲批产品中任取一个产品为次品,
Y = { 0 , 如果从乙批产品中任取一个产品为正品, 1 , 如果从乙批产品中任取一个产品为次品, Y=\left\{\begin{array}{l}0, \text { 如果从乙批产品中任取一个产品为正品,} \\ 1, \text { 如果从乙批产品中任取一个产品为次品,}\end{array}\right. Y = { 0 , 如果从乙批产品中任取一个产品为正品, 1 , 如果从乙批产品中任取一个产品为次品,
则 X ∼ B ( 1 , p 1 ) , Y ∼ B ( 1 , p 2 ) X \sim B\left(1, p_1\right), ~ Y \sim B\left(1, p_2\right) X ∼ B ( 1 , p 1 ) , Y ∼ B ( 1 , p 2 ) ,同样,X X X 和 Y Y Y 的分布类型均已知,只是检验参数 p 1 < p 2 p_1<p_2 p 1 < p 2 ,还是 p 1 ⩾ p 2 p_1 \geqslant p_2 p 1 ⩾ p 2 ,所以引例2 仍属于参数检验问题.
如果检验问题涉及总体X的分布类型(其中可以包含总体未知参数),而不只是未知参数,这类检验为非参数检验,如引例3中的检验问题就属于非参数检验问题
本篇主要介绍参数检验的思想和方法
在参数检验问题中,又会出现单总体和多总体情形.如例1为单总体情形,例2为双总体情形.另外,在参数检验问题中,根据实际需要,还会出现双边检验和单边检验。如例1为双边检验;例2为单边检验.
由上不难发现,假设检验不同于参数估计.参数估计是想了解总体 X X X 中未知参数 θ \theta θ 的取值大约是多少,从而进行点估计等.而假设检验并不想知道未知参数 θ \theta θ 的取值,只是判断未知参数 θ \theta θ 是否满足某种关系.如例1中,检验的问题是接受 μ = 500 \mu=500 μ = 500 ,还是 μ ≠ 500 \mu \neq 500 μ = 500 ,如果 μ ≠ 500 \mu \neq 500 μ = 500 ,那么此时 μ \mu μ 取值多少并不是重点关注的问题.在例2中,由题意知,无论是接受了 p 1 < p 2 p_1<p_2 p 1 < p 2 ,还是 p 1 ⩾ p 2 p_1 \geqslant p_2 p 1 ⩾ p 2 ,都没有涉及 p 1 p_1 p 1 和 p 2 p_2 p 2 各自取值多少的问题.
由于样本的随机性,我们不能简单直观地对检验问题作出回答 .比如在例2中, 36 件甲批产品中的次品率为 2 36 ≈ 5.56 % , 50 \frac{2}{36} \approx 5.56 \%, 50 36 2 ≈ 5.56% , 50 件乙批产品中的次品率为 3 50 = 6 % \frac{3}{50}=6 \% 50 3 = 6% ,虽然有 5.56 % < 6 % 5.56 \%<6 \% 5.56% < 6% ,但不能以此作出结论,认为 p 1 < p 2 p_1< p_2 p 1 < p 2 ,而是需要根据假设检验的思想和方法,进行充分的理论分析,最后给出科学客观的结论.
假设的提法 称检验问题中相互对立的两个命题为假设 或统计假设,并将其中一个命题称为原假设 或零假设 ,记为H 0 H_0 H 0 ;另一个命题称为备择假设 或对立假设 ,记为H 1 H_1 H 1 , 因此检验问题常简记为( H 0 , H 1 ) (H_0,H_1) ( H 0 , H 1 ) 在例1中,μ = 500 \mu=500 μ = 500 是正常情况下原本有的总体均值,故原假设为 H 0 : μ = 500 H_0: \mu=500 H 0 : μ = 500 .而 μ ≠ 500 \mu \neq 500 μ = 500 是可能会发生变化的情况,故备择假设为 H 1 : μ ≠ H_1: \mu \neq H 1 : μ = 500 ,所以假设检验问题为
H 0 : μ = 500 , H 1 : μ ≠ 500 H_0: \mu=500, \quad H_1: \mu \neq 500 H 0 : μ = 500 , H 1 : μ = 500 在例2中,p 1 < p 2 p_1<p_2 p 1 < p 2 是指次品率发生了变化,所以备选假设为 H 1 : p 1 < p 2 H_1: p_1< p_2 H 1 : p 1 < p 2 。与之对应,原假设应该为 H 0 : p 1 ⩾ p 2 H_0: p_1 \geqslant p_2 H 0 : p 1 ⩾ p 2 。由于原假设具有"原本有的""保持不变"的含义,因此 H 0 : p 1 ⩾ p 2 H_0: p_1 \geqslant p_2 H 0 : p 1 ⩾ p 2 可转化为 H 0 ′ : p 1 = p 2 H_0^{\prime}: p_1=p_2 H 0 ′ : p 1 = p 2 .注意此时不可将 H 1 H_1 H 1 : p 1 < p 2 p_1<p_2 p 1 < p 2 转化为 H 1 ′ : p 1 ≠ p 2 H_1^{\prime}: p_1 \neq p_2 H 1 ′ : p 1 = p 2 ,从表面上看这种转换似乎合理,但检验的问题已经发生"质"的变化.因为接受 H 1 ′ H_1^{\prime} H 1 ′ 时,可能会出现 p 1 > p 2 p_1>p_2 p 1 > p 2 ,这与例2中所需检验的问题完全不同.因此例2的假设检验问题为
H 0 : p 1 ⩾ p 2 , H 1 : p 1 < p 2 , 或 H 0 ′ : p 1 = p 2 , H 1 : p 1 < p 2 . H_0: p_1 \geqslant p_2, H_1: p_1<p_2 \text {, 或 } H_0^{\prime}: p_1=p_2, H_1: p_1<p_2 \text {. } H 0 : p 1 ⩾ p 2 , H 1 : p 1 < p 2 , 或 H 0 ′ : p 1 = p 2 , H 1 : p 1 < p 2 . 同理,例3的假设检验问题为
H 0 H_0 H 0 :六个面均匀,H 1 H_1 H 1 :六个面不均匀.
假设检验的思想和方法 1.假设检验中的反证法思想 在数学中,证明某命题成立时,经常运用反证法,即先假定该命题不成立,然后进行理论分析和演算,得到矛盾的结果,表明"假定该命题不成立"是错误的,从而证明了该命题成立.
在假设检验问题 ( H 0 , H 1 ) \left(H_0, H_1\right) ( H 0 , H 1 ) 中,也运用反证法思想(注意:不是指严格的反证法)。具体运用方式为:先假定 H 0 H_0 H 0 成立,然后根据统计分析的思想和方法,进行推理和演算,如果推理和演算的结果中有 矛盾"的现象出现,就"主动地"拒绝 H 0 H_0 H 0 ,接受 H 1 H_1 H 1 ;如果其结果中没有"矛盾"的现象出现,就不能拒绝 H 0 H_0 H 0 ,因此只好"被动地"接受 H 0 H_0 H 0 ,拒绝 H 1 H_1 H 1 。
现在的问题是,如何正确理解和认识上述"矛盾"的现象".事实上,这里的"矛盾"并不是指真正意义上与已有条件相抵触的"矛盾".所谓 "‘矛盾’的现象",实际上是指某种"不正常的现象",这与假设检验的基本原理有着密切的关系。
2.假设检嬐的基本原理 先介绍小概率原理,即在正常情况下,小概率事件在一次抽样中是几乎不可能发生的 .
反之,如果在一次抽样中,某小概率事件 A A A 发生了,应属于"不正常的现象",即"‘矛盾’的现象"出现了.在检验问题( H 0 , H 1 H_0, H_1 H 0 , H 1 )中,就会认为对总体所做的原假设 H 0 H_0 H 0 不正确,从而拒绝 H 0 H_0 H 0 ,接受 H 1 H_1 H 1 。
下面举例说明假设检验的基本原理.
例某食品厂生产的罐头质量(单位: g )X ∼ N ( μ , 4 ) X \sim N(\mu, 4) X ∼ N ( μ , 4 ) ,在正常情况下,μ = 500 \mu=500 μ = 500 .现任意抽取了 16 听罐头,测得其平均质量为 x ˉ = 502 g \bar{x}=502 \mathrm{~g} x ˉ = 502 g ,问可否认为现在仍有 μ = 500 \mu=500 μ = 500 ?
解 由题意知,本题的假设检验问题为 H 0 : μ = 500 , H 1 : μ ≠ 500 H_0: \mu=500, H_1: \mu \neq 500 H 0 : μ = 500 , H 1 : μ = 500 .
先假定 H 0 H_0 H 0 成立,即 μ = 500 \mu=500 μ = 500 .然后构造统计量,对样本进行"加工",把与 μ \mu μ 有关的信息收集起来,把与 μ \mu μ 无关的信息尽量舍弃掉.由定理 正态总体的抽样分布
知,U = X ˉ − μ σ / n = 当 H 0 成立时 X ˉ − 500 σ / n ∼ N ( 0 , 1 ) U=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \xlongequal{\text { 当 } H_0 \text { 成立时 }} \frac{\bar{X}-500}{\sigma / \sqrt{n}} \sim N(0,1) U = σ / n X ˉ − μ 当 H 0 成立时 σ / n X ˉ − 500 ∼ N ( 0 , 1 ) .又 σ = 2 , n = 16 , x ˉ = 502 \sigma=2, n=16, \bar{x}=502 σ = 2 , n = 16 , x ˉ = 502 ,代人
上述统计量后计算得统计量的观察值为
u 0 = 502 − 500 2 / 16 = 4. u_0=\frac{502-500}{2 / \sqrt{16}}=4 . u 0 = 2/ 16 502 − 500 = 4. 由于 U ∼ N ( 0 , 1 ) U \sim N(0,1) U ∼ N ( 0 , 1 ) ,根据正态分布的" 3 σ 3 \sigma 3 σ 原则",P { ∣ U ∣ < 3 } = P\{|U|<3\}= P { ∣ U ∣ < 3 } = 0.9974,从而 ,从而 ,从而 P{|U| \geqslant 3}=0.0026,表明 ,表明 ,表明 U的取值基本上都落在区间 的取值基本上都落在区间 的取值基本上都落在区间 (-3,3)内(如图),而在其外的可能性很小,因此事件 内(如图),而在其外的可能性很小,因此事件 内(如图),而在其外的可能性很小,因此事件 A={|U| \geqslant 3}$为小概率事件.
现在已经求得 u 0 = 4 u_0=4 u 0 = 4 ,意味着小概率事件 A = { ∣ U ∣ ⩾ 3 } A=\{|U| \geqslant 3\} A = { ∣ U ∣ ⩾ 3 } 竟然在一次抽样中发生了,属于"不正常的现象"出现了,根据假设检验的基本原理、应该拒绝 H 0 H_0 H 0 ,即不可认为现在仍有 μ = 500 \mu=500 μ = 500 .
例1只是用来介绍假设检验的基本原理,其中还有许多问题并没有讲透.比如,为什么选择统计量为 U = X ˉ − 500 σ / n U=\frac{\bar{X}-500}{\sigma / \sqrt{n}} U = σ / n X ˉ − 500 ,而不是其他统讨量;又如,小概率事件 A = { ∣ U ∣ ⩾ 3 } A=\{|U| \geqslant 3\} A = { ∣ U ∣ ⩾ 3 } 是由正态分布的 3 σ 3 \sigma 3 σ 原则"产生的,对于其他分布,如 χ 2 \chi^2 χ 2 分布、 t t t 分布和 F F F 分布等并无此原则,那么一般情况下,小概率事件 A A A 又如何确定等.这些问题将在后续内容中逐一介绍.
假设检验的两类错误 根据假设检验的基本原理知道,在假定 H 0 H_0 H 0 成立的情况下,先构造统计量 g ( X 1 , X 2 , ⋯ , X n ) g\left(X_1, X_2, \cdots, X_n\right) g ( X 1 , X 2 , ⋯ , X n ) ,并由 g ( X 1 , X 2 , ⋯ , X n ) g\left(X_1, X_2, \cdots, X_n\right) g ( X 1 , X 2 , ⋯ , X n ) 的分布确定一个小概率事件 A A A .当经过抽样得到样本值 ( x 1 , x 2 , ⋯ , x n ) \left(x_1, x_2, \cdots, x_n\right) ( x 1 , x 2 , ⋯ , x n ) 时,计算统计量 g ( X 1 , X 2 , ⋯ , X n ) g\left(X_1, X_2, \cdots, X_n\right) g ( X 1 , X 2 , ⋯ , X n ) 的观察值 g ( x 1 , x 2 , ⋯ , x n ) g\left(x_1, x_2, \cdots, x_n\right) g ( x 1 , x 2 , ⋯ , x n ) ,再根据 g ( x 1 , x 2 , ⋯ , x n ) g\left(x_1, x_2, \cdots, x_n\right) g ( x 1 , x 2 , ⋯ , x n ) 的结果,决定小概率事件 A A A 是否发生,并依此对检验问题 ( H 0 , H 1 ) \left(H_0, H_1\right) ( H 0 , H 1 ) 作出判断.
如果小概率事件 A A A 发生,则拒绝 H 0 H_0 H 0 .因此,导致小概率事件 A A A 发生的 g ( X 1 , X 2 , ⋯ , X n ) g\left(X_1, X_2, \cdots, X_n\right) g ( X 1 , X 2 , ⋯ , X n ) 的全体取值范围称为 H 0 H_0 H 0 的拒绝域 ,记为 W W W .如果小概率事件 A A A 不发生,则接受 H 0 H_0 H 0 .同理,导致小概率事件 A A A 不发生的 g ( X 1 g\left(X_1\right. g ( X 1 , X 2 , ⋯ , X n ) \left.X_2, \cdots, X_n\right) X 2 , ⋯ , X n ) 的全体取值范围称为 H 0 H_0 H 0 的接受域 .
由于样本具有随机性,在一次抽样中,A A A 可能发生,也可能不发生。因此,检验结果与真实情况之间就有四种情形:
(1)真实情况 $H_0$ 成立,且检验结果接受 $H_0$ ,拒绝 $H_1$ ;
(2)真实情况 $H_0$ 成立,而检验结果拒绝 $H_0$ ,接受 $H_1$ ;
(3)真实情况 $H_1$ 成立,而检验结果接受 $H_0$ ,拒绝 $H_1$ ;
(4)真实情况 $H_1$ 成立,且检验结果拒绝 $H_0$ ,接受 $H_1$ 。由此可见,其中(1)和(4)中的检验结果与真实情况完全吻合,表明理论判断正确.但(2)和(3)中两者不一致,表明理论判断有误,这就是假设检验的两类错误.
两类错误 定义 称真实情况 H 0 H_0 H 0 成立,而检验结果拒绝 H 0 H_0 H 0 为第一类错误 或弃真错误 ;
称真实情况 H 1 H_1 H 1 成立,而检验结果接受 H 0 H_0 H 0 为第二类错误 或存伪错误 。
上述假设检验的两类错误见下表.
由此可知,检验结果无论是接受 H 0 H_0 H 0 ,还是接受 H 1 H_1 H 1 ,都有可能犯错.在实际应用时,佥该尽量降低犯错的概率.
记犯第一类错误即弃真错误的概率为 α \alpha α ,犯第二类错误即存伪错误的概率为 β \beta β .理论上已经证明,当样本容量 n n n 无限增大时,可以同时降低 α \alpha α 和 β \beta β ,而这在实际问题中是不可能做到的.但当样本容量 n n n 取某固定值时,α \alpha α 和 β \beta β 会出现此消彼长的现象.因此,在控制 α \alpha α 和 β \beta β 时,要选择一个先后次序。
由于犯第一类错误时,检验出本来不存在的现象 H 1 H_1 H 1 ,由此现象而衍生出的后续研究及其应用的危害将是不可估量的。因此一般来说,犯第一类错误的危害性比犯第二类错误的危害性要大 。同时也兼顾到假设检验的原理、思想和方法,所以目前比较流行的做法是采用"优先固定或限制犯第一类错误概率 α \alpha α 的原则",并在此基础上,降低犯第二类错误的概率。在实际问题中,根据犯第一类错误的危害性程度,通常取 α \alpha α 为 0.05 , 0.01 0.05,0.01 0.05 , 0.01 , 0.10 等值,其中 α = 0.05 \alpha=0.05 α = 0.05 较为普遍.
当小概率事件 A A A 发生时,拒绝 H 0 H_0 H 0 ,接受 H 1 H_1 H 1 ,这样就会有两种结果:其一,判断正确,即真实情况为 H 1 H_1 H 1 成立;其二,犯第一类错误,因此犯第一类错误的概率 α ⩽ P ( A ) \alpha \leqslant P(A) α ⩽ P ( A ) .另外,当真实情况为 H 0 H_0 H 0 成立时,α = P ( A ) \alpha=P(A) α = P ( A ) .综上,如果在确定小概率事件 A A A 时,使得 P ( A ) = α P(A)=\alpha P ( A ) = α ,这样就能达到"固定或限制犯第一类错误概率"的目的.
在优先固定或限制犯第一类错误概率 α \alpha α 后,如何计算犯第二类错误概率 β \beta β 的问题已经超出本教材的范围,不再讨论.但理论研究表明,当样本容量 n n n 取某固定值时,可以通过构造"好"的统计量或统计方法,降低犯第二类错误的概率 β \beta β . 例如,在正态总体下,选择正态抽样 统计量,就能使得在固定或限制犯第一类错误概率 α \alpha α 后,降低或控制犯第二类错误的概率 β \beta β ,甚至可以将 β \beta β 降至最小值.在例 1中,所选择统计量为 U = X ˉ − 500 σ / n ∼ N ( 0 , 1 ) U=\frac{\bar{X}-500}{\sigma / \sqrt{n}} \sim N(0,1) U = σ / n X ˉ − 500 ∼ N ( 0 , 1 ) 就是基于这些理论研究.
显著性检验 假设检验中有一个特点是量变可能引起质变,也就是说量变到一定的程度就不是"简单的量变",而是产生、本质上的变化(总体的状况已经发生变化)。
例如,在购买白糖时,每袋白糖标准质量为 500 g ,现任意购买了 1 袋白糖,测得其质量为 499 g ,虽然 499 < 500 499<500 499 < 500 ,但这种差别不显著,往往是由样本的随机性造成的,属于正常的偏差。如果购买了 1 袋白糖,测得其质量为 450 g ,那么,差别就非常显著,仅靠样本的随机性误差是不可能达到这样大的偏差,因此怀疑秤有问题或者人为的扣秤,即总体的状况已经发生了质的变化.
显著性检验指的是对于检验问题 ( H 0 , H 1 ) \left(H_0, H_1\right) ( H 0 , H 1 ) ,利用样本信息来判断原假设 H 0 H_0 H 0 是否合理,即判断总体的真实情况与原假设 H 0 H_0 H 0 是否有显著差异。换句话说,显著性检验要判断样本与对总体所做的假设之间产生的差异,是由样本的随机性造成的不显著差异,还是由所建立的假设与总体真实情况之间不一致所引起的显著差异.
根据假设检验的基本原理,先假定 H 0 H_0 H 0 成立,然后选择统计量 g ( X 1 g\left(X_1\right. g ( X 1 , X 2 , ⋯ , X n ) \left.X_2, \cdots, X_n\right) X 2 , ⋯ , X n ) ,并由样本值 ( x 1 , x 2 , ⋯ , x n ) \left(x_1, x_2, \cdots, x_n\right) ( x 1 , x 2 , ⋯ , x n ) 得到统计量的值 g ( x 1 , x 2 , ⋯ , x n ) g\left(x_1, x_2, \cdots, x_n\right) g ( x 1 , x 2 , ⋯ , x n ) ,
如果 g ( x 1 , x 2 , ⋯ , x n ) g\left(x_1, x_2, \cdots, x_n\right) g ( x 1 , x 2 , ⋯ , x n ) 反映了抽样结果与总体情况有显著的差异,则表明总体的状况已经发生了质的变化,这时就应该拒绝 H 0 H_0 H 0 .而拒绝 H 0 H_0 H 0 后,就有可能犯第一类错误。因此,统计中,称犯第一类错误的概率 α \alpha α 为显著性水平 .
显著性水平 α \alpha α 确定了 g ( x 1 , x 2 , ⋯ , x n ) g\left(x_1, x_2, \cdots, x_n\right) g ( x 1 , x 2 , ⋯ , x n ) 所反映的抽样结果与总体情况的差异由量变过渡到质变过程中的临界值或转折点。
通俗地讲,显著性水平 α \alpha α 决定了什么样的差异为显著的差异,又什么样的差异为不显著的差异。具体地讲,将检验统计量的观察值 g ( x 1 , x 2 , ⋯ , x n ) g\left(x_1, x_2, \cdots, x_n\right) g ( x 1 , x 2 , ⋯ , x n ) 和临界值比较,如果 "超出"("超出"的含义应根据具体问题来理解)临界值,就认为有显著的差异,拒绝原假设 H 0 H_0 H 0 ;如果没有"超出"临界值,就认为没有显著的差异,不能拒绝原假设 H 0 H_0 H 0 ,只好被动接受 H 0 H_0 H 0 .
由此可见,显著性水平 α \alpha α 确定了临界值,从而确定了 H 0 H_0 H 0 的拒绝域 W W W 。并且
P { g ( X 1 , X 2 , ⋯ , X n ) ∈ W } = P ( A ) = α P\left\{g\left(X_1, X_2, \cdots, X_n\right) \in W\right\}=P(A)=\alpha P { g ( X 1 , X 2 , ⋯ , X n ) ∈ W } = P ( A ) = α 因此,前面所提及的小概率事件 A A A 为
A = { g ( X 1 , X 2 , ⋯ , X n ) ∈ W } A=\left\{g\left(X_1, X_2, \cdots, X_n\right) \in W\right\} A = { g ( X 1 , X 2 , ⋯ , X n ) ∈ W } 现在的问题是如何确定 H 0 H_0 H 0 的拒绝域 W W W , H 0 H_0 H 0 的拒绝域 W W W 是由统计量 g ( X 1 , X 2 , ⋯ , X n ) g\left(X_1, X_2, \cdots, X_n\right) g ( X 1 , X 2 , ⋯ , X n ) 的分布,及其分位点决定的,同时又与所谓的双侧检验和单侧检验有关.
双侧检验和单侧检验的理论很丰富,这里只介绍一些基本情况.
双侧检验与单侧检验 定义 如果假设检验问题 ( H 0 , H 1 ) \left(H_0, H_1\right) ( H 0 , H 1 ) 为 H 0 : θ = θ 0 , H 1 : θ ≠ θ 0 H_0: \theta=\theta_0, H_1: \theta \neq \theta_0 H 0 : θ = θ 0 , H 1 : θ = θ 0 ,就称之为双侧检验。
如果假设检验问题 ( H 0 , H 1 ) \left(H_0, H_1\right) ( H 0 , H 1 ) 为 H 0 : θ ⩾ θ 0 , H 1 : θ < θ 0 H_0: \theta \geqslant \theta_0, H_1: \theta<\theta_0 H 0 : θ ⩾ θ 0 , H 1 : θ < θ 0 ,或 H 0 : θ ⩽ θ 0 , H 1 : θ > θ 0 H_0: \theta \leqslant \theta_0, H_1: \theta>\theta_0 H 0 : θ ⩽ θ 0 , H 1 : θ > θ 0 ,就称之为单侧检验.
对于双侧检验,由显著性水平 α \alpha α 、统计量 g ( X 1 , X 2 , ⋯ , X n ) g\left(X_1, X_2, \cdots, X_n\right) g ( X 1 , X 2 , ⋯ , X n ) 的分布,以及两侧的同等重要程度,得出上侧分位点即临界值 g α 2 g_{\frac{\alpha}{2}} g 2 α 和 g 1 − α 2 g_{1-\frac{\alpha}{2}} g 1 − 2 α ,故 H 0 H_0 H 0 的拒绝域为
W = { g ( X 1 , X 2 , ⋯ , X n ) ⩽ g 1 − α 2 或 g ( X 1 , X 2 , ⋯ , X n ) ⩾ g α 2 } , W=\left\{g\left(X_1, X_2, \cdots, X_n\right) \leqslant g_{1-\frac{\alpha}{2}} \quad \text { 或 } \quad g\left(X_1, X_2, \cdots, X_n\right) \geqslant g_{\frac{\alpha}{2}}\right\} \text {, } W = { g ( X 1 , X 2 , ⋯ , X n ) ⩽ g 1 − 2 α 或 g ( X 1 , X 2 , ⋯ , X n ) ⩾ g 2 α } , 其中 g α 2 g_{\frac{\alpha}{2}} g 2 α 和 g 1 − α 2 g_{1-\frac{\alpha}{2}} g 1 − 2 α 满足 P { g ( X 1 , X 2 , ⋯ , X n ) ⩽ g 1 − α 2 } = P { g ( X 1 , X 2 , ⋯ , X n ) ⩾ P\left\{g\left(X_1, X_2, \cdots, X_n\right) \leqslant g_{1-\frac{\alpha}{2}}\right\}=P\left\{g\left(X_1, X_2, \cdots, X_n\right) \geqslant\right. P { g ( X 1 , X 2 , ⋯ , X n ) ⩽ g 1 − 2 α } = P { g ( X 1 , X 2 , ⋯ , X n ) ⩾
g α 2 } = α 2 \left.g_{\frac{\alpha}{2}}\right\}=\frac{\alpha}{2} g 2 α } = 2 α 对于单侧检验,理论上已经证明,H 0 : θ ⩾ θ 0 , H 1 : θ < θ 0 H_0: \theta \geqslant \theta_0, H_1: \theta<\theta_0 H 0 : θ ⩾ θ 0 , H 1 : θ < θ 0 可转化为 H 0 : θ = θ 0 , H 1 : θ < θ 0 ; H 0 : θ ⩽ θ 0 , H 1 : θ > θ 0 H_0: \theta= \theta_0, H_1: \theta<\theta_0 ; H_0: \theta \leqslant \theta_0, H_1: \theta>\theta_0 H 0 : θ = θ 0 , H 1 : θ < θ 0 ; H 0 : θ ⩽ θ 0 , H 1 : θ > θ 0 可转化为 H 0 : θ = θ 0 , H 1 : θ > θ 0 H_0: \theta=\theta_0, H_1: \theta>\theta_0 H 0 : θ = θ 0 , H 1 : θ > θ 0 .此时由于各自的备选假设 H 1 H_1 H 1 相同,根据功效函数的性质(感兴趣的同学可参阅相关资料,此处不再详细介绍),对于给定的显著性水平 α \alpha α ,有相同的 H 0 H_0 H 0 的拒绝域.因此,当 H 0 H_0 H 0 为真时,可由 θ = θ 0 \theta=\theta_0 θ = θ 0 确定统计量 g ( X 1 , X 2 , ⋯ , X n ) g\left(X_1, X_2, \cdots, X_n\right) g ( X 1 , X 2 , ⋯ , X n ) 及其分布,进而得 H 0 H_0 H 0 的拒绝域为
W = { g ( X 1 , X 2 , ⋯ , X n ) ⩽ g 1 − α } 或 W = { g ( X 1 , X 2 , ⋯ , X n ) ⩾ g α } . W=\left\{g\left(X_1, X_2, \cdots, X_n\right) \leqslant g_{1-\alpha}\right\} \quad \text { 或 } W=\left\{g\left(X_1, X_2, \cdots, X_n\right) \geqslant g_\alpha\right\} \text {. } W = { g ( X 1 , X 2 , ⋯ , X n ) ⩽ g 1 − α } 或 W = { g ( X 1 , X 2 , ⋯ , X n ) ⩾ g α } . 假设检验的四个步骤 经过以上介绍,可以整理出假设检验的下列四个步骤.
第一步:根据给定的问题,建立假设检验问题 ( H 0 , H 1 ) \left(H_0, H_1\right) ( H 0 , H 1 ) ;
第二步:根据检验问题 ( H 0 , H 1 ) \left(H_0, H_1\right) ( H 0 , H 1 ) 及条件,当 H 0 H_0 H 0 为真时,选择统计量 g ( X 1 , X 2 , ⋯ , X n ) g\left(X_1, X_2, \cdots, X_n\right) g ( X 1 , X 2 , ⋯ , X n ) ,并确定 g ( X 1 , X 2 , ⋯ , X n ) g\left(X_1, X_2, \cdots, X_n\right) g ( X 1 , X 2 , ⋯ , X n ) 的分布;
第三步:根据显著性水平 α \alpha α ,确定临界值和原假设 H 0 H_0 H 0 的拒绝域 W W W ;
第四步:根据样本值 ( x 1 , x 2 , ⋯ , x n ) \left(x_1, x_2, \cdots, x_n\right) ( x 1 , x 2 , ⋯ , x n ) ,计算统计量 g ( X 1 , X 2 , ⋯ , X n ) g\left(X_1, X_2, \cdots, X_n\right) g ( X 1 , X 2 , ⋯ , X n ) 的观察值 g ( x 1 , x 2 , ⋯ , x n ) g\left(x_1, x_2, \cdots, x_n\right) g ( x 1 , x 2 , ⋯ , x n ) .若 g ( x 1 , x 2 , x n ) ∈ W g\left(x_1, x_2, x_n\right) \in W g ( x 1 , x 2 , x n ) ∈ W ,则拒绝 H 0 H_0 H 0 ,否则接受 H 0 H_0 H 0 .
例 某食品厂生产的罐头质量(单位: g g g ) X ∼ N ( μ , 4 ) X \sim N(\mu, 4) X ∼ N ( μ , 4 ) ,在正常情况下,μ = 500 \mu=500 μ = 500 .现任意抽取了 16 听罐头,测得其平均质量为 x ˉ = 502 g \bar{x}=502 \mathrm{~g} x ˉ = 502 g .在显著性水平 α = 0.05 \alpha=0.05 α = 0.05 下,问可否认为现在仍有 μ = 500 \mu=500 μ = 500 ?
解: 假设检验问题为 H 0 : μ = 500 , H 1 : μ ≠ 500 H_0: \mu=500, H_1: \mu \neq 500 H 0 : μ = 500 , H 1 : μ = 500 . 根据正态抽样 选择统计量以及分布为
U = X ˉ − μ σ / n = 当 H 0 成立时 X ˉ − 500 σ / n ∼ N ( 0 , 1 ) . U=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \xlongequal{\text { 当 } H_0 \text { 成立时 }} \frac{\bar{X}-500}{\sigma / \sqrt{n}} \sim N(0,1) \text {. } U = σ / n X ˉ − μ 当 H 0 成立时 σ / n X ˉ − 500 ∼ N ( 0 , 1 ) . 由于该检验为双侧检验,α = 0.05 \alpha=0.05 α = 0.05 ,即拒绝域左右面积个为0.025,因此要查找的面积是0.9725, (如果不会查表请参考此处 ,下图给出了1.96,在考试时这个数字需要自己查正态表的)
现在切换到正态分布表上,
查表得临界值为 u α 2 = u 0.025 = 1.96 u_{\frac{\alpha}{2}}=u_{0.025}=1.96 u 2 α = u 0.025 = 1.96 和 u 1 − α 2 = u 0.975 = − u 0.025 = − 1.96 u_{1-\frac{\alpha}{2}}=u_{0.975}=-u_{0.025}=-1.96 u 1 − 2 α = u 0.975 = − u 0.025 = − 1.96
由于该检验为双侧检验,α = 0.05 \alpha=0.05 α = 0.05 ,查表得临界值为 u α 2 = u 0.025 = 1.96 u_{\frac{\alpha}{2}}=u_{0.025}=1.96 u 2 α = u 0.025 = 1.96 和 u 1 − α 2 = u 0.975 = − u 0.025 = − 1.96 u_{1-\frac{\alpha}{2}}=u_{0.975}=-u_{0.025}=-1.96 u 1 − 2 α = u 0.975 = − u 0.025 = − 1.96 ,所以 H 0 H_0 H 0 的拒绝域(如图)为
W = { U ⩽ − 1.96 或 U ⩾ 1.96 } = { ∣ U ∣ ⩾ 1.96 } . W=\{U \leqslant-1.96 \text { 或 } U \geqslant 1.96\}=\{|U| \geqslant 1.96\} \text {. } W = { U ⩽ − 1.96 或 U ⩾ 1.96 } = { ∣ U ∣ ⩾ 1.96 } . 又 σ = 2. n = 16. x ˉ = 502 \sigma=2 . n=16 . \bar{x}=502 σ = 2. n = 16. x ˉ = 502 .计算得统计量的观察值为 u 0 = 502 − 500 2 / 16 = 4 ∈ W u_0=\frac{502-500}{2 / \sqrt{16}}=4 \in W u 0 = 2/ 16 502 − 500 = 4 ∈ W ,所以拒绝 H 0 H_0 H 0 ,即不可认为现在仍有 μ = 500 \mu=500 μ = 500 .
例 某车间用一台包装机包装葡萄糖.包得的袋装质量是一个随机变量,它服从正态分布。当机器正常时,质量 X ∼ N ( 500 , 2 2 ) X \sim N\left(500,2^2\right) X ∼ N ( 500 , 2 2 ) (单位: g ).某日开工后为检验包装机是否正常,随机地抽取它所包装的糖 9 袋,称得质量为
505 , 499 , 502 , 506 , 498 , 498 , 497 , 510 , 503 505,499,502,506,498,498,497,510,503 505 , 499 , 502 , 506 , 498 , 498 , 497 , 510 , 503 假设总体标准差 σ \sigma σ 不变,即 σ = 2 \sigma=2 σ = 2 ,试问包装机工作是否正常?
解:根据上述法则,
由 μ 0 = 500 , σ 0 = 2 , α = 0.05 , n = 9 \mu_0=500, \sigma_0=2, \alpha=0.05, n=9 μ 0 = 500 , σ 0 = 2 , α = 0.05 , n = 9 及
x ˉ = ( 505 + 499 + 502 + 506 + 498 + 498 + 497 + 510 + 503 ) / 9 = 502. \bar{x}=(505+499+502+506+498+498+497+510+503) / 9=502 . x ˉ = ( 505 + 499 + 502 + 506 + 498 + 498 + 497 + 510 + 503 ) /9 = 502. 检验统计量 U U U 的值
u = 502 − 500 2 / 3 = 3 , ∣ u ∣ = 3 > 1.96 = u 1 − α 2 \begin{gathered}
u=\frac{502-500}{2 / 3}=3, \\
|u|=3>1.96=u_{1-\frac{\alpha}{2}}
\end{gathered} u = 2/3 502 − 500 = 3 , ∣ u ∣ = 3 > 1.96 = u 1 − 2 α 样本点落入拒绝域 W W W 内,故拒绝原假设 H 0 H_0 H 0 ,接受 H 1 H_1 H 1 。
在显著性水平 α = 0.05 \alpha=0.05 α = 0.05 下,认为这天葡萄糖包装机工作不正常.
例 设总体 X X X 服从正态分布 N ( μ , 1 2 ) , X 1 , X 2 , X 3 , X 4 N\left(\mu, 1^2\right), X_1, X_2, X_3, X_4 N ( μ , 1 2 ) , X 1 , X 2 , X 3 , X 4 是该总体的样本,对于检验假设
H 0 : μ = 0 , H 1 : μ = μ 1 ( μ 1 > 0 ) , H_0: \mu=0, H_1: \mu=\mu_1\left(\mu_1>0\right), H 0 : μ = 0 , H 1 : μ = μ 1 ( μ 1 > 0 ) , 已知拒绝域为 X ˉ > 0.98 \bar{X}>0.98 X ˉ > 0.98 ,问:此检验犯第一类错误的概率是多少?若 μ 1 = 1 \mu_1=1 μ 1 = 1 ,则犯第二类错误的概率是多少?
解 我们已知,犯第一类错误的概率就是显著性水平 α \alpha α ,即
α = P { 拒绝 H 0 ∣ H 0 为真 } = P { X ˉ > 0.98 ∣ μ = 0 } . \alpha=P\left\{\text { 拒绝 } H_0 \mid H_0 \text { 为真 }\right\}=P\{\bar{X}>0.98 \mid \mu=0\} \text {. } α = P { 拒绝 H 0 ∣ H 0 为真 } = P { X ˉ > 0.98 ∣ μ = 0 } . 由于 μ = 0 \mu=0 μ = 0 时, X ˉ ∼ N ( 0 , 1 4 ) \bar{X} \sim N\left(0, \frac{1}{4}\right) X ˉ ∼ N ( 0 , 4 1 ) ,故
α = P { X ˉ > 0.98 } = 1 − P { X ˉ ⩽ 0.98 } = 1 − Φ ( 0.98 − 0 1 2 ) = 1 − Φ ( 1.96 ) = 0.025. \alpha=P\{\bar{X}>0.98\}=1-P\{\bar{X} \leqslant 0.98\}=1-\Phi\left(\frac{0.98-0}{\frac{1}{2}}\right)=1-\Phi(1.96)=0.025 . α = P { X ˉ > 0.98 } = 1 − P { X ˉ ⩽ 0.98 } = 1 − Φ ( 2 1 0.98 − 0 ) = 1 − Φ ( 1.96 ) = 0.025. 犯第二类错误的概率
β = P { 接受 H 0 ∣ H 0 不真 } = P { 接受 H 0 ∣ H 1 为真 } = P { X ˉ ⩽ 0.98 ∣ μ = μ 1 } , \beta=P\left\{\text { 接受 } H_0 \mid H_0 \text { 不真 }\right\}=P\left\{\text { 接受 } H_0 \mid H_1 \text { 为真 }\right\}=P\left\{\bar{X} \leqslant 0.98 \mid \mu=\mu_1\right\} \text {, } β = P { 接受 H 0 ∣ H 0 不真 } = P { 接受 H 0 ∣ H 1 为真 } = P { X ˉ ⩽ 0.98 ∣ μ = μ 1 } , 由于 μ = μ 1 = 1 \mu=\mu_1=1 μ = μ 1 = 1 ,此时 X ˉ ∼ N ( 1 , 1 4 ) \bar{X} \sim N\left(1, \frac{1}{4}\right) X ˉ ∼ N ( 1 , 4 1 ) ,故
β = P { X ˉ ⩽ 0.98 } = Φ ( 0.98 − 1 1 2 ) = Φ ( − 0.04 ) = 1 − Φ ( 0.04 ) = 0.484 \beta=P\{\bar{X} \leqslant 0.98\}=\Phi\left(\frac{0.98-1}{\frac{1}{2}}\right)=\Phi(-0.04)=1-\Phi(0.04)=0.484 β = P { X ˉ ⩽ 0.98 } = Φ ( 2 1 0.98 − 1 ) = Φ ( − 0.04 ) = 1 − Φ ( 0.04 ) = 0.484