8._区间估计概述

引言

在上一节中我们讨论了参数的点估计,只要给定样本的观测值,就能得到参数θ\theta的估计值.但是,估计值只是θ\theta的一个近似值,它与θ\theta真值的误差是多少并不知道,而在实际问题中,这种误差的大小往往是人们比较关心的.例如,在产品交易过程中,需要通过抽样对次品率进行估计,若估计误差达到1%,就可能对交易的某一方带来重大损失.因此,在实际应用中,不仅需要知道参数θ\theta的估计值,还需要找到参数的估计范围来体现估计的精度.为此,我们要根据样本构造一个包含θ\theta真值的范围或区间,并且使其包含θ\theta真值的概率达到指定的要求.这种区间称为置信区间,通过构造一个置信区间对未知参数进行估计的方法称为区间估计. 区间估计是参数估计的另一种方式,它弥补了点估计在某些方面的缺陷.例如,在估计某行业人员的平均月收入时,可以说“平均月收入5000元”,这就是点估计;也可以说“平均月收入在4800元至5200元之间”,这就是区间估计.显然后者的信息量更大,更有参考价值.

区间估计的概念

定义θ\theta 为总体的未知参数,若对于给定的 α(0<α<1)\alpha(0<\alpha<1) ,存在统计量 θ^1=θ^1(X1,X2,,Xn)\hat{\theta}_1=\hat{\theta}_1\left(X_1, X_2, \cdots, X_n\right)θ^2=θ^2(X1,X2,,Xn)\hat{\theta}_2=\hat{\theta}_2\left(X_1, X_2, \cdots, X_n\right) ,使

P{θ^1θθ^2}=1α,...(7.6)P\left\{\hat{\theta}_1 \leqslant \theta \leqslant \hat{\theta}_2\right\}=1-\alpha, ...(7.6)

则称随机区间 [θ^1,θ^2]\left[\hat{\theta}_1, \hat{\theta}_2\right] 为参数 θ\theta 的置信度(或置信水平)为 1α1-\alpha 的置信区间,θ^1\hat{\theta}_1θ^2\hat{\theta}_2 分别称为置信下限和置信上限。

由定义可知,置信区间是以统计量为端点的随机区间,对于给定的样本观测值 (x1,x2,,xn)\left(x_1, x_2, \cdots, x_n\right) ,由统计量的值 θ^1(x1,x2,,xn),θ^2(x1,x2,,xn)\hat{\theta}_1\left(x_1, x_2, \cdots, x_n\right), \hat{\theta}_2\left(x_1, x_2, \cdots, x_n\right) 构成的置信区间 [θ^1,θ^2]\left[\hat{\theta}_1, \hat{\theta}_2\right] 可能包含真值 θ\theta ,也可能不包含真值 θ\theta ,但在多次观测或试验中,每一个样本皆可得到一个置信区间 [θ^1,θ^2]\left[\hat{\theta}_1, \hat{\theta}_2\right] ,在这些区间中,包含真值 θ\theta 的区间大约占 100(1α)%100(1-\alpha) \% ,不包含 θ\theta 的大约占 100α%100 \alpha \% 。例如,取 α=0.05\alpha=0.05 ,相当于在 100 次区间估计中,大约有 95 个区间包含真值 θ\theta ,而不包含 θ\theta 的约占 5 个。

区间估计既给出了参数估计的可靠程度(置信度),又给出了估计的精确程度(置信区间长度),很显然,可靠程度与精确程度是相互矛盾的,当样本容量固定时,要提高置信度,就要降低精度(区间加长).因此,在实际应用中,需要通过样本容量的增加来把握二者的平衡.

对于初学者来说,看完上面的定义估计仍然不知所云,具体请参考下一节 置信区间 的通俗解释

评估区间估计优劣的指标-置信区间

当你看到一个人估计他的年龄时,有两个矛盾的要求。 (1)估计要越精确越好,比如一个人真实年龄是32岁,那么你估计 [30,35][30,35] 内. 比估计 109010-90 岁之间好,换言之,估计时,参数的区间越小越好。

(2)误差越小越好,参考上面例子,如果估计年龄为[33,35][33,35] 虽然区间小了,但是误差就越大了。

所以这是两个矛盾要求,在这种情况下,我们就希望区间估计时,一方面尽可能可靠,一方面要尽可能准确

给定一个很小的数 α>0\alpha>0. 如果对参数 θ\theta 的任何值,概率(7.6)都等于 1α1-\alpha ,则称区间估计 [θ^1,θ^2]\left[\hat{\theta}_1, \hat{\theta}_2\right] 的置信系数为 1α1-\alpha. 区间估计也常称为"置信区间"。字面上的意思是:对该区间能包含未知参数 θ\theta 可置信到何种程度.