8._区间估计概述 - Probability Theory and Mathematical Statistics

引言

在上一节中我们讨论了参数的点估计，只要给定样本的观测值，就能得到参数 $\theta$ 的估计值．但是，估计值只是 $\theta$ 的一个近似值，它与 $\theta$ 真值的误差是多少并不知道，而在实际问题中，这种误差的大小往往是人们比较关心的．例如，在产品交易过程中，需要通过抽样对次品率进行估计，若估计误差达到1%，就可能对交易的某一方带来重大损失．因此，在实际应用中，不仅需要知道参数 $\theta$ 的估计值，还需要找到参数的估计范围来体现估计的精度．为此，我们要根据样本构造一个包含 $\theta$ 真值的范围或区间，并且使其包含 $\theta$ 真值的概率达到指定的要求．这种区间称为置信区间，通过构造一个置信区间对未知参数进行估计的方法称为区间估计．区间估计是参数估计的另一种方式，它弥补了点估计在某些方面的缺陷．例如，在估计某行业人员的平均月收入时，可以说“平均月收入5000元”，这就是点估计；也可以说“平均月收入在4800元至5200元之间”，这就是区间估计．显然后者的信息量更大，更有参考价值．

区间估计的概念

定义设 $\theta$ 为总体的未知参数，若对于给定的 $\alpha(0<\alpha<1)$ ，存在统计量 $\hat{\theta}_1=\hat{\theta}_1\left(X_1, X_2, \cdots, X_n\right)$ 和 $\hat{\theta}_2=\hat{\theta}_2\left(X_1, X_2, \cdots, X_n\right)$ ，使

P\left\{\hat{\theta}_1 \leqslant \theta \leqslant \hat{\theta}_2\right\}=1-\alpha, ...(7.6)

则称随机区间 $\left[\hat{\theta}_1, \hat{\theta}_2\right]$ 为参数 $\theta$ 的置信度（或置信水平）为 $1-\alpha$ 的置信区间， $\hat{\theta}_1$ 和 $\hat{\theta}_2$ 分别称为置信下限和置信上限。

由定义可知，置信区间是以统计量为端点的随机区间，对于给定的样本观测值 $\left(x_1, x_2, \cdots, x_n\right)$ ，由统计量的值 $\hat{\theta}_1\left(x_1, x_2, \cdots, x_n\right), \hat{\theta}_2\left(x_1, x_2, \cdots, x_n\right)$ 构成的置信区间 $\left[\hat{\theta}_1, \hat{\theta}_2\right]$ 可能包含真值 $\theta$ ，也可能不包含真值 $\theta$ ，但在多次观测或试验中，每一个样本皆可得到一个置信区间 $\left[\hat{\theta}_1, \hat{\theta}_2\right]$ ，在这些区间中，包含真值 $\theta$ 的区间大约占 $100(1-\alpha) \%$ ，不包含 $\theta$ 的大约占 $100 \alpha \%$ 。例如，取 $\alpha=0.05$ ，相当于在 100 次区间估计中，大约有 95 个区间包含真值 $\theta$ ，而不包含 $\theta$ 的约占 5 个。

区间估计既给出了参数估计的可靠程度（置信度），又给出了估计的精确程度（置信区间长度），很显然，可靠程度与精确程度是相互矛盾的，当样本容量固定时，要提高置信度，就要降低精度（区间加长）．因此，在实际应用中，需要通过样本容量的增加来把握二者的平衡．

对于初学者来说，看完上面的定义估计仍然不知所云，具体请参考下一节置信区间的通俗解释

评估区间估计优劣的指标-置信区间

当你看到一个人估计他的年龄时，有两个矛盾的要求。（1）估计要越精确越好，比如一个人真实年龄是32岁，那么你估计 $[30,35]$ 内. 比估计 $10-90$ 岁之间好，换言之，估计时，参数的区间越小越好。

（2）误差越小越好，参考上面例子，如果估计年龄为 $[33,35]$ 虽然区间小了，但是误差就越大了。

所以这是两个矛盾要求，在这种情况下，我们就希望区间估计时，一方面尽可能可靠，一方面要尽可能准确。

给定一个很小的数 $\alpha>0$ . 如果对参数 $\theta$ 的任何值，概率（7.6）都等于 $1-\alpha$ ，则称区间估计 $\left[\hat{\theta}_1, \hat{\theta}_2\right]$ 的置信系数为 $1-\alpha$ . 区间估计也常称为"置信区间"。字面上的意思是：对该区间能包含未知参数 $\theta$ 可置信到何种程度.