11._单个正态总体的参数的区间估计

在实际问题当中,对正态分布的均值和方程估计非常常见,依据 μ,σ2\mu, \sigma^2 的不同,主要分为四种情况,下面分布介绍。

(1)σ2\sigma^2 已知,均值 μ\mu 的置信区间

证明X1,X2,,XnX_1, X_2, \cdots, X_n 是来自总体 XN(μ,σ2),σ2X \sim N\left(\mu, \sigma^2\right), \sigma^2 为已知,μ\mu 为末知的样本,求置信概率为 1α1-\alphaμ\mu 的置信区间。

解: 由 X1,X2,,XnX_1, X_2, \cdots, X_n 来自总体 XN(μ,σ2)X \sim N\left(\mu, \sigma^2\right) 的样本及 Xˉ\bar{X}μ\mu 的无偏估计可知,

u=Xˉμσ/nN(0,1)u=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)

由标准正态分布分位点 uα/2u_{\alpha / 2} 的定义,有

P{Xˉμσ/n<uα/2}=1αP\left\{\left|\frac{\bar{X}-\mu}{\sigma / \sqrt{n}}\right|<u_{\alpha / 2}\right\}=1-\alpha

P{Xˉσnuα/2<μ<Xˉ+σnuα/2}=1αP\left\{\bar{X}-\frac{\sigma}{\sqrt{n}} u_{\alpha / 2}<\mu<\bar{X}+\frac{\sigma}{\sqrt{n}} u_{\alpha / 2}\right\}=1-\alpha

所以置信概率为 1α1-\alphaμ\mu 的置信区间为

[Xˉuα2σn,Xˉ+uα2σn].\boxed{ \left[\bar{X}-u_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}, \bar{X}+u_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}\right] . }

常写成 (Xˉ±σnuα/2)\left(\bar{X} \pm \frac{\sigma}{\sqrt{n}} u_{\alpha / 2}\right)

上面的证明过于抽象,下面例题反应他的实际意义。

新疆旅游局为调查新疆旅游者的平均消费额,随机访问了 100 名旅游者,得知平均消费额 xˉ=80\bar{x}=80 元。根据经验,已知旅游者消费服从正态分布,且标准差 σ=12\sigma=12 元,求该地旅游者平均消费额 μ\mu 的置信度为 95%95 \% 的置信区间.

分析:本题要求估算旅游者平均消费额多少钱,现在已经知道平均消费8080元,这是一个点估计,本题要求给出的是区间估计,结合本题稍后给出的答案,本题可以转换为:我有95%95 \%的把握说用户的平均消费金额在77.682.477.6 \sim 82.4

95%95 \% 的置信区间就是要求所估计的平均消费金额有95%95 \%可能性在下图大的阴影面积里。

图片{width=500px}

因为考试时正态分布表不会给你数据直接查,所以需要进行转换。换句话说两旁的黄色面积总和为0.05, 考虑标准正态分布的对称性直接把α\alpha除以2, 所以两侧黄色阴影的面积各为α2=0.025\frac{\alpha}{2}=0.025

由此可得斜线阴影面积为 0.025+0.95=0.9750.025+0.95=0.975 图片{width=500px}

下面把视角切换到正态分布表里。 从正态分布分位数表可以看到当ua=1.96u_a=1.96 时,阴影面积正好为0.975.

上面这个结论最好记住:当正态分布估计量上下浮动±1.96\pm 1.96时,此时具有 95%95\% 的可信度,这是一个常用的结论

img-text{width=600px}

解:

对于给定的置信度

1α=0.951-\alpha=0.95

可知

α=0.05,α/2=0.025\alpha=0.05, \quad \alpha / 2=0.025

查标准正态分布表得 附录给出了 标准正态分布分位表

u0.025=1.96u_{0.025}=1.96

n=100,xˉ=80,σ=12,u0.025=1.96n=100, \quad \bar{x}=80, \quad \sigma=12, \quad u_{0.025}=1.96

计算得

xˉuα/2σn=801.961210=82.4=77.6,xˉ+uα/2σn=80+1.961210=82.4,\bar{x}-u_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}=80-1.96* \frac{12}{\sqrt{10}}=82.4=77.6, \quad \bar{x}+u_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}=80+1.96* \frac{12}{\sqrt{10}}=82.4,

所以 μ\mu 的置信度为 95%95 \% 的置信区间为 (77.6,82.4)(77.6,82.4)

即在已知误差为 σ=12\sigma=12 的情形下,可以 95%95 \% 的置信度认为每个旅游者的平均消费额在 77.682.477.6 \sim 82.4 元范围内.

扩展本题 如果本题要求有90%90\%的置信区间呢?此时阴影面积为0.9+0.05=0.950.9+0.05=0.95,查表得ua=1.645u_a=1.645

计算得

xˉuα/2σn=801.6451210=82.4=78.0xˉ+uα/2σn=80+1.6451210=82.0\bar{x}-u_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}=80-1.645* \frac{12}{\sqrt{10}}=82.4=78.0 \quad \bar{x}+u_{\alpha / 2} \cdot \frac{\sigma}{\sqrt{n}}=80+1.645* \frac{12}{\sqrt{10}}=82.0

对结果解读:

如果领导问你,游客平均消费多少呀?你可以回答,我有95%95\%的把握说用户消费金额在77.682.477.6 \sim 82.4 之间,如果希望更精确的消费答案,我有90%90\%的把握说用户消费金额在 78.082.078.0 \sim 82.0之间。从本题还可以看到,因为后者限定的范围更小,导致我在估算时的保证度降低,所以需要理解其中的含义。

图片{width=500px}

某工厂生产一种特殊的发动机套筒,假设套筒直径 X(mm)X(mm) 服从正态分布 N(μ,0.12)N\left(\mu, 0.1^2\right) ,现从某天的产品中随机抽取 40 件,测得直径的样本均值为 5.426(mm)5.426(mm) ,求 μ\mu 的置信度为 0.95 的置信区间.

解 因为 σ2\sigma^2 已知,所以 μ\mu 的置信度为 1α1-\alpha 的置信区间为

[Xˉuα2σn,Xˉ+uα2σn].\left[\bar{X}-u_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}, \bar{X}+u_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}\right] .

由题意得 xˉ=5.426,n=40,σ=0.1,α=0.05\bar{x}=5.426, n=40, \sigma=0.1, \alpha=0.05 ,查表 得 uα2=u0.025=1.96u_{\frac{\alpha}{2}}=u_{0.025}=1.96 . 将上述数据代入公式,得 μ\mu 的置信度为 0.95 的置信区间为

[5.4261.96×0.140,5.426+1.96×0.140]=[5.395,5.457].\left[5.426-1.96 \times \frac{0.1}{\sqrt{40}}, 5.426+1.96 \times \frac{0.1}{\sqrt{40}}\right]=[5.395,5.457] .

(2)σ2\sigma^2 未知,均值 μ\mu 的置信区间

由于 σ2\sigma^2 末知,故考虑用 σ2\sigma^2 的无偏估计量 S2=1n1i=1n(XiXˉ)2S^2=\frac{1}{n-1} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2 来代替 σ2\sigma^2 ,则得到枢轴量

T=XˉμS/nt(n1)T=\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1)

P{tα2(n1)Ttα2(n1)}=1αP\left\{-t_{\frac{\alpha}{2}}(n-1) \leqslant T \leqslant t_{\frac{\alpha}{2}}(n-1)\right\}=1-\alpha

P{tα2(n1)XˉμS/ntα2(n1)}=1αP\left\{-t_{\frac{\alpha}{2}}(n-1) \leqslant \frac{\bar{X}-\mu}{S / \sqrt{n}} \leqslant t_{\frac{\alpha}{2}}(n-1)\right\}=1-\alpha

进行恒等变形得

P{Xˉtα2(n1)SnμXˉ+tα2(n1)Sn}=1αP\left\{\bar{X}-t_{\frac{\alpha}{2}}(n-1) \frac{S}{\sqrt{n}} \leqslant \mu \leqslant \bar{X}+t_{\frac{\alpha}{2}}(n-1) \frac{S}{\sqrt{n}}\right\}=1-\alpha

可得 μ\mu 的置信度为 1α1-\alpha 的置信区间为

[Xˉtα2(n1)Sn,Xˉ+tα2(n1)Sn].\boxed{ \left[\bar{X}-t_{\frac{\alpha}{2}}(n-1) \frac{S}{\sqrt{n}}, \bar{X}+t_{\frac{\alpha}{2}}(n-1) \frac{S}{\sqrt{n}}\right] . }

由于

Sn=S0n1,S0=1ni=1n(XiXˉ)2\frac{S}{\sqrt{n}}=\frac{S_0}{\sqrt{n-1}}, S_0=\sqrt{\frac{1}{n} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2}

所以 μ\mu 的置信区间也可写成

[XˉS0n1tα2(n1),Xˉ+S0n1tα2(n1)].\left[\bar{X}-\frac{S_0}{\sqrt{n-1}} t_{\frac{\alpha}{2}}(n-1), \bar{X}+\frac{S_0}{\sqrt{n-1}} t_{\frac{\alpha}{2}}(n-1)\right] .

为检查某批零件的长度,随机抽取 16 个零件,测得平均长度为 20.5 cm,样本标准差为 0.8 cm。假设零件长度服从正态分布,求该批零件平均长度 μ\mu 的 95% 置信区间。

解答:

  1. 目标:估计总体均值 μ\mu

  2. 条件:总体服从正态分布,但总体方差未知(只给出了样本标准差 S=0.8)。因此,应使用 t 分布

  3. 已知信息

  • Xˉ=20.5\bar{X} = 20.5

  • S=0.8S = 0.8

  • n=16n = 16

  • 置信水平 1α=95%1-\alpha = 95\%,所以 α=0.05\alpha = 0.05

  1. 查t分布表:自由度 df=n1=15df = n-1 = 15,查 t 分布表得 tα/2(15)=t0.025(15)=2.131t_{\alpha/2}(15) = t_{0.025}(15) = 2.131

横坐标为什么查0.9750.975和上一个例题原理一样。 纵坐标,自由度为15,这里特别要注意:自由度为n1n-1,因为在计算方程式,使用了平均值公式,所以减少了一个自由度。

图片{width=600px}

  1. 计算误差界,也就是带入上面公式

E=tα/2(n1)Sn=2.131×0.816=2.131×0.2=0.4262E = t_{\alpha/2}(n-1) \cdot \frac{S}{\sqrt{n}} = 2.131 \times \frac{0.8}{\sqrt{16}} = 2.131 \times 0.2 = 0.4262
  1. 构建置信区间

(XˉE, Xˉ+E)=(20.50.4262, 20.5+0.4262)=(20.0738, 20.9262)(\bar{X} - E,\ \bar{X} + E) = (20.5 - 0.4262,\ 20.5 + 0.4262) = (20.0738,\ 20.9262)

结论 我们有 95% 的把握认为该批零件的真实平均长度在 20.07 cm 到 20.93 cm 之间。

希望这个详细的总结能帮助你彻底理解单个正态总体的置信区间问题!

在现实生活中,未知方差,估值μ\mu 的置信区间是最经常遇到的。

有一大批糖果.现从中随机地取 16 袋,称得重量(以 g 计)如下:

506508499503504510497512514505493496506502509496\begin{array}{llllllll} 506 & 508 & 499 & 503 & 504 & 510 & 497 & 512 \\ 514 & 505 & 493 & 496 & 506 & 502 & 509 & 496 \end{array}

设袋装糖果的重量近似地服从正态分布,试求总体均值 μ\mu 的置信水平为 0.95 的置信区间。

解 这里 1α=0.95,α/2=0.025,n1=15,t0.025(15)=2.13151-\alpha=0.95, \alpha / 2=0.025, n-1=15, t_{0.025}(15)=2.1315 ,由给出的数据算得 xˉ=503.75,s=6.2022\bar{x}=503.75, s=6.2022 .由上面公式得均值 μ\mu 的一个置信水平为 0.95的置信区间为

(503.75±6.202216×2.1315),\left(503.75 \pm \frac{6.2022}{\sqrt{16}} \times 2.1315\right),

(500.4,507.1).(500.4,507.1) .

这就是说估计袋装糖果重量的均值在 500.4 g 与 507.1 g 之间,这个估计的可信程度为 95%95 \% 。若以此区间内任一值作为 μ\mu 的近似值,其误差不大于 6.202216×2.1315×2=6.61( g)\frac{6.2022}{\sqrt{16}} \times 2.1315 \times 2=6.61(\mathrm{~g}) ,这个误差估计的可信程度为 95%95 \%

(3)μ\mu 未知,方差 σ2\sigma^2 的置信区间

σ2\sigma^2 的无偏估计为 S2S^2 ,从定理知

n1σ2S2χ2(n1)\frac{n-1}{\sigma^2} S^2 \sim \chi^2(n-1)

请注意:对于α\alpha的处理,我们总是一分为二(不管是不是对称,主要还是为了方便),比如歌手参加比赛,得到10组打分,通常,为了公平我们会去掉1个最高分和1个最低分,剩下的8个取总和(或平均值)作为选手的得分。同样,在概率论里,我们要求 95%95\%可信度,也就是说有5%5\%不可信,这5%5\%的不可信一分为二,前面和后面各占2.5%2.5\%

由于 χ2\chi^2 分布是偏态分布,所以将 α\alpha 平分为两部分,在 χ2\chi^2 分布两侧各截面积为 α2\frac{\alpha}{2} 的部分,即采用 χ2\chi^2 分布的两个分位点 χα/22(n1)\chi_{\alpha / 2}^2(n-1)χ1α/22(n1)\chi_{1-\alpha / 2}^2(n-1) (见图 ).

图片

对给定的置信水平 1α1-\alpha ,有

P{χ1α/22(n1)<n1σ2S2<χα/22(n1)}=1α,P\left\{\chi_{1-\alpha / 2}^2(n-1)<\frac{n-1}{\sigma^2} S^2<\chi_{\alpha / 2}^2(n-1)\right\}=1-\alpha,

P{(n1)S2χα/22(n1)<σ2<(n1)S2χ1α/22(n1)}=1αP\left\{\frac{(n-1) S^2}{\chi_{\alpha / 2}^2(n-1)}<\sigma^2<\frac{(n-1) S^2}{\chi_{1-\alpha / 2}^2(n-1)}\right\}=1-\alpha

于是方差 σ2\sigma^21α1-\alpha 置信区间为

((n1)S2χα/22(n1),(n1)S2χ1α/22(n1))\boxed{ \left(\frac{(n-1) S^2}{\chi_{\alpha / 2}^2(n-1)}, \frac{(n-1) S^2}{\chi_{1-\alpha / 2}^2(n-1)}\right) }

实际问题中在要考虑精度或稳定性时,需要对正态总体的方差 σ2\sigma^2 进行区间估计,情况下面例题

已知某种钢丝的折断力服从正态分布 N(μ,σ2)N\left(\mu, \sigma^2\right) ,从一批钢丝中任意抽取 10 根,测得折断力数据(单位: kg )如下:

578,572,570,568,572,570,570,596,584,572.578,572,570,568,572,570,570,596,584,572 .

σ2\sigma^2σ\sigma 的置信度为 0.9 的置信区间.

解:由于 μ\mu 末知,则 σ2\sigma^2 的置信度为 1α1-\alpha 的置信区间为

[(n1)S2χα22(n1),(n1)S2χ1α22(n1)]\left[\frac{(n-1) S^2}{\chi_{\frac{\alpha}{2}}^2(n-1)}, \frac{(n-1) S^2}{\chi_{1-\frac{\alpha}{2}}^2(n-1)}\right]

现在带入数据, 均值为 (578+572+570+568+572+570+570+596+584+572)/10=575.2(578 + 572 + 570 + 568 + 572 + 570 + 570 + 596 + 584 + 572)/10=575.2 方差为:

SS=(578575.2)2+(572575.2)2+(570575.2)2+(568575.2)2+(572575.2)2+(570575.2)2+(570575.2)2+(596575.2)2+(584575.2)2+(572575.2)2=681.60\begin{array}{l} SS=(578 - 575.2)^2 +(572 - 575.2)^2 +(570 - 575.2)^2 +\\ (568 - 575.2)^2 +(572 - 575.2)^2 +(570 - 575.2)^2 \\ +(570 - 575.2)^2 +(596 - 575.2)^2 +(584 - 575.2)^2 + \\ (572 - 575.2)^2 =681.60 \end{array}

样本方差公式(无偏估计)s2=SSn1=681.60975.733s^2 = \frac{SS}{n-1} = \frac{681.60}{9} \approx 75.733

n=10n=10α=0.1\alpha=0.1 ,查表 卡方分布表

注意:需要要查n=9,而不是10. 因为自由度减1才是无偏性估计

图片

χ0.052(9)=16.919,χ0.952(9)=3.325\chi_{0.05}^2(9)=16.919, \quad \chi_{0.95}^2(9)=3.325

代入公式即得 σ2\sigma^2 的置信度为 0.90.9 的置信区间为 [40.28,204.98][40.28, 204.98]

进而得到 σ\sigma 的置信度为 0.90.9 的置信区间为[6.3514.32][6.35,14.32] ,本题算出来的样本均值是 575.2,算出来的标准差为6.35和14.32,即 下限浮动为 575.26.35=568.8575.2-6.35=568.8,上限浮动为 575.2+14.32=589.5575.2+14.32=589.5

结果解读:这个结果的意思是,在这批钢材里,当钢筋受力在 568.8kg589.5kg568.8kg \sim 589.5kg时,我有 90%90\%的把握说,他们会断裂。

(4)μ\mu 已知,方差 σ2\sigma^2 的置信区间

注意:现实中,第(4)种情况是极其少见的,所以基本上不需要掌握,基本上书上也不会介绍

可取枢轴量为

χ2=i=1n(Xiμ)2σ2χ2(n)\chi^2=\frac{\sum_{i=1}^n\left(X_i-\mu\right)^2}{\sigma^2} \sim \chi^2(n)

P{χ1α22(n)i=1n(Xiμ)2σ2χα22(n)}=1αP\left\{\chi_{1-\frac{\alpha}{2}}^2(n) \leqslant \frac{\sum_{i=1}^n\left(X_i-\mu\right)^2}{\sigma^2} \leqslant \chi_{\frac{\alpha}{2}}^2(n)\right\}=1-\alpha

可得 σ2\sigma^2 的置信度为 1α1-\alpha 的置信区间为

[i=1n(Xiμ)2χα22(n),i=1n(Xiμ)2χ1α22(n)]\left[\frac{\sum_{i=1}^n\left(X_i-\mu\right)^2}{\chi_{\frac{\alpha}{2}}^2(n)}, \frac{\sum_{i=1}^n\left(X_i-\mu\right)^2}{\chi_{1-\frac{\alpha}{2}}^2(n)}\right]

具体推导:略

附录

单侧的置信区间如下表

图片

图片

图片

更详细的附表,请参考 正态总体均值置信区间表

11._单个正态总体的参数的区间估计 - 概率论与数理统计 | OpenTech