17._正态总体的抽样分布

三大分布概况

在学习本节前,把上面学的三个分布列出来:

(1)一群正态分布之和为开发分布,即 X12+X22+...+XN2χn2X_1^2+X_2^2+...+X_N^2 \sim \chi_n^2 (2)设随机变量 XN(0,1),Yχn2X \sim N(0,1), Y \sim \chi_n^2 XY/n\frac{X}{\sqrt{Y / n}} 服从t分布 (3)Xχm2, Yχn2X \sim \chi_m^2, ~ Y \sim \chi_n^2X/mY/n\frac{X / m}{Y / n} 服从F分布

由着三个分布,将推出本节介绍的正态总体的抽样分布。

正态总体的抽样分布

统计量所服从的分布称为抽样分布,由于统计推断就是基于统计量及其抽样分布建立的,因此研究抽样分布是数理统计的重要内容之一.由于正态分布的常见性,来自正态总体的样本均值和样本方差的抽样分布是应用十分广泛的抽样分布,为此引入正态总体的抽样分布。

设总体 XX 的均值为 μ\mu ,方差为 σ2\sigma^2 (注意:这里XX可以是任意分布,不一定非要是正态分布,只要有均值和方差即可), X1,X2,,XnX_1, X_2, \cdots, X_n 是取自 XX 的一个样本, Xˉ\bar{X}S2S^2 分别为该样本的样本均值与样本方差,则有

均值的期望: E(Xˉ)=μE(\bar{X})=\mu 均值的方差: D(Xˉ)=σ2/n D(\bar{X})=\sigma^2 / n 方差的期望:

E(S2)=E[1n1(i=1nXi2nXˉ2)]=1n1[i=1nE(Xi2)nE(Xˉ2)]=1n1[i=1n(σ2+μ2)n(σ2/n+μ2)]=σ2.\begin{gathered} E\left(S^2\right)=E\left[\frac{1}{n-1}\left(\sum_{i=1}^n X_i^2-n \bar{X}^2\right)\right]=\frac{1}{n-1}\left[\sum_{i=1}^n E\left(X_i^2\right)-n E\left(\bar{X}^2\right)\right] \\ =\frac{1}{n-1}\left[\sum_{i=1}^n\left(\sigma^2+\mu^2\right)-n\left(\sigma^2 / n+\mu^2\right)\right]=\sigma^2 . \end{gathered}

进一步,如果XX服从正态分布,则有以下定义。

定理一

X1,X2,,XnX_1, X_2, \ldots, X_n 来自正态分布 N(μ,σ2)N\left(\mu, \sigma^2\right) 的样本,则有: 统计量:样本均值的期望=总体的期望,记为:E(Xˉ)=E(X)=μE(\bar{X})=E(X)=\mu 统计量:样本均值的方差=总体方差的 1n\frac{1}{n} ,记为:D(Xˉ)=D(X)n=σ2nD(\bar{X})=\frac{D(X)}{n}=\frac{\sigma^2}{n} 均值呈现正态分布:即 XˉN(μ,σ2n).\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right) .

定理解释: 上面定理是什么意思呢?假设班级里有50人,我们知道学生身高服从正态分布,现在为了估算学生的身高,我随机从班级里抽取5人,身高分别为:165,164,163,163,165165,164,163,163,165 有这些身高,我可以计算出样本的均值为 E(Xˉ)=(165+164+163+163+165)/5=164E(\bar{X})=(165+164+163+163+165)/5=164 进而可以得出全班学生的身高为E(X)=164E(X)=164

请注意:这个定理告诉我们,用样本的均值当做整体的均值是OK的 ,因此写成 E(Xˉ)=E(X)=μE(\bar{X})=E(X)=\mu

再来看方差,样本方差分别是1,0,1,1,11,0,-1,-1,1, 所以方差为 σ2=4/5\sigma^2=4/5

从这里看,样本均值的方差减少,如何理解这句话呢?以上面抽样学生身高为例,我们使用5个人来估算全班50人的身高,毫无疑问,如果你抽样的学生身高越高,那么样本误差就越小。比如,我只抽取办理两个人,结果这两个人是班级里里最高的生180,和一个最低生150,那么此时样本误差就比较大,如果我是抽取20人,那么因为人数的增加,就抹平了极端数据带来的影响,所以误差就越小,即方差就越小。这里方差除以n相当于“抚平”了数据波动的误差。

下面的例题更好的帮助你理解。

某公司生产瓶装洗洁精,规定每瓶装 500 mL ,但是在实际罐装的过程中,总会出现一定的误差,误差要求控制在一定范围内.假定灌装量的方差 σ2=1\sigma^2=1 ,如果每箱装 25 瓶这样的洗洁精,问: 25 瓶洗洁精的平均灌装量和标准值 500 mL 相差不超过 0.3 mL 的概率是多少?

解 设瓶装洗洁精灌装容量服从正态分布,均值为 μ\mu ,方差为 1 ,则 25 瓶洗洁精的灌装量 X1,X2,,X25X_1, X_2, \cdots, X_{25} 是来自总体 N(μ,1)N(\mu, 1) 的简单随机样本.

根据定理 有 XˉN(μ,125)\bar{X} \sim N\left(\mu, \frac{1}{25}\right) ,进而有

P{Xˉμ0.3}=P{0.31/25<Xˉμ1/250.31/25}Φ(1.5)Φ(1.5)=2Φ(1.5)1=0.8664\begin{aligned} P\{|\bar{X}-\mu| \leqslant 0.3\} & =P\left\{\frac{-0.3}{1 / \sqrt{25}}<\frac{\bar{X}-\mu}{1 / \sqrt{25}} \leqslant \frac{0.3}{1 / \sqrt{25}}\right\} \\ & \approx \Phi(1.5)-\Phi(-1.5)=2 \Phi(1.5)-1=0.8664 \end{aligned}

另外,当 n=50n=50 时,可算出

P{Xˉμ0.3}0.966P\{|\bar{X}-\mu| \leqslant 0.3\} \approx 0.966

结论:当每箱装 25 瓶洗洁精时,平均每瓶灌装量与标准值相差不超过 0.3 mL 的概率近似为 86.64%86.64 \% ,而每箱装 50 瓶时该概率约为 96.6%96.6 \% ,所以当每箱增加到 50 瓶时,能更大程度地保证平均误差很小,更能保证厂家和商家的利益.

推论

上面的结论 XˉN(μ,σ2n)\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right) ,把他当做一般的正态分布,然后进行正态分布标准化 就可以有如下结论:

Xˉμσ/nN(0,1).\dfrac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1) .

即:均值减去期望 除以 方差除以n\sqrt{n} 服从标准正态分布。

设总体 XX 服从正态分布 N(72,100)N(72,100) ,为使样本均值大于 70 的概率不小于 90%90 \% ,则样本容量应取多少?

解:设所需样本容量为 nn ,根据 有

Xˉμσ/nN(0,1)\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)

由题意有

P{Xˉ>70}=P{Xˉ7210/n>707210/n}0.9P\{\bar{X}>70\}=P\left\{\frac{\bar{X}-72}{10 / \sqrt{n}}>\frac{70-72}{10 / \sqrt{n}}\right\} \geqslant 0.9

即有

1Φ(0.2n)=Φ(0.2n)0.91-\Phi(-0.2 \sqrt{n})=\Phi(0.2 \sqrt{n}) \geqslant 0.9

查标准正态分布表(见附表 2)得 Φ(1.29)=0.9015>0.9\Phi(1.29)=0.9015>0.9 ,因此

0.2n1.29,0.2 \sqrt{n} \geqslant 1.29,

n41.6025n \geqslant 41.6025 ,故样本容量至少应取 42 .

定理二

X1,X2,,XnX_1, X_2, \ldots, X_n 来自正态分布 N(μ,σ2)N\left(\mu, \sigma^2\right) 的样本,则有: 统计量: Xˉ\bar{X} 为样本均值,S2S^2 为样本方差, Xˉ\bar{X}S2S^2 相互独立 统计量:(XiXˉ)2σ2=(n1)1n1(XiXˉ)2σ2=(n1)S2σ2χ2(n1)\frac{\sum\left(X_i-\bar{X}\right)^2}{\sigma^2}=\frac{(n-1) \sum \frac{1}{n-1}\left(X_i-\bar{X}\right)^2}{\sigma^2}=\frac{(n-1) S^2}{\sigma^2} \sim \chi^2(n-1)

稍微要注意一下:这里自由度为 n1n-1 ,因为存在Xˉ\bar{X}的约束,让整体自由度减了1

在设计导弹发射装置时,重要事情之一是研究弹着点偏离目标中心的距离的方差.对于一类导弹发射装置,弹着点偏离目标中心的距离服从正态分布 N(μ,σ2)N\left(\mu, \sigma^2\right) ,这里 σ2=100m2\sigma^2=100 m^2 ,现在进行了 25 次发射试验,用 S2S^2 记这 25 次试验中弹着点偏离目标中心的距离的样本方差.试求 S2S^2 超过 50m250 m^2 的概率.

解 根据定理 ,有 (n1)S2σ2χ2(n1)\frac{(n-1) S^2}{\sigma^2} \sim \chi^2(n-1) ,于是

P{S2>50}=P{(n1)S2σ2>(n1)50σ2}=P{χ2(24)>24×50100}=P{χ2(24)>12}>P{χ2(24)>12.401}=0.975. (查附录 C ) \begin{aligned} P\left\{S^2\right. & >50\}=P\left\{\frac{(n-1) S^2}{\sigma^2}>\frac{(n-1) 50}{\sigma^2}\right\}=P\left\{\chi^2(24)>\frac{24 \times 50}{100}\right\} \\ & =P\left\{\chi^2(24)>12\right\}>P\left\{\chi^2(24)>12.401\right\}=0.975 . \text { (查附录 } C \text { ) } \end{aligned}

于是可以以超过 97.5%97.5 \% 的概率断言,S2S^2 超过 50m250 m^2

定理三

由t分布 定义可知:t=XY/n=X 标准正态分布 Y 卡方分布 (n)/n=XN(0,1)Yχ2(n)/nt(n)t=\frac{X}{\sqrt{Y / n}}=\frac{X \sim \text { 标准正态分布 }}{\sqrt{Y \sim \text { 卡方分布 }(n) / n}}=\frac{X \sim N(0,1)}{\sqrt{Y \sim \chi^2(n) / n}} \sim t(n) 构造 tt 统计量:t=X 标准正态分布 Y 卡方分布 /n=Xˉμσ/nN(0,1)(n1)S2σ2χ2(n1)/n1t(n1)t=\frac{X \sim \text { 标准正态分布 }}{\sqrt{Y \sim \text { 卡方分布 } / n}}=\frac{\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)}{\sqrt{\frac{(n-1) S^2}{\sigma^2} \sim \chi^2(n-1) / n-1}} \sim t(n-1) 化简后即:t=XˉμS/nt(n1)t=\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n-1)

两个正态总体中抽样

应用背景:假如我从50个人抽两次,每次抽取5个人,获得两组数据:163,164,165,165,163,165163,164,165,165,163,165161,162,165,167,164,163161,162,165,167,164,163 如果用这两组数据来估算总体的身高,哪组数据比较好呢?

介绍:在两个已知为正态分布的总体中,进行抽样构造统计量及分布,主要用于对两个正态总体进行比较。例如比较哪个总体的 μ\mu 值更大,哪个总体的方差(离散程度)更大。

X1,X2,,XnX_1, X_2, \ldots, X_n 来自总体 XN(μ1,σ12)X \sim N\left(\mu_1, \sigma_1^2\right) 的样本 设 Y1,Y2,,YmY_1, Y_2, \ldots, Y_m 来自总体 YN(μ2,σ22)Y \sim N\left(\mu_2, \sigma_2^2\right) 的样本 且 XXYY 相互独立,样本方差为:

S12=1n1(XiXˉ)2,S22=1m1(YiXˉ)2S_1^2=\frac{1}{n-1} \sum\left(X_i-\bar{X}\right)^2, S_2^2=\frac{1}{m-1} \sum\left(Y_i-\bar{X}\right)^2

定理一:两个总体方差不等时

条件:当 σ12σ22\sigma_1^2 \neq \sigma_2^2 时 两个总体可构造两个卡方统计量:

χ12=(n1)S12σ12χ2(n1)χ22=(m1)S22σ22χ2(m1)\begin{aligned} & \chi_1^2=\frac{(n-1) S_1^2}{\sigma_1^2} \sim \chi^2(n-1) \\ & \chi_2^2=\frac{(m-1) S_2^2}{\sigma_2^2} \sim \chi^2(m-1) \end{aligned}

两个卡方统计量可构造 F 统计量:

F=χ12/(n1)χ22/(m1)=S12/σ12S22/σ22=S12/S22σ12/σ22F(n1,m1)F=\frac{\chi_1^2 /(n-1)}{\chi_2^2 /(m-1)}=\frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2}=\frac{S_1^2 / S_2^2}{\sigma_1^2 / \sigma_2^2} \sim F(n-1, m-1)

定理二:两个总体方差相等时

条件:当 σ12=σ22=σ2\sigma_1^2=\sigma_2^2=\sigma^2 时 两个来自正态总体的样本均值之差依然服从正态分布,记为:

XˉYˉ(μ1μ2,σ21/n+σ21/m)\bar{X}-\bar{Y} \sim\left(\mu_1-\mu_2, \frac{\sigma^2}{1 / n}+\frac{\sigma^2}{1 / m}\right)

标准正态化后得到:

U=(XˉYˉ)(μ1μ2)σ1n+1mN(0,1)U=\frac{(\bar{X}-\bar{Y})-\left(\mu_1-\mu_2\right)}{\sigma \sqrt{\frac{1}{n}+\frac{1}{m}}} \sim N(0,1)

已知卡方分布统计量具有可加性,所以有:

V=(n1)S12σ2+(m1)S22σ2=(n1)S12+(m1)S22σ2χ2(n+m2)V=\frac{(n-1) S_1^2}{\sigma^2}+\frac{(m-1) S_2^2}{\sigma^2}=\frac{(n-1) S_1^2+(m-1) S_2^2}{\sigma^2} \sim \chi^2(n+m-2)

因为 U 和 V 相互独立,可构造 t 分布统计量,所以有:

因为 U 和 V 相互独立,可构造 t 分布统计量,所以有:

t=UN(0,1)Vχ2(n)/n=UV/(n+m2)t(n+m2)t=\frac{U \sim N(0,1)}{V \sim \chi^2(n) / n}=\frac{U}{\sqrt{V /(n+m-2)}} \sim t(n+m-2)

展开后为:

t=(XˉYˉ)(μ1μ2)(n1)S12+(m1)S22n+m21n+1mt(n+m2)t=\frac{(\bar{X}-\bar{Y})-\left(\mu_1-\mu_2\right)}{\sqrt{\frac{(n-1) S_1^2+(m-1) S_2^2}{n+m-2}} \sqrt{\frac{1}{n}+\frac{1}{m}}} \sim t(n+m-2)

假设有一批产品,保证重量服从正态分布,来自样本的两个总体 XXYY 都服从正态分布 N(20,3)N(20,3) ,今从总体 XXYY 中分别抽取容量为 n1=10n2=15n_1=10 、 n_2=15 的两个相互独立的样本,求 P{XˉYˉ>0.3}P\{|\bar{X}-\bar{Y}|>0.3\}

解 由题设及定理 知,(XˉYˉ)(2020)310+315=XˉYˉ0.5N(0,1)\frac{(\bar{X}-\bar{Y})-(20-20)}{\sqrt{\frac{3}{10}+\frac{3}{15}}}=\frac{\bar{X}-\bar{Y}}{\sqrt{0.5}} \sim N(0,1) ,于是

P{XˉYˉ>0.3}=1P{XˉYˉ0.50.30.5}=1[2Φ(0.30.5)1]=22Φ(0.42)=0.6744\begin{aligned} P\{|\bar{X}-\bar{Y}|>0.3\} & =1-P\left\{\left|\frac{\bar{X}-\bar{Y}}{\sqrt{0.5}}\right| \leqslant \frac{0.3}{\sqrt{0.5}}\right\} \\ & =1-\left[2 \Phi\left(\frac{0.3}{\sqrt{0.5}}\right)-1\right] \\ & =2-2 \Phi(0.42)=0.6744 \end{aligned}
17._正态总体的抽样分布 - 概率论与数理统计 | OpenTech