16._连续型_标准正态分布与3σ原则-Part2

标准正态分布

μ=0,σ=1\mu=0, \sigma=1 时的正态分布 N(0,1)N(0,1)标准正态分布.也称为高斯分布

标准正态分布的密度函数φ(u)\varphi(u),其图像如下

φ(x)=12πex22,<x<,\varphi(x)=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{x^2}{2}}, \quad-\infty<x<\infty,

图片{width=600px}

从标准正态分布的密度函数可以看到: (1)因为密度函数是偶函数,所以函数图像关于yy轴对称 (2)密度函数定义域为(,+)(-\infty,+\infty)3σ3σ-3 \sigma - 3 \sigma之间占据了几乎所有面积,所以,3σ3σ-3 \sigma - 3 \sigma 被称为 3σ3 \sigma 原则

分布函数

正态分布的分布函数 Φ(u)\Phi(u)

Φ(x)=12πxet22 dt,<x<.\Phi(x)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^x \mathrm{e}^{-\frac{t^2}{2}} \mathrm{~d} t, \quad-\infty<x<\infty .

这个函数是积不出来的,所以只能使用积分符号写着。他的函数图像如下: 函数在 x=ux=u 时取到0.5. 图片{width=300px}

由于标准正态分布的分布函数不含任何未知参数, 故其值 Φ(X)=P(Xx)\Phi(X)=P(X \leqslant x) 完全可以算出,

性质1x>0x>0 时, Φ(x)\Phi(x) 的值可以查概率函数值表得到,且P(a<Xb)=Φ(b)Φ(a)P(a<X \leq b)=\Phi(b)-\Phi(a)

性质2x<0x<0 时,由密度函数对称性可得 Φ(x)=1Φ(x)\Phi(x)=1-\Phi(-x) ,特别地,有 Φ(0)=12\Phi(0)=\frac{1}{2}

性质3XN(μ,σ2)X \sim N\left(\mu, \sigma^2\right) ,则 P(a<Xb)=Φ(bμσ)Φ(aμσ)P(a<X \leq b)=\Phi\left(\frac{b-\mu}{\sigma}\right)-\Phi\left(\frac{a-\mu}{\sigma}\right)特别地 P(Xb)=Φ(bμσ)P(X>a)=1Φ(aμσ)P(X \leq b)=\Phi\left(\frac{b-\mu}{\sigma}\right) \quad P(X>a)=1-\Phi\left(\frac{a-\mu}{\sigma}\right)

这些等式都不难推得.

这里请务必牢记,分布函数是一个累加值,例如 Φ(90)=80\Phi(90)=80 表示分数XX小于90分的有80人,Φ(60)=20\Phi(60)=20表示分数XX小于60分的有20人,现在要求分数介于60~90分之间的人数,其计算方法就是P(60X90)=Φ(90)Φ(60)P(60 \le X \le 90)=\Phi(90)-\Phi(60), 这就是上面性质1的意思。

如何理解正态分布的密度函数

假设某校的初中生身高服从 XN(170,62)X \sim N\left(170,6^2\right)(单位cm)的正态分布,这里的μ\mu 相当于平均身高,σ\sigma相当于身高误差。这句话转换为通俗语言就是:某城市初中生平均身高在170cm,其中大部分身高分布在164cm176cm164cm-176cm

因为正态分布是连续性分布,总概率为1,这意味问某一点身高的概率始终为零,身高从 -\infty++\infty 的总概率为1. 从数学计算可以的都如下结论

P(μσ<X<μ+σ)=2Φ(1)1=0.6826,P(μ2σ<X<μ+2σ)=2Φ(2)1=0.9545,P(μ3σ<X<μ+3σ)=2Φ(3)1=0.9973.\begin{aligned} & P(\mu-\sigma<X<\mu+\sigma)=2 \Phi(1)-1=0.6826, \\ & P(\mu-2 \sigma<X<\mu+2 \sigma)=2 \Phi(2)-1=0.9545, \\ & P(\mu-3 \sigma<X<\mu+3 \sigma)=2 \Phi(3)-1=0.9973 . \end{aligned}

第一个等式表明,身高在 164cm176cm164cm-176cm 的占比 68.26% 第二个等式表明,身高在 158cm182cm158cm-182cm 的占比 95.45% 第三个等式表明,身高在 152cm188cm152cm-188cm 的占比 99.73%

标准正态分布的数学期望与方差

正态分布的数学期望E(X)=0E(X)=0, 方差为D(X)=1D(X)=1

正态分布的 3σ3 \sigma 原则

XN(μ,σ2)X \sim N\left(\mu, \sigma^2\right), 则随机变量 XXμ\mu 的附近取值的概率较大, 在离 μ\mu 较远处取值的概率较小.

设随机变量 XN(μ,σ2)X \sim N\left(\mu, \sigma^2\right), 则

P(μkσ<X<μ+kσ)=P(Xμσ<k)=Φ(k)Φ(k)=2Φ(k)1 P(\mu-k \sigma<X<\mu+k \sigma)=P\left(\left|\frac{X-\mu}{\sigma}\right|<k\right)=\Phi(k)-\Phi(-k)=2 \Phi(k)-1

k=1,2,3k=1,2,3 时,有

P(μσ<X<μ+σ)=2Φ(1)1=0.6826,P(μ2σ<X<μ+2σ)=2Φ(2)1=0.9545,P(μ3σ<X<μ+3σ)=2Φ(3)1=0.9973.\begin{aligned} & P(\mu-\sigma<X<\mu+\sigma)=2 \Phi(1)-1=0.6826, \\ & P(\mu-2 \sigma<X<\mu+2 \sigma)=2 \Phi(2)-1=0.9545, \\ & P(\mu-3 \sigma<X<\mu+3 \sigma)=2 \Phi(3)-1=0.9973 . \end{aligned}

具体地, 如图所示, 随机变量 XX 取值 落在区间 (μσ,μ+σ)(\mu-\sigma, \mu+\sigma) 内的概率约为 68.27%68.27 \% , 落在区间 (μ2σ,μ+2σ)(\mu-2 \sigma, \mu+2 \sigma) 内的概率约为 95.45%95.45 \%, 落在区间 (μ3σ,μ+3σ)(\mu-3 \sigma, \mu+3 \sigma) 内的概率约为 99.73%99.73 \%.

图片{width=380px}

这是正态分布的重要性质被称为正态分布的 3σ3 \sigma 原则.

假如某随机变量取值的概率近似满足上面的值, 则可认为这个随机变量近似服从正态分布; 假如三式中有一个偏差较大, 则可以认为这个随机变量不服从正态分布. 这就是正态分布的 3σ3 \sigma 原则, 这个原则在 XX 的观察值较多 (成百上千个) 时, 常用于判断 XX 的分布是否近似服从正态分布.

在生产中某产品的质量要求常规定其上、下控制限, 若上、下控制限能覆盖区间 (μ3σ,μ+3σ)(\mu-3 \sigma, \mu+3 \sigma), 则称该生产过程受控制, 并称其比值

Cp= 上控制限一下控制限 6σ C_p=\frac{\text { 上控制限一下控制限 }}{6 \sigma}

为过程能力指数. 当 Cp<1C_p<1 时, 认为生产过程不足; 当 Cp1.33C_p \geqslant 1.33 时, 认为生产过程正常;当 CpC_p 为其他值时, 常认为生产过程不稳定, 需要改进.

一般地,有下列结论:

设随机变量 XN(0,1),c>0X \sim N(0,1), c>0

P(X<c)=Φ(c)Φ(c)=2Φ(c)1P(X>c)=1P(Xc)=22Φ(c)\begin{aligned} & P(|X|<c)=\Phi(c)-\Phi(-c)=2 \Phi(c)-1 \\ & P(|X|>c)=1-P(|X| \leq c)=2-2 \Phi(c) \end{aligned}

XN(μ,σ2)X \sim N\left(\mu, \sigma^2\right) ,则

P(a<Xc)=Φ(bμσ)Φ(aμσ)P(a<X \leq c)=\Phi\left(\frac{b-\mu}{\sigma}\right)-\Phi\left(\frac{a-\mu}{\sigma}\right)

特别地 P(Xb)=Φ(bμσ);P(X>a)=1Φ(aμσ)\quad P(X \leq b)=\Phi\left(\frac{b-\mu}{\sigma}\right) ; P(X>a)=1-\Phi\left(\frac{a-\mu}{\sigma}\right)

关于上面的结论,请点击 此处 理解

XN(0,4)X \sim N(0,4) ,试求概率 P(X3),P(X3)P(X \leq 3), P(X \leq-3) 解 查表并计算可得

P(X3)=Φ(312)=Φ(1)=0.8413P(X \leq 3)=\Phi\left(\frac{3-1}{2}\right)=\Phi(1)=0.8413
P(X3)=Φ(312)=1Φ(2)=0.0228P(X \leq-3)=\Phi\left(\frac{-3-1}{2}\right)=1-\Phi(2)=0.0228

设随机变量 XX 服从标准正态分布 N(0,1)cN(0,1) , c 为何值时才能满足

P(Xc)=0.95P(X \leq c)=0.95

解 由 P(Xc)=Φ(c)=0.95P(X \leq c)=\Phi(c)=0.95 ,查附录 知

Φ(1.645)=0.95c=1.645\Phi(1.645)=0.95 \Rightarrow c=1.645

典型例题

设随机变量 XX 服从正态分布 N(108,32)N\left(108,3^2\right), 试求: (1) P(102<X<117)P(102<X<117); (2) 常数 aa, 使得 P(X<a)=0.95P(X<a)=0.95.

解:由题意知μ=108,σ=3\mu=108, \sigma=3, 利用上面公式及下面附表得 (1)

P(102<X<117)=Φ(1171083)Φ(1021083)=Φ(3)Φ(2)=Φ(3)+Φ(2)1=0.9987+0.97721=0.9759.\begin{aligned} P(102<X<117) & =\Phi\left(\frac{117-108}{3}\right)-\Phi\left(\frac{102-108}{3}\right) \\ & =\Phi(3)-\Phi(-2)=\Phi(3)+\Phi(2)-1 \\ & =0.9987+0.9772-1=0.9759 . \end{aligned}

上面计算利用了 F(x)=1F(x)F(-x)=1-F(x) 这个性质。

(2) 由

P(X<a)=Φ(a1083)=0.95, 或 Φ1(0.95)=a1083P(X<a)=\Phi\left(\frac{a-108}{3}\right)=0.95 \text {, 或 } \quad \Phi^{-1}(0.95)=\frac{a-108}{3} \text {, }

其中 Φ1\Phi^{-1}Φ\Phi 的反函数. 从附表由里向外反查得

Φ(1.64)=0.9495,Φ(1.65)=0.9505,\Phi(1.64)=0.9495, \quad \Phi(1.65)=0.9505,

再用线性内插法可得 Φ(1.645)=0.95\Phi(1.645)=0.95, 即 Φ1(0.95)=1.645\Phi^{-1}(0.95)=1.645, 故

a1083=1.645,\frac{a-108}{3}=1.645,

从中解得 a=112.935a=112.935.

从上例我们可以看出, 有些场合下给定 Φ(x)\Phi(x) 的值 pp, 可以从附表 2 中由里向外反查表来得到 xpx_p, 使 Φ(xp)=p\Phi\left(x_p\right)=pΦ1(p)=xp\Phi^{-1}(p)=x_p, 这时 xpx_p 称为标准正态分布的 pp 分位数. 在上例中就是标准正态分布的 0.95 分位数, 更一般叙述见分位数在统计中被大量使用.

在考试中, 如果考生的成绩 XX 近似地服从正态分布, 则通常认为这次考试(就合理地划分考生成绩的等级而言)是正常的。教师经常把分数超过 μ+σ\mu+\sigma 的评为 A等, 分数在 μ\muμ+σ\mu+\sigma 之间的评为 B 等, 分数在 μσ\mu-\sigmaμ\mu 之间的评为 C 等, 分数在 μ2σ\mu-2 \sigmaμσ\mu-\sigma 之间的评为 D 等, 分数在 μ2σ\mu-2 \sigma 以下的评为 F 等. 由此可计算得:

P(Xμ+σ)=P(Xμσ1)=1Φ(1)0.1587,P(μX<μ+σ)=P(0Xμσ<1)=Φ(1)Φ(0)0.3413,P(μσX<μ)=P(1Xμσ<0)=Φ(0)Φ(1)0.3413,P(μ2σX<μσ)=P(2Xμσ<1)=Φ(1)Φ(2)0.1359,P(X<μ2σ)=P(Xμσ<2)=Φ(2)0.0228.\begin{aligned} & P(X \geqslant \mu+\sigma)=P\left(\frac{X-\mu}{\sigma} \geqslant 1\right)=1-\Phi(1) \approx 0.1587, \\ & P(\mu \leqslant X<\mu+\sigma)=P\left(0 \leqslant \frac{X-\mu}{\sigma}<1\right)=\Phi(1)-\Phi(0) \approx 0.3413, \\ & P(\mu-\sigma \leqslant X<\mu)=P\left(-1 \leqslant \frac{X-\mu}{\sigma}<0\right)=\Phi(0)-\Phi(-1) \approx 0.3413, \\ & P(\mu-2 \sigma \leqslant X<\mu-\sigma)=P\left(-2 \leqslant \frac{X-\mu}{\sigma}<-1\right)=\Phi(-1)-\Phi(-2) \approx 0.1359, \\ & P(X<\mu-2 \sigma)=P\left(\frac{X-\mu}{\sigma}<-2\right)=\Phi(-2) \approx 0.0228 . \end{aligned}

这说明:用这种方法划分成绩的等级,获得 A 等的约占 16%,B16 \%, B 等的约占 34%,C34 \%, C 等的约占 34%,D34 \%, D 等的约占 14%,F14 \%, F 等的约占 2%2 \%.