引例1
假设你的老妈担心你的单身生活,为此,在相亲网站给你寻找相亲对象,她把你的照片放到了相亲网站后,一下子吸引来了200多个女性留言,要与你"私定终身"。老妈为了提高篮选效率,于是乎就建了一个微信群,让所有人报一下自己准确的身高。
为了统计方便。她以5厘米为单位,数一数每一段5厘米各有多少人。接着用身高为横轴,人数为纵轴,画了下面这张图。
仔细看这张图,你和老妈发现一个惊人的秘密:这张图形状是中间高,两边低,长得像一只倒扣的钟。这意味着什么?意味着大部分女性身高在155-160cm之间,身高低于145cm或者高于170cm的都比较少。
{width=400px}
引例2
一包米的外包装上标示的质量是5000g,但实际上是有误差的,假设包装米的公司没有偷工减料,计量员精确地检测所有在售的该种米,把米包质量的频率分布直方图画出来,以10g为一组,绘出实际质量,会是一个什么形状呢?
下图中是一条峰值在5000g左右的曲线,横坐标表示实际质量,纵坐标表示频率,可以发现它有一个单峰,长得也像一只倒扣的钟. 也就是以5000g为中心,大部分质量都在5000g左右浮动,低于4955g和高于5045g的都很少。
{width=400px}
从引例1和引例2可以看到,尽管问题环境不同,但是其结论类似。
正态分布
上面两个数据分布被称为正态分布,正态分布是概率论与数理统计中最重要的一个分布, 高斯 (Gauss, 1777-1855) 在研究误差理论时首先用正态分布来刻画误差的分布, 所以正态分布又称为高斯分布.
后续的中心极限定理表明:一个随机变量如果是由大量微小的、独立的随机因素的叠加结果, 那么这个变量一般都可以认为服从正态分布. 因此很多随机变量可以用正态分布描述或近似描述,世界上很多事物都符合正态分布曲线, 大到金融、股市,小到心率、血压, 考试成绩、身高等。甚至连超市入口停放的机动车都符合正态分布。
正态分布的密度函数
若随机变量 X 的密度函数为
φ(x)=2πσ1e−2σ2(x−μ)2,−∞<x<∞, 则称 X 服从正态分布, 称 X 为正态变量, 记作 X∼N(μ,σ2). 其中参数 −∞<μ<∞,σ>0. 也就是他是一条连续的曲线。
初次接触正态分布的同学会感觉有点疑惑,传统的y=f(x) 都是一个变量,但是在正态分布里,有x,μ,σ 三个参数。事实上现实生活里,女生找对象都要求“高富帅”,这里的“高富帅”就可以看成有三个参数。在正态函数里,为了了解f(x)的图像特点,通常是先固定μ 然后修改σ 看图形特点,然后固定σ再修改μ再查看图像特点。
下图显示了正态分布的密度函数图像。
{width=500px}
为了研究正态函数图像特点,我们先固定σ 观察μ 改变后函数图像的特点(下图左),和固定 μ 在更改σ后函数图像的特点(下图右)

从图中可以得出一下结论:
(1)正态分布的密度函数是左右关于 x=μ 对称,μ 是正态分布的中心,且在 x=μ 附近取值的可能性大, 在两侧取值的可能性小.
(2)μ±σ 是该曲线的拐点.
(3)假定μ固定,则σ控制曲线的胖度。即 σ 越大,曲线越胖,σ越小,曲线越瘦。
(4)后面可以证明,正态分布的数学期望E(X)=μ, 方差为D(X)=σ2
如果固定 σ, 改变 μ 的值, 则图形沿 x 轴平移, 而不改变其形状. 也就是说正态密度函数的位置由参数 μ 所确定, 因此亦称 μ 为位置参数.
如果固定 μ, 改变 σ 的值, 则分布的位置不变, 但 σ愈小, 曲线呈高而瘦, 分布较为集中; σ 愈大, 曲线呈矮而胖, 分布较为分散. 也就是说正态密度函数的尺度由参数 σ 所确定, 因此称 σ 为尺度参数(也叫为精度参数). 具体理解可以参考本文最后一个例题理解。
正态分布的分布函数
正态分布 N(μ,σ2) 的分布函数为
Φ(X)=2πσ1∫−∞xe−2σ2(t−μ)2 dt. 它是一条光滑上升的 S 形曲线, 见下图
{width=500px}
作为一个约定,φ(x) 表示正态分布的密度函数,Φ(X) 表示正态分布的分布函数,φ0(x) 表示标准正态分布的密度函数,Φ0(X) 表示标准正态分布的分布函数
标准正态分布
称 μ=0,σ=1 时的正态分布 N(0,1) 为标准正态分布.
通常记标准正态变量为 U, 记标准正态分布的密度函数为 φ(u), 分布函数为 Φ(u), 即
φ(u)=2π1e−2u2,−∞<u<∞, Φ(u)=2π1∫−∞ue−2t2 dt,−∞<u<∞. 标准正态分布是有着非常优良的性质,具体会在下一节介绍。
正态分布的数学期望与方差
设随机变量 X∼N(μ,σ2), 由于 U=(X−μ)/σ∼N(0,1), 所以 U 的数学期望为
E(U)=2π1∫−∞∞ue−2U2du, 注意到上述积分的被积函数为一个奇函数, 所以其积分值等于 0 , 即 E(U)=0. 又因为 X=μ+σU, 所以由数学期望的性质得
E(X)=μ+σ×0=μ. 也就是说, 正态分布 N(μ,σ2) 中的 μ 为数学期望.
又因为
D(U)=E(U2)=2π1∫−∞∞u2e−2x2du=2π1∫−∞∞ud(−e−2θ2)=2π1(−ue−2u2−∞∞+∫−∞∞e−2Δ2du)=2π1∫−∞∞e−2ω2du=2π12π=1, 且 X=μ+σU, 所以由方差的性质得
D(X)=D(μ+σU)=σ2. 这说明, 正态分布 N(μ,σ2) 中另一个参数 σ2 就是 X 的方差.
例 设某城市成年男子的身高 X∼N(170,62)(单位厘米).问应如何设计公共汽车车门的高度,使成年男子与车门顶碰头的机会小于 0.01 ?
解:设车门高度为 l 厘米,按设计要求应有 P{X>l}<0.01 .由题设知 X∼N(170,62) ,将其标准化后有
6X−170∼N(0,1), 因此,按设计要求有
P{X>l}=1−P{X⩽l}=1−P{6X−170⩽6l−170}=1−Φ(6l−170)<0.01, 即 Φ(6l−170)>0.99 ,查表得 6l−170>2.33 ,故
l>183.98 (厘米). 通过本题,我们再次理解一下,正态分布里,μ 和 σ 的意义,这里的μ 相当于平均身高,σ相当于身高误差。如果上面“设某城市成年男子的身高 X∼N(170,62)(单位厘米)” 这句话转换为通俗语言就是:某城市男生平均身高在170cm,其中大部分身高分布在164cm−176cm。 这样你大概理解 μ 和 σ的意义了。
这也就是为什么μ被称作位置参数,σ被称作尺度参数的原因了。