3._密度函数PDF与分布函数CDF - Probability Theory and Mathematical Statistics

初学概率的人，遇到的第一个抽象概念就是密度函数和分布函数，对于初学者来讲，“概率密度”可能是最不友好的一个概念，直接谈概率不行吗，好好的为什么要搞出一个“密度函数”？的确，没有太多数理基础，这个概念着实不太好理解，我们先从两个引例来引入：

密度函数 Probability Density Function（PDF）

均匀分布的密度函数

均匀分布应该是比较容易理解的一种分布，比如数轴上有一段起点为 $a$ 终点为 $b$ 的线段，那么他的长度就为 $(b-a)$ ,我们随机抛一个点在数轴上，落在ab之间的概率就是 $\frac{1}{b-a}$ , 我们可以写出他的密度函数，如下就是均匀分布的密度函数：

p(x)= \begin{cases}\frac{1}{b-a}, & a<x<b, \\ 0, & \text { 其他. }\end{cases}

既然是函数，我们就可以把初高中所学的那套知识拿来用了。既然是函数他就必须有定义域和值域，显然定义域是 $a<x<b$ ,值域为 $\frac{1}{b-a}$ ,有了定义域和值域就可以画出他的函数图像，如下图

$图片$ {width=300px}

这张图是一个常值的分段函数，因此，通过密度函数，就可以知道 $x$ 在每个点的概率都相同且为 $\frac{1}{b-a}$ 。

到这里，你也许能明白，数学是一个抽象的学科，他把现实世界对应的物理现象转换为了数学问题进行研究。 而密度函数可以认为是概率问题和数学问题之间连接的桥梁。

正态分布的密度函数

不是每个函数的密度都很容易写出，比如正态分布的密度函数，我们在高中学过很多事物呈现正态分布，比如初中生的身高，很多都集中在 $170-175cm$ 之间，低于 $160cm$ 或者高于 $180cm$ 的都比较少。

正态分布的概率密度函数的定义为：

\varphi(x)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^2}{2 \sigma^2}}, \quad-\infty<x<\infty,

他是一条中间高、两边低的“钟形曲线”，这条曲线就是正态分布的概率密度曲线。通过概率密度曲线，可以很容易看出随机事件出现的概率趋势，比如从正态分布图可以看到中间的概率容易发生，两侧的概率发生率较低。 $图片$ {width=300px}

这里你也可以通过区间的角度来理解概率密度曲线：曲线越高，也就代表着这个区间的概率越密集，简单理解成在同样大小的房子里，这个房间的人数更多、更挤。

总之，通过密度函数，我们把社会现实问题数学化，通过数学知识研究概率，这是高等数学和初等数学主要的区别。

离散型密度函数

离散型概率密度函数，其实不叫概率密度函数，离散型的就叫概率分别，一般也叫：分布列或分布率，这个函数是用来求离散型随机变量，他通常使用列表求出。

例扔一枚质地均匀的硬币，正面、反面朝上的概率均为： $1 / 2$ ，要求他的分布，只要列表，把所有可能情况列出来即可。

设：朝上的面为随机变量 $X$ 则 $X$ 的结果有：正面、反面设: $X$ (正面) $=0, X$ (反面) $=1$ 则 $X$ 的取值为: $X\{0,1\}$ 所以，求 $(X=$ 正面)的概率，写成: $P(X=0)=1 / 2$ 所以，求 $(X=$ 反面)的概率，写成: $P(X=1)=1 / 2$ 于是，可以得到一个概率分布表如下 $图片$

连续性密度函数

连续型概率函数才叫：概率密度函数。为什么叫密度？由于连续型变量的取值是一个实数区间，如果把这个区间均分成多少份，则可无限细分下去比如[0,1]，如果按每段0.1，分成10段; 如果按每段0.01，则可分成100段; 如果按每段0.001，则可分成1000段;再往小了分，则每段越细，就像头发一样，越来越密,可以无限制的细分下去，于是叫密度函数

例 比如某公共汽车站从上午 7 时起, 每 15 分钟来一班车, 即 7:00、7:15、7:30、7:45等时刻有汽车到达此站, 如果乘客到达此站的时间 $X$ 是 7:00 到 7:30 之间的均匀随机变量, 试求他候车时间少于 5 分钟的概率，这就是一个连续概率问题。

我们认为概率论很多概念比较难懂，就是因为他把离散型和连续型两种类型的研究糅合在了一起。事实上离散型和连续性本身研究方法有很大差别。

分布函数 Cumulative Distribution Function （CDF）

定义：给一个随机变量 $X$ ，对任意实数 $x \in(-\infty,+\infty)$ 称函数 $F(x)=P(X \leq x)$ 为随机变量 $X$ 的分布函数.

根据定义可以知道，对于 $a<b$ 的实数，有

\boxed{ P(a<X \leq b)=P\left(X \leqslant b\right)-P\left(X \leqslant a\right)=F(b)-F(a) ...(1) }

因此，若已知 $X$ 的分布函数，则能知道 $X$ 落在任一区间 $\left(a, b\right]$ 上的概率。从这个意义上说，分布函数完整地描述了随机变量的统计规律性。

如果将 $X$ 视为数轴上的随机点的坐标，那么，分布函数 $F(x)$ 在 $x$ 处的函数值就表示 $X$ 落在区间 $(-\infty, x]$ 上的概率。

由分布函数的定义可知，既然是函数，就要有定义域与值域。分布函数具有如下基本性质.

分布函数和传统的函数有什么不同？

分布函数和传统的函数在集合意义上有很大的不同。传统函数，比如 $y=x^2$ 每给一个 $x$ 会有一个 $y$ 和他对应，把所有的 $y$ 连接起来，就得到他的图像，如下 $y$ 的值是一个个点。 $图片$ {width=300px}

而分布函数的几何意义：在数轴上，将 $X$ 看成随机点的坐标，则分布函数 $F(x)$ 表示随机点 $X$ 落在阴影部分（即 $X \leqslant x$ ）内的概率，如下图所示．

$图片$ {width=300px}

请务必牢记分布函数的定义，他对离散型和连续性都成立。分布函数 $F(X)=P(X \leqslant x)$ 他是一个累加值。比如考试分 $F(90)=P(X<90)=80$ 表示分数小于90分的人数为80人， $F(60)=P(X<60)=20$ 表示分数小于60分的人数为20人，现在要求分数在 $60-90$ 之间的人数，显然就是 $F(90)-F(60)=80-20=60$ 人，分布函数求导就是密度函数，密度函数积分就是分布函数。而积分的本质就是求面积，所以密度函数曲线围成的整个面积就是所有的概率为1.通常认为分布函数的作用用来计算密度函数，单纯看分布函数图像其实看不出多少有价值的东西。数学上的表达就是密度函数在区间 $(a,b)$ 上的积分。所以，概率的大小就是“概率密度函数曲线下的面积”的大小，这个不太起眼的概念实际上就决定了你日后是否能理解假设检验中所谓的“拒绝域”。

分布函数的性质

（1）单调性 $F(x)$ 是定义在整个实数轴 $(-\infty,+\infty)$ 上的单调非降函数, 即对任意的 $x_1<x_2$ ,有 $F\left(x_1\right) \leqslant F\left(x_2\right)$ ； （2）有界性 对任意的 $x$ , 有 $0 \leqslant F(x) \leqslant 1$ , 且

\begin{aligned} & F(-\infty)=\lim _{x \rightarrow-\infty} F(x)=0 \\ & F(+\infty)=\lim _{x \rightarrow+\infty} F(x)=1 \end{aligned}

几何解释：当区间端点 $x$ 沿数轴无限向左移动 $(x \rightarrow-\infty)$ 时，" $X$ 落在 $x$ 左边" 这一事件趋于不可能事件，故其概率 $P(X \leqslant x)=F(x)$ 趋于 0 ；又若 $x$ 无限向右移动（ $x \rightarrow+\infty$ ）时，事件" $X$ 落在 $x$ 右边"趋于必然事件，从而其概率 $P(X \leqslant x)=F(x)$ 趋于 1 。 （3）右连续性 $F(x)$ 是 $x$ 的右连续函数, 即对任意的 $x_0$ , 有

\lim _{x \rightarrow x_0^{+}} F(x)=F\left(x_0\right) .

证略。以上三条基本性质是分布函数必须具有的性质，反过来可以证明，任一满足这三个性质的函数, 一定可以作为某个随机变量的分布函数.

例通过某公交站牌的汽车每 10 min 一辆，随机变量 $X$ 为乘客的候车时间，其分布函数为

F(x)= \begin{cases}0, & x<0 \\ \frac{x}{10}, & 0 \leqslant x<10 \\ 1, & x \geqslant 10\end{cases}

求：（1） $P\{X \leqslant 3\}$ ；（2） $P\{1<X \leqslant 9\}$ ；（3） $P\{X>5\}$ ．解（1） $P\{X \leqslant 3\}=F(3)=\frac{3}{10}$ ．（2） $P\{1<X \leqslant 9\}=F(9)-F(1)=\frac{4}{5}$ ．（3） $P\{X>5\}=1-F(5)=1-\frac{1}{2}=\frac{1}{2}$ ．

例 设随机变量 $X$ 的分布函数为

F(x)= \begin{cases}a+\frac{b}{(1+x)^2}, & x>0 \\ c, & x \leqslant 0\end{cases}

求常数 $a, b, c$ 的值．解根据分布函数 $F(x)$ 的 3 个基本性质，可得 $0=F(-\infty)=\lim _{x \rightarrow-\infty} F(x)=c$ ，即 $c=0$ ． $1=F(+\infty)=\lim _{x \rightarrow+\infty} F(x)=\lim _{x \rightarrow+\infty}\left[a+\frac{b}{(1+x)^2}\right]=a$ ，即 $a=1$ . 又因为 $F(x)$ 是右连续的，即 $\lim _{x \rightarrow 0^{+}} F(x)=a+b=c$ ，故 $b=-1$ ．因此，常数 $a, b, c$ 的值分别为 $1,-1,0$ ．

例 判别下列函数是否为某随机变量的分布函数. (1) $F(x)=\left\{\begin{array}{ll}0, & x<-2 \\ \frac{1}{2}, & -2 \leqslant x<0 \text { ； } \\ 1, & x \geqslant 0\end{array}\right.$ ； (2) $F(x)=\left\{\begin{array}{ll}0, & x<0 \\ \sin x, & 0 \leqslant x<\pi \\ 1, & x \geqslant \pi\end{array}\right.$ ; (3) $F(x)=\left\{\begin{array}{ll}0, & x<0 \\ x+\frac{1}{2}, & 0 \leqslant x<\frac{1}{2} \\ 1, & x \geqslant \frac{1}{2}\end{array}\right.$ .

解 (1) 由题设, $F(x)$ 在 $(-\infty,+\infty)$ 上单调不减, 右连续, 并有

F(-\infty)=\lim _{x \rightarrow-\infty} F(x)=0, \quad F(+\infty)=\lim _{x \rightarrow+\infty} F(x)=1,

所以 $F(x)$ 是某一随机变量 $X$ 的分布函数. （2）因为 $F(x)$ 在 $\left(\frac{\pi}{2}, \pi\right)$ 上单调下降, 所以 $F(x)$ 不可能是分布函数. (3) 因为 $F(x)$ 在 $(-\infty,+\infty)$ 上单调不减, 右连续, 且有

F(-\infty)=\lim _{x \rightarrow-\infty} F(x)=0, \quad F(+\infty)=\lim _{x \rightarrow+\infty} F(x)=1,

所以 $F(x)$ 是某一随机变量 $X$ 的分布函数.

上面主要讨论了随机变量的概念及分布函数, 利用随机变量可以描述和研究随机现象,而利用分布函数能很好地表示各事件的概率. 并且可以推导下面几个有用的公式

\boxed{ \begin{aligned} & P\{X>a\}=1-P\{X \leqslant a\}=1-F(a), \\ & P\{X<a\}=F(a-0), \\ & P\{X=a\}=F(a)-F(a-0) . \end{aligned} ...(2) }

在引进了随机变量和分布函数后，就能利用高等数学的许多结果和方法来研究各种随机现象, 它们是概率论的两个重要而基本的概念.

请注意：分布函数的定义对离散型和连续型都适用。

理解：再论为啥引入分布函数

既然有概率密度了，为啥还要搞一个分布函数？答案是方便计算概率。这里请务必牢记，分布函数是一个累加值，例如有一个分布函数 $F(90)=80$ 表示分数 $X$ 小于90分的有80人， $F(60)=20$ 表示分数 $X$ 小于60分的有20人，现在要求分数介于60~90分之间的人数，其计算方法就是 $P(60 \le X \le 90)=F(90)-F(60)$ , 这就是上面分布函数的基本意思。分布函数比较“绕”的是，后者概率包含了前者概率，就像上面，90分以下的学生已经包含了60分以下的学生，因此要计算60-90分的学生，就要用两个相减。

上面举的是离散型的例子，很容易理解，但是对于连续型的呢？这里有一个重要的结论：密度函数的积分（面积）等于概率，概率密度函数和分布函数的的一个重要关系就是，

分布函数求导是密度函数，密度函数积分是分别函数。

随机变量 $X$ 在某个区间比如 $(a，b)$ , 即 $a < X < b$ 的概率，就是概率密度曲线在这个区间下的面积，数学上的表达就是密度函数在区间 $（a,b）$ 上的积分。所以，概率的大小就是“概率密度函数曲线下的面积”的大小，这个不太起眼的概念实际上就决定了你日后是否能理解假设假设中所谓的“拒绝域”,因为概率所有可能性为1，因此整个概率密度函数的积分值即整个曲面面积的值为1.

下图中的三条曲线 $f(x)$ ，就是概率密度函数，各种形式的概率就是相对应的曲线下面积。这里，数学基础不太好的同学不用特别深挖积分的计算过程，但对这三张图与对应的概率表达形式，同学们要熟知。

$图片$ 概率密度函数图像

分布函数图像和密度函数图像

图2.2(a), (b)分别表示某一连续型变量 $X$ 的分布函数 $F$ 和密度函数 $f$ . 从密度函数的图上可以明显看出该分布的一些特点.例如概率最大的集中区在 $\mu$ 点附近，而在这点的两边呈对称性的衰减。图中斜线标出部分的面积表示变量 $X$ 落在 $a, b$ 之间的概率. 这些特点从分布函数的图上就不那么容易看出来.

$图片$

通常认为，分布函数的图像意义并不大，通过分布函数图像并不能得出有效的结论，分布函数主要用来求密度函数，一般都使用密度函数的图像了解概率分布规律。

分布函数例题

例口袋里装有 3 个白球和 2 个红球, 从中任取三个球, 求取出的三个球中的白球数的分布函数.

解设 $X$ 表示取出的 3 个球中的白球数. $X$ 的可能取值为 $1 、 2 、 3$ . 由古典概率可算得

\begin{gathered} P(X=1)=\frac{C_2^2 C_3^1}{C_5^3}=0.3 ; \\ P(X=2)=\frac{C_2^1 C_3^2}{C_5^3}=0.6 \\ P(X=3)=\frac{C_3^3}{C_5^3}=0.1 \end{gathered}

当 $x<1$ 时, $\{X \leqslant x\}$ 是不可能事件, 因而

F(x)=P\{X \leqslant x\}=0 ;

当 $1 \leqslant x<2$ 时, $\{X \leqslant x\}=\{X=1\}$ , 因而

F(x)=P\{X \leqslant x\}=P\{X=1\}=0.3 ;

当 $2 \leqslant x<3$ 时, $\{X \leqslant x\}=\{X=1\} \bigcup\{X=2\}$ , 且 $\{X=1\} \cap\{X=2\}=\varnothing$ , 因而

F(x)=P\{X \leqslant x\}=P\{X=1\}+P\{X=2\}=0.9

当 $x \geqslant 3$ 时, $\{X \leqslant x\}$ 是必然事件, 因而

F(x)=1 .

综上所述， $X$ 的分布函数为

F(x)=\left\{\begin{array}{ll} 0 & x<1 \\ 0.3 & 1 \leqslant x<2 \\ 0.9 & 2 \leqslant x<3 \\ 1 & x \geqslant 3 \end{array} .\right.

例设随机变量 $X$ 的分布律为 $图片$ 求 $X$ 的分布函数, 并求 $P\left\{X \leqslant \frac{1}{2}\right\}, P\left\{\frac{3}{2}<X \leqslant \frac{5}{2}\right\}, P\{2 \leqslant X \leqslant 3\}$ .

解 $X$ 仅在 $x=-1,2,3$ 三点处其概率 $\neq 0$ , 而 $F(x)$ 的值是 $X \leqslant x$ 的累积概率值, 由概率的有限可加性, 知它即为小于或等于 $x$ 的那些 $x_k$ 处的概率 $p_k$ 之和, 有

F(x)= \begin{cases}0 & x<-1, \\ P\{X=-1\}, & -1 \leqslant x<2, \\ P\{X=-1\}+P\{X=2\}, & 2 \leqslant x<3, \\ 1, & x \geqslant 3 .\end{cases}

即

F(x)=\left\{\begin{array}{l} 0, x<-1, \\ \frac{1}{4},-1 \leqslant x<2, \\ \frac{3}{4}, 2 \leqslant x<3, \\ 1, x \geqslant 3 . \end{array}\right.

$F(x)$ 的图形如图 2-5 所示, 它是一条阶梯形的曲线, 在 $x=-1,2,3$ 处有跳跃点, 跳跃值分别为 $\frac{1}{4}, \frac{1}{2}, \frac{1}{4}$ . 又

$图片$

P\left\{X \leqslant \frac{1}{2}\right\}=F\left(\frac{1}{2}\right)=\frac{1}{4},

P\left\{\frac{3}{2}<X \leqslant \frac{5}{2}\right\}=F\left(\frac{5}{2}\right)-F\left(\frac{3}{2}\right)=\frac{3}{4}-\frac{1}{4}=\frac{1}{2} .

P\{2 \leqslant X \leqslant 3\} =F(3)-F(2)+P\{X=2\} =1-\frac{3}{4}+\frac{1}{2}=\frac{3}{4} .

例在数轴上的有界区间 $[a, b]$ 上等可能地投点, 记 $X$ 为落点的位置（数轴上的坐标），求随机变量 $X$ 的分布函数。

解当 $x<a$ 时, $\{X \leqslant x\}$ 是不可能事件, 于是 $F(x)=P\{X \leqslant x\}=0$ ;当 $a \leqslant x<b$ 时, 由于 $\{X \leqslant x\}=\{a \leqslant X \leqslant x\}$ , 且 $[a, x] \subset[a, b]$ , 由几何概率知

F(x)=P\{X \leqslant x\}=P\{a \leqslant X \leqslant x\}=\frac{x-a}{b-a} ;

当 $x \geqslant b$ 时, 由于 $\{X \leqslant x\}=\{a \leqslant X \leqslant b\}$ , 于是

F(x)=P\{X \leqslant x\}=P\{a \leqslant X \leqslant b\}=\frac{b-a}{b-a}=1 .

综上可得, $X$ 的分布函数为 $F(x)=\left\{\begin{array}{cc}0, & x<a \\ \frac{x-a}{b-a}, & a \leqslant x<b \\ 1, & x \geqslant b\end{array}\right.$ .