本节属于高深内容,仅供了解即可 在概率论中,我们经常会看到很多复杂的公式,包括概率密度公式,分布函数公式,一个简单的问题是:这些公式是怎么得到的?一个常见的解决方法是使用傅里叶变换。
给定一个函数 K ( x , y ) K(x, y) K ( x , y ) 和一个区间 I I I (通常是 ( − ∞ , ∞ ) (-\infty, \infty) ( − ∞ , ∞ ) 或 [ 0 , ∞ ) [0, \infty) [ 0 , ∞ ) ),我们可以构造一个从函数到函数的映射,如下所示:
( K f ) ( y ) : = ∫ I f ( x ) K ( x , y ) d x ( K f)(y):=\int_I f(x) K(x, y) d x ( K f ) ( y ) := ∫ I f ( x ) K ( x , y ) d x 由于被积函数与两个变量 x x x 和 y y y 都有关,而我们只对 x x x 积分,所以最终的结果是关于 y y y 的函数。显然,用什么字母来表示虚拟变量并不重要,其他常见写法有 K ( t , x ) , K ( t , s ) K(t, x), ~ K(t, s) K ( t , x ) , K ( t , s ) 或者 K ( x , ξ ) K(x, \xi) K ( x , ξ ) 。我们把 K K K 称为核,新函数称为 f f f 的积分变换 .
积分变换对于研究各种问题都很有用。它们的效用源于这样一个事实:相关函数会使得手头问题的代数运算更加简单。我们定义了两个最重要的积分变换,即拉普拉斯变换和傅里叶变换。
定义 (拉普拉斯变换 )设 K ( t , s ) = e − t s . f K(t, s)= e ^{-t s} . f K ( t , s ) = e − t s . f 的拉普拉斯变换记作 L f L f L f ,被定义为
( L f ) ( s ) = ∫ 0 ∞ f ( t ) e − s t d t ( L f)(s)=\int_0^{\infty} f(t) e^{-s t} d t ( L f ) ( s ) = ∫ 0 ∞ f ( t ) e − s t d t 对于给定的函数 g g g ,它的拉普拉斯逆变换,记作 L − 1 g L ^{-1} g L − 1 g ,就是
( L − 1 g ) ( t ) = lim T → ∞ 1 2 π i ∫ c − i T c + i T e s t g ( s ) d s = lim T → ∞ 1 2 π i ∫ − T T e ( c + i τ ) t g ( c + i τ ) i d τ \left( L ^{-1} g\right)(t)=\lim _{T \rightarrow \infty} \frac{1}{2 \pi i} \int_{c-i T}^{c+i T} e^{s t} g(s) d s=\lim _{T \rightarrow \infty} \frac{1}{2 \pi i} \int_{-T}^T e^{(c+i \tau) t} g(c+i \tau) i d \tau ( L − 1 g ) ( t ) = T → ∞ lim 2 πi 1 ∫ c − i T c + i T e s t g ( s ) d s = T → ∞ lim 2 πi 1 ∫ − T T e ( c + i τ ) t g ( c + i τ ) i d τ 定义 (傅里叶变换或称特征函数 )设 K ( x , y ) = e − 2 π i x y . f K(x, y)= e ^{-2 \pi i x y} . f K ( x , y ) = e − 2 πi x y . f 的傅里叶变换记作 F f F f F f 或 f ^ \widehat{f} f ,其定义为
f ^ ( y ) : = ∫ − ∞ ∞ f ( x ) e − 2 π i x y d x , \widehat{f}(y):=\int_{-\infty}^{\infty} f(x) e^{-2 \pi i x y} d x, f ( y ) := ∫ − ∞ ∞ f ( x ) e − 2 πi x y d x , 其中
e i θ : = ∑ n = 0 ∞ ( i θ ) n n ! = cos θ + i sin θ e^{i \theta}:=\sum_{n=0}^{\infty} \frac{(i \theta)^n}{n!}=\cos \theta+i \sin \theta e i θ := n = 0 ∑ ∞ n ! ( i θ ) n = cos θ + i sin θ g g g 的傅里叶逆变换,记作 F − 1 g F ^{-1} g F − 1 g ,就是
( F − 1 g ) ( x ) = ∫ − ∞ ∞ g ( y ) e 2 π i x y d y . \left( F ^{-1} g\right)(x)=\int_{-\infty}^{\infty} g(y) e^{2 \pi i x y} d y . ( F − 1 g ) ( x ) = ∫ − ∞ ∞ g ( y ) e 2 πi x y d y . 注意,其他教材对傅里叶变换有不同的定义,有时会利用 K ( x , y ) = e − i x y K(x, y)= e ^{-i x y} K ( x , y ) = e − i x y 或 K ( x , y ) = e − i x y / 2 π K(x, y)= e ^{-i x y} / \sqrt{2 \pi} K ( x , y ) = e − i x y / 2 π .
拉普拉斯变换和傅里叶变换是相关的.令 s = 2 π i y s=2 \pi i y s = 2 πi y 并考虑函数 f ( x ) f(x) f ( x ) ,其中,当 x ⩽ 0 x \leqslant 0 x ⩽ 0 时 f ( x ) = 0 f(x)=0 f ( x ) = 0 .那么,我们会看到 f f f 的拉普拉斯变换和傅里叶变换是相等的.
在这里,我们把 f f f 的傅里叶变换写成
f ^ ( y ) = ∫ − ∞ ∞ f ( x ) e − 2 π i x y d x , \widehat{f}(y)=\int_{-\infty}^{\infty} f(x) e^{-2 \pi i x y} d x, f ( y ) = ∫ − ∞ ∞ f ( x ) e − 2 πi x y d x , 定义(施瓦兹空间 )施瓦兹空间(记作 S ( R ) S ( R ) S ( R ) )是全体满足下列条件的无限可微函数 f f f 构成的集合:对于任意的非负整数 m m m 和 n n n ,有
sup x ∈ R ∣ ( 1 + x 2 ) m d n f d x n ∣ < ∞ , \sup _{x \in R }\left|\left(1+x^2\right)^m \frac{d^n f}{d x^n}\right|<\infty, x ∈ R sup ( 1 + x 2 ) m d x n d n f < ∞ , 其中, sup x ∈ R ∣ g ( x ) ∣ \sup _{x \in R }|g(x)| sup x ∈ R ∣ g ( x ) ∣ 是使得"∣ g ( x ) ∣ ⩽ B |g(x)| \leqslant B ∣ g ( x ) ∣ ⩽ B 对所有 x x x 均成立"的最小的数 B B B (每当看到 sup \sup sup 时,你就应该想到"最大值")。
定理 (反演定理 )设 f ∈ S ( R ) f \in S ( R ) f ∈ S ( R ) ,其中 S ( R ) S ( R ) S ( R ) 是施瓦兹空间.那么
f ( x ) = ∫ − ∞ ∞ f ^ ( y ) e 2 π i x y d y f(x)=\int_{-\infty}^{\infty} \widehat{f}(y) e^{2 \pi i x y} d y f ( x ) = ∫ − ∞ ∞ f ( y ) e 2 πi x y d y 其中 f ^ \widehat{f} f 是 f f f 的傅里叶变换.特别地,如果 f f f 和 g g g 都是施瓦兹函数,并且它们的傅里叶变换相同,那么 f ( x ) = g ( x ) f(x)=g(x) f ( x ) = g ( x ) .
傅里叶变换的一个重要性质是在卷积的作用下它具有很好的性质。回忆一下,两个函数 f f f 和 g g g 的卷积记作 h = f ∗ g h=f * g h = f ∗ g ,其中
h ( x ) = ∫ − ∞ ∞ f ( t ) g ( x − t ) d t = ∫ I f ( x − t ) g ( t ) d t . h(x)=\int_{-\infty}^{\infty} f(t) g(x-t) d t=\int_I f(x-t) g(t) d t . h ( x ) = ∫ − ∞ ∞ f ( t ) g ( x − t ) d t = ∫ I f ( x − t ) g ( t ) d t . 我们自然会问:为了确保卷积存在,f f f 和 g g g 必须满足哪些条件?对我们来说,f f f 和 g g g 都是概率密度函数。因此,它们都是非负的且积分值都等于 1 .虽然这是确保 h = f ∗ g h=f * g h = f ∗ g 的积分值为 1 所需要的条件,但并不足以保证 f ∗ g f * g f ∗ g 是有限的.我们先来证明它的积分值为 1 .因为被积函数是非负的,所以可以交换积分次序.注意,对于每一个 x x x ,积分值要么是非负的,要么是正无穷.我们有
∫ x = − ∞ ∞ ( f ∗ g ) ( x ) d x = ∫ x = − ∞ ∞ ∫ t = − ∞ ∞ f ( t ) g ( x − t ) d t d x = ∫ t = − ∞ ∞ f ( t ) [ ∫ x = − ∞ ∞ g ( x − t ) d x ] d t \begin{aligned}
\int_{x=-\infty}^{\infty}(f * g)(x) d x & =\int_{x=-\infty}^{\infty} \int_{t=-\infty}^{\infty} f(t) g(x-t) d t d x \\
& =\int_{t=-\infty}^{\infty} f(t)\left[\int_{x=-\infty}^{\infty} g(x-t) d x\right] d t
\end{aligned} ∫ x = − ∞ ∞ ( f ∗ g ) ( x ) d x = ∫ x = − ∞ ∞ ∫ t = − ∞ ∞ f ( t ) g ( x − t ) d t d x = ∫ t = − ∞ ∞ f ( t ) [ ∫ x = − ∞ ∞ g ( x − t ) d x ] d t 括号里的积分是 1 .如果愿意的话,你可以做变量替换,令 u = x − t , d u = d x u=x-t, d u= d x u = x − t , d u = d x .现在我们正在计算一个概率密度函数在 − ∞ -\infty − ∞ 到 ∞ \infty ∞ 上的积分,这个值始终为 1 .接下来只剩下了
∫ x = − ∞ ∞ ( f ∗ g ) ( x ) d x = ∫ t = − ∞ ∞ f ( t ) d t = 1 , \int_{x=-\infty}^{\infty}(f * g)(x) d x=\int_{t=-\infty}^{\infty} f(t) d t=1, ∫ x = − ∞ ∞ ( f ∗ g ) ( x ) d x = ∫ t = − ∞ ∞ f ( t ) d t = 1 , 得到这个结果同样是因为概率密度函数在 − ∞ -\infty − ∞ 到 ∞ \infty ∞ 上的积分值为 1 .这意味着,只有在测度(或长度)为无穷大的集合上,非负函数 ( f ∗ g ) ( x ) (f * g)(x) ( f ∗ g ) ( x ) 的值才等于 0 。如果不熟悉测度论也不必担心,这里还有另外一种说法:对于任意的 M , { x : ( f ∗ g ) ( x ) > M } M,\{x:(f * g)(x)>M\} M , { x : ( f ∗ g ) ( x ) > M } 的长度不超过 1 / M 1 / M 1/ M ;否则,积分值就会大于 1 .
这证明了对几乎所有的 x , ( f ∗ g ) ( x ) x,(f * g)(x) x , ( f ∗ g ) ( x ) 都是有限的.f f f 和 g g g 必须满足哪些条件,才能保证对所有的 x x x ,其卷积始终是有限的?如果假设 f f f 和 g g g 是平方可积的,即 ∫ − ∞ ∞ f ( x ) 2 d x \int_{-\infty}^{\infty} f(x)^2 d x ∫ − ∞ ∞ f ( x ) 2 d x 和 ∫ − ∞ ∞ g ( x ) 2 d x \int_{-\infty}^{\infty} g(x)^2 d x ∫ − ∞ ∞ g ( x ) 2 d x 都是有限的,那么 f ∗ g f * g f ∗ g 在每一点处都有很好的性质。稍后我们将看到如何利用柯西-施瓦兹不等式来推出这一点
柯西-施瓦兹不等式 :对于复值函数 f f f 和 g g g ,
∫ − ∞ ∞ ∣ f ( x ) g ( x ) ∣ d x ⩽ ( ∫ − ∞ ∞ ∣ f ( x ) ∣ 2 d x ) 1 / 2 ⋅ ( ∫ − ∞ ∞ ∣ g ( x ) ∣ 2 d x ) 1 / 2 \int_{-\infty}^{\infty}|f(x) g(x)| d x \leqslant\left(\int_{-\infty}^{\infty}|f(x)|^2 d x\right)^{1 / 2} \cdot\left(\int_{-\infty}^{\infty}|g(x)|^2 d x\right)^{1 / 2} ∫ − ∞ ∞ ∣ f ( x ) g ( x ) ∣ d x ⩽ ( ∫ − ∞ ∞ ∣ f ( x ) ∣ 2 d x ) 1/2 ⋅ ( ∫ − ∞ ∞ ∣ g ( x ) ∣ 2 d x ) 1/2 f f f 和 g g g 是平方可积的这一假设非常弱,我们研究的所有标准概率密度函数都能满足.即使不满足平方可积的条件,这通常也没什么问题.例如,令
f ( x ) = { 1 2 x 若 0 < x ⩽ 1 0 其他, f(x)= \begin{cases}\frac{1}{2 \sqrt{x}} & \text { 若 } 0<x \leqslant 1 \\ 0 & \text { 其他, }\end{cases} f ( x ) = { 2 x 1 0 若 0 < x ⩽ 1 其他 , 那么,f f f 可积但不是平方可积的,这是因为 ∫ 0 1 d x / x \int_0^1 d x / x ∫ 0 1 d x / x 趋向于无穷大.也就是说,f f f 与自身的卷积是很好的.在做"一些"积分运算之后,你会发现
( f ∗ f ) ( y ) = { π / 4 若 0 < y ⩽ 1 ( arccsc ( y ) − arctan ( y − 1 ) ) / 2 若 1 < y < 2 0 其他. (f * f)(y)= \begin{cases}\pi / 4 & \text { 若 } 0<y \leqslant 1 \\ (\operatorname{arccsc}(\sqrt{y})-\arctan (\sqrt{y-1})) / 2 & \text { 若 } 1<y<2 \\ 0 & \text { 其他. }\end{cases} ( f ∗ f ) ( y ) = ⎩ ⎨ ⎧ π /4 ( arccsc ( y ) − arctan ( y − 1 )) /2 0 若 0 < y ⩽ 1 若 1 < y < 2 其他 . 现在陈述一个很好的结果.正因为如此,傅里叶变换才会在概率论中如此普遍.这是一个非常重要的结果,我们会给出完整的证明.
卷积与傅里叶变换 定理 (卷积与傅里叶变换 )设 f f f 和 g g g 都是 R R R 上的连续函数.如果 ∫ − ∞ ∞ ∣ f ( x ) ∣ 2 d x \int_{-\infty}^{\infty}|f(x)|^2 d x ∫ − ∞ ∞ ∣ f ( x ) ∣ 2 d x 和 ∫ − ∞ ∞ ∣ g ( x ) ∣ 2 d x \int_{-\infty}^{\infty}|g(x)|^2 d x ∫ − ∞ ∞ ∣ g ( x ) ∣ 2 d x 都是有限的,那么 h = f ∗ g h=f * g h = f ∗ g 存在,并且 h ^ ( y ) = f ^ ( y ) g ^ ( y ) \widehat{h}(y)=\widehat{f}(y) \widehat{g}(y) h ( y ) = f ( y ) g ( y ) .因此,傅里叶变换将卷积转换为乘法运算.
引理 设 X 1 X_1 X 1 和 X 2 X_2 X 2 是两个相互独立的随机变量,它们的概率密度函数分别是 f f f 和 g g g .设 f f f 和 g g g 均是平方可积的概率密度函数,那么 ∫ − ∞ ∞ f ( x ) 2 d x \int_{-\infty}^{\infty} f(x)^2 d x ∫ − ∞ ∞ f ( x ) 2 d x 和 ∫ − ∞ ∞ g ( x ) 2 d x \int_{-\infty}^{\infty} g(x)^2 d x ∫ − ∞ ∞ g ( x ) 2 d x 是有限的.因此,f ∗ g f * g f ∗ g 是 X 1 + X 2 X_1+X_2 X 1 + X 2 的概率密度函数.更一般地,如果 X 1 , ⋯ , X N X_1, \cdots, X_N X 1 , ⋯ , X N 是相互独立的随机变量,它们的概率密度函数 p 1 , ⋯ , p N p_1, \cdots, p_N p 1 , ⋯ , p N 都是平方可积的,那么 p 1 ∗ p 2 ∗ ⋯ ∗ p N p_1 * p_2 * \cdots * p_N p 1 ∗ p 2 ∗ ⋯ ∗ p N 是 X 1 + ⋯ + X N X_1+\cdots+X_N X 1 + ⋯ + X N 的概率密度函数.
虽然本节介绍了大量内容和结果,但我们开始看到整体框架了.如果给出 N N N 个相互独立且概率密度函数分别为 p 1 , ⋯ , p N p_1, \cdots, p_N p 1 , ⋯ , p N 的随机变量,那么变量和的概率密度函数就是 p = p 1 ∗ ⋯ ∗ p N p=p_1 * \cdots * p_N p = p 1 ∗ ⋯ ∗ p N 。乍一看,这个等式好像很可怕(对于 N N N 个服从指数分布的随机变量,其概率密度函数的卷积是什么?),但这里有一个显著的简化过程.根据卷积的傅里叶变换就是傅里叶变换的乘积,我们看到 p ^ ( y ) = p ^ 1 ( y ) ⋯ p ^ N ( y ) \widehat{p}(y)=\widehat{p}_1(y) \cdots \widehat{p}_N(y) p ( y ) = p 1 ( y ) ⋯ p N ( y ) .在随机变量服从同一个分布的特殊情况下,这又进一步简化为 p ^ 1 ( y ) N \widehat{p}_1(y)^N p 1 ( y ) N .此时,为了证明当所有概率密度函数都相等时的中心极限定理,我们"只需要"(遗憾的是,其中包含了很多内容)证明:当 N → ∞ N \rightarrow \infty N → ∞ 时,p ^ 1 ( y ) N \widehat{p}_1(y)^N p 1 ( y ) N 会收玫到某个正态分布的傅里叶变换 (记住,这个和没有标准化),而且傅里叶逆变换被唯一确定且服从正态分布.