大数定律这个名字看起来有点唬人哟,什么叫做“大数”?就是重复次数很多的数据。 本文介绍的几个大数定理其实都差不多,一句话:可以用 用频率估计概率 , 阅读本文前,建议已经了解了依概率收敛
独立同分布名词解释,独立同分布包含“独立”和“同分布”两个意思,所谓独立是值每次测试结果互不影响,同分布是指数据服从同一个分布。例如 分两个批次每次各测量100个学生的身高。这里“第一次测量”的结果不影响“第二次”测量的结果,所以是“独立的”。 而身高都是服从正态分布的,因此,这就是独立同分布的意思。再例如测量一批次产品是否合格等,都是“独立同分布”
弱大数定律与强大数定律 大数定理严格的数学定义分为两种,一是弱大数定理,一种是强大数定律。
弱大数定律 设 X 1 , X 2 , X 3 , … X_1, X_2, X_3, \dots X 1 , X 2 , X 3 , … 是独立同分布的随机变量序列,期望 μ = E [ X i ] \mu = \mathbb{E}[X_i] μ = E [ X i ] 存在且有限。弱大数定律指出,样本均值依概率收敛于期望值 :
X 1 + X 2 + ⋯ + X n n → P μ 当 n → ∞ \frac{X_1 + X_2 + \dots + X_n}{n} \xrightarrow{\text{P}} \mu \quad \text{当} \quad n \to \infty n X 1 + X 2 + ⋯ + X n P μ 当 n → ∞ 其中,“→ P \xrightarrow{\text{P}} P ”表示依概率收敛。
强大数定律 设 X 1 , X 2 , X 3 , … X_1, X_2, X_3, \dots X 1 , X 2 , X 3 , … 是独立同分布的随机变量序列,期望μ = E [ X i ] \mu = \mathbb{E}[X_i] μ = E [ X i ] 存在且有限。强大数定律指出,样本均值几乎必然收敛于期望值 :
X 1 + X 2 + ⋯ + X n n → a.s. μ 当 n → ∞ \frac{X_1 + X_2 + \dots + X_n}{n} \xrightarrow{\text{a.s.}} \mu \quad \text{当} \quad n \to \infty n X 1 + X 2 + ⋯ + X n a.s. μ 当 n → ∞ 其中,“a.s.”表示几乎必然收敛。
不管是弱大数定律还是强大数定理,本质上没太大区别,一句话就是:当样本数量很大的时候,样本均值和真实期望值充分接近。
切比雪夫Chebyshev大数定律 设随机变量序列 X 1 , X 2 , ⋯ , X n , ⋯ X_1, X_2, \cdots, X_n, \cdots X 1 , X 2 , ⋯ , X n , ⋯ 两两不相关,若 E ( X i ) < ∞ , D ( X i ) < ∞ E\left(X_i\right)<\infty , D\left(X_i\right)<\infty E ( X i ) < ∞ , D ( X i ) < ∞ , i = 1 , 2 , ⋯ i=1,2, \cdots i = 1 , 2 , ⋯ 。则对任意 ε > 0 \varepsilon>0 ε > 0 有
P ( ∣ 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n E ( X i ) ∣ ≤ ε ) → 1 。 \begin{gathered}
P\left(\left|\frac{1}{n} \sum_{i=1}^n X_i-\frac{1}{n} \sum_{i=1}^n E\left(X_i\right)\right| \leq \varepsilon\right) \rightarrow 1 \text { 。 }
\end{gathered} P ( n 1 i = 1 ∑ n X i − n 1 i = 1 ∑ n E ( X i ) ≤ ε ) → 1 。 证明 因为随机变量 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X 1 , X 2 , ⋯ , X n 两两不相关,根据期望和方差的性质得
E ( 1 n ∑ i = 1 n X i ) = 1 n ∑ i = 1 n E ( X i ) , D ( 1 n ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n D ( X i ) ≤ c n E\left(\frac{1}{n} \sum_{i=1}^n X_i\right)=\frac{1}{n} \sum_{i=1}^n E\left(X_i\right), \quad D\left(\frac{1}{n} \sum_{i=1}^n X_i\right)=\frac{1}{n^2} \sum_{i=1}^n D\left(X_i\right) \leq \frac{c}{n} E ( n 1 i = 1 ∑ n X i ) = n 1 i = 1 ∑ n E ( X i ) , D ( n 1 i = 1 ∑ n X i ) = n 2 1 i = 1 ∑ n D ( X i ) ≤ n c 由切比雪夫不等式知,对任意 ε > 0 \varepsilon>0 ε > 0 , 当 n → ∞ n \rightarrow \infty n → ∞ 时,
P ( ∣ 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n E ( X i ) ∣ ≥ ε ) ≤ 1 ε 2 D ( 1 n ∑ i = 1 n X i ) ≤ c n ε 2 → 0 。 P\left(\left|\frac{1}{n} \sum_{i=1}^n X_i-\frac{1}{n} \sum_{i=1}^n E\left(X_i\right)\right| \geq \varepsilon\right) \leq \frac{1}{\varepsilon^2} D\left(\frac{1}{n} \sum_{i=1}^n X_i\right) \leq \frac{c}{n \varepsilon^2} \rightarrow 0 \text { 。 } P ( n 1 i = 1 ∑ n X i − n 1 i = 1 ∑ n E ( X i ) ≥ ε ) ≤ ε 2 1 D ( n 1 i = 1 ∑ n X i ) ≤ n ε 2 c → 0 。 这里随机变量序列 X 1 , X 2 , ⋯ , X n , ⋯ X_1, X_2, \cdots, X_n, \cdots X 1 , X 2 , ⋯ , X n , ⋯ 两两不相关指序列中的任意两个随机变量线性无关。
切比雪夫大数定律的通俗解释清参考切比雪夫不等式
如果我们把切比雪夫大数定律拆分来看:
① 1 n ∑ i = 1 n X i \dfrac{1}{n} \sum_{i=1}^n X_i n 1 ∑ i = 1 n X i ... 这个是n n n 次取样的平均值。
② 1 n ∑ i = 1 n E ( X i ) \dfrac{1}{n} \sum_{i=1}^n E\left(X_i\right) n 1 ∑ i = 1 n E ( X i ) ... 这个是n n n 次取样的期望的平均值。
③ 在《高等数学》例已经学过,ε \varepsilon ε 表示任意一个小的数。
所以,切比雪夫大数定律的意思是,当采样次数足够多时,均值趋向期望值。
它表明 ,当试验次数n n n 足够大的时候,随机变量序列的算数平均值具有稳定性。
例已知正常男性成人血液中,每一毫升白细胞数平均是 7300 ,均方差是 700 .利用切比雪夫不等式估计每毫升白细胞数在 5200 ∼ 9400 5200 \sim 9400 5200 ∼ 9400 范围内的概率.
解 设每毫升白细胞数为 X X X ,依题意,μ = 7300 , σ 2 = 700 2 \mu=7300, \sigma^2=700^2 μ = 7300 , σ 2 = 70 0 2 ,所求概率为
P ( 5200 ⩽ X ⩽ 9400 ) = P ( 5200 − 7300 ⩽ X − 7300 ⩽ 9400 − 7300 ) = P ( − 2100 ⩽ X − μ ⩽ 2100 ) = P ( ∣ X − μ ∣ ⩽ 2100 ) . \begin{aligned}
P(5200 \leqslant X \leqslant 9400) & =P(5200-7300 \leqslant X-7300 \leqslant 9400-7300) \\
& =P(-2100 \leqslant X-\mu \leqslant 2100)=P(|X-\mu| \leqslant 2100) .
\end{aligned} P ( 5200 ⩽ X ⩽ 9400 ) = P ( 5200 − 7300 ⩽ X − 7300 ⩽ 9400 − 7300 ) = P ( − 2100 ⩽ X − μ ⩽ 2100 ) = P ( ∣ X − μ ∣ ⩽ 2100 ) . 由切比雪夫不等式
P ( ∣ X − μ ∣ ⩽ 2100 ) ⩾ 1 − σ 2 / ( 2100 ) 2 = 1 − ( 700 / 2100 ) 2 = 1 − 1 / 9 = 8 / 9 , P(|X-\mu| \leqslant 2100) \geqslant 1-\sigma^2 /(2100)^2=1-(700 / 2100)^2=1-1 / 9=8 / 9, P ( ∣ X − μ ∣ ⩽ 2100 ) ⩾ 1 − σ 2 / ( 2100 ) 2 = 1 − ( 700/2100 ) 2 = 1 − 1/9 = 8/9 , 即每毫升白细胞数在 5200 ∼ 9400 5200 \sim 9400 5200 ∼ 9400 范围内的概率不小于 8 / 9 8 / 9 8/9 .
推论 设 X 1 , X 2 , ⋯ , X n , ⋯ X_1, X_2, \cdots, X_n, \cdots X 1 , X 2 , ⋯ , X n , ⋯ 是相互独立的随机变量序列,且 E X i = E X_i= E X i = μ , D X i = σ 2 , i = 1 , 2 , ⋯ \mu, D X_i=\sigma^2, i=1,2, \cdots μ , D X i = σ 2 , i = 1 , 2 , ⋯ ,则对任意的 ε > 0 \varepsilon>0 ε > 0 ,有 lim n → ∞ P { ∣ 1 n ∑ i = 1 n X i − μ ∣ < ε } = \lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{i=1}^n X_i-\mu\right|<\varepsilon\right\}= lim n → ∞ P { n 1 ∑ i = 1 n X i − μ < ε } = 1 ,即
lim n → ∞ 1 n ∑ i = 1 n X i = P μ \boxed{
\lim _{n \rightarrow \infty} \frac{1}{n} \sum_{i=1}^n X_i \stackrel{P}{=} \mu
} n → ∞ lim n 1 i = 1 ∑ n X i = P μ 切比雪夫不等式推论,特别强调了一种特殊情况:在期望值一样的情况下,该公式可以进一步化简,均值就是期望值。
例 现有一大批种子,其中良种占 1 6 \frac{1}{6} 6 1 ,现从中任取 6000 粒.试分别(1)用切比雪夫不等式估计;(2)用中心极限定理计算:这 6000 粒中良种所占的比例与 1 6 \frac{1}{6} 6 1 之差的绝对值不超过 0.01的概率.
解 设 6000 粒中的良种数量为 X X X ,则 X ∼ B ( 6000 , 1 6 ) X \sim B\left(6000, \frac{1}{6}\right) X ∼ B ( 6000 , 6 1 ) .
(1)要估计的概率为
P { ∣ X 6000 − 1 6 ∣ < 1 100 } = P { ∣ X − 1000 ∣ < 60 } P\left\{\left|\frac{X}{6000}-\frac{1}{6}\right|<\frac{1}{100}\right\}=P\{|X-1000|<60\} P { 6000 X − 6 1 < 100 1 } = P { ∣ X − 1000∣ < 60 } 相当于在切比雪夫不等式中取 ε = 60 \varepsilon=60 ε = 60 ,于是由切比雪夫不等式可得
P { ∣ X 6000 − 1 6 ∣ < 1 100 } = P { ∣ X − 1000 ∣ < 60 } ⩾ 1 − D ( X ) 60 2 = 1 − 5 6 × 1000 × 1 3600 , = 1 − 0.2315 = 0.7685 , $ \begin{aligned}
P\left\{\left|\frac{X}{6000}-\frac{1}{6}\right|<\frac{1}{100}\right\} & =P\{|X-1000|<60\} \\
& \geqslant 1-\frac{D(X)}{60^2}
\end{aligned}=1-\frac{5}{6} \times 1000 \times \frac{1}{3600}, ~=1-0.2315=0.7685, ~ \$ P { 6000 X − 6 1 < 100 1 } = P { ∣ X − 1000∣ < 60 } ⩾ 1 − 6 0 2 D ( X ) = 1 − 6 5 × 1000 × 3600 1 , = 1 − 0.2315 = 0.7685 , $ 即用切比雪夫不等式估计此概率值不小于 0.7685 。
(2)由拉普拉斯中心极限定理,二项分布 B ( 6000 , 1 6 ) B\left(6000, \frac{1}{6}\right) B ( 6000 , 6 1 ) 可用正态分布 N ( 1000 , 5 6 × 1000 ) N\left(1000, \frac{5}{6} \times 1000\right) N ( 1000 , 6 5 × 1000 ) 近似,于是,所求概率为
P { ∣ X 6000 − 1 6 ∣ < 1 100 } = P { ∣ X − 1000 ∣ < 60 } = P { ∣ X − 1000 5 6 × 1000 ∣ < 60 5 6 × 1000 } ≈ 2 Φ ( 2.0784 ) − 1 = 2 × 0.98124 − 1 ≈ 0.9625 \begin{aligned}
P\left\{\left|\frac{X}{6000}-\frac{1}{6}\right|<\frac{1}{100}\right\} & =P\{|X-1000|<60\}=P\left\{\left|\frac{X-1000}{\sqrt{\frac{5}{6} \times 1000}}\right|<\frac{60}{\sqrt{\frac{5}{6} \times 1000}}\right\} \\
& \approx 2 \Phi(2.0784)-1=2 \times 0.98124-1 \approx 0.9625
\end{aligned} P { 6000 X − 6 1 < 100 1 } = P { ∣ X − 1000∣ < 60 } = P ⎩ ⎨ ⎧ 6 5 × 1000 X − 1000 < 6 5 × 1000 60 ⎭ ⎬ ⎫ ≈ 2Φ ( 2.0784 ) − 1 = 2 × 0.98124 − 1 ≈ 0.9625 比较两个结果,用切比雪夫不等式估计是比较粗略的.
伯努利Bernoulli大数定律 假设 μ n \mu_n μ n 是 n n n 重伯努利试验中事件 A A A 发生的次数,在每次试验中事件 A A A 发生的概率为 p ( 0 < p < 1 ) p(0<p<1) p ( 0 < p < 1 ) ,则 μ n n → p p \frac{\mu_n}{n} \xrightarrow{p} p n μ n p p ,即对任意 ε > 0 \varepsilon>0 ε > 0 ,有
lim n → ∞ P { ∣ μ n n − p ∣ < ε } = 1 \boxed{
\lim _{n \rightarrow \infty} P\left\{\left|\frac{\mu_n}{n}-p\right|<\varepsilon\right\}=1
} n → ∞ lim P { n μ n − p < ε } = 1 证 引人随机变量
X k = { 0 , 第 k 次试验中 A 不发生, 1 , 第 k 次试验中 A 发生 X_k=\left\{\begin{array}{ll}
0, & \text { 第 } k \text { 次试验中 } A \text { 不发生, } \\
1, & \text { 第 } k \text { 次试验中 } A \text { 发生 }
\end{array}\right. X k = { 0 , 1 , 第 k 次试验中 A 不发生 , 第 k 次试验中 A 发生 显然
n A = ∑ k = 1 n X k n_A=\sum_{k=1}^n X_k n A = k = 1 ∑ n X k 由于 X k X_k X k 只依赖于第 k k k 次试验,而各次试验是独立的,于是 X 1 , X 2 , ⋯ X_1, X_2, \cdots X 1 , X 2 , ⋯ 是相互独立的.由于 X k X_k X k 服从 ( 0 − 1 ) (0-1) ( 0 − 1 ) 分布,因此
E ( X k ) = p , D ( X k ) = p ( 1 − p ) ( k = 1 , 2 , ⋯ ) E\left(X_k\right)=p, \quad D\left(X_k\right)=p(1-p)(k=1,2, \cdots) E ( X k ) = p , D ( X k ) = p ( 1 − p ) ( k = 1 , 2 , ⋯ ) 由推论 ,有
lim n → ∞ P { ∣ 1 n ∑ k = 1 n X k − p ∣ < ε } = 1 \lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{k=1}^n X_k-p\right|<\varepsilon\right\}=1 n → ∞ lim P { n 1 k = 1 ∑ n X k − p < ε } = 1 即
lim n → ∞ P { ∣ n A n − p ∣ < ε } = 1 \lim _{n \rightarrow \infty} P\left\{\left|\frac{n_A}{n}-p\right|<\varepsilon\right\}=1 n → ∞ lim P { n n A − p < ε } = 1 伯努利大数定律的通俗解释就是 用频率估计概率
它表明 ,当样本容量足够大的时候,随机事件发生的频率依概率收敛于其发生的概率。这就说明了频率具有稳定性了,稳定于其发生的概率。
伯努利大数定律表明:当重复试验次数 n n n 充分大时,事件 A A A 发生的频率 n A n \frac{n_A}{n} n n A 依概率收敛于事件 A A A 发生的概率 p p p 。此定理以严格的数学形式表达了频率的稳定性.在实际应用中,当试验次数很大时,便可以用事件发生的频率来近似代替事件的概率 .
此外,如果事件 A A A 的概率很小,则由伯努利大数定律知事件 A A A 发生的频率也是很小的,或者说事件 A A A 很少发生.即"概率很小的随机事件在个别试验中几乎不会发生",这一原理称为小概率原理 ,它的实际应用很广泛.
伯努利大数定律要求随机变量X i ( i = 1 , 2 , … ) X_i(i=1,2,…) X i ( i = 1 , 2 , … ) 的方差存在,但在随机变量服从同一分布的场合,并不需要这一要求,于是又给出了辛钦大数定律
辛钦Khinchin大数定律 设随机变量 X 1 , X 2 , ⋯ , X n , ⋯ X_1, X_2, \cdots, X_n, \cdots X 1 , X 2 , ⋯ , X n , ⋯ 相互独立,服从同一分布,且具有数学期望 E ( X i ) = μ , i = 1 , 2 , ⋯ E\left(X_i\right)=\mu, i=1,2, \cdots E ( X i ) = μ , i = 1 , 2 , ⋯ ,则对任意 ε > 0 \varepsilon>0 ε > 0 ,有
lim n → ∞ P { ∣ 1 n ∑ i = 1 n X i − μ ∣ < ε } = 1 \lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{i=1}^n X_i-\mu\right|<\varepsilon\right\}=1 n → ∞ lim P { n 1 i = 1 ∑ n X i − μ < ε } = 1 辛钦大数定律不要求随机变量的方差存在 ,伯努利大数定律是辛钦大数定律的特殊情况。辛钦大数定律为寻找随机变量的期望值提供了一条实际可行的途径。例如,要估计某地区的平均亩产量,可收割某些有代表性的地块,如 n n n 块,计算其平均亩产量,则当 n n n 较大时,可用它作为整个地区平均亩产量的一个估计。此类做法在实际应用中具有重要意义。
它表明 ,对X的n次观测的结果依概率收敛于X的期望值。这就提供一个估计随机变量期望的一个方法,利用n个随机变量序列的均值来进行估计随机变量的真实期望。
例 设 { X n } \left\{X_n\right\} { X n } 为独立同分布的随机变量序列,其共同分布
P ( X n = 2 k k 2 ) = 1 2 k , k = 1 , 2 , ⋯ P\left(X_n=\frac{2^k}{k^2}\right)=\frac{1}{2^k}, k=1,2, \cdots P ( X n = k 2 2 k ) = 2 k 1 , k = 1 , 2 , ⋯ 试问 { X n } \left\{X_n\right\} { X n } 是否服从大数定律?
解 因为 E ( X n ) = ∑ k = 1 ∞ 2 k k 2 ⋅ 1 2 k = ∑ k = 1 + ∞ 1 k 2 = π 2 6 < + ∞ E\left(X_n\right)=\sum_{k=1}^{\infty} \frac{2^k}{k^2} \cdot \frac{1}{2^k}=\sum_{k=1}^{+\infty} \frac{1}{k^2}=\frac{\pi^2}{6}<+\infty E ( X n ) = ∑ k = 1 ∞ k 2 2 k ⋅ 2 k 1 = ∑ k = 1 + ∞ k 2 1 = 6 π 2 < + ∞ ,即 E ( X n ) E\left(X_n\right) E ( X n ) 存在,由辛钦大数定律可知 { X n } \left\{X_n\right\} { X n } 服从大数定律.
例 设总体 X X X 服从参数为 2 的指数分布,X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X 1 , X 2 , ⋯ , X n 为来自总体 X X X 的简单随机样本,则当 n → ∞ n \rightarrow \infty n → ∞ 时,Y n = 1 n ∑ i = 1 n X i 2 Y_n=\frac{1}{n} \sum_{i=1}^n X_i^2 Y n = n 1 ∑ i = 1 n X i 2 依概率收敛于 \qquad .
解: 1 2 \frac{1}{2} 2 1 .
本题主要考查辛钦大数定律.由题设,X i ( i = 1 , 2 , ⋯ , n ) X_i(i=1,2, \cdots, n) X i ( i = 1 , 2 , ⋯ , n ) 均服从参数为 2 的指数分布,因此,
E ( X i 2 ) = D X i + ( E X i ) 2 = 2 λ 2 = 1 2 E\left(X_i^2\right)=D X_i+\left(E X_i\right)^2=\frac{2}{\lambda^2}=\frac{1}{2} E ( X i 2 ) = D X i + ( E X i ) 2 = λ 2 2 = 2 1 根据辛钦大数定律,若 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X 1 , X 2 , ⋯ , X n 独立同分布且具有相同的数学期望,即 E X i = μ E X_i=\mu E X i = μ ,则对任意的正数 ε \varepsilon ε ,有
lim n → ∞ P { ∣ 1 n ∑ i = 1 n X i − μ ∣ < ε } = 1 \lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{i=1}^n X_i-\mu\right|<\varepsilon\right\}=1 n → ∞ lim P { n 1 i = 1 ∑ n X i − μ < ε } = 1 从而,本题有
lim n → ∞ P { ∣ 1 n ∑ i = 1 n X i 2 − 1 2 ∣ < ε } = 1 \lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{i=1}^n X_i^2-\frac{1}{2}\right|<\varepsilon\right\}=1 n → ∞ lim P { n 1 i = 1 ∑ n X i 2 − 2 1 < ε } = 1 即当 n → ∞ n \rightarrow \infty n → ∞ 时,Y n = 1 n ∑ i = 1 n X i 2 Y_n=\frac{1}{n} \sum_{i=1}^n X_i^2 Y n = n 1 ∑ i = 1 n X i 2 依概率收玫于 1 2 \frac{1}{2} 2 1 .
马尔可夫Markov大数定律 对随机变量序列 { X n } \left\{X_n\right\} { X n } ,若有 1 n 2 D ( ∑ i = 1 n X i ) → 0 \frac{1}{n^2} D\left(\sum_{i=1}^n X_i\right) \rightarrow 0 n 2 1 D ( ∑ i = 1 n X i ) → 0 成立,则 { X n } \left\{X_n\right\} { X n } 服从大数定律,即对任意的 ε > 0 \varepsilon>0 ε > 0 ,有
lim n → ∞ P { ∣ 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n E ( X i ) ∣ < ε } = 1 \lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{i=1}^n X_i-\frac{1}{n} \sum_{i=1}^n E\left(X_i\right)\right|<\varepsilon\right\}=1 n → ∞ lim P { n 1 i = 1 ∑ n X i − n 1 i = 1 ∑ n E ( X i ) < ε } = 1 它表明 ,随机序列的均值方差趋于0的时候,说明随机变量列的算数平均值是稳定的,稳定于其期望的平均值。
例题 例设 { X n } \left\{X_n\right\} { X n } 为独立随机变量序列,证明:若 X n X_n X n 的方差 σ n 2 \sigma_n^2 σ n 2 一致有界,即存在常数 c c c ,使得 σ n 2 ⩽ c , n = 1 , 2 , ⋯ \sigma_n^2 \leqslant c, n=1,2, \cdots σ n 2 ⩽ c , n = 1 , 2 , ⋯ ,则 { X n } \left\{X_n\right\} { X n } 服从大数定律.
证明 因为
1 n 2 D ( ∑ i = 1 n X i ) = 1 n 2 ∑ i = 1 n σ i 2 ⩽ c n → 0 ( n → ∞ ) \frac{1}{n^2} D\left(\sum_{i=1}^n X_i\right)=\frac{1}{n^2} \sum_{i=1}^n \sigma_i^2 \leqslant \frac{c}{n} \rightarrow 0(n \rightarrow \infty) n 2 1 D ( i = 1 ∑ n X i ) = n 2 1 i = 1 ∑ n σ i 2 ⩽ n c → 0 ( n → ∞ ) 所以,由马尔可夫大数定律知 { X n } \left\{X_n\right\} { X n } 服从大数定律.
例设 X 1 , X 2 , ⋯ X_1, X_2, \cdots X 1 , X 2 , ⋯ 是独立同分布的随机变量序列,在下列三种情况下,当 n → ∞ n \rightarrow \infty n → ∞ 时试问 X ˉ , 1 n ∑ i = 1 n X i 2 \bar{X}, \frac{1}{n} \sum_{i=1}^n X_i^2 X ˉ , n 1 ∑ i = 1 n X i 2 分别依概率收玫于什么值?
(1)X i ∼ B ( m , p ) , i = 1 , 2 , ⋯ X_i \sim B(m, p), i=1,2, \cdots X i ∼ B ( m , p ) , i = 1 , 2 , ⋯ ;
(2)X i ∼ E ( λ ) , i = 1 , 2 , ⋯ X_i \sim E(\lambda), i=1,2, \cdots X i ∼ E ( λ ) , i = 1 , 2 , ⋯ ;
(3)X i ∼ N ( μ , σ 2 ) , i = 1 , 2 , ⋯ X_i \sim N\left(\mu, \sigma^2\right), i=1,2, \cdots X i ∼ N ( μ , σ 2 ) , i = 1 , 2 , ⋯ 。
解:三种情况下,X 1 , X 2 , ⋯ X_1, X_2, \cdots X 1 , X 2 , ⋯ 均是独立同分布的随机序列,且 X i X_i X i 和 X i 2 X_i^2 X i 2 具有有限的数学期望和方差,对 X 1 , X 2 , ⋯ X_1, X_2, \cdots X 1 , X 2 , ⋯ 及 X 1 2 , X 2 2 , ⋯ X_1^2, X_2^2, \cdots X 1 2 , X 2 2 , ⋯ 分别使用独立同分布大数定律,得
X ˉ = 1 n ∑ i = 1 n X i → P 1 n ∑ i = 1 n E ( X i ) = E ( X i ) 1 n ∑ i = 1 n X i 2 → P 1 n ∑ i = 1 n E ( X i 2 ) = E ( X i 2 ) = D ( X i ) + E 2 ( X i ) \begin{aligned}
\bar{X} & =\frac{1}{n} \sum_{i=1}^n X_i \xrightarrow{P} \frac{1}{n} \sum_{i=1}^n E\left(X_i\right)=E\left(X_i\right) \\
& \frac{1}{n} \sum_{i=1}^n X_i^2 \xrightarrow{P} \frac{1}{n} \sum_{i=1}^n E\left(X_i^2\right)=E\left(X_i^2\right)=D\left(X_i\right)+E^2\left(X_i\right)
\end{aligned} X ˉ = n 1 i = 1 ∑ n X i P n 1 i = 1 ∑ n E ( X i ) = E ( X i ) n 1 i = 1 ∑ n X i 2 P n 1 i = 1 ∑ n E ( X i 2 ) = E ( X i 2 ) = D ( X i ) + E 2 ( X i ) ① 当 X i ∼ B ( m , p ) X_i \sim B(m, p) X i ∼ B ( m , p ) 时,E ( X i ) = m p , E ( X i 2 ) = m p ( 1 − p ) + m 2 p 2 E\left(X_i\right)=m p, E\left(X_i^2\right)=m p(1-p)+m^2 p^2 E ( X i ) = m p , E ( X i 2 ) = m p ( 1 − p ) + m 2 p 2 ,有
X ˉ → P m p , 1 n ∑ i = 1 n X i 2 → P m p ( 1 − p ) + m 2 p 2 \bar{X} \xrightarrow{P} m p, \quad \frac{1}{n} \sum_{i=1}^n X_i^2 \xrightarrow{P} m p(1-p)+m^2 p^2 X ˉ P m p , n 1 i = 1 ∑ n X i 2 P m p ( 1 − p ) + m 2 p 2 ② 当 X i ∼ E ( λ ) X_i \sim E(\lambda) X i ∼ E ( λ ) 时,E ( X i ) = 1 λ , E ( X i 2 ) = 2 λ 2 E\left(X_i\right)=\frac{1}{\lambda}, E\left(X_i^2\right)=\frac{2}{\lambda^2} E ( X i ) = λ 1 , E ( X i 2 ) = λ 2 2 ,有
X ˉ → P 1 λ , 1 n ∑ i = 1 n X i 2 → P 2 λ 2 \bar{X} \xrightarrow{P} \frac{1}{\lambda}, \frac{1}{n} \sum_{i=1}^n X_i^2 \xrightarrow{P} \frac{2}{\lambda^2} X ˉ P λ 1 , n 1 i = 1 ∑ n X i 2 P λ 2 2 ③ 当 X i ∼ N ( μ , σ 2 ) X_i \sim N\left(\mu, \sigma^2\right) X i ∼ N ( μ , σ 2 ) 时,E ( X i ) = μ , E ( X i 2 ) = σ 2 + μ , 2 E\left(X_i\right)=\mu, E\left(X_i^2\right)=\sigma^2+\mu_{\text {,}}^2 E ( X i ) = μ , E ( X i 2 ) = σ 2 + μ , 2 有
X ˉ → P μ , 1 n ∑ i = 1 n X i 2 → P σ 2 + μ 2 \bar{X} \xrightarrow{P} \mu, \frac{1}{n} \sum_{i=1}^n X_i^2 \xrightarrow{P} \sigma^2+\mu^2 X ˉ P μ , n 1 i = 1 ∑ n X i 2 P σ 2 + μ 2 例 (考研例题)设 X 1 , X 2 , ⋯ , X n , ⋯ X_1, X_2, \cdots, X_n, \cdots X 1 , X 2 , ⋯ , X n , ⋯ 是相互独立的随机变量序列,X n X_n X n 服从参数为 n ( n ⩾ 1 ) n(n \geqslant 1) n ( n ⩾ 1 ) 的指数分布,则下列随机变量序列中不服从切比雪夫大数定律的是( )。
(A)X 1 , 1 2 X 2 , ⋯ , 1 n X n , ⋯ X_1, \frac{1}{2} X_2, \cdots, \frac{1}{n} X_n, \cdots X 1 , 2 1 X 2 , ⋯ , n 1 X n , ⋯
(B)X 1 , X 2 , ⋯ , X n , ⋯ X_1, X_2, \cdots, X_n, \cdots X 1 , X 2 , ⋯ , X n , ⋯
(C)X 1 , 2 X 2 , ⋯ , n X n , ⋯ X_1, 2 X_2, \cdots, n X_n, \cdots X 1 , 2 X 2 , ⋯ , n X n , ⋯
(D)X 1 , 2 2 X 2 , ⋯ , n 2 X n , ⋯ X_1, 2^2 X_2, \cdots, n^2 X_n, \cdots X 1 , 2 2 X 2 , ⋯ , n 2 X n , ⋯
解 应选(D).
切比雪夫大数定律要求 { X n } \left\{X_n\right\} { X n } 相互独立,方差存在且一致有界,即 D X n ⩽ C D X_n \leqslant C D X n ⩽ C .逐一验证各选项是否满足这一条件,从而确定正确选项.
由题设知 { X n } \left\{X_n\right\} { X n } 相互独立,且 D X n = 1 n 2 ⩽ 1 D X_n=\frac{1}{n^2} \leqslant 1 D X n = n 2 1 ⩽ 1 ,所以选项(B)满足切比雪夫大数定律的条件.
又
D ( 1 n X n ) = 1 n 2 D X n = 1 n 4 ⩽ 1 , D ( n X n ) = n 2 D X n = 1 ⩽ 2 , D\left(\frac{1}{n} X_n\right)=\frac{1}{n^2} D X_n=\frac{1}{n^4} \leqslant 1, D\left(n X_n\right)=n^2 D X_n=1 \leqslant 2, D ( n 1 X n ) = n 2 1 D X n = n 4 1 ⩽ 1 , D ( n X n ) = n 2 D X n = 1 ⩽ 2 , 由此可知,选项(A),(B),(C)均满足切比雪夫大数定律的条件,然而 D ( n 2 X n ) = n 4 D X n = n 2 D\left(n^2 X_n\right)=n^4 D X_n=n^2 D ( n 2 X n ) = n 4 D X n = n 2 ,选项(D)不满足切比雪夫大数定律的条件,故选择(D).
总结 注意这些大数定理的细微区别。
切比雪夫大数定律 lim n → ∞ P { P ∣ 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n E ( X i ) ∣ < ε } = 1 \lim _{n \rightarrow \infty} P\left\{P\left|\frac{1}{n} \sum_{i=1}^n X_i-\frac{1}{n} \sum_{i=1}^n E\left(X_i\right)\right|<\varepsilon\right\}=1 lim n → ∞ P { P n 1 ∑ i = 1 n X i − n 1 ∑ i = 1 n E ( X i ) < ε } = 1
切比雪夫大数定律表明:在定理所给条件下,随机变量序列 { X n } \left\{X_n\right\} { X n } 的算术平均值 1 ∑ i = 1 n X i 1 \sum_{i=1}^n X_i 1 ∑ i = 1 n X i 序列依概率收敛于他们的数学期望的算术平均值。
推论:(切比雪夫大数定律的特殊情形)
设随机变量 X 1 , X 2 , ⋯ , X n , ⋯ X_1, X_2, \cdots, X_n, \cdots X 1 , X 2 , ⋯ , X n , ⋯ 相互独立,且具有相同的数学期望和方差:
E ( X i ) = μ , D ( X i ) = σ 2 ( i = 1 , 2 , ⋯ ) E\left(X_i\right)=\mu, D\left(X_i\right)=\sigma^2 \quad(i=1,2, \cdots) E ( X i ) = μ , D ( X i ) = σ 2 ( i = 1 , 2 , ⋯ )
则对于任意正数 ε \varepsilon ε ,有 lim n → ∞ P { 1 n ∑ i = 1 n X i − μ < ε } = 1 \lim _{n \rightarrow \infty} P\left\{\frac{1}{n} \sum_{i=1}^n X_i-\mu<\varepsilon\right\}=1 lim n → ∞ P { n 1 ∑ i = 1 n X i − μ < ε } = 1
推论表明:在独立同分布的条件下,随机变量的算数平均依概率收玫于它们的数学期望.
这一推论是实际问题中使用算术平均值的依据,当我们要测量某一个量 a a a 时,可以在不变的条件下重复测量 n n n 次,得到 n n n 个结果,X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X 1 , X 2 , ⋯ , X n 可以认为 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X 1 , X 2 , ⋯ , X n 分别是服从同一分布,有相同的数学期望 μ \mu μ 和方差 σ 2 \sigma^2 σ 2 的随机变量 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X 1 , X 2 , ⋯ , X n 的试验数值,由推论可知,当 n n n 充分大时,取 n n n 次测量结果 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X 1 , X 2 , ⋯ , X n 的算术平均值作为 a a a 的近似值,发生的误差很小.
伯努利大数定律 lim n → ∞ P { ∣ n A n − p ∣ < ε } = 1 \lim _{n \rightarrow \infty} P\left\{\left|\frac{n_A}{n}-p\right|<\varepsilon\right\}=1 lim n → ∞ P { n n A − p < ε } = 1
伯努利大数定律表明:一个事件 A A A 在 n n n 次独立重复试验中发生的频率 n A n \frac{n_A}{n} n n A 依概率收玫于事件 A A A 发生的概率 p p p ,伯努利大数定律以严格的数学形式表达了频率的稳定性.从伯努利大数定律的等价形式 lim n → ∞ P { n A / n − p ≥ ε } = 0 \lim _{n \rightarrow \infty} P\left\{ n_A/n -p \ge \varepsilon\right\}=0 lim n → ∞ P { n A / n − p ≥ ε } = 0 可以看到当 n n n 很大时,事件 A A A 在 n n n 次独立重复试验中发生的频率 n A n_A n A 与 A A A 在试验中发生的概率有较大偏差的可能性很小,在实际应用中,当试验次数 n n n 很大时,便可以利用事件 A A A 发生的频率来近似代替事件 A A A 发生的概率。
切比雪夫大数定律推论中要求随机变量 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X 1 , X 2 , ⋯ , X n 的方差存在,但在这些随机变量服从同一分布的情况下,并不需要这些要求,有如下辛钦大数定律。
辛钦大数定律 lim n → ∞ P { ∣ 1 n ∑ i = 1 n X i − μ ∣ < ε } = 1 \lim _{n \rightarrow \infty} P\left\{\left|\frac{1}{n} \sum_{i=1}^n X_i-\mu\right|<\varepsilon\right\}=1 lim n → ∞ P { n 1 ∑ i = 1 n X i − μ < ε } = 1
注:
(1) 定理不要求随机变量的方差存在;
(2) 伯努利大数定律是辛钦大数定律的特殊情况;
(3) 辛钦大数定律为寻找随机变量的期望值提供了一条实际可行的途径.
总结 定律 分布情况 期望 方差 结论 辛钦大数定律 相互独立且同分布 存在 估算期望 切比雪夫大数定律 相互独立 相同 相同 估算期望 伯努利大数定律 二项分布 相同 相同 频率=概率
切比雪夫定律 适用于任意独立变量(如不同分布的测量误差),强调方差控制,条件最宽松,仅需独立性和方差有界,适用非同分布但方差有界的情况。
伯努利定律 专用于二元事件频率(如成功/失败),最经典,结论直接对应概率的稳定性,强调频率稳定性
辛钦定律 针对同分布变量(如多次测量同一物理量),无需方差存在,最贴近实际统计,更贴近实际统计需求,可以没有方差但要求同分布,是切比雪夫的进一步推广