1365 字
7 分钟
大数定律及相关概率不等式与收敛概念

一、依概率收敛(Convergence in Probability)#

严谨定义:

{Xn}\{X_n\} 是一列随机变量,XX 是某个随机变量。如果对任意的 ε>0\varepsilon > 0,都有

limnP(XnX>ε)=0,\lim_{n \to \infty} P(|X_n - X| > \varepsilon) = 0,

则称 XnX_n 依概率收敛于 XX,记作 XnPXX_n \xrightarrow{P} X

通俗解释:

依概率收敛意味着:当 nn 越来越大时,XnX_nXX 越来越“接近”的概率越来越大。虽然每个 XnX_n 本身是随机的,但从整体趋势来看,它们大概率会靠近 XX。就像我们多次掷骰子取平均值,这个平均值虽然还是会变动,但最终会很接近一个固定数(比如骰子点数期望为 3.53.5)的概率越来越高。


二、马尔科夫不等式(Markov’s Inequality)#

严谨定义:

XX 是一个非负随机变量,且 E[X]<\mathbb{E}[X] < \infty,则对于任意 a>0a > 0,有

P(Xa)E[X]a.P(X \ge a) \le \frac{\mathbb{E}[X]}{a}.

通俗解释:

马尔科夫不等式告诉我们:一个非负随机变量“远离0”的概率不会太大,这个概率最多不超过其期望与该距离的比值。它是分析随机变量极端偏离均值的最基础工具,比如它可以用来估计一个人年收入超过100万的概率,只需要知道平均收入。


三、切比雪夫不等式(Chebyshev’s Inequality)#

严谨定义:

设随机变量 XX 的数学期望存在,且方差 Var(X)<\mathrm{Var}(X) < \infty,则对任意 ε>0\varepsilon > 0,有

P(XE[X]ε)Var(X)ε2.P(|X - \mathbb{E}[X]| \ge \varepsilon) \le \frac{\mathrm{Var}(X)}{\varepsilon^2}.

通俗解释:

切比雪夫不等式进一步告诉我们:一个随机变量偏离其平均值的概率和它的方差有关。方差越小,这个偏离的概率就越小。它比马尔科夫不等式更强,因为它利用了更多的信息(期望+方差),是大数定律等定理的重要基础。


四、弱大数定律(Weak Law of Large Numbers, WLLN)#

严谨定义:

X1,X2,X_1, X_2, \dots 是独立同分布的随机变量,E[Xi]=μ\mathbb{E}[X_i] = \mu,定义样本平均为

Xn=1ni=1nXi,\overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i,

XnPμ.\overline{X}_n \xrightarrow{P} \mu.

通俗解释:

弱大数定律告诉我们:当我们不断增加样本数时,样本平均值在概率意义下会越来越接近真实期望值。这为统计学提供了理论基础——只要数据足够多,我们就可以用样本平均估计真实参数。


五、强大数定律(Strong Law of Large Numbers, SLLN)#

严谨定义:

X1,X2,X_1, X_2, \dots 是独立同分布的随机变量,E[Xi]=μ\mathbb{E}[X_i] = \mu,则有

P(limnXn=μ)=1.P\left( \lim_{n \to \infty} \overline{X}_n = \mu \right) = 1.

通俗解释:

强大数定律比弱大数定律更“强”:它不仅要求平均值趋近于期望,而且几乎必然地趋近。也就是说,在无限次实验中,样本平均最终一定会等于期望。几乎所有的样本路径都会收敛,不只是“高概率”收敛。

强 vs 弱大数定律的区别:

  • 收敛方式不同:弱大数定律是“依概率收敛”,而强大数定律是“几乎处处收敛”。
  • 强度不同:强大数定律提供了更强的保证,弱大数定律只说“概率越来越大”,但仍有微小可能远离。
  • 应用场景:弱大数定律常用于理论推导;强大数定律用于强调个体序列长时间平均的收敛性。

六、伯努利大数定律(Bernoulli’s Law of Large Numbers)#

严谨定义:

X1,X2,X_1, X_2, \dots 是独立的伯努利随机变量,P(Xi=1)=pP(X_i = 1) = p, P(Xi=0)=1pP(X_i = 0) = 1 - p,令

Xn=1ni=1nXi,\overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i,

则有

XnPp.\overline{X}_n \xrightarrow{P} p.

通俗解释:

伯努利大数定律是大数定律的最早版本,描述的是成功率的收敛:如果你反复进行某个成功率为 pp 的独立试验,比如投硬币,记录“正面”的比例,那么随着次数增加,这个比例将趋近于 pp


七、辛钦大数定律(Khinchin’s Law of Large Numbers)#

严谨定义:

X1,X2,X_1, X_2, \dots 是独立同分布的随机变量,只要求其数学期望存在(不要求方差有限),则样本平均

Xn=1ni=1nXi\overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i

依概率收敛于 E[Xi]\mathbb{E}[X_i],即

XnPE[X1].\overline{X}_n \xrightarrow{P} \mathbb{E}[X_1].

通俗解释:

辛钦定理说得更宽松一些——只要期望存在,就能保证样本平均依概率收敛。这是一个非常一般的弱大数定律形式,放宽了对方差等条件的要求。


八、切比雪夫大数定律(Chebyshev’s Law of Large Numbers)#

严谨定义:

{Xn}\{X_n\} 是一列两两不相关的随机变量,且 E[Xn]=μ\mathbb{E}[X_n] = \muVar(Xn)C<\mathrm{Var}(X_n) \le C < \infty,定义

Xn=1ni=1nXi,\overline{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i,

则有

XnPμ.\overline{X}_n \xrightarrow{P} \mu.

通俗解释:

切比雪夫大数定律是弱大数定律的一种扩展形式,它不要求严格的独立性,只要不相关性和有界方差即可。这使得它适用于更广泛的情况,比如金融时间序列等。


伯努利 vs 辛钦 vs 切比雪夫大数定律的区别:

定律条件收敛方式适用范围
伯努利独立伯努利变量(0或1)概率收敛最简单的情形,概率模型入门
辛钦独立同分布,期望存在概率收敛广泛适用,只需期望存在
切比雪夫两两不相关,方差有界概率收敛对独立性要求更弱,适用更广

分享

如果这篇文章对你有帮助,欢迎分享给更多人!

大数定律及相关概率不等式与收敛概念
https://www.laoguantx.cn/posts/lawoflargenumbersandrelatedinequalitiesandconvergenceconcepts/
作者
老官童鞋gogo
发布于
2025-05-09
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时

封面
Sample Song
Sample Artist
封面
Sample Song
Sample Artist
0:00 / 0:00