概率论是人类研究混沌和不确定性的主要武器。尽管我们拥有大量的数学工具,但概率论利用初等数学以及逻辑和常识。它帮助我们在统治我们世界的混乱中发现规律和秩序。中心极限定理——或简称 CLT——是实现这一目标的概率论和应用统计学中最深刻和最有用的定理之一。
CLT与大数定律是概率中的两个所谓的极限定理。它们处理样本均值随着 n(样本数量)增长的长期行为。我们假设读者熟悉概率的基本概念,例如随机变量、均值、方差、分布等,因为它们对本文至关重要。
考虑到这一点,让我们深入了解中心极限定理的卓越之处及其大量应用!
考虑n 个独立且同分布 (iid) 的随机变量X₁、X₂、X₃、…、Xₙ,每个变量均具有相同的均值μ和相同的方差σ²。我们将上述随机变量序列的“样本均值”定义为
n 个随机变量序列的样本均值本身就是一个随机变量。我们感兴趣的是计算它在 n 接近无穷大时的分布。让我们看看如何应对这一挑战。
好吧,首先,我们可以尝试计算X̄ₙ的均值和方差。显然,当 n 趋近于无穷大时,这两个性质不会揭示其分布。然而,一旦我们弄清楚它的分布,它们就会有用。
平均来说,我们可以简单地做:
回想一下,序列的所有随机变量都具有相同的均值μ。因此,我们得到:
这个结果不应该让我们感到惊讶。如果我们考虑一下,这是非常直观的。具有相同平均值的一系列随机变量的样本均值的平均值……就是该平均值本身。
我们对方差的计算并没有太大不同:
我们现在可以将每个Var[]运算符中的“n”项因式分解,但我们必须先将其平方。我们得到:
考虑一下这个结果。样本均值的方差与序列的大小n成反比。如果我们的序列中只有一个随机变量n=1,则样本均值的方差通常等于该随机变量的方差。
然而,随着序列中随机变量数量的增加,随着n趋近于无穷大,样本均值的方差越来越小,趋近于零值。
我们现在准备陈述和理解中心极限定理的本质。
iid 随机变量序列的样本均值分布接近正态分布。
请注意,我们从未说明序列中每个随机变量的分布。这是因为没关系。这就是 CLT 的力量所在。无论我们的随机变量的分布如何,随着序列大小的增加,它们的样本均值将始终接近正态分布。
在数学符号中,我们写:
从上面的公式可以看出,随着n趋近于无穷大,样本均值的平均值不会受到影响。但是,它的方差将接近零,从而为我们提供正态分布N(μ,0)。
我们必须注意,我们所有的随机变量都具有相同的均值和方差这一事实并不是 CLT 成立的必要条件。在任何情况下,样本均值的平均值将是我们的随机变量的平均值,而当 n 接近无穷大时,其方差将始终接近零。
现在,我们将尝试通过使用一个您也可以自己使用的具有指导意义的在线工具来巩固我们的观点。
假设我们有以下形式的任意人口。
我们的人口分布一点也不像正态分布。
现在,我们将绘制当总体样本量为 N = 10 时的均值分布。为此,我们将从总体中重复获取 10 个样本并绘制它们的平均值,如下所示。
如果我们多次重复这个过程,我们可以看到样本均值的分布将趋近于正态分布。
随意创建您自己的群体并亲眼看看 CLT 的实际应用。
从理论上讲,理解一个概念是必不可少的,但无论我们对它的理解程度如何,事实证明将其应用于没有经验的问题是很棘手的。让我们看看当我们想在现实生活场景中利用 CLT 时可以遵循的一般准则。
2.计算Y的平均值和方差。
3. 使用 CLT 并对我们的变量 Y 进行一些调整以简化我们的计算,我们可以有把握地说
因此,为了计算P(y₁ < Y < y 2 )我们可以这样做:
起初看起来有点令人生畏,但正如我们现在将通过一个例子看到的那样,应用中心极限定理是一个实践问题!
银行出纳员为排队的顾客一一服务。假设客户i的服务时间Xi的平均值为E[Xi]=2(分钟)且Var[Xi]=1。我们假设不同银行客户的服务时间是独立的。令Y为银行出纳员为50 位客户服务的总时间。求 Y 在 90 到 110 分钟之间的概率。
答:我们需要计算P(90<Y<110)。
Y = X ₁ +X 2 + …+ Xₙ是真的,其中n=50,E[Xi]=μ=2 且 Var[Xi]=σ²=1。我们现在可以写:
通过CLT,我们最终得到:
本文介绍了中心极限定理,这是概率论中最重要的定理之一,也是所有科学中应用最多(如果不是最多的话)的定理之一。
虽然这个定理背后的想法非常简单,但将其应用到现实生活场景中可能会很棘手。出于这个原因,我们提供了一个简短但有用的指南,至少在我们看来是如何应用 CLT 的指南。
联系客服