中心极限定理
中心极限定理(Central 极限 Theorem)是概率论中重要的定理之一,指讨论随机变量序列部分和的分布近似于正态分布的一类定理。
1716年前后,法国数学家棣莫弗(英文:Abraham de Moivre)对重伯努利试验中每次试验事件出现的概率为的情况进行了讨论,后在1733年发表的论文中给出了中心极限定理的早期形式。1812年,法国数学家皮埃尔-西蒙·拉普拉斯(英文:Pierre-Simon Laplace)在《概率的分析理论》中,把棣莫弗的理论进行了扩展,指出二项分布可用正态分布逼近。直到1901年,俄罗斯数学家李雅普诺夫(英文:Lyapunov)依据拉普拉斯特征函数的概念研究了更普通的随机变量中心极限定理并进行了精确的证明,推进了中心极限定理的数学严格性和适用范围。在1919~1925年间,法国数学家莱维(英文:Lévy)系统地建立特征函数理论,并先后研究出普遍极限定理和棣莫弗一拉普拉斯局部极限定理等。从此中心极限定理成为概率论研究的中心课题之一。
中心极限定理是研究随机变量序列依分布收敛的极限定理,大数定律是研究随机变量序列依概率收敛的极限问题,二者在一定条件下存在紧密的联系。常见的中心极限定理有棣莫弗-拉普拉斯中心极限定理,林德伯格-莱维中心极限定理,李雅普诺夫中心极限定理等。由中心极限定理可得出二项分布以正态分布为极限。当充分大时,可以用棣莫弗-拉普拉斯中心极限定理来计算二项分布的概率。中心极限定理有一些重要的推广结论,如多维随机向量序列加权和的渐近行为以及随机过程的中心极限定理。该定理在统计学、管理学和气象学等领域中应用广泛,如气象学中,把林德伯格-莱维中心极限定理应用到雨量站网的规划中,可以更好地对降水进行监测分析。
定义
记和凡在各种条件下证明序列对每个有即可证明的分布收敛于标准正态分布的定理,都称为中心极限定理。
发展历史
1716年前后,法国数学家棣莫弗对重伯努利试验中每次试验事件出现的概率为的情况进行了讨论,并在1733年发表的论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布(二项分布),并给出了中心极限定理的早期形式。但由于当时正态分布的概念还未被明确地提出和广泛认识,亚伯拉罕·棣莫弗的工作并未受到重视。后来,法国数学家皮埃尔-西蒙·拉普拉斯在1812年的出版著作《概率的分析理论》中,把棣莫弗的理论进行了扩展,并首次引入特征函数对中心极限定理进行证明,指出二项分布可用正态分布逼近,但拉普拉斯的结果证明并不完整。
直到1901年,俄罗斯数学家李雅普诺夫借助拉普拉斯特征函数的概念研究了更普通的随机变量中心极限定理,并在数学上进行了精确的证明,推进了中心极限定理的数学严格性和适用范围。在1919~1925年间,法国数学家莱维系统地建立特征函数理论,中心极限定理的研究得到快速的发展,先后产生普遍极限定理和棣莫弗一拉普拉斯局部极限定理等。1922年林德伯格(Lindeberg)基于一个比较宽泛容易满足的条件,对中心极限定理给出了一个容易理解的初等证明。基于林德伯格的工作,威廉·费勒和莱维都于1935年独立地得到了中心极限定理成立的充分必要条件。
证明
洛必达法则:求型与型极限的方法。它把某两个函数的商的极限,化为求这两个函数的导数的商的极限。
引理:设为一公共分布函数为的随机变量序列,相应的矩母函数为。又设的分布为矩母函数为。若对一切成立,则对的所有连续点成立。
证明:假定 ,的矩母函数存在且有限。
那么的矩母函数为
由此可知,的矩母函数为记
对于,有
由引理可知,证明当时,即可证得中心极限定理。
因为
由洛必达法则可得
再利用洛必达法则可得
即在的情况下,中心极限定理得以证明。
对于一般情况,考虑标准化随机变量序列由于将已证得的结果应用于序列即可得出一般情况的结论。
独立同分布下的中心极限定理
棣莫弗-拉普拉斯-CLT
在重伯努利试验中,若事件出现的次数为每次试验中出现的概率为则有:
1.对任意的有限区间满足不等式的所有
一致地有称为亚伯拉罕·棣莫弗皮埃尔-西蒙·拉普拉斯局部极限定理。
2.对一致地有称为棣莫弗-拉普拉斯积分极限定理。
上述两个定理统称为棣莫弗-拉普拉斯中心极限定理。
林德伯格-莱维-CLT
设随机变量序列相互独立,且服从相同分布,数学期望和方差
则对任意随机变量的分布函数满足
林德伯格-莱维中心极限定理亦称独立同分布随机变量的中心极限定理。特别地,将服从二项分布的随机变量看作个服从伯努利分布的独立随机变量之和,即可由林德伯格-莱维中心极限定理得到亚伯拉罕·棣莫弗皮埃尔-西蒙·拉普拉斯中心极限定理。
独立不同分布下的中心极限定理
林德伯格-CLT
林德伯格条件:
上式中,分别为相互独立的随机变量序列的数学期望和方差,为密度函数。
林德伯格中心极限定理:设独立随机变量序列满足林德伯格条件,则对任意的有
李雅普诺夫-CLT
设随机变量序列相互独立,数学期望和方差若存在满足则随机变量序列服从中心极限定理。
即对任意随机变量的分布函数满足:
相关概念
正态分布
正态分布(normal 广义函数)亦称常态分布、误差分布、高斯分布。
式中为实参数,且则的分布称为(一维)正态分布,简记为
密度函数:
实参数分别是正态分布的数学期望和方差,所以正态分布是由其数学期望和方差唯一确定的。
当时,正态分布即称为标准正态分布,而中心极限定理描述的即为随机变量序列部分和服从标准正态分布的性质。
二项分布
一般地,在重伯努利试验中,设每次试验中事件发生的概率为用表示事件发生的次数,若随机变量的分布列为则称服从二项分布(二项式 distribution),记作
由棣莫弗-拉普拉斯中心极限定理可知,二项分布以正态分布为极限。当充分大时,可以用棣莫弗-拉普拉斯中心极限定理来计算二项分布的概率。
类似理论
二项定理
假设服从超几何分布,即个产品中含有个次品,其中恰好有件次品的概率为
若当时,(不变),则
泊松定理
若则其中,
泊松定理要求是常数,亚伯拉罕·棣莫弗皮埃尔-西蒙·拉普拉斯定理中是固定的。当很大时,若大小适中,用正态分布去逼近二项分布概率的精度更高;如果接近(或),且较小(或较大),那么二项分布的图形偏斜度太大,用泊松分布去估计精度会更高。
大数定律
大数定律(law of large numbers)亦称大数法则,或称大数定理,概率论与统计学的基本定律之一,通常是指在一定条件下,一个随机变量序列的算术平均值收敛于所希望的平均值的各种定律。
定义:设随机变量序列令若存在常数序列使得对于任意正数恒有则称序列服从弱大数定律,简称大数定律;若对上述随机变量序列存在常数序列使则称序列服从强大数定律。
大数定律与中心极限定理的关系:大数定律是研究随机变量序列依概率收敛的极限问题,中心极限定理
是研究随机变量序列依分布收敛的极限定理。当相互独立又同分布,并且有大于的有限方差时,大数定律和中心极限定理同时成立,而由独立同分布的中心极限定理可知,中心极限定理比大数定律更为精确。
相关推广
多维随机序列加权和
基于多维随机向量序列加权和的渐近行为,以林德伯格中心极限定理的基本思想,可得到多维随机向量序列加权和的中心极限定理,为林德伯格中心极限定理的推广。
推广:设为一相互独立的维随机向量序列,的分布函数为
且有为正定阵,并设为的特征根。
设为一维实列向量序列,记
再令其中
定义:如果一致绝对连续,且存在
使
则
其中
推论:设为一相互独立的维随机向量序列,的分布函数为
且有并假定为正定阵。
设为一维实列向量序列,如果
则随机变量序列服从中心极限定理。
鞅
从概率论的角度来看,鞅是一类重要的随机过程,可以看做是随机变量的扩张,它也有特有的极限结果。在鞅逼近理论中,中心极限定理也是一个重要定理。
鞅的定义:设是定义在概率空间上适应于上升代数族的随机过程,称为鞅。
鞅的中心极限定理:设为一个期望为零的鞅,且它的鞅差有界,定义,如果,则即近似服从标准正态分布。
相关应用
统计学
假设独立同分布、方差存在,当充分大,就可以用正态分布去逼近随机变量和的分布,由林德伯格-莱维中心极限定理可得知测量误差近似地服从正态分布。
在随机模拟(蒙特卡罗方法)中产生正态分布的随机数:
设随机变量服从上的均匀分布,则其数学期望与方差分别为和
由此可得个相互独立的上均匀分布随机变量和的数学期望与方差分别为和
因此按如下步骤可产生正态分布的随机数。
(1)从计算机中产生个上均匀分布的随机数,记为
(2)计算,则由林德伯格-莱维中心极限定理知,可将近似看成来自标准正态分布的一个随机数;
(3)计算则可将看成来自正态分布的一个随机数;
(4)重复(1) - (3)次,就可得到分布的个随机数。
管理学
随着旅游业的兴起,越来越多的年轻人开始结伴或独自出门旅行。在预测游客数量和管理调配旅游资源的问题上,游客数量可以看作是一个随机变量,根据独立分布的中心极限定理,当收集的样本容量足够大时,这些样本的游客数量均值将趋近于正态分布。这意味着,通过对大量样本的游客数量均值进行统计分析,管理者可以对旅游旺季或淡季的游客数量有更准确的预测,从而更好地调配旅游资源和安排旅游服务。
气象学
降水监测是防洪减灾的重要组成部分,雨量站网是监测降水最直接有效的手段,要考虑精度和成本两方面的因素,从而获得尽可能真实的降水情况,是一个十分重要的现实问题。把林德伯格-莱维中心极限定理应用到雨量站网的规划中,可以得到:某一区域面雨量的测量误差与雨量站密度(平均站问距)呈线性关系,误差增长斜率由雨量站的随机测量误差的均方差、观测值的期望值及区域面积决定。
参考资料
中心极限定理的可视化解释.Bing搜索.2024-01-22