二项分布
二项分布(英文:二项式 distribution)是一种离散分布,指在重伯努利试验中,设事件在每次试验中出现的概率均为,以记在重伯努利试验中事件出现的次数,则的可能取值为,其对应的概率为:。当时二项分布就是伯努利分布。
二项分布是瑞士数学家雅各布·伯努利(德语:Jakob Bernoulli)在研究伯努利试验时发展出来的。二项分布作为词语最早出现在英国数学家卡尔·皮尔逊(英文:Karl Pearson)的《对进化数学理论的贡献——II.均质材料中的倾斜变化》一文。
二项分布的有着良好的统计学性质。作为离散分布,二项分布有密度及分布函数表达式,期望,中位数,众数,方差等数字特征存在。二项分布的极限性质也是其区间估计和大样本检验的基础。二项分布同时也是托马斯·贝叶斯统计中的重要分布。二项分布也是伯努利大数定律的基础。
二项分布应用广泛。计算机算法中的EM算法便用到了二项分布的性质。二项分布的检验和参数估计被广泛用于网络安全的检验,医学上药物的检验,生物学中植被分布的检验等领域。
定义
只有两个可能结果的试验称为伯努利试验。记出现事件为成功,出现的反面为失败,满足。若试验重复次,每次事件出现概率均保持不变,则称这种试验为重伯努利试验。在重伯努利试验中,记为事件出现的次数,则的分布列为:,其中。这个分布称为二项分布,记为。
历史
瑞士数学家雅各布·伯努利(德语:Jakob Bernoulli)在他的著作《推测术》(德语:Ars Conjectandi)中最早研究了伯努利试验,这是二项分布产生的源头。二项分布作为词语最早出现在英国数学家卡尔·皮尔逊(英文:Karl Pearson)的《对进化数学理论的贡献——II.均质材料中的倾斜变化》(英文:Contributions to the Mathematical Theory of Evolution---II. Skew Variation in Homogeneous Material)中。原文:“这个结果似乎相当重要,我认为它还没有被注意到。它给出了任何二项式分布的均方误差。”(英文:"This result seems of considerable importance, and I do not believe it has yet been noticed. It gives the mean square error for any binomial distribution.”)
举例
例1
检查10件产品,10件产品中不合格的个数服从二项分布,其中为不合格率。
例2
调查50个人,50人中患色盲的人数服从二项分布,其中为色盲率。
例3
在件产品中有件废品,现进行次有放回的抽样调查,则抽得废品个数服从二项分布。
性质
密度函数
次试验中成功的概率为,写作。
分布函数
二项分布的分布函数为,其中为不超过的最大整数。
数字特征
期望
设随机变量,则
从而二项分布的期望是。
方差
从而二项分布的方差是。
协方差
两个服从二项分布的随机变量的协方差使用协方差计算公式计算即可。
其中第一项仅当和都等于1的时候非0,而分别等于的概率。若是次独立的试验,则
。
中位数
二项分布的中位数不唯一,满足的的即是中位数。
若或,或有使得,除了,是奇数的情况,中位数唯一确定等于,这里的函数是四舍五入的函数。
若为整数,则中位数为。
当是偶数时,唯一确定且等于。
众数
众数有如下情况:
其中表示不超过的最大整数。
中心项
如图,当固定时,先随增加而增大,达到某一极大值后又逐渐下降。由于对
因此
当时,
当时,
当时,
因为不一定是整数,而二项分布中的只取整数值,所以存在整数,使得,而且当从0变到时,起先单调上升,当时达到极大值,后来又单调下降。但若,则这时同时达到极大值。
使取最大值的项称为的中心项,而称为最可能成功次数。由上面讨论知(即是的整数部分)。若是整数,则亦为最可能成功次数。
参数估计
充分统计量
首先给出充分统计量的概念。
充分统计量(英文:Sufficient 统计量):设是来自某个总体的样本,总体分布函数为,统计量称为的充分统计量,如果在给定的取值后,的条件分布与无关。
二项分布的充分统计量是。
证明
,在给定下样本的条件分布为
它与参数无关,即这个条件分布中已没有关于的任何信息了,也就是说,样本中关于的所有信息都在统计量中了,即是二项分布的充分统计量。
矩估计
设总体服从二项分布,其中为未知参数,为的一个样本,则和的矩估计分别为,,其中
证明
由二项分布可知,
解方程组
将第一式代入第二式,有。
所以。用分别代入上式的,得
代入第一式,得,因为为正整数,故,其中表示取正整数。
下面是一个参数矩估计的特例。
设总体为二项分布是样本,则参数是不可估的。
证明
首先,是充分统计量,。若有一个是的无偏估计,则有
,或写成
这是的次方程,最多有个实根,要使它对(0,1)中所有的都成立是不可能的,故参数是不可估的。
其次,若有某个是的无偏估计,则令,由重期望公式知
这说明是的无偏估计,由前述,这是不可能的。
区间估计
二项分布的样本在样本量足够大的时候可用渐近分布来构造比例近似的置信区间。
设是来自二点分布的样本,现要求的置信区间。由中心极限定理知,样本均值的渐进分布为,因此有(意为渐进分布)。
这个可作为近似枢轴量,对给定,利用标准正态分布的分位数可得
。括号里的事件等价于。
记,上述不等式可化为
左侧的二次三项式的判别式
故此二次三项式的图形是开口向上并与轴有两个交点的曲线。记此两个交点的横坐标为和,则有。
这里和是该二次三项式的两个根,它们可表示为
由于比较大,在实用中通常略去,于是可将置信区间近似为
。
假设检验
比率p的检验
比率可看作某事件发生的概率,即可看作二点分布中的参数。作次独立试验,以记该事件发生的次数,则。可以根据检验关于的一些假设。先考虑如下的单边假设检验问题:
直观上看,一个显然的检验方法是取如下的拒绝域,由于只取整数值,故可限制在自然数中。然而,一般情况下对给定的,不一定能正好取到一个,使得
能恰巧使得上式成立的值是罕见的。这是在对离散总体做假设检验中普遍会遇到的问题,在这种情况下,较常见的是找一个,使得
于是,可取,此时相当于把显著性水平由降到,因为它可以保证不大于,从而使显著性水平为的检验。
事实上,在离散场合使用值作检验较为简便,这时可以不用找,而只需根据观测值计算检验的值,即
,并将与之事先给定的显著性水平比较大小即可,其中为服从分布的随机变量。譬如,,,,则
于是,若取,由于,则应拒绝原假设。
对另两个检验问题的处理是类似的。检验问题以及检验问题的值分别为。
大样本检验
大样本检验一般使用渐进正态分布构造检验统计量,并使用检验的值进行检验。
对二项分布,其方差是均值的函数。现要对下列三类假设检验问题:
寻找大样本检验方法。在样本容量充分大时,利用中心极限定理知,故在时,可采用如下检验统计量:,其中为的极大似然估计。由此可近似的确定拒绝域。对应上述三类检验问题的拒绝域依次为,,。
符号检验
符号检验是一类重要的非参数检验,它主要用来对总体分位数进行检验。对任一连续总体,其分位数是存在且唯一的,对的检验可参看如下例子进行。
设总体为连续随机变量,分布函数为是来自该总体的样本,试检验假设“的中位数为0”,即检验如下假设:
作符号函数
即为中取正数的个数。直观上看,在原假设成立时,的取值不应过大也不应过小。在为真时,服从二项分布,从而,可确定常数,使得,该检验的拒绝域为。当然,这时使用检验的值进行检验将会比较简单。上述检验问题的统计量,通常被称为符号统计量。一般场合,还可以用来检验总体分布的分位数。对于这种符号检验,有如下的检验值:
贝叶斯统计
共轭先验分布
设,设,则的后验分布为分布。若取的先验分布为分布,则的后验分布仍为分布,即样本分布如果为二项分布,则共轭先验分布为分布。
证明
是分布,,其概率分布为。而的先验分布为,当,故有。计算积分得到。
将结果代入前式,得到后验密度,即的后验分布是分布。
又若,则。
计算积分得到。从而得到后验密度
,即的后验分布是分布。因此,样本若为二项分布,其参数的共轭先验分布族为分布族。
后验均值估计
设,的先验分布为分布,则的后验均值估计是。
后验方差
设,的先验分布为分布,则的后验方差为。
后验众数估计
设,的先验分布为分布,则的后验众数估计为。
假设检验
Bayes方法处理假设检验问题是直截了当的。在求得的后验分布后,计算的后验概率
,比较和的大小决定接受还是。和是综合样本信息和先验信息得出的两个假定世纪发生的概率,检验法则如下:当时接受,否则拒绝。设随机变量是从二项分布中抽取的一个样本,取的先验分布为均匀分布,则检验问题可以如下求出:
的后验分布是分布,故有
当取时可算得各种下的后验概率及后验机会比如下:
可见当时接受,当时拒绝。
与其他分布的关系
二项分布的和
设随机变量,且与独立,则。
伯努利分布
伯努利分布也称二项分布、0-1分布,是时的二项分布,记为,其分布列为
伯努利分布主要用来描述一次伯努利试验中成功的次数(0或1)。
泊松二项分布
泊松二项分布是次独立、不相同的伯努利试验的和。联合密度函数写为:
,其中。当全相等时为二项分布。
泊松近似
泊松分布的概率分布列是,其中参数,记为。
泊松定理(英文:西莫恩·泊松 Theorem):在重伯努利试验中,记事件在一次试验中发生的概率为(与试验次数有关),如果当时,有,则。
证明
记,记,我们可得
对固定的有
从而,对任意的成立,定理得证。
正态近似
棣莫弗-拉普拉斯中心极限定理(英语:de Moivre-皮埃尔-西蒙·拉普拉斯 central limit theorem):在重伯努利试验中,记事件在一次试验中发生的概率为,记为次试验中事件出现的次数,且记,则对任意实数,有。
二项分布的正态近似与泊松近似相比,一般在较小时,用泊松分布近似较好;而在和时,用正态分布近似较好。
多项分布
多项分布是重要的多维离散分布,它是二项分布的推广。
进行次独立重复试验,如果每次试验有个互不相容的结果:之一发生,且每次试验中发生的概率为,且。记为次独立重复试验中出现的次数,则取值的概率,即出现次,出现次,出现次的概率为
其中。这个联合分布列称为多项分布。时即为二项分布。
负二项分布
在伯努利试验序列中,记每次试验中事件发生的概率为,如果为事件第次出现时的试验次数,则的可能取值为。称服从负二项分布或帕斯卡分布,其分布列为
记为。
贝塔分布
若随机变量的密度函数为
则称服从贝塔分布,记作。
贝塔分布和二项分布的关系为:若,设对的条件分布是。那么,给定Y=y的X的条件分布是。
超几何分布
设有件产品,其中有件不合格品。若从中不放回地随机抽取件,则其中含有的不合格品的件数服从超几何分布,记为。超几何分布的概率分布列为
,其中且均为正整数。
二项分布是有放回的抽取,超几何分布是不放回的抽取。不放回抽取产品的试验仍然满足结果具有对立性和概率具有不变性这两个特征 ,但由于试验不再具有独立性,因此该实验不再是伯努利试验,故此时的次品数不再服从二项分布。但当远远小于且充分大的时候,超几何分布逼近二项分布。
相关概念
二项式定理
对任意实数和整数,都有。
证明
展开。对于等号右侧的每个乘积因子,必须选择或与括号外的项相乘,这样的选择共有个。所以在乘积的最后结果中,对任意,恰好包含个的项共有个,合并同类项后即得。定理得证。
抽检特性曲线
由于生产过程总有种种无法完全控制的关系,因此工艺规范也允许加工的尺寸有一定的公差,或允许产品中含有少量废品,这事实上是承认生产过程的随机性。在产品质量管理中,全面检验一般是不可能的,因此采用抽样检查的办法。抽样检验若用于生产过程中,则成为在线生产过程质量管理的一部分,此外就是用于产品的验收。如果每个产品要么是好品要么是废品,那么这时关心的是废品数或废品率,这是计数抽样验收中最简单的情况。对质量的要求大体上可以归结为:存在及满足当废品率时,接收这批产品;而当时,拒绝这批产品。最简单也是最基本的验收方案是:抽件产品进行检验,当废品数时,接受该批产品;否则拒绝。这个方案称为方案。由于抽样的随机性,任何验收方案都可能犯两类错误:其一,拒收一批合格品;其二,接受一批不合格品。前者为生产者风险;后者为消费者风险。当然希望减少这两类风险,即降到犯两类错误的概率。这也为比较两种不同验收方案的优劣提供了客观的标准。
为刻画验收方案的性能,一般引进,它表示当废品率为时,接受该批产品的概率。若以为横坐标,为纵坐标作图,则所得的曲线称为抽检特性曲线(英文:operating characteristic curve),简称曲线。
对方案而言,若抽样是放回的,则利用二项分布容易得到
因此,问题归结为找及,使得
,这里是两个不大的正数,按需要给定。理想的验收方案要求,这是无法实现的,但可作为比较的基准。
二项分布表
二项分布有现成的表可查,这种表对不同的及给出了的数值。下表给出了对于及,,的二项分布数值表。
伯努利大数定律
雅各布·伯努利大数定律(英文:Bernoulli's law of large numbers):设是次伯努利试验中事件出现的次数,而是事件在每次试验中出现的概率,则对任意,都有。
伯努利大数定律是瑞士数学家雅各布·伯努利(德语:Jakob Bernoulli)在研究伯努利试验中得出的极限定理。这里面,事件出现的次数服从二项分布。
应用
计算机
EM算法
EM算法(英文:Expectation Maximization Algorithm)是一种参数估计方法,对有讨厌参数的分布或者数据为截尾或缺失情况尤为有效。EM算法分为E步和M步。E步为期望值计算,根据参数的假设值,给出未知变量的期望估计,应用于缺失值。
M步为最大化计算,根据未知变量的估计值,给出当前的参数的极大似然估计。在E步中得出似然函数和对数似然函数后,参数是不可直接计算的。但引入的不可观测变量服从二项分布,因此可以根据二项分布的性质对M步进行迭代。
网络安全
二项分布可以在网络安全中应用。比如对于无线传感器网络,它很容易受到来自妥协节点的内部攻击,从而可以针对无线传感器网络节点信誉和信任的评估,提出基于二项分布的无线传感器网络信任评估系统,它是基于对节点行为的监控 ,利用二项分布来描述节点信誉的分布 ,并进一步得到节点信任值,从而指导中继节点的选择,降低内部攻击的危害。
医学
二项分布在医学中可以描述疾病(尤其是有聚集性的疾病)在家庭、小环境内等的分布模式。对于基因遗传疾病可以使用二项分布计算后代中出现疾病的概率。二项分布的推广——二项分布,负二项分布等都在疾病传染的模型构建上有应用。也可以应用二项分布的假设检验方法对医学上的药物效果进行检验。比如可以使用二项分布法评价儿童麻疹的免疫水平。
生物
在生物学中可以对植物空间分布等数据进行二项分布模型构建。比如可以使用二项分布拟合雷州林业局U6桉树无性系林分的直径分布,建立基于林分年龄、立地指数、林分密度的直径分布动态预测模型。
参考资料
Earliest Known Uses of Some of the Words of Mathematics (B).Mactutor.2023-09-16
Beta distribution.statlect.2023-09-16