北邮概率论与数理统计离散型随机变量及其分布律.5878.pdf
北邮概率论与数理统计离散型随机变量及其分布律 2.2 -2-2.2 离散型随机变量及其分布律 用随机变量描述随机现象,通过对随机变量的概率分布的研究达到对随机现象的统计规律性的全面把握.对于一个随机变量X及任一个实数集A,所有的事件AX 的概率AXP构成了X的概率分布.显然这种方式描述概率分布是不方便的,为此我们需要寻找描述概率分布的数学工具.对于离散型随机变量X,如果知道了它取各个可能值的概率,那么我们可求出任一事件AX 的概率AXP.因此离散型随机变量,其概率分布可通过它取各个可能值的概率来描述,这便是下面介绍的离散型随机变量的分布律.一般的随机变量的概率分布的描述及连续型随机变量的概率分布的描述将在后面两节中介绍.2.1.1 离散型随机变量的分布律 定义 2.2.1 设X是离散型随机变量,其所有可能的取值为,21ixxx,X取各个可能值的概率为,2,1,ipxXPii,(2.2.1)称(2.2.1)式为X的分布律.分布律常用如下的表格表示:-3-4-5-其中)1,0(p.若记pq1,则上面分布律改写为 knkknqpCkXP,nk,1,0,pq1.容易验证 1)(0nnkknkknqpqpC.由于上述分布中每个概率knkknppC)1(正好是nqp)(的二项展开式的一项,因此把这个分布称为二项分布.于是有下面定义.定义 若随机变量X的分布律为 knkknqpCkXP,nk,1,0,其中)1,0(p,pq1,则称X服从参数为),(pn的二项分布,记为X),(pnB.二项分布是非常重要的离散型分布之一,这个分布的背景就是多重伯努利试验.对于具体的随机现象,若能归于多重伯努利试验模型,那么表示某种结果发生次数的随机变量就服从二项分布.比如 将一骰子掷n次,点数 6 出现的次数X服从参数为)61,n(的二项分布,即X)61,(nB.N件产品中有M件次品,从中有放回地抽检n件,那么取出的次品件数X服从参数为),NMn(的二 -6-项分布,X),(NMnB.假设某种药的治愈率为p,今有n个病人服用该药,治愈人数X服从二项分布),(pnB.连续发送n个码字,误码率为p,那么误码数X服从二项分布),(pnB.二项分布中,各个概率knkknppC)1(随k变化而变化,一般的规律是先随k增大而增大,然后随k增大而变小,有最大值.那么k为何值时,这个概率最大?这个问题留给同学去解决。在二项分布中一种最简单的二项分布便是二点分布.1n时的二项分布),1(pB称为两点分布.两点分布也叫做(0-1)分布,其分布律为 1,0,)1(1kppkXPkk.或用表格表示为 X 0 1 P 1p p 当一个试验只有两种可能结果时就可用二点分布来描述.比如,一粒种子是否发芽,一次射击是否命中目标,抽检的一件产品是否为合格品等 -7-等.二点分布是二项分布的特例,但反过来二项分布),(pnB也可由n个具有相同参数p的二点分布的和得到.我们可通过二点分布),1(pB和二项分布),1(pB的经验背景得到此结论.考虑n重伯努利试验模型.X表示n重伯努利试验成功的次数.1X表示试验第一次成功的次数,2X表示第二次试验成功的次数,nX表示第n次试验成功的次数.那么nXXXX 21,并且nXXX,21均服从参数为p的二点分布,X),(pnB.这里要注意的是,由于各次试验相互独立,因而随机变量nXXX,21也相互独立(随机变量的独立性概念将在下一章讨论).准确地说是:服从参数为),(pn的二项分布的随机变量可表示为n个独立同分布的二点分布的随机变量之和.例1 按规定,某种型号电子元件的使用寿命超过 1500 小时的为一级品.已知某一大批产品的一级品率为 0.2,现从中随机地抽查 20 只.求 20只元件中一级品只数X的分布律.解:我们将检查一只元件是否为一级品看成是一次试验,检查 20 只元件相当于做 20 重伯努利试验.从而知X)2.0,20(B,即X的分布律为 -8-20,1,0,)8.0(2.02020kCkXPkkk.将计算结果列表如下 为了对本题的结果有一个直观了解,我们作出上表的图形(见 P35).例 2 设有 80 台同类型设备,各台工作是相互独立的,发生故障的概率都是 0.01,且一台设备的故障能由一个人处理.考虑两种配备维修工人的方法,其一是由4人维护,每人负责20台.其二是由3人共同维护80台.试比较这两种方法在设备发生故障时不能及时维修的概率的大小.(P36)二.泊松分布 由微积分的知识可得 ekkk0!从而1!0kkke,这样只要0,!kek便构成一个分布律,这种分布律称为泊松分布.定义 若随机变量X的分布律为 !)(kekXPk,0,1,k,-9-其中0,则称X服从参数为的泊松分布,记为X)(.泊松分布是 1837 年由法国数学家泊松(Poisson)首次提出的.它是一种常用的离散型分布.这种分布的实际背景没有二项分布明显,但它与二项有联系,这种联系由下面定理刻画.定理(泊松定理)在n重伯努利试验中,事件A发生的概率为npn(与试验次数有关),对于任意固定的Nk,有 !)1(limkeppCkknnknknn.证明略(留给同学完成).上述定理中,把条件npn改为nnp,结论亦成立.该定理的一个应用便是可以近似计算二项分布的概率.由定理可以看出当n很大时,有 !)1(keppCkknnknkn,由于npn,则当n很大时,np很小.故在计算二项分布),(pnB的概率值时,当n很大,p很小,且np大小适中时,可以用参数为np的泊松分布的概率值近似,即 -10-!)1(keppCkknkkn,(其中np).例 1 某人独立地射击,假设每次射击命中的概率为 0.02,射击 400 次,求他至少命中两次的概率.解 设命中的次数记为X,则X)02.0,400(B,所求概率为 1012XPXPXP 98.002.040098.01400 直接计算上式很麻烦.由于这里的400n很大,而02.0p很小,我们可用泊松分布近似计算上面的概率.997.0e8e12-88XP.由泊松定理可以得到适合于用泊松分布来描述其统计规律性的随机现象所具备的背景条件.看下面例子.例 2 放射性物质在规定的一段时间内放射的粒子数X是一随机变量。罗瑟福(Rutherford)和盖克(Geiger)观察和分析了放射性物质放射出的粒子个数情况.他们做了 2608 次观察(每次时间为 7.5 秒),整理如下表 粒 子 观 察 的 频按87.3的泊松分布计 -11-数k 频数 率 算的概率 0 1 2 3 4 5 6 7 8 9 9 57 203 383 525 532 408 273 139 45 27 16 0.022 0.078 0.147 0.201 0.204 0.156 0.105 0.053 0.017 0.010 0.00.021 0.081 0.156 0.201 0.195 0.151 0.097 0.054 0.026 0.011 0.007 -12-06 合计 2608 0.999 1.000 这里87.3是用总的放射粒子数除以总的观察次数算出来的.它的实际意义是:平均每次放射出的粒子数.由以上的观察与分析可以看出频率与用泊松分布计算出的概率非常接近.因此可认为放射的粒子数X服从泊松分布.我们也可以从理论上解释这个结果.首先设想把体积为V的某块放射性物质分割成体积相同的n小块,这样每小块的体积同为nVV,并且n足够大,并假定:(1)对每小块而言,在 7.5 秒内放射出一个粒子的概率都为 Vpn 其中0是常数(与n无关,也不因小块的不同而不同),在 7.5 秒内放射出二个或二个以上粒子的概率为0(准确说是:当n很大时,这个概率很小 -13-很小,是nVV 的高阶无穷小).(2)各小块是否放射出粒子是相互独立的.在此假定下,事件“在 7.5 秒内恰好放射出k个粒子”等同于事件“在n重伯努利试验中恰好成功k次”,于是 knnknknppCkXP)1(上式右端与n有关,它实际上是kXP的近似值.容易理解,把物质无限细分,就能得到kXP的精确值,也即kXP的精确值是上式右端的极限,knnknknnppCkXP)1(lim 由泊松定理可得 !)(kekXPk 其中Vnpn.从上面例子可以总结出,对于随机现象中用以记录某种事件发生次数的随机变量X,其服从泊松分布的背景条件:(1)事件的发生(如粒子的放射)的基本速率在空间或时间上是常数;(2)事件的发生在不同空间或时间区间上相互独立;(3)事件不能同时发生。在生物学、医学、保险业、排队论等领域中,-14-泊松分布是一种常用的分布.例如,容器内的细菌数,铸件的疵点数,交通路口的事故数,电话呼叫次数等等.思考题:泊松分布中的各个概率!)(kekXPk随k变化而变化的规律如何?何时取得最大值?(三).超几何分布 在上一章中,我们讨论了不放回抽样模型:设有N件产品,其中有M件不合格,从中不放回地取n件,则其中不合格品件数X的分布律为 nNknMNkMCCCkXP,nk,1,0,这种分布称为超几何分布,记为X),(MNnh.若把“不放回地取n件”改为“放回地取n件”,则X服从二项分布),(NMnB.但当n远 小于N时,两个分布差别不大.思 考 题:超 几 何 分 布 中 的 各 个 概 率nNknMNkMCCCkXP)(随k变化而变化的规律如何?何时取得最大值?(四).几何分布、负二项分布 考虑独立重复试验序列,若每次试验成功的概率为p,一直进行到试验成功为止,所需的试验 -15-次数X是一个随机变量,它的分布律为 ppkXPk 1)1()(,,2,1k 这种分布称为几何分布,记为X)(pGe 容易验证 1)1(1)111ppppkk(.例如,连续掷一骰子,直至点数 6 为止,则所需的抛掷次数X是一个随机变量,且X)61(Ge.几何分布具有一个特别的性质:无记忆性.设想连续进行试验,一直到第m次试验都未成功,从此时算起为了等到试验成功所需的试验次数Y还是服从几何分布,参数还是原来的参数p,与m无关.这就是所谓的无记忆性.用数学的语言刻画几何分布的无记忆性就是:设X)(pGe,则对任意正整数nm,,有|nXPmXmnXP,或 1|npqmXmnXP.上面等式的证明并不难,请同学们完成.有趣的是,在取正整数值的离散分布中,只有几何分布具有无记忆性。还是考虑独立重复试验序列,若每次试验成功 -16-的概率为p,一直进行到试验成功r次为止,所需的试验次数X是一个随机变量,它的分布律为 rrkrkppCkXP)1(11,,1,rrk,这种分布称为负二项分布或帕斯卡分布,记为X),(prNb。易见1r时的负二项分布就是几何分布.负二项式rx)1(有泰勒展开式 iirxiirrrx)(!)1()1)()1(0 011iirirxC 记pq1,由上面展开式可得 1)1(01111rriirirrrkrrkrkqpqCppqC 若令Y表示r次成功之前失败的次数,那么rXY,且Y的分布律为 rirrippCiYP)1(11,,1,0i 可 见Y的 分 布 中 各 个 概 率 正 是 负 二 项 式rq)1()1pq的展开式中的各项再乘rp.这也是负二项分布这个名称的由来.几何分布是负二项分布的特例,那么反过来呢?考虑独立重复试验序列模型.X表示直至试验 -17-成功r次为止所需的试验次数.1X表示试验第一次成功所需的试验次数,2X表示第一次试验成功后等待到第二次试验成功所需的试验次数,如此,rX表示第1r次试验成功后等待到第r次试验成功所需的试验次数.那么rXXX,21均服从参数为p的几何分布,且rXXXX21.又由几何分布的无记忆性可以知道rXXX,21相互独立,即参数为),(pr的负二项分布的随机变量可表示为r个独立同分布的几何分布的随机变量之和.