概率与概率分布 (2)讲稿.ppt
关于概率与概率分布(2)第一页,讲稿共二十八页哦第二章第二章概率与概率分布概率与概率分布 学习要求学习要求 通过本章课堂的学习,使同学了解事件与概率的基本概念,了解正态分布、二项分布和普哇松分布是随机变量分布的三种主要理论分布及三者的关系,理解三种分布的特点及在生物统计学中的应用。掌握三种分布下的概率计算方法。统计学中的应用;三种分布下的概率计算方法。重点与难点重点与难点 重点:重点:小概率原理的基本概念,三种分布的特点及概率计算 难点:难点:三种主要理论分布思考题及作业思考题及作业 1、随机事件的频率与概率之间有何关系?2、正态分布、二项分布和普哇松分布之间有何关系?3、习题作业:标准化综合测试题第四章19题 参考书参考书 1、贵州农学院(主编).2001.生物统计附试验设计教材.中国农业出版 社.2943页 2、杜荣骞编.1987.生物统计学.高等教学出版社.3284页 第二页,讲稿共二十八页哦第一节第一节第一节第一节 事件与概率事件与概率事件与概率事件与概率 (一)、事件(一)、事件可分为两种现象:事件基本事件:不能再分的事件称基本事件或称样本点。个别随机事件的出现带有偶然性,似无规律可循。但是,若对大量的同类随机事件进行观察和试验,我们会发现随机事件的发生也具有必然的规律性。例如,多次重复投掷一枚硬币,我们发现得币值一面的次数约为试验次数的一半,即投掷一枚硬币得币值一面的可能性是0.5。概率论与数理统计就是从数量上研究大量同类随机现象规律性的科学。(二)、概率(二)、概率频率的稳定频率的稳定 对于随机事件,仅指出其发生的偶然性是不够的,重要的是应指出该随机事件发生的可能性大小。事实上,一些随机事件发生的可能性要大些;另一些随机事件发生的可能性要小些。例如,“孵化一枚种蛋孵出雏鸡”这一随机事件发生的可能性一般大于“孵化一枚种蛋孵出母鸡”这一随机事件发生的可能性等。既然不同的随机事件出现的可能性有大有小,这就使人们想到用一个数量来表示。随机事件出现较大的可能性用较大的数量来表示,较小的可能性则用较小的数量来表示。对于某一随机事件A,应该用怎样的数量来表示其发生的可能性大小呢?下面通过实例予以说明。第三页,讲稿共二十八页哦例1分别取种蛋50、100、150、200、500、1000枚,在同样条件下进行孵化,21天后,其孵化结果如表4l所示表表2l种蛋孵化频率种蛋孵化频率入孵种蛋数(n)501001502005001000出 雏 数(a)4491135179452901孵化频率(a/n)0.880.910.900.8950.9040.901 尽管孵化一枚种蛋孵出雏鸡具有随机性,但是,随着入孵种蛋数的增多,孵化频率(出雏数与入孵种蛋数之比)越来越清楚地呈现出稳定性来,即孵化频率越来越稳定地接近定值0.9,只是偶尔产生较大的偏差。随机事件的频率实际存在的稳定性正是对随机事件发生的可能性大小进行度量的客观基础。数值0.9也正是“孵化一枚种蛋孵出雏鸡”这一随机事件发生的可能性大小的数量描述。我们把0.9称为从这批种蛋中“孵化一枚种蛋孵出雏鸡”的概率。随机事件的概率的统计定义如下:P(A)pa/n(n充分大)古典概率的定定义义:设样本空间由n个等可能的基本事件所构成,其中事件A包含有m个基本事件,则事件A的概率为m/n,即 P(A)m/n 定义:定义:在相同条件下进行n次重复试验,随机事件A发生的次数为a,称an为随机事件A的频率;如果试验次数n逐渐增大,随机事件A的频率越来越稳定地接近定值p,就称p为随机事件A的概率。记为P(A)=p。在一般情况下,随机事件的概率p是不可能准确得到的,常以试验次数n充分大时随机事件的频率作为该随机事件的概率的近似值,即第四页,讲稿共二十八页哦根据随机事件的概率定义,随机事件的概率有以下三个基本性质:1任何事件(包括必然事件、不可能事件、随机事件)的概率都在0与1之间,即 0P(A)12必然事件的概率等于1,即 P()=13不可能事件的概率等于0,即 P()0随机事件的概率表示了随机事件的客观规律性,它反映了随机事件在一次试验中出现的可能性大小。若P(A)0,表示该随机事件是不可能事件。若P(A)很小,例如:小于 0.05,小于0.01、0.001或接近于0,表示该随机事件在一次试验中出现的可能性很小或者极小,不出现的可能性很大或者极大,以至实际上可以认为是不可能事件。这种将小概率随机事件在一次试验中看成实际不可能出现的随机事件称为小概率事件实际不可能性原理,简称,小概率原理。小概率原理是统计上进行显著性检验的基本依据。第二节第二节概率分布概率分布 前面我们讨论了随机事件与随机事件概率,现在来讨论随机试验。作一次试验以后试验的结果可能是多种的,这种试验称为随机试验。简称试验。例如,掷一枚硬币有二种可能结果:或者币值一面向上或者国徽一面向上;掷一枚骰子有六种可能结果:“得一点”,“得二点”,“得六点”;五头母牛所生五头小牛以性别来划分有六种可能情况:05、14、23、32、41、50,它们都是随机试验。又如。称量某品种100头成年猪体重,所得的100个数据不第五页,讲稿共二十八页哦可能完全一样,在某一个范围内有各种可能情况,即称量成年猪体重也是一个随机试验。前面所讲所讲的随机事件实际上是做一次试验的某一种可能结果或由某些可能结果组成,表示了随机试验的某一个侧面,因而随机事件的概率也只表示了随机试验的某一个侧面发生的可能性大小。为了对随机试验作全面的认识,有必要进一步讨论做一次试验出现的各种可能情况的可能性大小即随机试验的概率分布问题。一、随机变量一、随机变量 作一次试验,试验的可能结果是多种的,每一种可能结果都可以用一个数来表示。把这些数作为变量x的取值范围,则随机试验的结果可以用变量x来表示。例2孵化一枚种蛋只可能出现两种情况:“孵出雏鸡”(其可能性记为p)与“未孵出雏鸡”(其可能性记为q,显然,q1p)。“孵出雏鸡”相当于“得一个雏鸡”;“未孵出雏鸡”相当于“得0个雏鸡”。于是我们分别用数0和1表示“未孵出雏鸡”与“孵出雏鸡”这两种可能情况。把0、1作为变量x的取值范围,则孵化一枚种蛋这一随机试验可用取值为0、1的变量x来表示了。我们可用 P(x=0)=q,P(x=1)=p,(p+q=1)来表示孵化一枚种蛋的二种可能结果出现的可能性大小。例3用变量x表示某品种成年猪体重,若x在75kg到90kg之间的概率为0.2,可表示为 P(75x90)0.2 在例2中,表示试验结果的变量x,只有两个数值0、1,可以一一列出;且x取某个固定值时,其概率是确定的:P(x=0)=q,P(x=1)=p,(p+q=1)这种类型的变量叫离散型随机变量第六页,讲稿共二十八页哦在例3中,表示试验结果的变量。所取的值为某一个范围。例如成年猪体重范围为50150(kg)(在理论上可以为整个实数)。且x在某个范围内取值时,其概率是确定的,例如P(75x90)0.2(这时研究“x取某个固定值的概率”,例如研究成年猪体重为80kg的概率往往是无意义的),这种类型的变量叫连续型随机变量。一个随机变量完整地描述了一个随机试验,它不仅告诉我们随机试验的所有可能结果,而且告诉了我们该随机试验各种可能情况出现的可能性大小。这样,对随机试验概率分布的研究,也就转而对随机变量的概率分布进行研究了。下面我们介绍几种常见的随机变量的概率分布。二、正态分布二、正态分布(一一)实实例例 正态分布是一种常见的连续型随机变量的概率分布。我们结合一个具体例子予以说明。例4对200头大白母猪的仔猪一月窝重资料进行整理,列出了次数分布表如下,现研究大白母猪(经产)的仔猪一月窝重的概率分布。先列出频率分布表:分 组8|15.916|23.924|31.932|39.940|47.948|55.956|63.964|71.972|79.980|87.988|95.996|103.9104|111.9112|119.9次 数(f)4691013172635282116843频率(f/n)累计频率0.020.020.030.050.0450.0950.0500.1450.0650.2100.0850.2950.1300.4250.1750.6000.1400.7400.1050.8450.0800.0250.0400.9650.0200.9850.0151.000表表22200头大白母猪的仔猪一月窝重次数分布与颁率分布表头大白母猪的仔猪一月窝重次数分布与颁率分布表 第七页,讲稿共二十八页哦 如果在直角坐标系的横轴上标记各组组限、在纵轴上标记各组的频率与组距之比,可以作出频率分布矩形图(此时每个矩形的面积等于该组的频率),见图21。x月窝重(kg)图 2l 频率分布矩形图 可以设想,如果样本取得更大(n),组分得更细(i0),某一范围内的频率将趋近于一个稳定的值概率,这时,频率分布矩形图各矩形顶端中点的联线频率分布折线将逐渐趋近于一条曲线。换句话说,作为频率分布当 n,i0时的极限,可以考虑一个稳定的函数,对于样本是取自连续型随机变量的情形。这个函数的图形将是一条光滑曲线。对于此例,这条曲线排除了抽样和测量的误差,完全反映了大白母猪仔猪一月第八页,讲稿共二十八页哦窝重的波动规律。这种曲线在统计学中很重要,叫概率分布密度曲线,相应的函数叫概率分布密度函数。变量的波动规律不同,概率分布密度函数不同。概率分布密度曲线的形状不一样。如图43的概率分布叫正态分布。很多连续型随机变量的概率分布常常呈正态分布。这是一种在统计理论研究和实际应用上最重要的分布。试验误差一般服从这种分布,许多生物现象的数量资料均近似服从这种分布。图22 正态分布密度曲线图与正态分布密度曲线相对应的函数叫正态分布密度函数,记为f(x)。统计学已证明正态分布密度函数f(x)为(二)正态分布的特点(二)正态分布的特点 下面对正态分布进行详细的讨论。一般说来,正态分布的密度曲线是一条“钟形”光滑曲线(见图22)。第九页,讲稿共二十八页哦正态分布密度曲线有以下特点:1过x轴上的点(=0)作x轴的垂线,该直线方程为x=,正态分布密度曲线以这条直线为对称。2以为横坐标,f()为纵坐标和以+为横坐标,f(+)为纵坐标所确定的两点是正态分布密度曲线上的两点。可以证明,这两点是正态分布密度曲线的两个“拐点”:当x在到范围内取值时。曲线“向上弯”;当x在到+范围内取值时,曲线“向下弯”,当x在到范围内取值时曲线“向上弯”。3正态分布密度曲线向左、向右无限延伸,以x轴为渐近线,分布从到+。4当x=时,f(x)具有最大的纵坐标:,即当x=时,具有最大的概率分布密度。说明随机变量在附近取值的可能性最大,离越远,取值的可能性越小。其中,为服从正态分布的随机变量x的平均数,2为x的方差,为x的标准差。任何一个正态分布都由参数、唯一确定。若随机变量x服从平均数为方差为2的正态分布,常记为xN(,2)。5的大小,决定了曲线的“胖”、“瘦”程度。越小。曲线越“瘦”,变量越集中在平均数仟的周围;越大,曲线越“胖”,数据越分散。统计学已证明,随机变量x在区间(a,b)内取值的概率就等于图42中阴影部分曲边梯形的面积:第十页,讲稿共二十八页哦统计学还证明了以下结果:随机变量x在到范围内取值的概率等于1:以上结果如图23所示。图2一3 正态分布密度曲线图 随机变量x在平均数左右一倍标准差范围内取值的概率等于0.6827:随机变量x在平均数左右二倍标准差范围内取值的概率等于0.9545:随机变量x在平均数左右三倍标准差范围内取值的概率等于0.9973:第十一页,讲稿共二十八页哦 表表23126头头基础母羊体重基础母羊体重在平均数标准差范围内所包括的次数和频率在平均数标准差范围内所包括的次数和频率 由表23,我们看到实际的频率与理论的概率很接近,这也进一步证实了126头基础母羊体重的概率分布是接近正态分布的。除上面所讨论的以外,在实际的统计检验中常常要研究随机变量x在平均数左右取值的概率为0.95、0.99的取值范围。显然,随机变量x在这个范围外取值的概率为0.05和0.01。统计学已证明了下述结果:反之,随机变量x在平均数左右一倍标准差外出现的概率为10.6827=0.3173,即 P(x+)=1 P(x+)=10.6827=0.3173。类似地还有:P(x+2)=1P(2x+2)=10.9545=0.0455。P(x+3)=1P(3x+3)=10.9973=0.0027。以上所述仅是理论的结果,我们可以用具体实例来印证,从图 17可以看出:126头基础母羊体重的次数分布接近正态分布。我们计算在这个样本中各变数落在样本平均数不同倍数标准差范围内的次数和频率,列在表23中样本平均数土样本标准差(kg)范 围(kg)范围内所包括的变数次 数频 率(%)1s 2s 3s 1.96s 2.58s52.26 5.1052.26 10.2052.26 15.3052.26 10.0052.26 13.1647.1657.3642.06 62.4636.96 67.5642.26 62.2639.10 65.428411912611912667.4694.44100.0094.44100.00第十二页,讲稿共二十八页哦 P(x+1.96)=1P(1.96x+1.96)=10.95=0.05 P(x+2.58)=1P(2.58x+2.58)=10.99=0.01于是有0.05,0.01是今后常用的两个概率值。P(x+1.96)=0.05与P(x+2.58)=0.01都是两尾概率。如图24所示 图24两尾概率与一尾概率 由两尾概率,可以计算出随机变量x大于或小于某一定值的概率,叫一尾概率。如图24中的两个一尾概率:P(x+1.96)=0.025,第十三页,讲稿共二十八页哦可以证明其平均数=0,方差2=1。平均数为0、方差为1的正态分布叫标准正态分布。随机变量u服从标准正态分布记为uN(0,1)。标准正态分布密度曲线见图25 它们恰好等于相应的两尾概率P(x+1.96)=0.05的一半。同样有:P(x+2.58)2=0.01/2=0.005。(三三)标标准准正正态态分分布布 前面已介绍过,一个正态分布由参数、完全确定。不同的正态分布其、不相同,分布密度函数也不相同。这样,在进行有关的计算时,因、的不同,实际应用很不方便。为便于应用,对x作如下变换:设:u=(x)/u也是一个随机变量,其分布密度函数为图25 标准正态分布密度曲线第十四页,讲稿共二十八页哦u叫做x的标准化,也叫标准正态离差。u+5即(x)/+5叫普罗比(probit),也叫概率单位(probabitity unit),是育种工作中进行普罗比分析的重要参数。我们若事先将标准正态分布的有关数字计算出列成表格,这样一般正态分布的有关计算问题通过将其标准化也就可以解决了。下面我们介绍正态分布表的使用方法。附表lb是K值表 它用来由取值范围(K,+)的左端点附表lb是K值表 它用来由一尾(右尾)概率查出取值范例5已知 K=0.42,K=0.42查值当K=0.42时,查附表la,得=0.3372。当K=0.42时,由于曲线以y轴为对称。所以(0.42)=1(0.42)=10.3372=0.6688。一般,当K0时,(K)=1(K)。例6已知xN(0,1),求P(0.1x0.3)p(0.1x0.3)=(-0.1)(0.3)=(1(0.1))(0.3)=(10.4602)0.3821 =0.1577。值K查出一尾(右尾)概率;围(K,)的左端点值K。第十五页,讲稿共二十八页哦例7 已知0.26,=0.72,查K值.当=0.26时,查附表1b,得K=0.64335。当=0.72时,由于分布密度曲线的对称性,K0.72=K(10.72)=K0.28=0.58284。一般,当0.5时。K=K(1)。例8某品种成年猪体重的总体平均数=100kg,标准差=20kg。试计算成年猪体重与平均数相差30kg以上的两尾概率,即大于130kg 和小于70kg的概率。由于对称性,P(x70)=P(x130),于是P(x130)=2P(x130)。为了计算出P(x130)先将x与130标准化:所以 P(x130)=P(u1.5)当K=1.5时,查附表la,得=0.0668,于是 P(x130)=20.0668=0.1336 即该品种成年猪体重与平均数相差30kg以上的两尾概率是0.1336。第十六页,讲稿共二十八页哦 三、三、三、三、二项二项二项二项分布分布分布分布 二项分布是一种离散型随机变量的分布。为了便于理解,先看一个摸围棋子的例子。设把相当多的围棋子放在一个坛子内,黑子和白子的比是1:2,把它们充分混匀后随机摸出1粒。可以假定坛中每只棋子被摸到的可能性(概率)是一样的。由于黑白子之比是12。因此摸着1只黑子的概率是13,摸着1只白子的概率是23。记A为“摸着1只白子”,P(A)p23;“摸着1只黑子”为A的逆。记为,P()=q1p13。现从坛子内独立随机摸出3只。它们共有8种可能的不同排列方式、4种可能的不同组合方式,见图26,因而从坛子内独立随机摸出3只是一个随机试验。现分别计算这一随机试验4种可能的不同组合方式的概率。排列方式:组合方式:0白 1白 2白 3白 3黑 2黑 1黑 0黑图2-6 随机模出3只可能不同排列与组合方式 因为摸着1只白子的概率是23,摸着1只黑子的概率是1/3。它们相互独立,根据概率相加、相乘定理,组合方式是“0黑3白”的概率为:(2/3)0(1/3)3=1/27;组合方第十七页,讲稿共二十八页哦式是“0黑3白”的概率为:(2/3)0(1/3)3=1/27;组合方式是“1白2黑”的概率等于3种1白2黑排列方式的概率之和,即(1/3)2(2/3)1+(1/3)1(2/3)(1/3)1+(2/3)(1/3)2=3(2/3)1(1/3)2=6/27;组合方式是“2白1黑”的概率等于3种2白1黑排列方式的概率之和。即(1/3)1(2/3)2+(2/3)1(1/3)1(2/3)1+(2/3)(1/3)2=(2/3)2(1/3)1=3(2/3)2(1/3)=12/27;组合方式是“3白0黑”。的概率为(2/3)3(1/3)0=8/27。除这4种黑白组合方式外,别的黑白组合方式没有了。这4种组合方式的概率相加应等于1,事实上的确有 上式可以改写为不难看出,黑白子组合的4种方式的概率恰好就是二项式 展开后相应的各项,计算概率的系数1,3,3,1也就是各项的系数。第十八页,讲稿共二十八页哦关于这类问题的一般提法是:在确定的条件下重复地、独立地做n次同一种试验。对于每一次试验有两种可能结果。事件A发生和事件 A不发生(记为)。P(A)=p,P()=q=1p。这一串独立试验序列在统计学中称为贝努里试验或贝努里概型。因此,当事件发生只有两种不相容的可能结果时,结果在试验中所有可能组合的概率分布称之为二项分布。下面我们来计算属于贝努里概型的n次试验中事件A发生在m次(mn)的概率Pn(m)。首先,由于试验的独立性,在n次试验中事件A在M次试验中发生。而在其余n一m次试验中不发生的一种排列方式的概率可根据概率相乘定理计算出:pmqn-m;又由于在n次试验中事件A在m次试验中发生,而在其n一m次试验中不发生的所有可能的不同排列方式共有 种,于是根据概率相加定理,属于贝努里概型的n次试验中事件A发生m次,不发生nm次(mn)的概率Pn(m)为其中为从n个不同元素中抽取m个(mn)元素的组合数。属于贝努里概型的n次试验中,所有可能的、互不相容的结果共有n1种。即事件A发生0次,不发生n次,发生1次、不发生n1次,发生2次。不发生n2次。,发生n次,不发生 0次,n1种可能结果的概率依次为 第十九页,讲稿共二十八页哦且 。现引进一随机变量x。用以表示属于贝努里概型的n次试验的n+1种可能的结果。设x=0,1,2,m,n分别表示n次试验中事件A发生0次,不发生n次。发生1次,不发生n1次,发生2次、不发生n2次,发生m次、不发生nm次,发生n次,不发生0次;相应的概率为Pn(0),Pn(1),Pn(2),Pn(m),Pn(n)。其分布列为 其中,我们把具有上述分布列的随机变量x称为是服从二项分布或具有二项分布。一个二项分布依赖于两个参数:正整数n(表示属于贝努里概型的试验次数),正实数P(0P1)表示作一次试验,事件A发生的概率,即P(A)=p。而P()=q=1p。一个随机变量服从试验次数n,P(A)=p的二项分布,记为xB(n,p)。统计学已证明,若xB(n,p),则x的平均数=np,方差2=npq,标准差=。若服从二项分布的随机变量x不是表示n次试验事件A发生的次数而是表示事件A第二十页,讲稿共二十八页哦发生的频率,即x=m/n,(m=0,1,2,n),此时,分布列为 其中,。X的平均数=p,方差2=pq/n,标准差=。一般由只有两种属性类别的质量性状计数所得来的次数或成数(百分数)资料常常服从二项分布。二项分布在n较大而np、nq均大于5时。接近正态分布。当n时,二项分布的极限分布为正态分布。例9有一批种蛋,其孵化率是0.85,今在该批种蛋中任选6枚进入孵化,试给出孵出小鸡的各种可能情况的分布列。并计算孵出小鸡数的平均数和方差。这个问题属于贝努里概型,其中n6,p=0.85,q=10.85=0.15。孵化6枚种蛋孵出的小鸡数x服从二项分布B(6,0.85)分布列为其中第二十一页,讲稿共二十八页哦孵出小鸡数的平均数为:=np=60.855.1孵出小鸡数的方差为:2=npq60.850.150.765例10 配准受胎的18头母牛生10头公牛、8头母牛的概率是多少?这也是一个贝努里概型问题,其中n18,P(A)=0.5(A表示一头母牛生小公牛),P()q=1p=0.5(表示一头母牛生小母牛)。18头母牛所生18头小牛的小公牛数x服从二项分布B(18,0.5),所以18头母牛所生18头小牛中小公牛为10头、小母牛为8头的概率为 即,配准受胎的18头母牛生10头公牛、8头母牛的概率是0.1671。四、普哇松分布四、普哇松分布 对于贝努里概型,当某事件出现的概率根小(P1,符号“1,“”表示远远大于),二项分布变成了这里所要讨论的普哇松分布。限于篇幅,仅给出有关结果而不作详细推证。定义:如果随机变量x的分布列为 其中,那么就称这个随机变量x服从普哇松分布。可以证明 第二十二页,讲稿共二十八页哦普哇松分布是一种离散型随机变量的分布,它有一个很特殊的性质:随机变量x的平均数等于随机变量的方差2也都等于,即 =2=,而且是x的方差2。普哇松分布由参数所确定。我们把随机变量x服从具有参数的普哇松分布记为BP()。也就是说,计算普哇松分布的概率公式 中,参数不仅是x的平均数若相对于被观察次数(试验次数)n,某随机事件出现的平均次数(为一个定值)很小,则这个随机事件出现的次数具有普哇松分布。普哇松分布在实际中应用甚广,一般的稀有事件,如显微镜观察片子上每一格子内细菌数目或血细胞数目的分布;一种比较稀少的非传染性疾病在规定人数内或规定时间内发生病例数目的分布;从一种放射性物质放射出的质点在规定时间内射入某给定空间内数目的分布;一种死亡率不大高的疾病在每1,000(或其他大数目)病人内死亡人数的分布;某种由突变而引起的遗传性疾病的分布等都是愿于普哇松类型的分布。在普哇松分布中,当参数无限增大时,其分布逼近正态分布。当20时,普哇松分布已与正态分布相去不远。在实用上,当=50时,这两种分布除一种是离散的和一种是连续的以外,已没有多大区别了。在实际应用时,对于所观察的稀有事件,我们先假设它服从普哇松分布,利用普哇松分布=2=这一特性,由样本数据计算出,用估计,即用估计,代入概率计算公式:第二十三页,讲稿共二十八页哦数)乘以各个概率,就得到各个理论次数。最后把实际次数和理论次数相比较,看两者的符合程度如何(注),从而判断我们对于所观察的稀有事件作出的服从普哇松分布的假设是否成立。,即可求出m0,1,2,时的概率。把观察次数(试验次 例11用显微镜检查某样品的结核菌数目,对在某些视野内各小方格的细菌数目加以计数,然后按不同的结核菌数目把格子分类,记录出每类中的格子数,结果如下:结核菌数m 0 1 2 3 4 5 6 7 8 9总 计格 子 数f 5 19 26 26 21 13 5 1 1 1118该研究结核菌数目的概率分布。各小方格中出现结核菌是稀有事件,若假设结核菌数目的概率分布为普哇松分布。现根据观察结果计算每个格子中的平均结核菌数 ,根据加权法可得:用 =2.983估计,代入 ,计算当m0,1,2,9时的概率和理论格子数。各项的概率为:注:检验实际数据是否符合理论假设,要用到适合性2检验,详见第七章。第二十四页,讲稿共二十八页哦把它们乘以n=118,就得到各项按普哇松分布计算的理论格子数。计算结果见表24。表表24结核菌数的普哇松分布结核菌数的普哇松分布 结核菌数m0123456789总 计实际格子数f519262621135111118理论概率0.05060.15110.22530.22530.16710.09970.04960.0211000790.00260.9990理论格子数5.970817.829826.585426.432019.717811.76485.85282.48950.93220.3068117.882我们看到,计算所得的理论格子数与实际格子数是很接近的,说明各小方格中结核菌数目的概率分布是普哇松分布。我们还可以进一步计算样本方差(均方),根据加权法可得S2=fx2(fx)2/n/(n1)=(502+1912+2622+192)(352)2/118/(1181)=(1393123904/118)/117=34.9661/117=2.923样本方差S2=2.923与样本平均数 =2.983是很接近的,这正是普哇松分布所具有的特征。在家畜的遗传现象上,也有近于普哇松分布的;生怪胎或者畸形。例12我们调查了200个奶牛场,统计各场某10年内出现的怪胎(如缺皮损症。全身无毛等)的头数,然后以不同的怪胎数将200个奶牛场分类,统计每类中奶牛场数目,结果如下:第二十五页,讲稿共二十八页哦十 年 内 母 牛 产 怪 胳 次 数(m)0 1 2 3 4总 计奶 牛 场 数(f)109 65 22 3 1 200试研究10年内母牛产怪胎数的概率分布。每一奶牛场10年内母牛产怪胎是稀有事件,先假设母牛产怪胎数的概率分布为普哇松分布。先根据观察结果计算每一奶牛场10年内母牛产怪胎的平均数 ,根据加权法可得 用 =0.61估计,代入 ,计算当m0,1,2,3,4时的概率和理论格子数。计算结果见表25。表表25奶牛产怪胎次数的普哇松分布奶牛产怪胎次数的普哇松分布 怪 胎 数m01234总 计实 际 次 数f109652231200概率0.54340.33140.10110.02060.00310.9996理 论 次 数108.68066.280020.22004.12000.6200199.920第二十六页,讲稿共二十八页哦计算所得的理论次数与实际次数十分接近,说明各奶牛场10年内出现怪胎次数是服从普哇松分布的。样本方差计算如下:S2相当接近 ,这正是普哇松分布所具有的特征。正态分布、二项分布和普哇松分布三者的关系如下:n1,P1二项分布的极限分布正 态 分 布普哇松分布+n+第二十七页,讲稿共二十八页哦感谢大家观看第二十八页,讲稿共二十八页哦