第3章 几种常见的概率分布律.ppt
第三章 几种常见的概率分布律第一节 二项式分布第二节 泊松分布第三节 另外几种离散型分布第四节 正态分布第五节 另外几种连续型分布第六节 中心极限定理第一节 二项分布3.1.1 3.1.1 贝努利试验及二项分布的概率函数贝努利试验及二项分布的概率函数 最早被研究的随机试验模型之一,只有两最早被研究的随机试验模型之一,只有两种可能的试验结果。如掷钱币可能正面,也可种可能的试验结果。如掷钱币可能正面,也可能反面;抽验一个产品可能合格,也可能不合能反面;抽验一个产品可能合格,也可能不合格等。它概括了最简单、也是最常用的一类随格等。它概括了最简单、也是最常用的一类随机现象。因瑞士数学家雅科布机现象。因瑞士数学家雅科布贝努利首先研贝努利首先研究而得名。究而得名。这是一个生产数学家和物理学家的家属,Bernoulli 一家在欧洲享有盛誉,有一个传说,讲的是Daniel Bernoulli(他是John Bernoulli 的儿子)有一次正在做穿过欧洲的旅行,他与一个陌生人聊天,他很谦虚的自我介绍:“我是Daniel Bernoulli。”那个人当时就怒了,说:“我是还是Issac Newton(牛顿)呢。”Daniel 从此之后在很多的场合深情的回忆起这一次经历,把它当作自己曾经听过的最衷心的 赞扬。对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与 之一,在每次试验中出现A的概率是常数p(0p1),因而出现对立事件 的概率是1-p=q,则 称 这一串重复的独立试验为n重贝努利试验,简称贝努利试验(Bernoulli trials)。贝努里试验具有如下属性n n 试验包含了n 个相同的试验n n 每次试验只有两个可能的结果,即“成功”和“失败”n n 出现“成功”的概率 p 对每次试验结果是相同的;“失败”的概率 q 也相同,且 p+q=1n n 试验是相互独立的n n 试验“成功”或“失败”可以计数 在生物学研究中,我们经常碰到的一类离散型随机变量,如入孵n枚种蛋的出雏数、n头病畜治疗后的治愈数、n 尾鱼苗的成活数等,可用贝努利试验来概括。在n重贝努利试验中,事件 A 可能发生0,1,2,n次,现在我们来求事件 A 恰好发生k(0kn)次的概率Pn n(k)。先取n=4,k=2来讨论。在4次试验中,事件A发生2次的方式有以下 种:其中其中AAkk(kk=1,2,3,4)=1,2,3,4)表示事件表示事件AA在第在第kk次试验发生;次试验发生;(kk=1,2,3,4)=1,2,3,4)表示事件表示事件AA在第在第kk次试验不发生。由于试验次试验不发生。由于试验是独立的,按是独立的,按概率的乘法法则概率的乘法法则,于是有,于是有 PP()=()=PP()=()=P P()=P P()()PP()()PP()()PP()=()=又由于以上各种方式中,任何二种方式都是互又由于以上各种方式中,任何二种方式都是互不相容的,按不相容的,按概率的加法法则概率的加法法则,在,在4 4 次试验中,事件次试验中,事件AA恰好发生恰好发生22次的概率为次的概率为 PP44(2)(2)=P P()+()+PP()+()+P P()=()=一般,在一般,在nn重贝努利试验中,事件重贝努利试验中,事件AA恰好发生恰好发生kk(0(0kkn)n)次的概率为次的概率为 KK=0,1,2=0,1,2,nn(4-14)(4-14)若把若把(4-14)(4-14)式与二项展开式式与二项展开式相比较就可以发现,在相比较就可以发现,在nn重贝努利试验中,事件重贝努利试验中,事件AA发生发生kk次的概率恰好等于次的概率恰好等于 展开式中的第展开式中的第kk+1+1项,所以作项,所以作二项二项概率函数概率函数。二项分布的意义及性质 二项分布定义如下:设随机变量x所有可能取的值为零和正整数:0,1,2,,n,且有=k=0,1,2,n 其中p 0,q 0,p+q=1,则称随机变量x服从参数为n 和p 的二项分布(binomial distribution),记为 xB(n,p)。二项分布是一种离散型随机变量的概率分布。参数n称为离散参数,只能取正整数;p 是连续参数,它能取0与1之间的任何数值(q由p确定,故不是另一个独立参数)。容易验证,二项分布具有概率分布的一切性质,即:1、P(x=k)=Pn(k)(k=0,1,,n)2、二项分布的概率之和等于1,即3、(4-15)4、(4-16)5、(m m1 1m m2 2)(4-17)(4-17)二项分布由n 和p 两个参数决定:1、当p 值较小且n 不大时,分 布 是偏倚的。但随着n 的增大,分布逐渐趋于对称。2、当 p 值 趋 于 0.5 时,分 布 趋于对称。3、对于固定的n 及p,当k 增加时,Pn(k)先随之增加并达到其极大值,以后又下降。此外,在n 较大,np、nq 较接近时,二项分布接近于正态分布;当n 时,二项分布的极限分布是正态分布。二项分布图n 当n=20 时,不同p值的曲线。二项分布的概率计算及应用条件【例3.1】纯种白猪与纯种黑猪杂交,根据孟德尔遗传理论,子二代中白猪与黑猪的比率为3 1。求窝产仔10 头,有7 头白猪的概率。根据题意,n=10,p=3 4=0.75,q=1 4=0.25。设10 头仔猪中白色的为x头,则x为服从二项分布B(10,0.75)的随机变量。于是窝产10 头仔猪中有7 头是白色的概率为:【例3.2】设在家畜中感染某种疾病的概率为20,现有两种疫苗,用疫苗A 注射了15 头家畜后无一感染,用疫苗B 注射 15 头家畜后有1 头感染。设各头家畜没有相互传染疾病的可能,问:应该如何评价这两种疫苗?假设疫苗A 完全无效,那么注射后的家畜感染的概率仍为20,则15 头家畜中染病头数x=0的概率为 同理,如果疫苗B 完全无效,则15 头家畜中最多有1 头感染的概率为 由计算可知,注射 A 疫苗无效的概率为0.0352,比B 疫苗无效的概率0.1671 小得多。因此,可以认为A 疫苗是有效的,但不能认为B 疫苗也是有效的。【3.3】仔猪黄痢病在常规治疗下死亡率为20,求5 头病猪治疗后死亡头数各可能值相应的概率。设5 头病猪中死亡头数为x,则x服从二项分布B(5,0.2),其所有可能取值为0,1,5,按(4-6)式计算概率,用分布列表示如下:0 1 2 3 4 5 0.3277 0.4096 0.2048 0.0512 0.0064 0.0003 0.3277 0.4096 0.2048 0.0512 0.0064 0.0003 大豆子叶颜色由 大豆子叶颜色由2 2 对隐性重叠基因控制,在其 对隐性重叠基因控制,在其F F2 2代黄子叶 代黄子叶表现为显性,黄和青以 表现为显性,黄和青以3:1 3:1 比例分离。(以二粒荚为例来说 比例分离。(以二粒荚为例来说明)。明)。全部可能的结果有四种:全部可能的结果有四种:两粒都是黄的(两粒都是黄的(YY YY)3/43/4=9/16 3/43/4=9/16 第一次是青的第二次是黄的(第一次是青的第二次是黄的(GY GY)1/43/4=3/16 1/43/4=3/16 第一次是黄的第二次是青的(第一次是黄的第二次是青的(YG YG)3/41/4=3/16 3/41/4=3/16 两粒都是青的(两粒都是青的(GG GG)1/41/4=1/16 1/41/4=1/16假设 假设y(y(黄子叶粒数)为变量,黄色子叶的概率为 黄子叶粒数)为变量,黄色子叶的概率为0.75 0.75,青色子,青色子叶的概率为 叶的概率为0.25 0.25。那么其概率分别为(见上面)。那么其概率分别为(见上面)。如果一粒豆荚中有三粒种子,那么就有 如果一粒豆荚中有三粒种子,那么就有8 8 种可能的情况。种可能的情况。全部是青子叶 全部是青子叶(GGG GGG)1/64 1/64 仅有一粒黄子叶种子(仅有一粒黄子叶种子(GGY GGY、GYG GYG、YGG YGG)9/64 9/64 具有两粒黄了叶种子(具有两粒黄了叶种子(YYG YYG、YGY YGY、GYY GYY)27/64 27/64 全部是黄子叶种子 全部是黄子叶种子(YYY YYY)27/64 27/64数学上的组合公式为 数学上的组合公式为n n 相当于豆荚内种子数,相当于豆荚内种子数,y y 相当于黄子叶种子数。因此 相当于黄子叶种子数。因此由此可以推知二项分布的概率函数为:由此可以推知二项分布的概率函数为:某种昆虫在某地区的死亡率为40%,即p=0.4,现对这种害虫用一种新药进行治疗试验,每次抽样10头为一组治疗。试问如新药无疗效,则在10头中死3头、2头、1头以及全部愈好的概率为多少?按照上面的公式进行计算:7头愈好,3头死去的概率为:8头愈好,2头死去的概率为:9头愈好,1头死去的概率为:10头全部愈好的概率为:受害株数概率函数P(y)P(y)F(y)nP(y)P(0)0.1160 0.1160 46.40P(1)0.3124 0.4284 124.96P(2)0.3364 0.7648 134.56P(3)0.1811 0.9549 72.44P(4)0.0488 0.9947 19.52P(5)0.0053 1.0000 2.12如果每次抽5个单株,抽n=400次,则理论上我们能够得到y=2的次数应为:理论次数=400P(2)=4000.3364=134.56(次)对于任意y,其理论次数为:理论次数=nP(y)。二项分布的应用条件有三:(1)各观察单位 只具有互相对立 的一种结果,如阳性或阴性,生存或死亡等,属于二项分类资料;(2)已知发生某一结果(如死亡)的概率为p,其对立结果的概率则为1-P=q,实际中要求p 是从大量观察中获得的比较稳定的数值;(3)n 个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。三、二项式分布的形状和参数 对于一个二项式总体,如果对于一个二项式总体,如果p=qp=q,二项式分二项式分布呈对称形状,如果布呈对称形状,如果ppqq,二项式分布则表现偏二项式分布则表现偏斜形状。但如果斜形状。但如果nn时,即使时,即使ppqq,二项式总二项式总体分布的情况也趋于对称形状,所以二项分布的体分布的情况也趋于对称形状,所以二项分布的形状是由形状是由nn和和pp两个参数决定的。两个参数决定的。二项总体的平均数二项总体的平均数、方差、方差22和标准差和标准差的的公式为:公式为:=npnp,22=npqnpq,。例如上述棉田例如上述棉田受害调查结果,受害调查结果,n=5,p=0.35n=5,p=0.35,所以可求得总体参所以可求得总体参数为:数为:=npnp=50.35=1.75=50.35=1.75株,株,株。株。3.1.2 二项分布的随机变量的特征数 统计学证明,服从二项分布B(n,p)的随机变量之平均数、标准差 与参数n、p 有如下关系:当试验结果以事件A 发生次数k 表示时=np(4-18)=(4-19)【例3.4】求【例3.3】平均死亡猪数及死亡数的标准差。以p=0.2,n=5 代入(4-18)和(4-19)式得:平均死亡猪数=50.20=1.0(头)标准差=0.894(头)当试验结果以事件A 发生的频率k n 表示时(4-20)(4-21)也称为总体百分数标准误,当 p 未 知时,常以样本百分数 来估计。此时(4-21)式改写为:=(4-22)称为样本百分数标准误。第二节 泊松分布 泊松分布是一种 可以用来描述和分析随机地发生在单位空间或 时间里的稀有事件的概率分布。要观察到这类事件,样本含量 n 必须很大。在生物、医学研究中,服从泊松分布的随机变量是常见的。如,一定畜群中某种患病率很低的非传染性疾病患病数或死亡数,畜群中遗传的畸形怪胎数,每升饮水中大肠杆菌数,计数器小方格中血球数,单位空间中某些野生动物或昆虫数等,都是服从泊松分布的。一、泊松分布的意义 若随机变量x(x=k)只取零和正整数值0,1,2,且其概率分布为,k=0,1,(3-23)其中 0;e=2.7182 是自然对数的底数,则 称 x 服 从 参 数 为 的 泊 松分布(Poissons distribution),记 为 xP()。泊松分布重要的特征:平均数和方差相等,都等于常数,即=2=【例3.5】调查某种猪场闭锁育种群仔猪畸形数,共记录200 窝,畸形仔猪数的分布情况如表4-3 所示。试判断畸形仔猪数是否服从泊松分布。表3-1 畸形仔猪数统计分布 样本均数和方差S2计算结果如下:=fk/nfk/n=(1200+621=(1200+621+152+23+14)/200+152+23+14)/200=0.51=0.51 =0.51,S2=0.52,这两个数是相当接近的,因此可以认为畸形仔猪数服从泊松分布。是泊松分布所依赖的唯一参数。值愈小分布愈偏倚,随着 的增大,分 布趋于对称。当=20 时分布接近于正态分布;当=50 时,可以认 为泊松分布呈正态分布。所以在实际工作中,当 20 时就可以用正态分布来近似地处理泊松分布的问题。二、泊松分布的概率计算 由(4-23)式可知,泊松分布的概率计算,依赖于参数 的确定,只要参数 确定了,把k=0,1,2,代入(4-23)式即可求得各项的概率。但是在大多数服从泊松分布的实例中,分布参数往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为 的 估计值,将其代替(4-23)式中的,计算出 k=0,1,2,时的各项概率。如【例3.5】中已判断畸形仔猪数服从泊松分布,并已算出样本平均数=0.51。将0.51 代替公式(4-23)中的 得:(K=0,1,2,)因为e-0.51=1.6653,所以畸形仔猪数各项的概率为:P(x=0)=0.510(0!1.6653)=0.6005P(x=1)=0.511(1!1.6653)=0.3063P(x=2)=0.512(2!1.6653)=0.0781 P(x=3)=0.513(3!1.6653)=0.0133P(x=4)=0.514(4!1.6653)=0.0017 把上面各项概率乘以总观察窝数(n=200)即得各项按泊松分布的理论窝数。表3-2 畸形仔猪数的泊松分布 将实际计算得的频率与根据=0.51 的泊松分布计算的概率相比较,发现畸形仔猪的频率分布与=0.51 的 泊松分布是吻合得很好的。这进一步说明了畸形仔猪数是服从泊松分布的。【例3.6】为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得400 个记录如下:试分析饮用水中细菌数的分布是否服从泊松分布。若服从,按泊松分布计算每毫升水中细菌数的概率及理论次数并将頻率分布与泊松分布作直观比较。经计算得每毫升水中平均细菌数=0.500,方差S2=0.496。两者很接近,故可认为每毫升水中细菌数服从泊松分布。以=0.500 代替(4-23)式中的,得(k=0,1,2)计算结果如表3-3 所示。表3-3 细菌数的泊松分布 可见细菌数的频率分布与=0.5 的泊松分布是相当吻合的,进一步说明用泊松分布描述单位容积(或面积)中细菌数的分布是适宜的。注意,二项分布的应用条件也是泊松分布的应用条件。比如二项分布要求n 次试验是相互独立的,这也是泊松分布的要求。然而一些具有传染性的罕见疾病的发病数,因为首例发生之后可成为传染源,会影响到后续病例的发生,所以不符合泊松分布的应用条件。对于在单位时间、单位面积或单位容积内,所观察的事物由于某些原因分布不随机时,如细菌在牛奶中成集落存在时,亦不呈泊松分布。超几何分布问题:假定一批供试验用小白鼠共100 只,其中有5 只不合格,随机取出的10 只小白鼠中,不合格数X 的概率分布如何?变式:随机的取出10 件改为3 件,情况又如何?问题:能否把这个结论推广到一般形式,建立一数学模型?一般地,若一个随机变量一般地,若一个随机变量XX的分布列为的分布列为定义:记为H(r;n,M,N)并称记 为:xH(n,M,N),问题推广:第四节 正态分布 正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。3.4.1 正态分布的密度函数、分布函数及其特征(一)正态分布的定义 若连续型随机变量x的概率分布密度函数为(4-6)其中 为平均数,2为方差,则称随机变量x服从正态分布(normal distribution),记为xN(,2)。相应的概率分布函数为(4-7)(二)正态分布的特征 1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=;2、f(x)在 x=处达 到 极 大,极大值;3、f(x)是非负函数,以x轴为渐近线,分布从-至+;下一张 主 页 退 出 上一张 xf(x)C AB 4、曲线在x=处各有一个拐点,即曲线在(-,-)和(+,+)区间上是下凸的,在-,+区间内是上凸的;5、正态分布有两个参数,即平均数 和标准差。是位置参数,当是位置参数,当恒定时,恒定时,越大,则曲线沿越大,则曲线沿xx轴愈向右;轴愈向右;反之曲线沿反之曲线沿xx轴越向左。轴越向左。是变异度参数,是变异度参数,当当恒定时,恒定时,越大,表示越大,表示 x x 的取值越分散,的取值越分散,曲线越曲线越“胖胖”;越小,越小,曲线越曲线越“瘦瘦”。xf(x)C AB6、分布密度曲线与横轴所夹的面积为1,即:aabbxxff(xx)3.4.2 标准正态分布 由上述正态分布的特征可知,正态分布是依赖于参数 和2(或)的一簇 分布,正态曲线之位置及形态随 和2的不同而不同。这就给研究具体的正态总体带来困难,需将一般的N(,2)转 换为=0,2=1 的正态分布。我们称=0,2=1 的正态分布为标准正态分布(standard normal distribution)。标准正态分布的概率密度函数及分布函数分别记作(u)和(u),由(4-6)及(4-7)式得:(4-8)(4-9)随机变量u 服从标准正态分布,记作u N(0,1)。2.标准正态分布的概率密度函数1.1.任 何 一 个 一 般 的 正 态 分 布,可 通 过 下 面 的线性变换转化为标准正态分布3.标准正态分布的分布函数x一般正态分布 一般正态分布一般正态分布 1Z标准正态分布 标准正态分布标准正态分布 对于任何一个服从正态分布N(,2)的随机变量x,都可以通过标准化变换:u=(x-)(4-10)将 其变换为服从标准正态分布的随机变量u。u 称 为 标 准 正 态变量或标准正态离差(standard normal deviate)。三、正态分布的概率计算(一)标准正态分布的概率计算 设u 服从标准正态分布,则 u 在u1,u2)内取值的概率为:(u2)(u1)(4-11)而(u1)与(u2)可由附表1 查得。例如,u=1.75,1.7放在第一列0.05 放在第一行。在附表1 中,1.7所在行与 0.05 所在列相交处的数值为0.95994,即(1.75)=0.95994 有 时 会 遇 到 给 定(u)值,例 如(u)=0.284,反过来查u 值。这只要在附表1 中找到与 0.284 最接近的值0.2843,对应行的第一列数-0.5,对应列的第一行数 值 0.07,即相应的u 值为 u=-0.57,即(-0.57)=0.284 如果要求更精确的u 值,可用线性插值法计算。由(4-11)式及正态分布的对称性可推出下列关系式,再借助附表1,便能很方便地计算有关概率:P(0u u1 1)(u1 1)-0.5 P(uu1 1)=(-u1 1)P(u u1 1)=2(-u1 1)(4-12)P(u u1 1 1-2(-u1 1)P(u1 1u u2 2)(u2 2)-(u1 1)【例4.6】已知u N(0,1),试求:(1)P(u-1.64)?(2)P(u2.58)=?(3)P(u 2.56)=?(4)P(0.34u 1.53)=?利用利用(4-12)(4-12)式,查附表式,查附表11得:得:(1)(1)PP(uu-1.64)=0.05050-1.64)=0.05050(2)(2)PP(uu2.58)=(-2.58)=0.0249402.58)=(-2.58)=0.024940(3)(3)PP(uu2.56)2.56)=2(-2.56)=20.005234=2(-2.56)=20.005234=0.010468=0.010468(4)(4)PP(0.34(0.34uu1.53)1.53)=(1.53)-(0.34)=(1.53)-(0.34)=0.93669-0.6331=0.30389=0.93669-0.6331=0.30389 关于标准正态分布,以下几种概率应当熟记:P(-1u 1)=0.6826 P(-2u 2)=0.9545 P(-3u 3)=0.9973 P(-1.96u 1.96)=0.95P(-2.58u 2.58)=0.99 标准正态分布的三个常用概率99.74%65.26%95.46%uu变量在上述区间以外取值的概率分别为:变量在上述区间以外取值的概率分别为:PP(uu1)=2(-1)=1-1)=2(-1)=1-P P(-1(-1uu1)1)=1-0.6826=0.3174=1-0.6826=0.3174 P P(uu2)=2(-2)2)=2(-2)=1-=1-P P(-2-2uu22)=1-0.9545=0.0455=1-0.9545=0.0455 P P(uu3)=1-0.9973=0.00273)=1-0.9973=0.0027 P P(uu1.96)=1-0.95=0.051.96)=1-0.95=0.05 P P(uu2.58)=1-0.99=0.01 2.58)=1-0.99=0.01 (二)一般正态分布的概率计算 正 态 分 布 密度曲线和横轴围成的一个区域,其面积为1,这实际上表明了“随机变量x取值在-与+之间”是一个必然事件,其概率为1。若随机变量 x服从正态分布N(,2),则x的取值落在任意区间 x1,x2)的概率,记作P(x1 x x2),等于图中阴影部分曲边梯形面积。即:(4-13)对(4-13)式作变换u=(x-),得dx=du,故有其中,这表明服从正态分布N(,2)的随机变量x 在 x1,x2)内取值的概率,等 于服 从 标 准 正 态 分 布 的 随 机 变 量 u 在(x1-)/,(x2-)/)内取值的概率。因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。正态分布(实例)【例例】设设XXNN(5(5,3322),求以下概率求以下概率(1)(1)PP(XX 10)10);(2)(2)PP(2(2XX 1010)解解:(1)(1)(2)(2)【例 例】设 设x x 服从 服从=30.26,=30.26,2 2=5.10=5.102 2的正态分布,试求 的正态分布,试求P P(21.64(21.64x x 32.98)32.98)。令 令 则 则u u 服从标准正态分布,故 服从标准正态分布,故=P P(-1.69(-1.69u u 0.53)0.53)=(0.53)-(-1.69)=(0.53)-(-1.69)=0.7019-0.04551=0.7019-0.04551=0.6564=0.6564 标准化的例子 P(5 X 6.2)x 51一般正态分布 一般正态分布一般正态分布6.2 1Z标准正态分布 标准正态分布标准正态分布 0.12.0478.0478.0478标准化的例子P(2.9 X 7.1)一般正态分布 一般正态分布.1664.1664.1664.0832.0832.0832.0832标准正态分布 标准正态分布标准正态分布 关于一般正态分布,以下几个概率(即随机变量x 落在 加减不同倍数 区间的概率)是经常用到的。P(-x+)=0.6826 P(-2x+2)=0.9545 P(-3x+3)=0.9973 P(-1.96x+1.96)=0.95 P(-2.58x+2.58)=0.99 上述关于正态分布的结上述关于正态分布的结论,可用一实例来印证。论,可用一实例来印证。126126头头 基础母羊体重资基础母羊体重资料的次数分布接近正态分料的次数分布接近正态分布布,现,现 根据根据 其其 平均数平均数=52.26(=52.26(kgkg),标,标 准准 差差SS=5.10(=5.10(kgkg),算出平均数,算出平均数加减不同倍数标准差区间加减不同倍数标准差区间内内 所包括的次数与频率所包括的次数与频率,列于表,列于表4242。下一张 主 页 退 出 上一张 频率分布直方图 表42 126 头基础母羊体重在 kS 区间内所包括的次数与频率 由表42 可见,实际频率与理论概率相当接近,说明126 头基础母羊体重资料的频率分布接近正态分布,从而可推断基础母羊体重这一随机变量很可能是服从正态分布的。生物统计中,不仅注意随机变量x落在平均数加减不同倍数标准差区间(-k,+k)之内的概率而且 也很 关心 x落在此区间之外的概率。我们把随机变量x落在平均数 加减不同倍数标准差 区间之外的概率称为双侧概率(两尾概率),记作。对应于双侧概率可以求得随机变量x小于-k 或大于+k 的概率,称为单侧概率(一尾概率),记作 2。例如,x落在(-1.96,+1.96)之外的双侧概率为0.05,而单侧概率为0.025。即 PP(xx-1.96-1.96=P P(xx+1.96)=0.025+1.96)=0.025 x落在(-2.58,+2.58)之外的双侧概率为0.01,而单侧概率 PP(xx-2.58)=-2.58)=P P(xx+2.58)=0.005+2.58)=0.005 附表3 给出了满足P(u)=的上侧的分位数值。因此,只要已知上侧概率 的值,由附表3 就可直接查出对应的上侧分位数,查法与附表2 相同。例如,已知u N(0,1)试求:(1)P(u-)+P(u)=0.10 的(2)P(-u=0.86 的 因为附表3 中的 值是:所以(1)P(u-)+P(u)=1-P(-u=0.10=由附表3 查得:=1.645(2)P(-u)=0.86,=1-P(-u)=1-0.86=0.14 由附表3 查得:=1.476 对于xN(,2),只要将其转换为u N(0,1),即可求得相应的上侧、下侧或双侧分位数。【例4.8】已知猪血红蛋白含量x服从正态分布 N(12.86,1.332),若 P(x)=0.03,P(x)=0.03,求,。由题意可知,2=0.03,=0.06 又因为 P(x)=故 P(x)+P(x)=P(u-)+P(u)=1-P(-u)=0.06=由附表3 查得:=1.880794,所以(-12.86)/1.33=-1.881(-12.86)/1.33=1.881 即 10.36,15.36。前面讨论的三个重要的概率分布中,前两个属离散型随机变量的概率分布,后一个属连续型随机变量的概率分布。三 者间的关系如下:对于二项分布,在n,p0,且 n p=(较小常数)情况下,二项分布 趋于 泊 松布。在这种场合,泊松分布中的参数 用二项分布的n p代之;在n,p0.5 时,二项分布趋于正态分布。在这种场合,正态分布中的、2用二项分布的n p、n p q 代之。在实际计算中,当p0.1且n 很大时,二项分布可由泊松分布近似;当p 0.1且n 很大时,二项分布可由正态分布近似。对于泊松分布,当 时,泊松分布以正态分布为极限。在实际计算中,当 20(也有人认为6)时,用泊松分布中的 代替正态分布中的 及2,即可由后者对前者进行近似计算。中心极限定理(central limit theorem)当样本容量足够大时(n 30),样本均值的抽样分布逐渐趋于正态分布中中心心极极限限定定理理:设 从 均 值 为,方 差 为 2的 一 个 任 意 总体 中 抽 取 容 量 为n 的 样 本,当n 充 分 大 时,样 本 均 值 的抽样分布近似服从均值为、方差为2/n 的正态分布一个任意分 一个任意分布的总体 布的总体xxn n中心极限定理中心极限定理,是,是概率论概率论中讨论中讨论随机变量随机变量和的分和的分布以布以正态分布正态分布为为极限极限的一组定理。这组定理是的一组定理。这组定理是数数理统计学理统计学和误差分析的理论基础,指出了大量随和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。机变量近似服从正态分布的条件。n n林德伯格列维(林德伯格列维(Lindberg-LevyLindberg-Levy)定理:)定理:即独立即独立同分布随机变量序列的中心极限定理。它表明,独同分布随机变量序列的中心极限定理。它表明,独立同分布、且数学期望和方差有限的随机变量序列立同分布、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限。的标准化和以标准正态分布为极限。n n棣莫佛拉普拉斯(棣莫佛拉普拉斯(de de MovireMovire-Laplace-Laplace)定理:)定理:即服从即服从二项分布二项分布的随机变量序列的中心极限定理。的随机变量序列的中心极限定理。它指出,参数为它指出,参数为nn,pp的二项分布以的二项分布以npnp为均值、为均值、np(1-p)np(1-p)为方差的正态分布为极限。为方差的正态分布为极限。中心极限定理(central limit theorem)x x 的的分分布布趋趋于于正正态态分分布布的的过过程程