理论分布正式.ppt
《理论分布正式.ppt》由会员分享,可在线阅读,更多相关《理论分布正式.ppt(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章 概率与理论分布第二节、理论分布2.2.1 二项式分布2.2.1.1 二项总体及二项式分布 二项总体(binary population):间断性随机变数的总体包含两项,即非此即彼的两项,它们构成的总体称为二项总体。如小麦种子的发芽与不发芽,大豆子叶为黄色和绿色,调查荔枝蒂蛀虫为害分为受害株和不受害株等等。通常将二项总体中的“此”事件以变量“1”表示,具概率p;将“彼”事件以变量“0”表示,具概率q。因而二项总体又称为0、1 总体,其概率则有p+q=1 或者q=p-1。第二节、理论分布2.2.1 二项式分布2.2.1.1 二项总体及二项式分布 二项式分布(binomial distrib
2、ution):从二项总体中抽取n 个个体,则间断性变量y 就有n+1 种取值,这n+1 种取值各有其概率,因而由变量及其概率就构成了一个分布,这个分布就是二项式分布(又称二项分布或者二项式概率分布。第二节、理论分布2.2.1 二项式分布2.2.1.1 二项总体及二项式分布 如观察使用某种农药后供试5 只蚜虫的死亡数目,记“死”为“0”,记“活”为“1”,观察结果将出现6 个事件:5 只全死,4 死1 活,3 死2 活,2 死3 活,1 死4 活,5 只全活,这6 个事件就构成一个完全事件系,但6 个事件的概率不同,将完全事件系的总概率1 分布到6 个事件中去,就是所谓的概率分布。如果将活的虫数
3、y来代表相应的事件,便得到了关于变量y 的概率分布。2.2.1.2 二项分布的概率计算方法 大豆子叶的颜色受一对等位基因控制,黄色(Y)对绿色(G)为显性,则F2 代按3:1比例分离,黄色子叶的概率为0.75(3/4),绿色子叶的概率为0.25(1/4),这是二项总体的概率分布。若从总体中抽取n 粒,那么y 粒是黄子叶的概率是多少呢?1 以二粒荚为例:出现黄色子叶种子数(y)可能就有2+1 种取值,即为0、1 或2 个。出现0 个y 的概率:P(y=0)=出现一黄一绿的概率:P(YG)=P(GY)=这两个为互斥事件所以P(y=1)为3/16+3/16=6/16 出现2 个Y 的概率:P(y=2
4、)=故,出现黄子叶种子数0,1,2 三个事件A0.A1.A2 构成一完全事件系。P(A0)+P(A1)+P(A2)=黄子叶数(y)0 1 2黄子叶出现y 次的概率 1/16 6/16 9/16 合计为12 以三粒为例:出现黄色子叶的种子数(y)可能为0.1.2 或3 个。出现0 个y 的概率:P(y=0)=出现1 个y 的概率:P(GGY)=,P(GYG)=P(YGG)=,故 P(y=1)=出现2 个Y 的概率:P(YYG)=,P(YGY)=P(GYY)=,故P(y=2)=出现3 个Y 的概率:P(GGG)=P(y=3)=所以完全事件系P(A0)+P(A1)+P(A2)+P(A3)=从以上可看
5、出,每一复合事件的概率必等于该事出现的组合数乘以单个事件的概率。组合数公式为:n 相当于豆荚内的种子总数,y 相当于黄色的种子数,所以:P(y)=例如:n=3,y=2 P(y=2)=二项式中包括两项,这两项的概率为p、q,则变量y的概率函数为:这一分布律也称为贝努里(Bernoulli)分布,且有二项分布的概率之和等于1。二项式分布概率的计算例1、棉田盲椿象危害的统计概率是从调查2000 株后获得的近似值p=0.35,现受害株事件为A,其概率为p(A)=0.35,未受害株事件为对立事件,其概率为q=1-p=0.65。这一试验是可以重复的。假定作了多次试验,即抽出n 株为一个抽样单位,那么,试问
6、出现有y株是受害的,其概率应为多少?n=1 受害株树y=0,1 n=5 受害株树y=0,1,2,3,4,5 P(y=k)=二项式分布概率的计算例1、n=1 时,由于已知 P(A)=0.35,P()=1-0.35=0.65 总体的理论分布则以n 乘上述概率分布,即np和n(1-p),所以有2000*0.35=700 株受害和2000*0.65=1300 株未受害。n=5 时,受害株数 y=0,1,2,3,4,5,变量y 相应的概率函数 P(y=i)=,其累积函数F(y)就如P54 页的公式。调查单位为5 株的概率分布表就如P55 的表4.2。例2、某种昆虫在某地区的死亡率为40%,即p=0.4,
7、现对这种害虫用一种新药进行治虫试验,每次抽样10 头作为一组治疗。试问新药无疗效,在10 头中死3 头、2 头、1 头,以及全部愈好的概率为多少?10头中不超过两头死亡的概率各为多少?n=10 p=0.4 q=0.6 求 P(y=3)p(y=2)p(y=1)p(y=0)P(y=3)=p(y=2)=p(y=1)=p(y=0)=0.21499=0.12093=0.04031=0.00605F(2)=p(y=0)+p(y=1)+p(y=2)=0.00605+0.04031+0.12093=0.16729如果问超过两头死去的概率是多少?=P(y=3)+P(y=4)+P(y=5)+P(y=6)+P(y=
8、7)+P(y=8)+P(y=9)+P(y=10)如用对立事件来解则容易的多:1-F(2)=1-=1-0.16729=0.832712.2.1.4 二项分布的形状及参数 二项分布定义如下:设随机变量y 所有可能取的值为零或正整数:0,1,2,,n,且有 Pn(y=k)=k=0,1,2,n其中p 0,q 0,p+q=1,则称随机变量y 服从参数为n和p 的二项分布(binomial distribution),记为 y B(n,p)。二项分布是一种离散型随机变量的概率分布。参数n称为离散参数,只能取正整数;p 是连续参数,它能取0 与1 之间的任何数值,q 由p 确定,故不是另一个独立参数。二项分
9、布由n 和p 两个参数决定:1、当p 值较小且n 不大时,分 布 是偏倚的。但随着n 的增大,分布逐渐趋于对称,如图42 所示;图42 n值不同的二项分布比较 图43 p值不同的二项分布比较2、当 p 值 趋 于 0.5 时,分 布 趋于对称,如图43 所示;3、对于固定的n 及p,当k 增加时,Pn(k)先随之增加并达到其极大值,以后又下降。此外,在n 较大,np、nq 较接近时,二项分布接近于正态分布;当n 时,二项分布的极限分布是正态分布。二项分布的平均数与标准差 统计学证明,服从二项分布B(n,p)的随机变量y 平均数、标准差 与参数n、p 有如下关系:=np=2=npq如果n 适当大
10、,如大于30,而 p 值又不太小,并且np 及nq均不小于5 时,那么这个二项分布趋近于即将介绍的正态分布多项式分布 多项总体:若总体中包含几种特性或者分类标志,可将总体中的个体分为几类。这种将变数资料分为3 类或者多类的总体称为多项总体。例如某种农药在防治某种病害的效果时可能有的效果好,有的无效果,有的有副作用,这些构成的总体就是多项总体。研究多项总体的随机变量的概率分布可使用多项式分布(multinomial distribution)。多项式分布 设总体中共包含有k 项事件,它们的概率分别为p1、p2、p3、p4pk,且p1+p2+p3+pk=1。若从这种总体中随机抽取n 个个体,那么可
11、能得到这k 项的个数分别为y1、y2、y3yk,显然y1+y2+y3+yk=n。这样一个事件的概率应该是:P(y1、y2、y3yk)=这一概率分布称为多项式分布。多项式分布 例3、某药对病人有效的概率为1/2,对病人无效的概率为1/3,有副作用的概率为1/6,若随机抽取2 个试验该药的病人,那么我们抽取的结果包括这样几个事件:2 个病人有副作用;1 个无效,1个有副作用;2 个无效;1 个有效,1 个有副作用;1 个有效,1 个无效;2 个均有效。这几个事件的概率可用以上公式计算。如P57 页泊松分布二项分布的一种极限分布泊松分布(Poisson distribution)在二项分布中,当某事
12、件出现的概率 p或q 值比较小(如小于 0.1),而样本容量又很大,二项分布就接近泊松分布了。主要描述大量实验中随机稀疏现象。如将np=m(n比较大,而m比较小时),其概率密度函数为:P(y)=e=2.71828,y=0,1,2其参数为:即:平均数、方差与标准差如下:=m,2=m,=不同m 值的分布及例子如书本第58 页图4.4 和例4.4。m 的大小决定其分布形状,当m 值很小时分布呈很偏斜形状,m 增大后则逐渐对称,趋向于后面要介绍的正态分布。泊松分布有一特性:即两个或两个以上的泊松分布之和,也是一个泊松分布。2.2.2 正态分布 正态分布(normal distribution)是一种很
13、重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。二项分布的极限正态分布 以二项分布棉株受害率为例,假定受害率p=0.5,q=p=0.5,现假定每个抽样单位包括20 株,这样y 有21 种取值,其受害株的概率p(y)=于是概率分布计算如下:将这些概率绘于图。此图是对称的。如p=q,不论n 值大或小,二项分布的多边形图必形成对称;如pq,而n 很大时,多边形图仍趋对称。n 增加到无穷多时
14、,每组的直方形都一一变为纵轴线,此时的多边形边变为一光滑曲线。此光滑曲线是二项分布的极限曲线。此极限曲线属于连续性变数分布曲线。这一曲线一般称之为正态分布曲线或正态概率密度曲线。如图4-4 图44 正态分布密度曲线2.2.2.2 正态分布的定义及其特征(一)正态分布的定义 若连续型随机变量y 的概率分布密度函数为(4-6)其中 为平均数,2为方差,则称随机变量y 服从正态分布(normal distribution),记为y N(,2)。相应的概率分布函数为(4-7)分布密度曲线如图44 所示。(二)正态分布的特征 1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为y=;算术平均数、中数和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 理论 分布 正式
限制150内