理论分布与抽样分布.ppt
第三章 理论分布与抽样分布事件与概率事件与概率正态分布正态分布二项分布和普阿松分布二项分布和普阿松分布抽样分布抽样分布在一定条件下,可能发生,也可能不发在一定条件下,可能发生,也可能不发生的现象称为随机事件。生的现象称为随机事件。第一节第一节 事件与概率事件与概率一、事件及其相互关系一、事件及其相互关系(一一)事件的意义事件的意义1.必然事件必然事件2.不可能事件不可能事件3.随机事件随机事件(二二)、事件的相互关系、事件的相互关系1.和事件和事件 事件事件A和事件和事件B至少有一个发生至少有一个发生,这这一事件称为和事件一事件称为和事件,记为记为“A+B”。2.积事件积事件 事件事件A和事件和事件B同时发生同时发生,这一事这一事件称为积事件件称为积事件,记为记为“AB”或或(A B);3.互斥事件互斥事件(不相容事件不相容事件)事件事件A和事件和事件B不能同时发生不能同时发生,这一这一事件称为互斥事件事件称为互斥事件,记为记为“AB=V”4.对立事件对立事件 事件事件A和事件和事件B必发生其一必发生其一,但又但又不能同时发生不能同时发生,这一事件称为对立事这一事件称为对立事件件,记为记为“A+B=U,AB=V”。例如、例如、“产品合格产品合格”A和和“产品不合格产品不合格”B,A+B=必然事件,必然事件,AB=不可能事件。不可能事件。5.完全事件系完全事件系若事件若事件A1、A2、A3、An满足以下满足以下条件条件:即即A1A2 A3 An=V,A1+A2+An=U则称这则称这n个事件为完全事件系个事件为完全事件系.二 、概率的统计定义及估计方法表3.1 在相同条件下水稻种子发芽试验结果试验粒数试验粒数(n)5 10 50 100 200 500 1000发芽粒数发芽粒数(a)5 8 44 91 179 452 901发芽频率发芽频率(一一)概率的统计定义概率的统计定义 假定在相似条件下重复进行同一类试假定在相似条件下重复进行同一类试验验,调查事件调查事件A发生的次数发生的次数a与试验总次数与试验总次数n的比数称为的比数称为频率频率(a/n),则在试验总次数则在试验总次数n逐渐增大时逐渐增大时,事件事件A的频率愈来愈稳定的的频率愈来愈稳定的接近一个定值接近一个定值P,则定义为事件,则定义为事件A发生的发生的概率概率.记为记为P(A)=p=a/n概率的基本性质概率的基本性质:3、不可能事件的概率等于、不可能事件的概率等于0,即即:P(V)=01、任何事件的概率都在、任何事件的概率都在0与与1之间之间,即即:0P(A)12、必然事件的概率等于、必然事件的概率等于1,即即:P(U)=1(二二)概率的运算方法概率的运算方法1.加法定理加法定理 两个互斥事件两个互斥事件A和和B的和事件的概率的和事件的概率等于事件等于事件A和事件和事件B各自的概率之和各自的概率之和,既既:P(A+B)=P(A)+P(B)例如例如 有一批种子,其中二级占有一批种子,其中二级占5%,一级占一级占10%,其余为三级,问三级种子占多少?,其余为三级,问三级种子占多少?2.乘法定理乘法定理 两个独立事件两个独立事件A和和B的积事件的概的积事件的概率等于事件率等于事件A和事件和事件B各自概率的乘积各自概率的乘积,即即:P(AB)=P(A)P(B)若一批玉米种子发芽率为若一批玉米种子发芽率为0.9,发芽后能发芽后能出土的概率为出土的概率为0.8,求这批种子的出苗率求这批种子的出苗率?3.对立事件的概率对立事件的概率 若事件若事件A的概率为的概率为P(A),那么对立那么对立事件的概率事件的概率 为为:P()=1-P(A)若一批种子发芽率为若一批种子发芽率为0.9,则不发芽率的概则不发芽率的概率为率为4.完全事件系的概率完全事件系的概率 若有几个事件若有几个事件A1,A2,.,An是试验的是试验的完全事件系完全事件系,则这些事件的概率之和为则这些事件的概率之和为1。即即:P(A1+A2+An)=P(A1)+P(A2)+(An)=1 一批棉花纤维长度一批棉花纤维长度30cm事件事件A3,概率为概率为0.2;这三种情况构成一个完这三种情况构成一个完全事件系,其概率之和为:全事件系,其概率之和为:P(A1+A2+A3)=P(A1)+P(A2)+P(A3)=0.2+0.6+0.2=1三三.小概率事件实际不可能性小概率事件实际不可能性 随机事件概率的大小客观地反映事件随机事件概率的大小客观地反映事件在一次试验中发生的可能性的大小。概率大在一次试验中发生的可能性的大小。概率大表示该事件发生的可能性大;概率小,说明表示该事件发生的可能性大;概率小,说明该事件发生的可能性小;该事件发生的可能性小;农业研究中多采用农业研究中多采用5%、1%这两个标准这两个标准作为小概率事件。作为小概率事件。第二节第二节 正态分布正态分布一、正态分布的概念一、正态分布的概念 正态分布或称高斯(正态分布或称高斯(Gauss)分布分布,是连续性随机变量的一种最重要的理是连续性随机变量的一种最重要的理论分布。论分布。正态分布概率密度函数:x :所研究的变数所研究的变数;:x的函数值的函数值,称为概率密度函数称为概率密度函数;:总体平均数总体平均数;:总体标准差总体标准差其中其中 ,是两个常数是两个常数,正态分布记为正态分布记为N(,),表示具有平均数为表示具有平均数为 ,方差为方差为 的正态分布。的正态分布。2、正态分布的算术平均数、中数及众数三者正态分布的算术平均数、中数及众数三者 合一,都位于合一,都位于 点。点。3、正态分布的多数观察值集中于算术平均数正态分布的多数观察值集中于算术平均数 的附近,离平均数愈远,相应的次数愈少,的附近,离平均数愈远,相应的次数愈少,在在-33 以外,次数极少。以外,次数极少。二、正态分布曲线的特征二、正态分布曲线的特征:1、正态分布曲线围绕算术平均数向左右两侧正态分布曲线围绕算术平均数向左右两侧 作对称分布,所以它是一条对称曲线。作对称分布,所以它是一条对称曲线。4、正态分布曲线的形状完全取决于、正态分布曲线的形状完全取决于 和和 两个参数。两个参数。确定正态分布在确定正态分布在X轴上的轴上的 中心位置,中心位置,确定正态分布的变异度。确定正态分布的变异度。5、正态分布概率密度函数曲线与、正态分布概率密度函数曲线与X轴所围轴所围 成的全部面积必等于成的全部面积必等于1;6、正态分布曲线在、正态分布曲线在 和和 处各有一处各有一 拐点拐点。曲线两尾向左右伸展,永不接触曲线两尾向左右伸展,永不接触 横横 轴轴,x 的取值范围的取值范围-,+。三、正态分布的概率计算l 根据正态分布的性质,变量在两个定值根据正态分布的性质,变量在两个定值间取值的概率等于曲线与其间取值的概率等于曲线与其x轴在该区间围轴在该区间围成的面积。成的面积。l 因此概率的计算即正态分布概率密度函因此概率的计算即正态分布概率密度函数的定积分计算。数的定积分计算。l 是一个曲线系统。为了一般化的是一个曲线系统。为了一般化的应用,需将正态分布标准化。应用,需将正态分布标准化。正态分布的标准化正态分布的标准化将随机变量将随机变量x 标准化,令标准化,令u称标准正态离差,表示离开平均数称标准正态离差,表示离开平均数 有有几个标准差单位。几个标准差单位。标准化正态分布函数:标准化正态分布函数:(u)称为标准化正态分布密度函数,即称为标准化正态分布密度函数,即 =0,=1时的正态分布记作时的正态分布记作N(0,1)从从N(,2)到到 N(0,1),从几何意义上说,仅仅是从几何意义上说,仅仅是将变量将变量x作了横坐标轴的平移和尺度单位的变化。作了横坐标轴的平移和尺度单位的变化。对对标标准准正正态态分分布布方方程程计计算算从从-到到ui的的累累积概率计算公式如下积概率计算公式如下:l 前人已计算出从前人已计算出从-3到到3之间各之间各个个u值的值的FN(ui)值,列入附表值,列入附表1。【例如】有一随机变数【例如】有一随机变数X服从正态分布,服从正态分布,平均数平均数 =30,标准差,标准差 =5,试计算,试计算X小小于于26,大于,大于40,介于,介于26-40区间的概率。区间的概率。x小于小于26:查附表查附表1,大于大于40:=(40-30)/5=2查表查表1,F(u=2)=0.9773 则则x介于介于26与与40之间:之间:【例如】已知某正态分布【例如】已知某正态分布 =30,=5,试计,试计算算x偏离平均数偏离平均数 达和达和14.9 以上的概率?以上的概率?计算计算标准化标准化查附表查附表2,得知它们对应的概率分别为和,即,得知它们对应的概率分别为和,即=P(x-)1.96+P(x-)-1.96=P(x-)2.58+P(x-)-2.58以上两式等号右侧的前一项为右尾概率,后一以上两式等号右侧的前一项为右尾概率,后一项为左尾概率,其和概率为两尾概率。附表项为左尾概率,其和概率为两尾概率。附表2列列出的就是两尾概率。出的就是两尾概率。第三节第三节 二项分布和普阿松分布二项分布和普阿松分布一、二项总体与二项分布一、二项总体与二项分布 在独立重复试验中,总体的某个性状每在独立重复试验中,总体的某个性状每一次试验只有非此即彼两个可能结果,这种一次试验只有非此即彼两个可能结果,这种非此即彼事件所构成的总体叫非此即彼事件所构成的总体叫二项总体二项总体,也,也叫叫0,1总体。总体。当每次独立的从二项总体抽取当每次独立的从二项总体抽取n个个个个体,这体,这n个个体:个个体:“此此”事件出现的次数事件出现的次数X可能有可能有0、1、2、.n,共有共有n+1种种,这这n+1种可能性有它各自的概率,组成一个种可能性有它各自的概率,组成一个分布分布,此分布叫此分布叫二项概率分布二项概率分布或简称或简称二项二项分布分布。二项分布是一种离散型分布。二项分布是一种离散型分布。例例如如,观观察察玉玉米米播播种种后后的的出出苗苗数数,出出苗苗记记为为“此此”事件,概率为事件,概率为p;不出苗记为彼事件,概率为;不出苗记为彼事件,概率为q。若若每每窝窝播播种种5粒粒种种子子,则则对对每每窝窝出出苗苗情情况况的的观观察结果会有如下几种可能:察结果会有如下几种可能:X :0 1 2 3 4 5P:P(0)P(1)P(2)P(3)P(4)P(5)由这由这6种情况的相应概率组成的分布,就是种情况的相应概率组成的分布,就是n=5时出苗数的二项分布。时出苗数的二项分布。二、二项分布的概率计算二、二项分布的概率计算1、二项分布的概率密度函数、二项分布的概率密度函数 现现以以玉玉米米种种子子播播种种后后的的出出苗苗和和不不出出苗苗为为例例,说说明明二二项项分分布布的的概概率率密密度度函函数数。出出苗苗看看作作“此此”事事件件,p=0.7,不不出出苗苗看看作作“彼彼”事事件件,q=0.3,每每窝窝中中种种子子的出苗与不出苗为对立事件。的出苗与不出苗为对立事件。若每窝种若每窝种1粒种子,相当于粒种子,相当于n=1,则出苗数有则出苗数有2种情况即:种情况即:x=0;x=1 相应的概率相应的概率f(x=0)=q=0.3;相应的概率为相应的概率为 f(x=1)=p=0.7.若每窝种若每窝种2粒种子,相当于粒种子,相当于n=2,则出苗数有则出苗数有3种情况:种情况:x=0,1,2,相应的概率为:相应的概率为:f(x=0)=qq f(x=1)=pq+qp=2pq=2 f(x 若每窝种若每窝种3粒种子粒种子,n=3,则出苗数有则出苗数有0,1,2,3四种情况,四种情况,其相应的概率为:其相应的概率为:f(x=0)=qqq f(x=1)=pqq+qpq+qqp=3 f(x=2)=ppq+pqp+qpp=3 f(x=3)=ppp由上面的分析可看出:由上面的分析可看出:(p+q)n=(p+q)1=0.3+0.7=1(p+q)n=(p+q)2=p2+2pq+q2 =0.49+0.42+0.09=1(p+q)n=(p+q)3=p3+3p2q+3pq2+q3 =0.343+0.441+0.189+0.027=1二二项项式式展展开开后后的的各各项项系系数数,正正是是从从n个个事事物物种种抽抽得得x个的组合数即个的组合数即由此得出二项分布中任何一项的概率通式:由此得出二项分布中任何一项的概率通式:即为二项分布的概率函数即为二项分布的概率函数二项分布的概率累积函数:二项分布的概率累积函数:由于变量由于变量x=0,1,2,n,为完全事件系,所为完全事件系,所以这个分布的概率之和必等于以这个分布的概率之和必等于1。l【例如】有一批玉米种子,其发芽【例如】有一批玉米种子,其发芽率为率为70%,如每窝播种,如每窝播种4粒,问出苗粒,问出苗数为数为2和和3时的概率分别为多少时的概率分别为多少?三、二项分布的形状和参数三、二项分布的形状和参数 二项分布的形状决定于二项分布的形状决定于n和和p的大的大小。如小。如p=q,二项分布呈对称分布;如二项分布呈对称分布;如pq 为偏斜分布为偏斜分布.1、二项分布的形状、二项分布的形状2、二项总体的参数、二项总体的参数 对于一个给定的二项分布,对于一个给定的二项分布,n和和p是常数。是常数。二项总体的平均数、方差和标准差的计算公二项总体的平均数、方差和标准差的计算公式如下:式如下:三、普阿松分布三、普阿松分布 二项总体中稀有事件的概率分布不呈二项总体中稀有事件的概率分布不呈二项分布,而是遵从另一种理论分布二项分布,而是遵从另一种理论分布普阿松分布(普阿松分布(poisson distribution)1、统计定义、统计定义 若变量若变量x服从二项分布,当服从二项分布,当P很小,很小,n且且np=m为一常数时,该二项分布的极限为普为一常数时,该二项分布的极限为普阿松分布。阿松分布。2、概率函数、概率函数其中其中m=np普阿松分布的平均数和方差都等于常数普阿松分布的平均数和方差都等于常数m,即即:3.3.普阿松分布的概率计算普阿松分布的概率计算【例例3.9】田田间间分分区区调调查查“岱岱字字棉棉”的的纯纯度度,每每区区一一亩亩,调调查查了了310个个区区,共共发发现现杂杂株株341株,试求变量株,试求变量x的概率分布。的概率分布。首首先先求求平平均均数数株株,即即每每区区(亩亩)出出现现杂杂株株为为株株,这这在在种种植植密密度度上上千千株株的的一一亩亩棉棉田田里里,是是一一个个很很小小的的数数,因因此此可可以以认认为为不不纯纯株株出出现现的的概率分布服从普阿松分布。概率分布服从普阿松分布。P(x=0)=e P(x=1)=1.1e2/2e3/6e4/24e5/120e6/720e P(x7)=1-60f(x)=1-0.9999=0.0001普阿松分布是一个偏斜分布,但随着普阿松分布是一个偏斜分布,但随着m的增大,分布渐趋对称,接近正态的增大,分布渐趋对称,接近正态分布。通常当分布。通常当m大于大于50时,可用正态时,可用正态分布来处理普阿松分布的问题。分布来处理普阿松分布的问题。第三节第三节 抽样分布抽样分布统计学:统计学:1、总体、总体 样本样本 抽样分布抽样分布 2、样本、样本 总体总体 统计推断统计推断一、抽样分布试验一、抽样分布试验复置抽样复置抽样不复置抽样不复置抽样总总 体体.样本1样本2样本n例如,设有一个例如,设有一个N=4的有限总体,其变的有限总体,其变量值为量值为2、3、3、4。总体的平均数、方差和标准差总体的平均数、方差和标准差 当以样本容量当以样本容量n=2进行独立抽样,进行独立抽样,抽取的所有可能样本数抽取的所有可能样本数 ,其平均数、方差和标准差如下表。其平均数、方差和标准差如下表。样本观察值样本观察值x2222333333334444234323342334x45565667566767782334s以自由度(以自由度(n-1)作分母计算的样本方差作分母计算的样本方差 之均数:之均数:以样本容量以样本容量n作分母计算的样本方差作分母计算的样本方差 之均数:之均数:样本标准差样本标准差S之均数之均数:各样本均数总和之均数:各样本均数总和之均数:如果所有可能样本的某一统计数的如果所有可能样本的某一统计数的平均数等于该总体的相应参数,平均数等于该总体的相应参数,则称该则称该统计数为总体参数的统计数为总体参数的无偏估计值无偏估计值(unbiased estimate)。v 是是 的无偏估计值的无偏估计值;v 是是 的无偏估计值;的无偏估计值;v 以以n n为分母得到的样本方差为分母得到的样本方差 不是不是 的的 无偏估计值;无偏估计值;v S S不是不是 的无偏估计值;的无偏估计值;因此,为了得到 的无偏估计值,估算样本方差时,必须以自由度df=n-1而不用n做分母。抽样结论抽样结论二、样本平均数的分布二、样本平均数的分布 按上述抽样方法,再以按上述抽样方法,再以n=4,从上述有,从上述有限总体限总体2,3,3,4中抽出全部所有样本,同样可中抽出全部所有样本,同样可以计算出所有样本的平均数、方差和标准差。以计算出所有样本的平均数、方差和标准差。各种不同样本容量的样本平均数各种不同样本容量的样本平均数 的抽样分布的抽样分布n=1234f121n=2f14641n=4f18285670562881各种不同样本容量各种不同样本容量 的分布图的分布图f2 3 4210ff2 3 465432102 3 470605040302010 0n=1;2=1/2n=2;2=1/4n=4;2=1/8 从上述的表和图来看,从总体抽出的从上述的表和图来看,从总体抽出的全部所有样本的平均数,当全部所有样本的平均数,当n增大时,其方增大时,其方柱形图逐渐趋向于正态分布曲线形状,说柱形图逐渐趋向于正态分布曲线形状,说明样本平均数是做正态分布的。明样本平均数是做正态分布的。样本平均数分布的平均数样本平均数分布的平均数 、标准差、标准差 与其原总体平均数与其原总体平均数 、标准差、标准差 的关的关系为:系为:根据次数表,根据次数表,n=2抽样的样本平均数为:抽样的样本平均数为:样本平均数的方差为:样本平均数的方差为:当当n=4时,同理可得:时,同理可得:称为样本平均数的标准差,简称标准误称为样本平均数的标准差,简称标准误(standard error),standard error),度量平均数抽样误差的大小。度量平均数抽样误差的大小。v 从正态总体抽出的样本,无论样本容量从正态总体抽出的样本,无论样本容量的大小,其样本平均数的大小,其样本平均数 的抽样分布必的抽样分布必做成正态分布,具有平均数做成正态分布,具有平均数 和方和方 ,而且方差随样本容量的增大而降低。,而且方差随样本容量的增大而降低。平均数的分布一般记为:平均数的分布一般记为:。v如果总体不是正态分布,但如具有一定如果总体不是正态分布,但如具有一定量的量的 2和平均数和平均数,那么,那么,当样本容量足当样本容量足够大时够大时,从这一总体抽出的样本平均数,从这一总体抽出的样本平均数 的抽样分布也必趋于近正态分布,具有的抽样分布也必趋于近正态分布,具有平均数平均数 和方差和方差 ,这称为中心极限,这称为中心极限定理定理。-3 -2 -1 +1 +2 +3 n=9n=4n=1f(二)样本平均数差数的抽样分布(二)样本平均数差数的抽样分布设有两个总体:设有两个总体:抽抽k个样本容量为个样本容量为n1抽抽m个样本容量为个样本容量为n2抽样试验表明:抽样试验表明:表表3.6 抽样平均数次数分布表抽样平均数次数分布表 f1 f22.0 1 1.0 12.5 4 1.5 23.0 6 2.0 33.5 4 2.5 24.0 1 3.0 1 16 9表表3.7 样本平均数差数样本平均数差数(d)的分布及其平均数与方差计算的分布及其平均数与方差计算 f f 样本平均数差数的平均数必等于两个总体平均样本平均数差数的平均数必等于两个总体平均数的差数:数的差数:若若 x1 和和x2所在总体呈正态分布,其平均数所在总体呈正态分布,其平均数分别为分别为 1 和和 2,方差分别为,方差分别为 12 和和 2 2,不论,不论样本容量大小样本容量大小,则两样本平均数的差数呈正态则两样本平均数的差数呈正态分布分布,具有平均数具有平均数 d 和方差和方差 d2。样本平均数差数的方差必等于两个总体平均数样本平均数差数的方差必等于两个总体平均数方差的总和:方差的总和: