第四章理论分布与抽样分布精选文档.ppt
第四章理论分布与抽样分布本讲稿第一页,共八十四页 在一定条件下,可能发生,也可能不发生在一定条件下,可能发生,也可能不发生的现象称为随机事件。的现象称为随机事件。&4.1&4.1 事件与概率事件与概率一、事件及其相互关系一、事件及其相互关系(一一)事件的意义事件的意义1.必然事件必然事件2.不可能事件不可能事件3.随机事件随机事件本讲稿第二页,共八十四页(二二)、事件的相互关系、事件的相互关系1.和事件和事件 事件事件A和事件和事件B至少有一个发生,这一事至少有一个发生,这一事件称为和事件,记为件称为和事件,记为“A+B”,读作,读作“或或A发生,或发生,或B发生发生”。本讲稿第三页,共八十四页2.积事件积事件 事件事件A和事件和事件B同时发生,这一事件称同时发生,这一事件称为积事件,记为为积事件,记为“AB”。3.互斥事件互斥事件(不相容事件不相容事件)事件事件A和事件和事件B不能同时发生,这一不能同时发生,这一事件称为互斥事件,记为事件称为互斥事件,记为“A.BV”本讲稿第四页,共八十四页4.对立事件对立事件若事件与是互不相容,且若事件与是互不相容,且为为必必然事件,然事件,则则称称为为的的对对立事件。立事件。例如、例如、“产品合格产品合格”A和和“产品不合格产品不合格”B,A+B=必然事件,必然事件,AB=不可能事件。不可能事件。本讲稿第五页,共八十四页5.完全事件系完全事件系若事件若事件A1、A2、A3、An两两互斥,且两两互斥,且每次试验结果必发生其一,则称这每次试验结果必发生其一,则称这n个事个事件为完全事件系。件为完全事件系。本讲稿第六页,共八十四页6.事件的独立性事件的独立性若事件若事件A发生与否不影响事件发生与否不影响事件B发生的发生的可能性,则称事件可能性,则称事件A和事件和事件B相互独立。相互独立。例如花色与产量无关的例。例如花色与产量无关的例。本讲稿第七页,共八十四页二 、概率的统计定义及估计方法表3.1 在相同条件下水稻种子发芽试验结果试验粒数试验粒数(n)5 10 50 100 200 500 1000发芽粒数发芽粒数(a)5 8 44 91 179 452 901发芽频率发芽频率(a/n)1.0 0.8 0.88 0.91 0.895 0.904 0.901本讲稿第八页,共八十四页(一一)概率的统计定义概率的统计定义 假定在相似条件下重复进行同一类试验假定在相似条件下重复进行同一类试验,调查事件调查事件A发生的次数发生的次数a与试验总次数与试验总次数n的比的比数称为数称为频率频率(a/n),则在试验总次数则在试验总次数n逐渐增逐渐增大时大时,事件事件A的频率愈来愈稳定的接近一个定的频率愈来愈稳定的接近一个定值值P,则定义为事件,则定义为事件A发生的发生的概率概率.记为记为P(A)=p=a/n本讲稿第九页,共八十四页概率的基本性质概率的基本性质:3、不可能事件的概率等于、不可能事件的概率等于0,即即:P(V)=01、任何事件的概率都在、任何事件的概率都在0与与1之间之间,即即:0P(A)12、必然事件的概率等于、必然事件的概率等于1,即即:P(U)=1本讲稿第十页,共八十四页(二二)概率的运算方法概率的运算方法1.加法定理加法定理 两个互斥事件两个互斥事件A和和B的和事件的概率的和事件的概率等于事件等于事件A和事件和事件B各自的概率之和各自的概率之和,既既:P(A+B)=P(A)+P(B)例如例如 有一批种子,其中二级占有一批种子,其中二级占5%,一级占一级占10%,其余为三级,问三级种子占多少?其余为三级,问三级种子占多少?本讲稿第十一页,共八十四页2.乘法定理乘法定理 两个独立事件两个独立事件A和和B的积事件的概率的积事件的概率等于事件等于事件A和事件和事件B各自概率的乘积各自概率的乘积,即即:P(AB)=P(A)P(B)若一批玉米种子发芽率为若一批玉米种子发芽率为0.9,发芽后能出土发芽后能出土的概率为的概率为0.8,求这批种子的出苗率求这批种子的出苗率?P(AB)=P(A)P(B)=0.90.8=0.72本讲稿第十二页,共八十四页3.对立事件的概率对立事件的概率 若事件若事件A的概率为的概率为P(A),那么对立事那么对立事件的概率件的概率 为为:P()=1-P(A)若一批种子发芽率为若一批种子发芽率为0.9,则不发芽率的概率为则不发芽率的概率为1-0.9=0.1本讲稿第十三页,共八十四页4.完全事件系的概率完全事件系的概率 若有几个事件若有几个事件A1,A2,.,An是试验的完是试验的完全事件系全事件系,则这些事件的概率之和为则这些事件的概率之和为1。即即:P(A1+A2+An)=P(A1)+P(A2)+(An)=1本讲稿第十四页,共八十四页 一批棉花纤维长度一批棉花纤维长度30cm事件事件A3,概率概率为为0.2;这三种情况构成一个完全事件系,其概率这三种情况构成一个完全事件系,其概率之和为:之和为:P(A1+A2+A3)=P(A1)+P(A2)+P(A3)=0.2+0.6+0.2=1本讲稿第十五页,共八十四页三三.小概率事件实际不可能性小概率事件实际不可能性 随机事件概率的大小客观地反映事件在随机事件概率的大小客观地反映事件在一次试验中发生的可能性的大小。概率大表一次试验中发生的可能性的大小。概率大表示该事件发生的可能性大;概率小,说明该示该事件发生的可能性大;概率小,说明该事件发生的可能性小;事件发生的可能性小;农业研究中多采用农业研究中多采用5%、1%这两个标准作为这两个标准作为小概率事件。小概率事件。本讲稿第十六页,共八十四页&4.2&4.2 正态分布正态分布一、正态分布的概念一、正态分布的概念 正态分布或称高斯(正态分布或称高斯(Gauss)分布分布,是连是连续性随机变量的一种最重要的理论分布。续性随机变量的一种最重要的理论分布。本讲稿第十七页,共八十四页本讲稿第十八页,共八十四页正态分布概率密度函数:本讲稿第十九页,共八十四页 x :所研究的变数所研究的变数;:x的函数值的函数值,称为概率密度函数称为概率密度函数;:总体平均数总体平均数;:总体标准差总体标准差其中其中 ,是两个常数是两个常数,正态分布记为正态分布记为N(,),表示具有平均数为表示具有平均数为 ,方差为方差为 的正态分布。的正态分布。本讲稿第二十页,共八十四页2、正态分布的算术平均数、中数及众数三者正态分布的算术平均数、中数及众数三者 合一,都位于合一,都位于 点。点。3、正态分布的多数观察值集中于算术平均数正态分布的多数观察值集中于算术平均数 的附近,离平均数愈远,相应的次数愈少,的附近,离平均数愈远,相应的次数愈少,在在-33 以外,次数极少。以外,次数极少。二、正态分布曲线的特征二、正态分布曲线的特征:1、正态分布曲线围绕算术平均数向左右两侧正态分布曲线围绕算术平均数向左右两侧 作对称分布,所以它是一条对称曲线。作对称分布,所以它是一条对称曲线。本讲稿第二十一页,共八十四页4、正态分布曲线的形状完全取决于、正态分布曲线的形状完全取决于 和和 两个参数。两个参数。确定正态分布在确定正态分布在X轴上的轴上的 中心位置,中心位置,确定正态分布的变异度。确定正态分布的变异度。5、正态分布概率密度函数曲线与、正态分布概率密度函数曲线与X轴所围轴所围 成的全部面积必等于成的全部面积必等于1;6、正态分布曲线在、正态分布曲线在 和和 处各有一处各有一 拐点拐点。曲线两尾向左右伸展,永不接触曲线两尾向左右伸展,永不接触 横横 轴轴,x 的取值范围的取值范围-,+。本讲稿第二十二页,共八十四页本讲稿第二十三页,共八十四页三、正态分布的概率计算 根据正态分布的性质,变量在两个定值间根据正态分布的性质,变量在两个定值间取值的概率等于曲线与其取值的概率等于曲线与其x轴在该区间围成轴在该区间围成的面积。的面积。因此概率的计算即正态分布概率密度函数因此概率的计算即正态分布概率密度函数的定积分计算。的定积分计算。是一个曲线系统。为了一般化的是一个曲线系统。为了一般化的应用,需将正态分布标准化。应用,需将正态分布标准化。本讲稿第二十四页,共八十四页正态分布的标准化正态分布的标准化将随机变量将随机变量x 标准化,令标准化,令u称标准正态离差,表示离开平均数称标准正态离差,表示离开平均数 有几有几个标准差单位。个标准差单位。本讲稿第二十五页,共八十四页 标准化正态分布函数:标准化正态分布函数:(u)称为标准化正态分布密度函数,即称为标准化正态分布密度函数,即 =0,=1时的正态分布记作时的正态分布记作N(0,1)本讲稿第二十六页,共八十四页从从N(,2)到到 N(0,1),从几何意义上说,仅仅是将变量从几何意义上说,仅仅是将变量x作了横坐标轴的平移和尺度单位的变化。作了横坐标轴的平移和尺度单位的变化。本讲稿第二十七页,共八十四页对对标标准准正正态态分分布布方方程程计计算算从从-到到ui的的累累积积概率计算公式如下概率计算公式如下:本讲稿第二十八页,共八十四页 前人已计算出从前人已计算出从-3到到3之间各之间各个个u值的值的FN(ui)值,列入值,列入P357附附表表2。本讲稿第二十九页,共八十四页【例如】有一随机变数【例如】有一随机变数X服从正态分布,服从正态分布,平均数平均数 =30,标准差,标准差 =5,试计算,试计算X小小于于26,大于,大于40,介于,介于26-40区间的概率。区间的概率。x小于小于26:=(26-30)/5=-0.8查附表查附表1,本讲稿第三十页,共八十四页 大于大于40:=(40-30)/5=2查表查表1,F(u=2)=0.9773 则则x介于介于26与与40之间:之间:=0.7654本讲稿第三十一页,共八十四页本讲稿第三十二页,共八十四页 【例如】已知某正态分布【例如】已知某正态分布 =30,=5,试计算,试计算x偏离平均数偏离平均数 达达9.8和和14.9 以上的概率?以上的概率?计算计算标准化标准化本讲稿第三十三页,共八十四页查附表查附表2,得知它们对应的概率分别为,得知它们对应的概率分别为0.05和和0.01,即,即P(x-9.80)=P(x-1.96)=0.05=P(x-)1.96+P(x-)-1.96P(x-14.90)=P(x-2.58)=0.01=P(x-)2.58+P(x-)-2.58以上两式等号右侧的前一项为右尾概率,后一项为左以上两式等号右侧的前一项为右尾概率,后一项为左尾概率,其和概率为两尾概率。附表尾概率,其和概率为两尾概率。附表2列出的就是两列出的就是两尾概率。尾概率。本讲稿第三十四页,共八十四页本讲稿第三十五页,共八十四页&4.3&4.3 二项分布和泊松分布二项分布和泊松分布一、二项总体与二项分布一、二项总体与二项分布 在独立重复试验中,总体的某个性状每一在独立重复试验中,总体的某个性状每一次试验只有非此即彼两个可能结果,这种非此次试验只有非此即彼两个可能结果,这种非此即彼事件所构成的总体叫即彼事件所构成的总体叫二项总体二项总体,也叫,也叫0,1总体。总体。本讲稿第三十六页,共八十四页 当每次独立的从二项总体抽取当每次独立的从二项总体抽取n个个体,个个体,这这n个个体:个个体:“此此”事件出现的次数事件出现的次数X可能有可能有0、1、2、.n,共有共有n+1种种,这这n+1种可能性种可能性有它各自的概率,组成一个分布有它各自的概率,组成一个分布,此分布叫此分布叫二项概率分布二项概率分布或简称或简称二项分布二项分布。二项分布是。二项分布是一种离散型分布。一种离散型分布。本讲稿第三十七页,共八十四页例例如如,观观察察玉玉米米播播种种后后的的出出苗苗数数,出出苗苗记记为为“此此”事件,概率为事件,概率为p;不出苗记为彼事件,概率为;不出苗记为彼事件,概率为q。若若每每窝窝播播种种5粒粒种种子子,则则对对每每窝窝出出苗苗情情况况的的观观察察结果会有如下几种可能:结果会有如下几种可能:X :0 1 2 3 4 5P:P(0)P(1)P(2)P(3)P(4)P(5)由这由这6种情况的相应概率组成的分布,就是种情况的相应概率组成的分布,就是n=5时时出苗数的二项分布。出苗数的二项分布。本讲稿第三十八页,共八十四页二、二项分布的概率计算二、二项分布的概率计算1、二项分布的概率密度函数、二项分布的概率密度函数 现现以以玉玉米米种种子子播播种种后后的的出出苗苗和和不不出出苗苗为为例例,说说明明二二项项分分布布的的概概率率密密度度函函数数。出出苗苗看看作作“此此”事事件件,p=0.7,不不出出苗苗看看作作“彼彼”事事件件,q=0.3,每每窝窝中中种种子子的的出出苗苗与与不出苗为对立事件。不出苗为对立事件。本讲稿第三十九页,共八十四页若每窝种若每窝种1粒种子,相当于粒种子,相当于n=1,则出苗数有则出苗数有2种情况即:种情况即:x=0;x=1 相应的概率相应的概率f(x=0)=q=0.3;相应的概率为相应的概率为 f(x=1)=p=0.7.本讲稿第四十页,共八十四页若每窝种若每窝种2粒种子,相当于粒种子,相当于n=2,则出苗数有则出苗数有3种情况:种情况:x=0,1,2,相应的概率为:相应的概率为:f(x=0)=qq=0.3 0.3=0.09 f(x=1)=pq+qp=2pq=2 0.3 0.7=0.42 f(x=2)=pp=0.7 0.7=0.49本讲稿第四十一页,共八十四页若每窝种若每窝种3粒种子粒种子,n=3,则出苗数有则出苗数有0,1,2,3四种情况,四种情况,其相应的概率为:其相应的概率为:f(x=0)=qqq=0.027 f(x=1)=pqq+qpq+qqp=3 0.7 0.3 0.3=0.189 f(x=2)=ppq+pqp+qpp=3 0.7 0.7 0.3=0.441 f(x=3)=ppp=0.7 0.7 0.7=0.343本讲稿第四十二页,共八十四页由上面的分析可看出:由上面的分析可看出:(p+q)n=(p+q)1=0.3+0.7=1(p+q)n=(p+q)2=p2+2pq+q2 =0.49+0.42+0.09=1(p+q)n=(p+q)3=p3+3p2q+3pq2+q3 =0.343+0.441+0.189+0.027=1本讲稿第四十三页,共八十四页二二项项式式展展开开后后的的各各项项系系数数,正正是是从从n个个事事物物种种抽抽得得x个的组合数即个的组合数即由此得出二项分布中任何一项的概率通式:由此得出二项分布中任何一项的概率通式:即为二项分布的概率函数即为二项分布的概率函数本讲稿第四十四页,共八十四页二项分布的概率累积函数:二项分布的概率累积函数:由于变量由于变量x=0,1,2,n,为完全事件系,所以为完全事件系,所以这个分布的概率之和必等于这个分布的概率之和必等于1。本讲稿第四十五页,共八十四页n【例如例如】有一批玉米种子,其发芽率为有一批玉米种子,其发芽率为70%,如每窝播种,如每窝播种4粒,问出苗数为粒,问出苗数为2和和3时的概率分别为多少时的概率分别为多少?本讲稿第四十六页,共八十四页本讲稿第四十七页,共八十四页例:某小麦品种在田间出现自然变异的概率为例:某小麦品种在田间出现自然变异的概率为0.0045,(1)调查调查100株,获得两株或两株以上变异植株的概率是多少?株,获得两株或两株以上变异植株的概率是多少?(2)期望有期望有0.99的概率获得的概率获得1株或株或1株以上的变异植株,至少应调查多株以上的变异植株,至少应调查多少株?少株?n=100,p=0.0045P(x2)=1-P(0)-P(1)=0.07512)=1-P(0)-P(1)=0.0751 P(0)=0.01n=1021(株)株)本讲稿第四十八页,共八十四页三、二项分布的形状和参数三、二项分布的形状和参数 二项分布的形状决定于二项分布的形状决定于n和和p的大小。如的大小。如p=q,二项分布呈对称分布;如二项分布呈对称分布;如pq 为为偏斜分布偏斜分布。1、二项分布的形状、二项分布的形状B(n,p)(1)当当p值较小且值较小且n不大时,分布是偏倚的。不大时,分布是偏倚的。随随n的增大,分布趋于对称;的增大,分布趋于对称;(2)当)当p值趋于值趋于0.5时,分布趋于对称。时,分布趋于对称。本讲稿第四十九页,共八十四页2、二项总体的参数、二项总体的参数 对于一个给定的二项分布,对于一个给定的二项分布,n和和p是常数。是常数。二项总体的平均数、方差和标准差的计算公式二项总体的平均数、方差和标准差的计算公式如下:如下:在在n较大,较大,np、nq较接近时,二项分布接近于正态分布;当较接近时,二项分布接近于正态分布;当n时,二项分布的极时,二项分布的极限分布是正态分布。限分布是正态分布。本讲稿第五十页,共八十四页三、泊松分布三、泊松分布 二项总体中稀有事件的概率分布不呈二二项总体中稀有事件的概率分布不呈二项分布,而是遵从另一种理论分布项分布,而是遵从另一种理论分布泊松泊松分布(分布(poisson distribution)1、统计定义、统计定义 若变量若变量x服从二项分布,当服从二项分布,当P很小,很小,n且且np=m为一常数时,该二项分布的极限为普阿松为一常数时,该二项分布的极限为普阿松分布。分布。本讲稿第五十一页,共八十四页2、概率函数、概率函数其中其中m=np,e=2.71828普阿松分布的平均数和方差都等于常数普阿松分布的平均数和方差都等于常数m,即即:本讲稿第五十二页,共八十四页3.3.泊松分布的概率计算泊松分布的概率计算【例例3.9】田田间间分分区区调调查查“岱岱字字棉棉”的的纯纯度度,每每区区一一亩亩,调调查查了了310个个区区,共共发发现现杂杂株株341株株,试求变量试求变量x的概率分布。的概率分布。首首先先求求平平均均数数=341/310=1.1株株,即即每每区区(亩亩)出出现现杂杂株株为为1.1株株,这这在在种种植植密密度度上上千千株株的的一一亩亩棉棉田田里里,是是一一个个很很小小的的数数,因因此此可可以以认认为为不不纯纯株株出现的概率分布服从普阿松分布。出现的概率分布服从普阿松分布。本讲稿第五十三页,共八十四页 P(x=0)=e-1.1=0.3329 P(x=1)=1.1e-1.1=0.3662 P(x=2)=1.12/2e-1.1=0.2014 P(x=3)=1.13/6e-1.1=0.0738 P(x=4)=1.14/24e-1.1=0.0203 P(x=5)=1.15/120e-1.1=0.0045 P(x=6)=1.16/720e-1.1=0.0008 P(x7)=1-60f(x)=1-0.9999=0.0001本讲稿第五十四页,共八十四页泊松分布是一个偏斜分布,但随着泊松分布是一个偏斜分布,但随着m的的增大,分布渐趋对称,接近正态分布。增大,分布渐趋对称,接近正态分布。通常当通常当m大于大于50时,可用正态分布来处时,可用正态分布来处理普阿松分布的问题。理普阿松分布的问题。本讲稿第五十五页,共八十四页第四节第四节 抽样分布抽样分布统计学:统计学:1、总体、总体 样本样本 抽样分布抽样分布 2、样本、样本 总体总体 统计推断统计推断一、抽样分布试验一、抽样分布试验复置抽样复置抽样不复置抽样不复置抽样本讲稿第五十六页,共八十四页总总 体体.样本1样本2样本n本讲稿第五十七页,共八十四页例如,设有一个例如,设有一个N=4的有限总体,其变量的有限总体,其变量值为值为2、3、3、4。总体的平均数、方差和标准差总体的平均数、方差和标准差本讲稿第五十八页,共八十四页 当以样本容量当以样本容量n=2进行独立抽样,抽取进行独立抽样,抽取的所有可能样本数的所有可能样本数 ,其平均数、其平均数、方差和标准差如下表。方差和标准差如下表。本讲稿第五十九页,共八十四页样本观察值样本观察值x2222333333334444234323342334x455656675667677823342.02.52.53.02.53.03.03.52.53.03.03.53.03.53.54.00.00.50.52.00.50.00.00.50.50.00.00.52.00.50.50.00.000.250.251.000.250.000.000.250.250.000.000.251.000.250.250.00s0.0000.7070.7071.4140.7070.0000.0000.7070.7070.0000.0000.7071.4140.7070.7070.00096 48 8.0 4.0 8.484本讲稿第六十页,共八十四页以自由度(以自由度(n-1)作分母计算的样本方差作分母计算的样本方差 之均数:之均数:以样本容量以样本容量n作分母计算的样本方差作分母计算的样本方差 之均数:之均数:样本标准差样本标准差S之均数之均数:各样本均数总和之均数:各样本均数总和之均数:本讲稿第六十一页,共八十四页 如果所有可能样本的某一统计数的平如果所有可能样本的某一统计数的平均数等于该总体的相应参数,均数等于该总体的相应参数,则称该统计则称该统计数为总体参数的数为总体参数的无偏估计值无偏估计值(unbiased estimate)。本讲稿第六十二页,共八十四页v 是是 的无偏估计值的无偏估计值;v 是是 的无偏估计值;的无偏估计值;v 以以n n为分母得到的样本方差为分母得到的样本方差 不是不是 的的 无偏估计值;无偏估计值;v S S不是不是 的无偏估计值;的无偏估计值;因此,为了得到 的无偏估计值,估算样本方差时,必须以自由度df=n-1而不用n做分母。抽样结论抽样结论本讲稿第六十三页,共八十四页二、样本平均数的分布二、样本平均数的分布 按上述抽样方法,再以按上述抽样方法,再以n=4,从上述有限总,从上述有限总体体2,3,3,4中抽出全部所有样本,同样可以计算出中抽出全部所有样本,同样可以计算出所有样本的平均数、方差和标准差。所有样本的平均数、方差和标准差。本讲稿第六十四页,共八十四页各种不同样本容量的样本平均数各种不同样本容量的样本平均数 的抽样分布的抽样分布n=1234f121n=2f2.02.53.03.54.014641n=4f2.002.252.502.753.003.253.503.754.0018285670562881本讲稿第六十五页,共八十四页各种不同样本容量各种不同样本容量 的分布图的分布图f2 3 4210ff2 3 465432102 3 470605040302010 0n=1;2=1/2n=2;2=1/4n=4;2=1/8本讲稿第六十六页,共八十四页 从上述的表和图来看,从总体抽出的全部所从上述的表和图来看,从总体抽出的全部所有样本的平均数,当有样本的平均数,当n增大时,其方柱形图逐渐增大时,其方柱形图逐渐趋向于正态分布曲线形状,说明样本平均数是做趋向于正态分布曲线形状,说明样本平均数是做正态分布的。正态分布的。样本平均数分布的平均数样本平均数分布的平均数 、标准差、标准差 与与其原总体平均数其原总体平均数 、标准差、标准差 的关系为:的关系为:本讲稿第六十七页,共八十四页本讲稿第六十八页,共八十四页 根据次数表,根据次数表,n=2抽样的样本平均数为:抽样的样本平均数为:样本平均数的方差为:样本平均数的方差为:本讲稿第六十九页,共八十四页当当n=4时,同理可得:时,同理可得:称为样本平均数的标准差,简称标准误称为样本平均数的标准差,简称标准误(standard error),standard error),度量平均数抽样误差的大小。度量平均数抽样误差的大小。本讲稿第七十页,共八十四页v 从正态总体抽出的样本,从正态总体抽出的样本,无论样无论样本容量的大小,其样本平均数本容量的大小,其样本平均数 的抽样分的抽样分布必做成正态分布,具有平均数布必做成正态分布,具有平均数 和方差和方差 ,而且方差随样本容量,而且方差随样本容量的增大而降低。平均数的分布一般记为:的增大而降低。平均数的分布一般记为:。本讲稿第七十一页,共八十四页v如果总体不是正态分布,但如具有一定量的如果总体不是正态分布,但如具有一定量的 2和平均数和平均数,那么,那么,当样本容量足够大时当样本容量足够大时,从这一总体抽出的样本平均数的抽样分布也必从这一总体抽出的样本平均数的抽样分布也必趋于近正态分布,具有平均数趋于近正态分布,具有平均数 和方差和方差 ,这称为中心极限定理,这称为中心极限定理。本讲稿第七十二页,共八十四页随着样本容量的增加,分布的集中程度增加了,说明方差减少了。随着样本容量的增加,分布的集中程度增加了,说明方差减少了。-3 -2 -1 +1 +2 +3 n=9n=4n=1f本讲稿第七十三页,共八十四页(二)样本平均数差数的抽样分布(二)样本平均数差数的抽样分布设有两个总体:设有两个总体:抽抽k个样本容量为个样本容量为n1抽抽m个样本容量为个样本容量为n2抽样试验表明:抽样试验表明:本讲稿第七十四页,共八十四页表表3.6 抽样平均数次数分布表抽样平均数次数分布表 f1 f22.0 1 1.0 12.5 4 1.5 23.0 6 2.0 33.5 4 2.5 24.0 1 3.0 1 16 9本讲稿第七十五页,共八十四页表表3.7 样本平均数差数样本平均数差数(d)的分布及其平均数与方差计算的分布及其平均数与方差计算 f f -1.0 1 -1.0 4.00 4.0 -0.5 6 -3.0 2.25 13.5 0.0 17 0.0 1.00 17.0 0.5 30 15 0.25 7.5 1.0 36 36 0.00 0.0 1.5 30 45 0.25 7.5 2.0 17 34 1.00 17.0 2.5 6 15 2.25 13.5 3.0 1 3.0 4.00 4.0 144 144 15.00 84.0本讲稿第七十六页,共八十四页本讲稿第七十七页,共八十四页样本平均数差数的平均数必等于两个总体平均数的样本平均数差数的平均数必等于两个总体平均数的差数:差数:若若 x1 和和x2所在总体呈正态分布,其平均数分别所在总体呈正态分布,其平均数分别为为 1 和和 2,方差分别为,方差分别为 12 和和 2 2,不论样本容量大,不论样本容量大小小,则两样本平均数的差数呈正态分布则两样本平均数的差数呈正态分布,具有平均数具有平均数 d 和方差和方差 d2。样本平均数差数的方差必等于两个总体平均数样本平均数差数的方差必等于两个总体平均数方差的总和:方差的总和:本讲稿第七十八页,共八十四页三 二项总体的抽样分布(一一)二项总体的分布参数二项总体的分布参数 为了说明二项为了说明二项(0,1)总体的抽样分布特征,以总体内包含总体的抽样分布特征,以总体内包含5个个个个体为例,每一个体,体为例,每一个体,y=0或或y=1。若总体的变量为:。若总体的变量为:0,1,0,1,1,则总体平均数和方差为:,则总体平均数和方差为:=(0+1+0+1+1)/5=3/5=0.6 2=(0-0.6)2+(1-0.6)2+(0-0.6)2+(1-0.6)2+(1-0.6)2/5=0.24 =0.241/2=0.49二项总体的平均数为二项总体的平均数为 =p=p方差为方差为 2 2=p(1-p)=pq=p(1-p)=pq标准差为标准差为其中其中p p为二项总体中要研究的属性事件发生的概率,为二项总体中要研究的属性事件发生的概率,q=1-pq=1-p。本讲稿第七十九页,共八十四页(二二)样本平均数样本平均数(成数成数)的抽样分布的抽样分布从二项总体进行抽样得到样本,样本平均数从二项总体进行抽样得到样本,样本平均数(成数成数)的分布为二项式的分布为二项式分布。样本平均数抽样分布的参数为:分布。样本平均数抽样分布的参数为:平均数平均数 x=p 方方 差差 2x=p(1-p)/n=pq/n 标准误标准误 x=(pq/n)1/2 样本观察值中有样本观察值中有“0”和和“1”两种观察值,将样本观察值总加两种观察值,将样本观察值总加起来后除以样本容量起来后除以样本容量(n)得到的平均数实际上就是得到的平均数实际上就是“1”所占的所占的比例数,即成数,或百分数。比例数,即成数,或百分数。本讲稿第八十页,共八十四页(三三)样本总和数样本总和数(次数次数)的抽样分布的抽样分布n从二项总体进行抽样得到样本,样本总和数从二项总体进行抽样得到样本,样本总和数(次数次数)的分布为二项分布。样本总和数的抽样分布参数的分布为二项分布。样本总和数的抽样分布参数为为:平均数平均数 xx=np=np 方方 差差 2 2xx=npq=np(1-p)=npq=np(1-p)标准误标准误 xx=(npq)=(npq)1/21/2=np(1-p)=np(1-p)1/21/2本讲稿第八十一页,共八十四页例例 棉田盲椿象危害棉株分为受害株与未受害株。假定调查棉田盲椿象危害棉株分为受害株与未受害株。假定调查2000株作为一个总体,受害株为株作为一个总体,受害株为704株。计算出受害率株。计算出受害率p=35.2%,=47.76%。现。现从这一总体抽样,以株为单位,用简单随机抽样方法,调查从这一总体抽样,以株为单位,用简单随机抽样方法,调查200株棉株,获得株棉株,获得74株受害。观察受害率株受害。观察受害率(就是成数,或者说是样本平均数就是成数,或者说是样本平均数)py=74/200=37.0%,试问样本平均数与总体真值的差数的概率为多少?,试问样本平均数与总体真值的差数的概率为多少?本讲稿第八十二页,共八十四页总体真值总体真值p=0.352,差数差数=px-p=0.370-0.352=0.018 成数的标准差成数的标准差x=(pq/n)1/2=0.034二项式分布中当二项式分布中当n大时计算比较繁复,大时计算比较繁复,但由于二项分布在但由于二项分布在np及及np大大于于5时,趋近于正态分布时,趋近于正态分布,本例样本较大可看为正态分布,采用,本例样本较大可看为正态分布,采用正态离差正态离差u查出概率。查出概率。u=(px-p)/x=0.018/0.034=0.53查查附表附表3,当,当u=0.53,概率值为,概率值为0.59,即获得这种,即获得这种|py-p|的概率的概率(两尾两尾概率概率)为为0.59这就说明样本估计的受害率为这就说明样本估计的受害率为37.0%有代表性有代表性(可以近似代表总体的可以近似代表总体的受害率受害率)。本讲稿第八十三页,共八十四页如果以次数资料如果以次数资料(或称为或称为“样本总和数资料样本总和数资料”)表示也可得到同样效表示也可得到同样效果。总体调查果。总体调查2000株受害株有株受害株有704株,调查株,调查200株的理论次数株的理论次数应为应为npx=2000.352=70.4株株现观察受害株为现观察受害株为74株株(总和数总和数),差数差数=(np=(npx x-np)-np)=70.4-74=-3.6株株u=(npu=(npx x-np)/(npq)-np)/(npq)1/21/2=-3.6/6.754=0.53查查附表附表3,获得这种差数的概率为,获得这种差数的概率为0.59。本讲稿第八十四页,共八十四页