第五章 抽样分布与参数估计.pptx
第五章第五章 抽样分布与参数估计抽样分布与参数估计 本章主要内容本章主要内容v一、抽样调查概述一、抽样调查概述v二、抽样推断的原理二、抽样推断的原理v三、抽样分布与误差三、抽样分布与误差v四、必要样本容量的确定四、必要样本容量的确定第一节第一节 抽样调查概述抽样调查概述 一、抽样调查的意义一、抽样调查的意义按照一定的程序按照一定的程序, ,从从总体总体中中抽取抽取一部分一部分单位单位进行调查,根据样本资料的估计值,对总体待进行调查,根据样本资料的估计值,对总体待估参数做出具有一定可靠程度的估计和推断,估参数做出具有一定可靠程度的估计和推断,以反映总体的数量特征或数量表现。以反映总体的数量特征或数量表现。 样本方差样本方差样本均值样本均值二、抽样调查的分类v随机抽样随机抽样:按照随机原则,完全排除了人为的主观因素,总体中每个单位都有一定的概率被选入样本。v非随机抽样非随机抽样:从方便出发或者根据研究者主观的判断来抽取样本,不遵循随机原则。无法估计和控制抽样误差,无法用样本的数量特征来推断总体。(方便抽样、配额抽样、 不等概率PPS抽样等)本章主要讨论随机抽样的原理和方法 三、抽样调查的特点三、抽样调查的特点四、抽样调查的应用四、抽样调查的应用 n对一些社会现象不可能或不必要进行全面调查时,对一些社会现象不可能或不必要进行全面调查时,一种是被调查总体包含有无穷多个单位,第二种是一种是被调查总体包含有无穷多个单位,第二种是对破坏性和消耗性产品的检验(如:家用电器检验、对破坏性和消耗性产品的检验(如:家用电器检验、食品卫生检验等)。食品卫生检验等)。n企业产品质量的管理。企业产品质量的管理。n对一些时效性较强但有来不及采取全面调查的。对一些时效性较强但有来不及采取全面调查的。n可以对大规模的全面调查进行检验,以修正资料。可以对大规模的全面调查进行检验,以修正资料。五、抽样推断中的理论依据五、抽样推断中的理论依据1、大数定律(切贝雪夫大数定律)、大数定律(切贝雪夫大数定律)lim1nXPn()212,nX XX0对于抽样推断:随着样本容量 的增加,样本平均数将接近于总体平均数。n在一定条件下,大量独立随机变量的平均数是以正态分布为极限的。六、抽样组织的方式六、抽样组织的方式1.1.简单随机抽样简单随机抽样 简单随机抽样简单随机抽样是一种对总体的每个单位(个体)都不是一种对总体的每个单位(个体)都不加任何限制的抽样。在总体中不作任何分组、划类、排队加任何限制的抽样。在总体中不作任何分组、划类、排队等,完全随机地抽取调查单位。等,完全随机地抽取调查单位。它是抽样调查中最简单组织形式,又叫单纯随机抽样。它是抽样调查中最简单组织形式,又叫单纯随机抽样。具体抽样时具体抽样时, ,可直接抽样可直接抽样, ,按号码签抽样按号码签抽样, ,按随机数字表抽等按随机数字表抽等2.2.分层随机抽样分层随机抽样 分层随机抽样分层随机抽样又称为类型随机抽样或分类随机抽样。又称为类型随机抽样或分类随机抽样。它是按照某一标志先将总体分成若干组(类),其中每一它是按照某一标志先将总体分成若干组(类),其中每一组称为一层,然后在每一层内按照简单随机抽样方式进行组称为一层,然后在每一层内按照简单随机抽样方式进行抽样的抽样方式。抽样的抽样方式。例如:将工业企业划分为冶金、电力、石油化工、煤炭、例如:将工业企业划分为冶金、电力、石油化工、煤炭、机械、电子等部门,每个部门中进行抽样调查。机械、电子等部门,每个部门中进行抽样调查。进一步细分进一步细分类型比例抽样类型比例抽样类型适宜抽样类型适宜抽样各层抽样比例相同各层抽样比例相同标志变动度大的组多抽标志变动度大的组多抽标志变动度小的组少抽标志变动度小的组少抽3.3.整群随机抽样整群随机抽样 整群随机抽样整群随机抽样是先将总体按某一标志分成若干组是先将总体按某一标志分成若干组 ,每,每一组称为一个群,以群为单位进行简单随机抽样,然后对一组称为一个群,以群为单位进行简单随机抽样,然后对抽到的群进行全面调查的抽样方式。抽到的群进行全面调查的抽样方式。例如:了解某地区职工家庭生活状况时,按居委会分群,例如:了解某地区职工家庭生活状况时,按居委会分群,然后对抽到的群(居委会)中然后对抽到的群(居委会)中, ,所辖每户职工家庭进行调所辖每户职工家庭进行调查登记。查登记。对于分层抽样对于分层抽样: 层内是抽样调查层内是抽样调查 , 层间是全面调查层间是全面调查对于整群抽样对于整群抽样: 群内是全面调查群内是全面调查 , 群间是抽样调查群间是抽样调查4.4.系统随机抽样系统随机抽样 系统随机抽样系统随机抽样又称为机械随机抽样或等距随机抽样。又称为机械随机抽样或等距随机抽样。它是先将总体中各单位按一定的标志排队,然后每隔一定它是先将总体中各单位按一定的标志排队,然后每隔一定的距离抽取一个总体单位(个体)的抽样方式。的距离抽取一个总体单位(个体)的抽样方式。例如:从例如:从100100人中抽取人中抽取1010人构成样本,先将人构成样本,先将100100人排队编号,人排队编号,然后在然后在1 11010号之间随机抽取一个数字,比如抽到号之间随机抽取一个数字,比如抽到3 3,那么,那么编号为编号为 3 3,1313,2323,3333,4343,5353,6363,7373,8383,9393的的1010个个人组成样本。人组成样本。具体排队时又分具体排队时又分按无关标志排队按无关标志排队按有关标志排队按有关标志排队5.5.多阶段随机抽样多阶段随机抽样 多阶段随机抽样多阶段随机抽样是将一次抽样后得到的样本当作总是将一次抽样后得到的样本当作总体再次进行随机抽样,得到第二次抽样样本,然后再如体再次进行随机抽样,得到第二次抽样样本,然后再如此进行下去的抽样方式。此进行下去的抽样方式。例如:我国农产量调查就采用五阶段抽样方式。省抽县、县例如:我国农产量调查就采用五阶段抽样方式。省抽县、县抽乡、乡抽村、村抽地块、地块抽样本点,对样本点进行实抽乡、乡抽村、村抽地块、地块抽样本点,对样本点进行实割实测的调查方法。割实测的调查方法。另外还有二重抽样法、比估计法、回归估计等另外还有二重抽样法、比估计法、回归估计等七、抽样调查中的几个基本概念七、抽样调查中的几个基本概念(一)全及总体与样本总体(一)全及总体与样本总体1.1.全及总体全及总体是指根据调查目的所确定的研究对象全体是指根据调查目的所确定的研究对象全体. .简称简称为总体为总体. .常用常用 N N 表示总体单位数。表示总体单位数。2.2.样本总体样本总体是指根据随机原则从总体中抽取一部分单位所组是指根据随机原则从总体中抽取一部分单位所组成的整体成的整体. .常用常用 n n 表示样本单位数(样本容量)。表示样本单位数(样本容量)。 一般一般 时,称为大样本;时,称为大样本; 时,称为小样本时,称为小样本30n 30n 对于某一研究对象,当研究目的确定时,对于某一研究对象,当研究目的确定时,全及总体是确定的全及总体是确定的,样本总体是不确定的。样本总体是不确定的。(二)总体指标与样本指标(二)总体指标与样本指标1 1、总体指标总体指标:根据总体中各单位的标志值计算出来的用于反:根据总体中各单位的标志值计算出来的用于反映总体的数量特征的指标。又称为全及指标或母体参数。映总体的数量特征的指标。又称为全及指标或母体参数。总体平均数(总体均值):总体平均数(总体均值):总体成数:总体成数:总体标准差:总体标准差:NXXNii1NNP1NXX2)()1 (PP 1N总体中具有某种总体中具有某种特性个体数目特性个体数目针对数量标志针对数量标志针对是否标志针对是否标志2 2、样本指标:样本指标:根据样本中各单位的标志值计算出来的用于反根据样本中各单位的标志值计算出来的用于反映样本数量特征的指标称为样本指标,也称样本参数。映样本数量特征的指标称为样本指标,也称样本参数。样本平均数(样本均值):样本平均数(样本均值):样本成数:样本成数:样本标准差:样本标准差:nxxnii1nnp1样本中具有某种样本中具有某种特性个体数目特性个体数目1n1)(2nxxs(1)1ppsn对于某一研究对象,当研究目的确定时,对于某一研究对象,当研究目的确定时,总体指标是确定的总体指标是确定的,样本指标是不确定的。样本指标是不确定的。(三)抽样框和抽样单元(三)抽样框和抽样单元抽样框抽样框:指供抽样所用的总体清单,是抽样的实际总体。包括具体的目录以及能够计数的全部抽样单位,而又不用把它们一一列出来。抽样单元:把总体划分为有限个互不交叉而又内容完备的部分,每个部分称为一个抽样单元。七七. .样本单位的抽选方法样本单位的抽选方法 在组织抽样调查时,根据样本单位是否重复抽取,分在组织抽样调查时,根据样本单位是否重复抽取,分别有重复抽样和不重复抽样两种方法。别有重复抽样和不重复抽样两种方法。1 1、重复抽样、重复抽样 重复抽样重复抽样是指每次从总体中抽取一个单位进行观察后,是指每次从总体中抽取一个单位进行观察后,再把这个单位重新放回总体,使之继续参加下次抽选。这再把这个单位重新放回总体,使之继续参加下次抽选。这种抽选法也称为放回抽样。种抽选法也称为放回抽样。2 2、不重复抽样、不重复抽样 不重复抽样不重复抽样是指每次从总体中抽取一个单位进是指每次从总体中抽取一个单位进行观察后不再把这个单位重新放回总体,这个总行观察后不再把这个单位重新放回总体,这个总体单位不再继续参加下次抽选。这种抽选法也称体单位不再继续参加下次抽选。这种抽选法也称为不放回抽样。为不放回抽样。第二节第二节 抽样推断的原理抽样推断的原理抽样推断主要任务抽样推断主要任务: 利用样本指标推断总体指标利用样本指标推断总体指标本章中即本章中即: Xx Pp 只要只要 则样本指标同总体指标之间就有不同,则样本指标同总体指标之间就有不同,即利用样本推断总体存在误差。即利用样本推断总体存在误差。Nn 一、抽样误差一、抽样误差 抽样误差抽样误差是由于抽样造成的误差,是由于用是由于抽样造成的误差,是由于用样本估计总体而产生的误差,无法避免,在概率样本估计总体而产生的误差,无法避免,在概率抽样中,抽样误差事先可以计算并控制。抽样中,抽样误差事先可以计算并控制。1. 概念概念2. 2. 影响因素影响因素总体标志变动度总体标志变动度越大总体方差2各调查单位标志值之间的差异越大各调查单位标志值之间的差异越大抽样分布越分散抽样分布越分散抽样误差越大抽样误差越大,为当总体方差02即总体内各调查单位标志值之间无即总体内各调查单位标志值之间无差异,则不存在抽样误差差异,则不存在抽样误差样本容量样本容量样本容量是影响抽样误差大小最直接、最有效的因素样本容量是影响抽样误差大小最直接、最有效的因素抽样方法、方式抽样方法、方式其他条件相同时,重复抽样误差其他条件相同时,重复抽样误差不重复抽样的误差不重复抽样的误差从抽样方式上看,简单随机抽样、分层抽样、系统从抽样方式上看,简单随机抽样、分层抽样、系统抽样、整群抽样与多阶段抽样的抽样误差也有区别。抽样、整群抽样与多阶段抽样的抽样误差也有区别。其他条件相同时其他条件相同时, ,n n 越接近越接近 N ,误差越小误差越小二、抽样误差的表现形式二、抽样误差的表现形式1.1.抽样实际误差抽样实际误差抽样实际误差抽样实际误差指抽样估计值与总体指标值之间的离差,指抽样估计值与总体指标值之间的离差,表示为:表示为:Xx 或或Pp2.2.抽样平均误差抽样平均误差抽样平均误差抽样平均误差指所有可能样本抽样误差的平均数指所有可能样本抽样误差的平均数, 是抽是抽样误差的一般水平。样误差的一般水平。本章中主要讲述:本章中主要讲述:xp(1)简单随机抽样的抽样平均误差)简单随机抽样的抽样平均误差对于重复抽样:对于重复抽样:nxnsnPPp)1 ( npp)1 ( 对于不重复抽样:对于不重复抽样:12NnNnsx修正系数修正系数当当 N 很大时,通常大于很大时,通常大于 500,N-1 近似为近似为N,此时,此时)1 (22NnnsNnNnsx抽样比抽样比同理可得:同理可得: (1)N(1)(1)ppppNnnNppnnN当 很大时3.3.抽样极限误差抽样极限误差抽样极限误差抽样极限误差是指以样本估计总体在某种概率意义下所是指以样本估计总体在某种概率意义下所允许的最大误差范围。允许的最大误差范围。”来表示通常用“ 抽样极限误差与抽样平均误差之比的系数称为抽样极限误差与抽样平均误差之比的系数称为抽抽样概率度样概率度 , 记为记为 t t。样本容量较大时,。样本容量较大时,t t分布与正态分分布与正态分布差别不大,用布差别不大,用 。2/u即ppu2/xxu2/2/u三、总体指标的估计三、总体指标的估计1.1.点估计点估计点估计点估计也叫定值估计,就是以所抽样本资料为依据,也叫定值估计,就是以所抽样本资料为依据,直接根据所选择的估计量对总体指标作出一个确定值直接根据所选择的估计量对总体指标作出一个确定值的估计,同时表明估计的精度和概率保证程度。的估计,同时表明估计的精度和概率保证程度。Xx 或或Pp 2.2.区间估计区间估计区间估计区间估计就是以点估计为依据,用一个具有一定可靠就是以点估计为依据,用一个具有一定可靠程度的区间范围来估计总体指标。程度的区间范围来估计总体指标。对总体平均数的区间估计为:对总体平均数的区间估计为: xxuxXux2/2/对总体成数的区间估计为:对总体成数的区间估计为: ppupPup2/2/xxxXxpppPp或或或或第三节第三节 必要样本容量的确定必要样本容量的确定 抽样调查理论中,样本容量抽样调查理论中,样本容量 n n 的确定具有的确定具有实实在在的意义。实实在在的意义。 n n 过大,违背抽样调查的过大,违背抽样调查的宗旨,宗旨, n n 过小,则抽样误差偏大,无法作出过小,则抽样误差偏大,无法作出精确的估计。精确的估计。一、影响因素一、影响因素1.1.总体标志变动度总体标志变动度越大总体方差2各调查单位标志值之间的差异越大各调查单位标志值之间的差异越大抽样分布越分散抽样分布越分散抽样误差越大抽样误差越大若想满足一定的精度要求若想满足一定的精度要求 , 则必要样本量就越多则必要样本量就越多2.2.抽样推断可靠度和精确度要求抽样推断可靠度和精确度要求要求越高要求越高, 所需样本量就越大所需样本量就越大3.3.抽样方法、方式抽样方法、方式其他条件相同时,重复抽样所需其他条件相同时,重复抽样所需 n不重复抽样所需不重复抽样所需 n分层抽样所需样本量最少分层抽样所需样本量最少, 整群抽样所需样本量最多整群抽样所需样本量最多衡量可靠度一般用衡量可靠度一般用 t 分布分布 ,衡量精确度一般用抽样误衡量精确度一般用抽样误差差本章主要研究简单随机抽样下如何确定本章主要研究简单随机抽样下如何确定 n 。二、计算方法二、计算方法简单随机抽样下必备样本量的确定简单随机抽样下必备样本量的确定对于重复抽样:对于重复抽样:xxu2/nsu2/2222/xxsun222/)1 (ppppun同理可得:同理可得:对于不重复抽样:对于不重复抽样:xxu2/)1 (22/Nnnsu222/2222/suNsNunxx同理同理:)1 ()1 (22/222/ppuNppNunppv采用简单随机重复抽样的方法,在2000件产品中抽取200件,其中合格品190件,求:v(1)计算合格品率及抽样平均误差;v(2)以95%置信水平对合格品率和合格品数量进行区间估计。/2/21902000,200,0.95200(1)10.95(1 0.95)0.01545200 10.051.96,0.0303PPNnpppnuu已知:随机重复抽样:时合格品率的95%的置信区间为:(91.97%,98.03%)合格品数量的95%的置信区间为:(1840,1961)v有一批送检产品,据经验估计其一级品率为20%,成数的最大允许抽样误差不超过5%,在95%的置信水平下,求:v(1)用重复随机抽样,必要抽样单位数是多少?v(2)抽样方法同上,若允许误差减少50%,其必要抽样单位数又为多少?/20.0252/222222/2220.20.05,0.051.96(1)1.960.2 0.8245.862460.050.025(1)1.960.2 0.8983.459840.025pPppPppuuuppnuppn 已知:,重复随机抽样必要样本量:时