第四章抽样调查与参数估计精选文档.ppt
《第四章抽样调查与参数估计精选文档.ppt》由会员分享,可在线阅读,更多相关《第四章抽样调查与参数估计精选文档.ppt(116页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章抽样调查与参第四章抽样调查与参数估计数估计本讲稿第一页,共一百一十六页4-2抽样调查与参数估计抽样调查与参数估计有关基本概念有关基本概念概率抽样方法概率抽样方法总体参数估计总体参数估计总体与样本总体与样本总体参数与样本统总体参数与样本统计量计量样本容量与样本容量与样本个数样本个数重复抽样与重复抽样与不重复抽样不重复抽样抽样框与抽样单抽样框与抽样单位位概率抽样和非概率抽样和非概率抽样概率抽样多相抽样多相抽样分层抽样分层抽样简单随机抽样简单随机抽样总体方差的参数总体方差的参数估计估计总体比率的参总体比率的参数估计数估计总体均值的参总体均值的参数估计数估计抽样误差和非抽样误差和非抽样误差抽样误
2、差整群抽样整群抽样系统抽样系统抽样多阶段抽样多阶段抽样样本容量的参样本容量的参数确定数确定本讲稿第二页,共一百一十六页4-3n抽样涉及的基本概念有:抽样涉及的基本概念有:n总体与样本总体与样本(见第一章见第一章)n样本容量与样本个数样本容量与样本个数n总体参数与样本统计量总体参数与样本统计量n重复抽样与不重复抽样重复抽样与不重复抽样n抽样框与抽样单位抽样框与抽样单位n概率抽样和非概率抽样概率抽样和非概率抽样n抽样的组织方式抽样的组织方式n抽样误差好非抽样误差抽样误差好非抽样误差n这些概念是统计学特有的,体现了统计学的基这些概念是统计学特有的,体现了统计学的基本思想与方法。本思想与方法。第一节第
3、一节 有关基本概念有关基本概念本讲稿第三页,共一百一十六页4-4一、总体和样本总体和样本:总体是指研究对象的全体,它是由研究对象中的单元组成的。总体中包含单元的数目称作总体容量(或大小);样本是指抽样时按照抽样的规则所抽中的那部分单元所组成的集合。总体样本抽取样本推断总体本讲稿第四页,共一百一十六页4-5n1.总体:又称全及总体、母体,指所要研究对总体:又称全及总体、母体,指所要研究对象的全体,由许多客观存在的具有某种共同象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用性质的单位构成。总体单位数用 N 表示。表示。n2.样本:又称子样,来自总体,是从总体中按样本:又称子样,来
4、自总体,是从总体中按随机原则抽选出来的部分,由抽选的单位构随机原则抽选出来的部分,由抽选的单位构成。样本单位数用成。样本单位数用 n 表示。表示。n3.总体是唯一的、确定的,而样本是不确定的、总体是唯一的、确定的,而样本是不确定的、可变的、随机的。可变的、随机的。本讲稿第五页,共一百一十六页4-6二、样本容量与样本个数二、样本容量与样本个数n样本容量:一个样本中所包含的单位数,用样本容量:一个样本中所包含的单位数,用n表示。必要样本量是能够满足估计精度要求表示。必要样本量是能够满足估计精度要求的最少样本量。的最少样本量。n样本个数:又称样本可能数目,指从一个总样本个数:又称样本可能数目,指从一
5、个总体中所可能抽取的样本的个数。用体中所可能抽取的样本的个数。用A表示。表示。对于有限总体,样本个数可以计算出来。样对于有限总体,样本个数可以计算出来。样本个数的多少与抽样方法有关。本个数的多少与抽样方法有关。(这个概念只这个概念只是对有限总体有意义,对无限总体没有意义!是对有限总体有意义,对无限总体没有意义!)n当当N和和n一定时,一定时,A的多少与抽样方法有关,的多少与抽样方法有关,其计算方法列表如下:其计算方法列表如下:本讲稿第六页,共一百一十六页4-7 抽样方法抽样方法放回抽样放回抽样不放回抽样不放回抽样考虑顺序考虑顺序不考虑顺序不考虑顺序本讲稿第七页,共一百一十六页4-8三、总体参数
6、和样本统计量三、总体参数和样本统计量n总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。n样本统计量:根据样本分布计算的指标。是随机变量。样本统计量:根据样本分布计算的指标。是随机变量。平均数平均数标准差、方差标准差、方差成数成数参数参数 、2p统计量统计量S、S2P 总体总体 样本样本本讲稿第八页,共一百一十六页四、重复抽样和不重复抽样四、重复抽样和不重复抽样n1、重复抽样又称放回抽样或重置抽样,它是指抽中一个、重复抽样又称放回抽样或重置抽样,它是指抽中一个单位并登记有关信息后重新放回到总体中继续参加下一单位并登记有关信息后重
7、新放回到总体中继续参加下一次的抽选,这样逐次反复,直到抽够足够的单位为止。次的抽选,这样逐次反复,直到抽够足够的单位为止。在重复抽样的条件下,每个单位中选的机会在各次抽样在重复抽样的条件下,每个单位中选的机会在各次抽样中都完全相等。中都完全相等。n2、不重复抽样又称不放回抽样或不重置抽样,它是指抽中、不重复抽样又称不放回抽样或不重置抽样,它是指抽中一个单位并登记有关信息后不再放回到总体中,而是继续从一个单位并登记有关信息后不再放回到总体中,而是继续从总体中余下的单位抽选样本单位,直到抽够足够的单位为止。总体中余下的单位抽选样本单位,直到抽够足够的单位为止。在不重复抽样的条件下,每个单位中选的机
8、会在各次抽样中在不重复抽样的条件下,每个单位中选的机会在各次抽样中是不相等的,每个单位只能被抽中一次。是不相等的,每个单位只能被抽中一次。4-9本讲稿第九页,共一百一十六页4-10 五、抽样框五、抽样框 n抽样框是在抽样前,为便于抽样工作的组织,在抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的用来进行抽样的、记录或表明可能条件下编制的用来进行抽样的、记录或表明总体所有抽样单元的框架,在抽样框中,每个抽总体所有抽样单元的框架,在抽样框中,每个抽样单元都被编上号码。抽样框可以是一份清单样单元都被编上号码。抽样框可以是一份清单(名单抽样框)、一张地图(区域抽样框)。(名单抽样框)、一张地
9、图(区域抽样框)。n编制抽样框是一个实际的、重要的问题,因此必编制抽样框是一个实际的、重要的问题,因此必须要认真对待。须要认真对待。n常见的抽样框问题可以概括为四种基本类型:常见的抽样框问题可以概括为四种基本类型:n(1)缺失一些元素,即抽样框涵盖不完全;缺失一些元素,即抽样框涵盖不完全;n(2)多个元素对应一个号码;多个元素对应一个号码;n(3)空白或存在异类元素;空白或存在异类元素;n(4)重复号码,即一个元素对应多个号码。重复号码,即一个元素对应多个号码。n对抽样框存在的缺陷要认真对待,有效处理。对抽样框存在的缺陷要认真对待,有效处理。本讲稿第十页,共一百一十六页n从抽样框中直接抽取的单
10、位称为抽样单位。但它不一定是从抽样框中直接抽取的单位称为抽样单位。但它不一定是构成抽样框的最小单位。根据不同的抽样设计,抽样单位构成抽样框的最小单位。根据不同的抽样设计,抽样单位有较大的变动余地。例如在电视收视率的抽样调查中,抽有较大的变动余地。例如在电视收视率的抽样调查中,抽样单位可以是拥有电视机的家庭,也可以是每个电视观众。样单位可以是拥有电视机的家庭,也可以是每个电视观众。可以将较小的抽样单位的集合视为较大的抽样单位。在复可以将较小的抽样单位的集合视为较大的抽样单位。在复杂抽样时,例如在多阶段抽样中,先抽取较大的抽样单位杂抽样时,例如在多阶段抽样中,先抽取较大的抽样单位(称为初级单位称为
11、初级单位),再从选出的初级单位中抽取次级单位,再从选出的初级单位中抽取次级单位(或二或二级单位级单位),往下还可以分为更小的三级单位、四级单位,等,往下还可以分为更小的三级单位、四级单位,等等。等。n 可以把抽样框中所包含抽样单位信息的丰富程度作为评价抽可以把抽样框中所包含抽样单位信息的丰富程度作为评价抽样框质量的一个标准。在好的抽样框中,抽样单位的信息比较丰样框质量的一个标准。在好的抽样框中,抽样单位的信息比较丰富,这就为采用复杂的抽样设计富,这就为采用复杂的抽样设计(如分层抽样如分层抽样)和不同的估计方和不同的估计方法法(如比率估计如比率估计)提供了条件。提供了条件。n 4-11本讲稿第十
12、一页,共一百一十六页4-12六、概率抽样和非概率抽样六、概率抽样和非概率抽样本讲稿第十二页,共一百一十六页4-13(一)(一)非概率抽样非概率抽样1.非概率抽样及其优缺点非概率抽样及其优缺点n非概率抽样是用非随机的方法抽选样本。非概率抽样是用非随机的方法抽选样本。n优点:优点:n快速简便;快速简便;n费用相对比较低;费用相对比较低;n不需要任何抽样框;不需要任何抽样框;n对探索性研究和调查设计的开发很有用。对探索性研究和调查设计的开发很有用。n缺点:缺点:n不能对总体进行推断;不能对总体进行推断;n由于不知总体单元的入样概率,故不能计算由于不知总体单元的入样概率,故不能计算估计值的抽样误差。估
13、计值的抽样误差。本讲稿第十三页,共一百一十六页4-142.各种非概率抽样方法n方便抽样,又称任意抽样。样本单元的选取由调查员决定,又由被调查者主动提供信息。如街道拦截访问。n志愿者抽样。被调查者都是自愿参与调查。如网上问卷,自愿回答。n判断抽样。由专家有目的地挑选“有代表性”的样本进行调查。如典型调查。n配额抽样。从总体的各个子总体中选取特定数量的样本单元组成样本。如市场调查中,规定男女消费者的样本各多少。n 滚雪球抽样。适合于总体中某种较为稀少的特殊子总体而又缺少完整的抽样框。抽样时通过已知的少数个体获得信息逐渐扩大。本讲稿第十四页,共一百一十六页4-15(二)概率抽样(二)概率抽样n概率抽
14、样是从总体中随机抽选样本单元,被抽中的单概率抽样是从总体中随机抽选样本单元,被抽中的单元既不取决于调查人员的愿望,也不取决于被被调查元既不取决于调查人员的愿望,也不取决于被被调查者的态度。其次每一个单元都有一定的概率被抽中。者的态度。其次每一个单元都有一定的概率被抽中。n优点:可以对总体进行推断,并能计算估计值的抽样优点:可以对总体进行推断,并能计算估计值的抽样误差。误差。n缺点:相对于非概率抽样,设计比较复杂,而且费用缺点:相对于非概率抽样,设计比较复杂,而且费用也比较高。也比较高。n常见的概率抽样方法主要有:简单随机抽样、系统常见的概率抽样方法主要有:简单随机抽样、系统抽样、与大小(或规模
15、)成比例的概率抽样、与大小(或规模)成比例的概率(PPS)抽样、抽样、整群抽样、分层抽样(整群抽样、分层抽样(STR)、多阶抽样、以及多相)、多阶抽样、以及多相抽样等。抽样等。本讲稿第十五页,共一百一十六页七、抽样误差和非抽样误差七、抽样误差和非抽样误差n抽样误差是指由于抽选样本的随机性,用样本数据对总体抽样误差是指由于抽选样本的随机性,用样本数据对总体参数进行估计是所引起的误差。只有采取概率抽样方式才参数进行估计是所引起的误差。只有采取概率抽样方式才能产生样误差,得到估计量的精度,因此我们说抽样误差能产生样误差,得到估计量的精度,因此我们说抽样误差仅仅表现于概率抽样方式之中。与非概率抽样方式
16、相比,仅仅表现于概率抽样方式之中。与非概率抽样方式相比,能够计算抽样误差是概率抽样最突出的优点。能够计算抽样误差是概率抽样最突出的优点。n非抽样误差是指除抽样误差以外的,由于各种原因而引起的非抽样误差是指除抽样误差以外的,由于各种原因而引起的误差,例如抽样框有缺陷,目标总体单位和抽样单位没有能误差,例如抽样框有缺陷,目标总体单位和抽样单位没有能够一一对应;调查中一些被调查者拒绝回答问题,调查人员够一一对应;调查中一些被调查者拒绝回答问题,调查人员没得到全部样本数据;由于各种原因没得到全部样本数据;由于各种原因(测量、遗忘或有意隐测量、遗忘或有意隐瞒等瞒等),调查中获得的原始数据不正确,以及在对
17、调查数据,调查中获得的原始数据不正确,以及在对调查数据进行编码、录入、汇总过程中可能出现差错,都会产生非抽进行编码、录入、汇总过程中可能出现差错,都会产生非抽样误差。样误差。4-16本讲稿第十六页,共一百一十六页八、样本量、费用与精度八、样本量、费用与精度n样本量是样本中包含抽样单位的数目,样本量的确定是抽样本量是样本中包含抽样单位的数目,样本量的确定是抽样中的一个重要问题,样本量越大,抽样误差就越小,估样中的一个重要问题,样本量越大,抽样误差就越小,估计量的精度就越高。但样本量有直接与费用有关,样本量计量的精度就越高。但样本量有直接与费用有关,样本量越大调查的费用也就越高。样本量与调查费用之
18、间是一种越大调查的费用也就越高。样本量与调查费用之间是一种线性关系,最简单的函数形式为线性关系,最简单的函数形式为n式中,式中,C0是与样本量是与样本量n无关的固定费用,如抽样方案的无关的固定费用,如抽样方案的设计设计,抽样框的准备,调查的组织、宣传等项开支,抽样框的准备,调查的组织、宣传等项开支,c是与是与n有关的费用,包括调查本身的费用、旅费、礼品费及数据有关的费用,包括调查本身的费用、旅费、礼品费及数据处理费等。处理费等。4-17本讲稿第十七页,共一百一十六页n然而样本量与调查精度之间是一种非线性关系。在样然而样本量与调查精度之间是一种非线性关系。在样本量较小时,每增加一个样本单位对提高
19、精度的影响本量较小时,每增加一个样本单位对提高精度的影响比较大,随着样本量的增大,每增加一个样本单位的比较大,随着样本量的增大,每增加一个样本单位的影响就逐渐减少。影响就逐渐减少。n因此,一个好的抽样设计必须考虑精度与费用两个方面。因此,一个好的抽样设计必须考虑精度与费用两个方面。这里想要说明的一层含义是:对于不同的调查项目,精度这里想要说明的一层含义是:对于不同的调查项目,精度的要求是不同的,调查时应以满足需要的精度为原则,想的要求是不同的,调查时应以满足需要的精度为原则,想要说明的另一唱层含义是,由于不同的抽样设计会有不同要说明的另一唱层含义是,由于不同的抽样设计会有不同的费用和精度,因此
20、对于一个具体的抽样设计,应尽量做的费用和精度,因此对于一个具体的抽样设计,应尽量做到在一定费用下使精度最高,或在达到精度条件下使总费到在一定费用下使精度最高,或在达到精度条件下使总费用最省,即使设计的效率最高,这样的抽样设计称为最优用最省,即使设计的效率最高,这样的抽样设计称为最优抽样设计。抽样设计。4-18本讲稿第十八页,共一百一十六页4-19第二节 主要的概率抽样方法(一)简单随机抽样 1、定义:简单随机抽样是从总体的N个抽样单元中,每次抽取一个单元时,使每一个单元都有相等的概率被抽中,连续抽n次,以抽中的n个单元组成简单随机样本。2、优点:(1)比较容易理解和掌握;(2)抽样框不需要其他
21、辅助信息;(3)理论上比较成熟,有现成的方差估计公式。3、缺点:(1)没有利用辅助信息;(2)样本分散,面访费用较高;(3)有可能抽到较差的样本;(4)抽选大样本比较费时。本讲稿第十九页,共一百一十六页4-20(二)系统抽样 1、定义:又称等距抽样,对研究的总体按一定的顺序排列,每隔一定的间隔抽取一个单元的抽样方法。2、抽选方法:设总体单元数为N,要抽n个单元为样本,先计算抽样间隔k=N/n,在1到k之间抽取一个随机起点r,则被抽中单元的顺序位置是:r,r+k,r+2k,。起点rr+kr+2kr+3k本讲稿第二十页,共一百一十六页4-21 圆形系统抽样方法:当N不能被n整除时,用圆形系统抽样法
22、可以避免出现样本量可能不一致的情况。把总体单元假想排列在一个圆上,取 k=N/n 最接近的整数,作为间隔,然后在1到N之间,抽取随机起点 r,则被抽中的单元顺序号为:r,r+k,r+2k,r+(n-1)k。如:N=55,n=9,就取k=6,在1到55之间取一个随机起点。例如r=42,则被抽中的单元是42,48,54,5,11,17,23,29和35。本讲稿第二十一页,共一百一十六页4-223、系统抽样的优点(1)没有抽样框时可代替简单随机抽样方法简单;(2)不需要辅助的抽样框信息;(3)样本的分布比较好;估计值容易计算。4、系统抽样的缺点(1)若抽样间隔与总体的某种周期性变化一致,会得一个差的
23、样本;(2)不使用辅助信息使抽样效率不高;(3)使用概念框时,不能预先知道样本量;(4)没有一个无偏的方差估计量;(5)当N不能被n整除时会得到样本量不同的样本。本讲稿第二十二页,共一百一十六页4-23(三)整群抽样 1、定义:由若干个有联系的基本单元组成的集合称为群,抽样时以群为抽样单元的抽样方法就称为整群抽样。整群抽样示意图:黄色为总体红色为群白点为基本单元本讲稿第二十三页,共一百一十六页4-242、整群抽样的优点:(1)能大大减低收集数据的费用;(2)当总体单元自然形成的群时,容易取得抽样框,抽样也更容易;(3)当群内单元差异大,而不同群之间的差异小时,可以提高效率。3、缺点:(1)若群
24、内个单元有趋同性,效率将会降低;(2)通常无法预先知道总样本量,因为不知道群内有多少单元;(3)方差估计比简单随机抽样更为复杂。本讲稿第二十四页,共一百一十六页4-25(四)分层抽样 1、定义:在抽样之前将总体分为同质的、互不重叠的若干子总体,也称为层。然后在每一个层独立地随机抽取样本。分层抽样示意图:本讲稿第二十五页,共一百一十六页4-262、优点:(1)由于性质相同的单元分在同一层,层内差异缩小,可以提高抽样效率;(2)可以得到各层子总体的估计;(3)操作与管理方便;(4)能避免得到一个“差”的样本。3、缺点:(1)对抽样框的要求比较高,必须有分层的辅助信息;(2)收集或编制抽样框的费用比
25、较高;(3)若调查变量与分层的变量不相关,效率可能降低;(4)估计值的计算比简单随机抽样复杂。本讲稿第二十六页,共一百一十六页4-27(五)多阶抽样 1、定义:它是由两个或更多个连续的阶段抽取样本的方法。多阶抽样示意图:总体第一阶样本最终样本本讲稿第二十七页,共一百一十六页4-282、优点:(1)当群具有同质性时,多阶抽样的效率高于整群抽样;(2)样本的分布比简单随机抽样集中,采用面访可以节约时间和费用;(3)不需要整个总体单元的名录框,只要群的名录框和抽中群的单元名录框。3、缺点:(1)效率不如简单随机抽样;(2)通常不能提前知道最终的样本量;(3)调查的组织较整群抽样复杂;(4)估计值与抽
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 抽样调查 参数估计 精选 文档
限制150内