《抽样调查不等概率抽样.ppt》由会员分享,可在线阅读,更多相关《抽样调查不等概率抽样.ppt(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于抽样调查不等概率抽样现在学习的是第1页,共25页3.1 PPS 3.1 PPS 抽抽 样样 PPSPPS抽样抽样:抽取概率正比于规模测度。:抽取概率正比于规模测度。Sampling with Probability Proportional to Size现在学习的是第2页,共25页 不等概率不等概率 抽样抽样有放回不等概率抽样有放回不等概率抽样 (PPS)无放回不等概率抽样无放回不等概率抽样 ()现在学习的是第3页,共25页一、实现方法一、实现方法(1)累积和法)累积和法 或或 代码法代码法 它适合于它适合于 N N 不太大的情形。假定所有的不太大的情形。假定所有的 为整数,倘为整数,倘
2、若在实际中存在若在实际中存在 不是整数的话,则可以乘以一个倍数使其不是整数的话,则可以乘以一个倍数使其为整数。见下表。为整数。见下表。现在学习的是第4页,共25页单元单元单元大小单元大小代码数代码数表表31 31 pps pps 抽样时各单元的代码数抽样时各单元的代码数每次抽样前,先在整数每次抽样前,先在整数 里面随机等可能的选里面随机等可能的选取一个整数,设为取一个整数,设为m,m,若代码若代码 m m 属于第属于第 j j个单元拥有的代码个单元拥有的代码数,则第数,则第 j j个单元入样。整个过程重复个单元入样。整个过程重复 n n次,得到次,得到 n n个单元个单元入样(当然存在重复的可
3、能性)构成入样(当然存在重复的可能性)构成 pps pps 样本。样本。现在学习的是第5页,共25页例例3.13.1 设某总体共有设某总体共有N=8N=8个单元,相应个单元,相应 及代码如表所示及代码如表所示1 12 23 34 45 56 67 78 82/52/51/21/22/32/34/34/38/58/53/53/52/32/3 1 112121515202040404848181820203030累计累计1212272747478787135135153153173173203203代码代码1 11212131327272828474748488787888813513513613
4、6153153154154173173174174203203现在学习的是第6页,共25页 假设第假设第 个单元在个单元在 n n次抽样中被抽中次抽样中被抽中 次,则次,则是一个随机向量,其联合分布为:是一个随机向量,其联合分布为:这是我们熟悉的这是我们熟悉的多项分布多项分布,多项抽样多项抽样其名正出于此。其名正出于此。(3.1)3.1)多项分布多项分布(3.1)3.1)具有如下性质:具有如下性质:倘若单元有一个数值度量其大小,诸如职工人数、工厂产值倘若单元有一个数值度量其大小,诸如职工人数、工厂产值商店销售额等,或者感兴趣的调查指标在上一次普查时的数商店销售额等,或者感兴趣的调查指标在上一次
5、普查时的数据也可以作为其单元大小的一种度量。记据也可以作为其单元大小的一种度量。记 为第为第 个单元的个单元的“大小大小”,并记,并记现在学习的是第7页,共25页若取若取 n=3n=3,在在1 1203203中随机有放回地产生中随机有放回地产生3 3个随机整数,不个随机整数,不妨设为妨设为4545、8989、101101,则第,则第 3 3 个单元入样一次,第个单元入样一次,第 5 5 个单个单元入样元入样 2 2 次。次。(2 2)最大规模法)最大规模法 或或 Lahiri(Lahiri(拉希里拉希里)方法方法 当当 N N 相当大时,累计的相当大时,累计的 将很大,给代码法的实施带将很大,
6、给代码法的实施带来很多不方便。来很多不方便。LahiriLahiri提出下列方法:令提出下列方法:令每次抽取每次抽取 1 1N N 中一个随机整数中一个随机整数 及及 1 1 内一个随机整数内一个随机整数 ,如果,如果 ,则第,则第 个单元入样;若个单元入样;若 ,则按前面,则按前面步骤重抽步骤重抽 ,显然,第,显然,第 个单元的入样与否受到个单元的入样与否受到 的影的影响,只有响,只有 时它才入样,因此第时它才入样,因此第 个单元入样的概率与个单元入样的概率与 的大小成正比,此时的大小成正比,此时m现在学习的是第8页,共25页n定理定理3.1.1 在有放回在有放回PPS抽样下,抽样下,二、估
7、二、估 值值 法法PPS抽样法的估值法的理论依据抽样法的估值法的理论依据估计的均方偏差为:估计的均方偏差为:现在学习的是第9页,共25页n证明证明 考虑随机变量考虑随机变量Z,现在学习的是第10页,共25页n定理定理3.1.2 在有放回在有放回PPS抽样下,抽样下,注:注:现在学习的是第11页,共25页果园序号12345678规模测度X503065801404420100例例 一村庄有一村庄有8个果园,分别由果树个果园,分别由果树50,30,65,80,140,44,20,100棵,要调查该村庄水果产量,以正比于果树棵树的概率棵,要调查该村庄水果产量,以正比于果树棵树的概率取取3个果园作样本个
8、果园作样本.如果实地调查得第如果实地调查得第5、第、第8、第、第3号三个果园的产量分别为号三个果园的产量分别为15,12,7,求该村八个果园的总产量估计,求该村八个果园的总产量估计.解:解:这一估计的均方偏差的估计为这一估计的均方偏差的估计为现在学习的是第12页,共25页现在学习的是第13页,共25页2 2、Hansen-Hurwitz Hansen-Hurwitz(汉森(汉森赫维茨)估计量赫维茨)估计量 若若 是按是按 为入样概率的多项抽样而得的样为入样概率的多项抽样而得的样本数据,它们相应的本数据,它们相应的 值自然记为值自然记为 ,则对总,则对总体总和,体总和,Hansen-Hurwit
9、z Hansen-Hurwitz 给出了如下的估计量:给出了如下的估计量:且且 ,即,即 是是总体总和总体总和 的无偏估计。的无偏估计。的无偏估计为的无偏估计为现在学习的是第14页,共25页有放回不等概率抽样有放回不等概率抽样:从实施上还是从估计计算以及精度估计都显得从实施上还是从估计计算以及精度估计都显得十分方便。但一个单元被抽中两次以上总会使样本的代表性打折扣,从十分方便。但一个单元被抽中两次以上总会使样本的代表性打折扣,从而引起抽样误差的增加。而引起抽样误差的增加。实际调查工作者一般倾向于使用实际调查工作者一般倾向于使用不放回形式不放回形式。问题问题:最简单的最简单的不放回不等概率抽样不
10、放回不等概率抽样方式自然会想到逐一抽样这在第方式自然会想到逐一抽样这在第一次抽样时不会发生问题,但在抽第二个样本时面临的情况与有放回时一次抽样时不会发生问题,但在抽第二个样本时面临的情况与有放回时大不相同,余下的大不相同,余下的(N-1)N-1)个单元以什么样的概率参与第二次抽样就个单元以什么样的概率参与第二次抽样就是个问题;再在抽第三个样本时又面临新问题。是个问题;再在抽第三个样本时又面临新问题。一是抽样实施的复杂;一是抽样实施的复杂;二是估计量及其方差计算的复杂。二是估计量及其方差计算的复杂。在本节讨论在本节讨论:(1)(1)n n 固定,尤其是固定,尤其是n=2n=2时的情形。时的情形。
11、(2)(2)总体中每个单元的入样概率严格地与其总体中每个单元的入样概率严格地与其“大小大小”成比例,即成比例,即 抽抽样。样。3.2 3.2 不等概不等概 抽样抽样 现在学习的是第15页,共25页几种严格的不放回几种严格的不放回 抽样方法抽样方法(1)Brewer(布鲁尔)抽样方法(布鲁尔)抽样方法(1963)前面已经指出,所谓前面已经指出,所谓“严格不放回严格不放回 ”是指样本容量是指样本容量n 固定,严格不放回、固定,严格不放回、的抽样。仅介绍的抽样。仅介绍n=2的情形。的情形。现在学习的是第16页,共25页1.对这种抽样,总体中个体单元对这种抽样,总体中个体单元i 的入样概率为的入样概率
12、为2.设计好第一次抽取的概率,第二次抽取的概率与设计好第一次抽取的概率,第二次抽取的概率与 成成正比,使总的入样概率正比于正比,使总的入样概率正比于 .特点特点:现在学习的是第17页,共25页(2)Durbin(德宾)方法(德宾)方法(1967)现在学习的是第18页,共25页1.对这种抽样,总体中个体单元对这种抽样,总体中个体单元i 的入样概率为的入样概率为2.第一次抽取的概率与第一次抽取的概率与 成正比,第二次抽取的概率使成正比,第二次抽取的概率使总的入样概率正比于总的入样概率正比于 .特点特点:Durbin方法中的方法中的 与与Brewer方法中的方法中的 完全一样完全一样这表明两种不等概
13、率抽样方法其实是等价的。这表明两种不等概率抽样方法其实是等价的。现在学习的是第19页,共25页(3)Sen-Midzuno抽样方法抽样方法现在学习的是第20页,共25页(4)HorvitzThompson(霍维茨霍维茨汤普森汤普森)HT估计量估计量对于不放回不等概率抽样对于不放回不等概率抽样,常用常用HT估计。估计。总体总数总体总数Y的无偏估计量为:的无偏估计量为:该估计量的均方偏差为:该估计量的均方偏差为:现在学习的是第21页,共25页HT估计的均方偏差的两个无偏估计量为估计的均方偏差的两个无偏估计量为注注:两估计量均有可能取负值,通过模拟比较,两估计量均有可能取负值,通过模拟比较,v2较稳定且较稳定且 较少取负值。较少取负值。现在学习的是第22页,共25页3.3 Rao-Hartley-Cochran3.3 Rao-Hartley-Cochran随机分群抽样随机分群抽样 拉奥拉奥-哈特利哈特利-科克伦(科克伦(19621962)现在学习的是第23页,共25页 在随机分群抽样下,记第在随机分群抽样下,记第t群抽出的样本单元为群抽出的样本单元为 ,其对应的,其对应的抽取概率为抽取概率为 ,则估计量,则估计量为总体总数为总体总数Y的的无偏估计无偏估计。该估计量的均方偏差为:该估计量的均方偏差为:现在学习的是第24页,共25页感谢大家观看现在学习的是第25页,共25页
限制150内