第5章不等概率抽样.ppt
《第5章不等概率抽样.ppt》由会员分享,可在线阅读,更多相关《第5章不等概率抽样.ppt(91页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第5章不等概率抽样现在学习的是第1页,共91页例nOBrien et al.(1995)对Philadelphia地区的病人进行抽样,目的是了解病人对于医疗服务的偏好。目标总体是这一区域的所有注册的医院的病人。总共有294家医院,27652个床位(抽样以前,研究人员只知道床位数,不知道病人数)。现在学习的是第2页,共91页等概率的抽取样本医院的缺点?n首先,可能医院中愿意接受CPR治疗的病人数量会正比于医院床位的数量,采用等概简单估计量可能会有大的方差。n其次,自加权的等概率样本可能难于管理。可能仅仅为了调查一两个病人就需要去一家医院,并且合理分配调查人员的工作负担也是比较困难的。n第三,调查
2、成本在调查开始的时候是未知的-一个40家医院的样本可能包括了主要的大的医院,这会导致比预计更大的成本。现在学习的是第3页,共91页其他办法?n调查人员还可以采用与医院病床数量成比例的方法抽取57个医院,然后从每个样本医院中抽取30个简单随机样本床位。n如果病人数等于床位数,并且医院实际的床位数和抽样时依据的病床数据一致,每个病人是否有相同的入样概率?n而且成本在调查实施前是已知的,因为每个访员在每个医院访问的病人数量是相同的。而且,总体总量的方差可能更小。现在学习的是第4页,共91页n分层抽样:抽样选择概率小的单位会有较高的权数。n采用不等概率抽样来减少抽样方差而不采用清晰的分层。采用不同的概
3、率来选择初级样本单元,并且在估计中采用不同的权数来进行弥补。n抽样的关键是每个样本的选择概率是已知的。现在学习的是第5页,共91页5.1 不等概抽样一、不等概抽样的必要性:一、不等概抽样的必要性:在简单随机抽样中,总体(或层)中的每个在简单随机抽样中,总体(或层)中的每个单元入样的概率都相等。单元入样的概率都相等。如果总体中的每如果总体中的每个单元在该总体中的地位个单元在该总体中的地位(或重要性或重要性)相差相差不多,则这种基于等概率的抽样是理所当不多,则这种基于等概率的抽样是理所当然的选择。等概率抽样不仅实施简单,而然的选择。等概率抽样不仅实施简单,而且相应的数据处理公式也简单。但是在许且相
4、应的数据处理公式也简单。但是在许多实际问题中,我们还需要使用不等概抽多实际问题中,我们还需要使用不等概抽样样(sampling with unequal(sampling with unequal probabilities)probabilities)。现在学习的是第6页,共91页二、不等概率抽样的适用场合:二、不等概率抽样的适用场合:一种情况是调查的总体单元与抽样总体的单元可能不一致;一种情况是调查的总体单元与抽样总体的单元可能不一致;另一种需要用到不等概抽样的情况是,抽样单元在总体另一种需要用到不等概抽样的情况是,抽样单元在总体中所占的地位不一致;中所占的地位不一致;最重要的一种不等概抽
5、样乃是使每个单元入样的概率与该单最重要的一种不等概抽样乃是使每个单元入样的概率与该单元的大小成比例的抽样元的大小成比例的抽样(sampling with probabilities(sampling with probabilities proportional to sizesproportional to sizes,简称,简称PPSPPS抽样抽样)。现在学习的是第7页,共91页二、不等概率抽样的适用场合:二、不等概率抽样的适用场合:第三种需用不等概率抽样的情况是为了改善估计第三种需用不等概率抽样的情况是为了改善估计量的特性。量的特性。每个可能的样本若被抽的概率与样本中单元的每个可能的样本
6、若被抽的概率与样本中单元的辅助变量之和成正比的话,则按此进行不等概辅助变量之和成正比的话,则按此进行不等概抽样所得到的样本,用通常的比估计方法所得抽样所得到的样本,用通常的比估计方法所得的估计量是无偏的。的估计量是无偏的。现在学习的是第8页,共91页9 总总之之,在在实实际际工工作作中中需需要要我我们们经经常常采采用用不不等等概概率率抽抽样样。另另外外,从从上上面面列列举举的的情情况况也也可可看看到到,凡凡需需使使用用不不等等概概抽抽样样的的场场合合,必必须须提提供供总总体体单单元元的的某某种种辅辅助助信信息息,例例如如每每个个单单元元的的“大小大小”度量度量MiMi或辅助变量或辅助变量XiX
7、i等。等。现在学习的是第9页,共91页10三、不等概抽样的主要分类 不不等等概概抽抽样样可可按按多多种种原原则则进进行行分分类类。鉴鉴于于不不等等概概抽抽样样同时会带来目标量估计及其方差估计的复杂性,可分为同时会带来目标量估计及其方差估计的复杂性,可分为 放放回回抽抽样样:每每次次在在总总体体(或或层层)中中按按一一定定概概率率抽抽取取一一个个单单元元,抽抽取取后后放放回回总总体体,再再进进行行下下一一次次抽抽样样,每每次次抽抽样样都是独立的。都是独立的。不不放放回回抽抽样样。其其代代价价是是:由由于于丧丧失失了了独独立立性性,无无论论是是抽样方法还是方差估计,都要比放回抽样繁复得多。抽样方法
8、还是方差估计,都要比放回抽样繁复得多。现在学习的是第10页,共91页11 另另一一种种分分类类是是:视视每每次次抽抽样样(放放回回抽抽样样的的情情形形)概概率率或或每每个个单单元元的的入入样样概概率率(不不放放回回抽抽样样的的情情形形)是是否否严严格格地地与与单单元元的的大大小小成成比比例例。另另外外,看看样样本本量量n n是是固固定定的的还还是是随随机机的的。最最重重要要的的情情形形乃乃是是当当n n固固定定,且且上上述述概概率率与与单单元元大大小小严严格格成成比比例例的的不不等等概概率率抽抽样样。以以后后我我们们将将这这种种情情形形的的放放回抽样称为回抽样称为PPSPPS抽样,称相应的不放
9、回抽样为抽样,称相应的不放回抽样为PSPS抽样。抽样。现在学习的是第11页,共91页12 对对于于不不放放回回抽抽样样,按按其其样样本本单单元元抽抽取取方方式式的的不不同同又又可可分分为以下几种方法:为以下几种方法:1.1.逐逐个个抽抽取取法法。每每次次从从尚尚未未入入样样的的单单元元中中以以一一定定概概率率抽取一个单元,这个概率通常与已经入样的单元有关,抽取一个单元,这个概率通常与已经入样的单元有关,2.2.重重抽抽法法。以以一一定定概概率率逐逐个个进进行行放放回回抽抽样样,若若一一旦旦抽抽到到重重复复单单元元,则则放放弃弃所所有有已已抽抽到到的的单单元元而而重重新新抽抽取取,直直到到抽抽到
10、到规定单元数且所有入样单元都不同为止。规定单元数且所有入样单元都不同为止。Back现在学习的是第12页,共91页13 3.3.系系统统抽抽取取法法。将将总总体体单单元元按按某某种种顺顺序序排排列列,且且将将规规定定的的单单元元入入样样(或或其其倍倍数数)累累计计起起来来,并并确确定定抽抽样样间间隔隔,在在这这个个范范围围内内产产生生一一个个随随机机数数以以确确定定初初始始入入样样单单元元,然然后后按按上上述述抽抽样样间间隔确定其余的样本单元。隔确定其余的样本单元。4.4.全全样样本本方方法法。对对每每个个可可能能样样本本规规定定一一个个被被抽抽中中的的概概率率,按这个概率一次抽取整个样本。按这
11、个概率一次抽取整个样本。Back现在学习的是第13页,共91页四、不等概抽样的特点 不等概抽样的主要优点是:由于使用了辅助信息,提高了抽样策略的统计效率,与简单随机抽样甚至与分层抽样相比,能显著地减少抽样误差。不等概抽样有以下的缺点:1)抽样框中的所有单元,都要有高质量的、能用作大小度量的辅助信息;现在学习的是第14页,共91页n2)抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为需要度量和存储总体中每一个单元的大小;n3)并非在任何情况下都能使用,因为并不是每一个总体都有稳定且与主要调查变量相关的有关大小或规模的度量;n4)抽样及估计(特别对不放回抽样)相当复杂;n5)当单元大小度量
12、不准确或不稳定时不适用,此时更好的办法是将单元按大小分组并使用分层抽样。现在学习的是第15页,共91页5.2 放回不等概抽样一、多项抽样与一、多项抽样与PPSPPS抽样:抽样:1.1.多项抽样多项抽样:现在学习的是第16页,共91页*这种放回的不等概率抽样为何又叫多项抽样?这种放回的不等概率抽样为何又叫多项抽样?现在学习的是第17页,共91页2.PPS2.PPS抽样抽样 :现在学习的是第18页,共91页19 2.PPS 2.PPS抽样抽样 PPSPPS抽抽样样是是与与大大小小(或或规规模模)成成比比例例的的概概率率抽抽样样,是是一种使用辅助信息从而使入样概率不相等的抽样技术。一种使用辅助信息从
13、而使入样概率不相等的抽样技术。如如果果总总体体单单元元的的大大小小或或规规模模变变化化很很大大,且且这这些些大大小小是是已已知知的的,这这样样的的信信息息就就可可以以用用在在抽抽样样中中,以以提提高高统统计计效效率率。如如果果单单元元大大小小的的度度量量是是准准确确的的,而而且且所所研研究究的的变变量量与与单单元元的的大大小小相相关关,PPSPPS抽抽样样能能极极大大地地提提高高精精度度。但但如如果果大大小小的的度度量量不大准确,最好按大小分组并使用分层抽样。不大准确,最好按大小分组并使用分层抽样。现在学习的是第19页,共91页20 PPS PPS抽样的入样概率。如上所述,抽样的入样概率。如上
14、所述,PPSPPS抽样时可取抽样时可取为为第第i i个个单单元元的的入入样样概概率率,其其中中 是是总总体体中中所所有有单元的单元的“大小大小”之和,之和,为第为第i i个单元的大小。个单元的大小。现在学习的是第20页,共91页21 二、多项抽样的实施方法二、多项抽样的实施方法 如如何何抽抽取取一一个个不不等等概概率率样样本本呢呢?有有三三种种主主要要方方法法:代代码码法法、系系统统法法及及随随机机系系统统法法。以以下下的的讨讨论论以以PPSPPS抽抽样样为为例例,并假定单元大小皆为整数。并假定单元大小皆为整数。现在学习的是第21页,共91页22 (1 1)代码法)代码法(累计和法,随机法或汉
15、森累计和法,随机法或汉森赫维茨法赫维茨法)设设N N不不太太大大,且且 为为第第i i单单元元大大小小的的度度量量,且且为为整整数数,对对总总体体中中的的每每个个单单元元计计算算累累计计大大小小,得得到到总总体体所所有有单单元元代代码码的的累累计计和和 ,对对总总体体中中每每个个单单元元确确定定与与它它相相对对应应的的代代码码范范围围;在在1 1到到总总的的累累计计大大小小 范范围围内内抽抽取取一一个个随随机机数数,该该随随机机数数相相应应的的代代码码范范围围中中的的单单元元即即为为入入样样单单元元。重重复复上上述述步步骤骤,直直到到抽抽得得n n个个单元为止。单元为止。现在学习的是第22页,
16、共91页23PPSPPS抽样时,单元的代码如下表:抽样时,单元的代码如下表:现在学习的是第23页,共91页24 (2 2)拉希里法(二次抽样法)拉希里法(二次抽样法)代代码码法法要要将将 累累计计,在在N N不不太太大大时时是是适适用用的的,但但当当N N很很大大时时,就就很很不不方方便便。此此时时可可用用LahiriLahiri(拉拉希希里里)19511951年年提提出的方法。出的方法。令令 每次抽取一个范围内的随机数每次抽取一个范围内的随机数 及及 范范围围内内的的随随机机数数m m,若若 ,则则第第 单单元元入入样样;否否则则,重重抽抽 。此此时时,第第i i个个单单元元的的入入样样概概
17、率率与与 成成正正比比,从从而而 。重重复复这这一一过过程程,直直到到抽抽够够所所需的需的 个单元。个单元。现在学习的是第24页,共91页2.2.拉希里法拉希里法(二次抽取法二次抽取法):现在学习的是第25页,共91页26 (3 3)系统)系统PPSPPS抽样方法抽样方法 对总体中的每个单元,计算累计大小对总体中的每个单元,计算累计大小;对总体中每个单元确定与它相对应的代码范围;对总体中每个单元确定与它相对应的代码范围;确定抽样间隔确定抽样间隔k=k=总累计大小总累计大小/n/n;在在1 1和和k k的范围内确定一个随机起点的范围内确定一个随机起点r r;与与代代码码r r,r+kr+k,r+
18、2kr+2k,r+r+(n-1n-1)k k所所在在范范围围相相对对应应的的单元入样。单元入样。注注意意,当当r+r+(n-1n-1)k k超超过过总总累累计计大大小小时时,应应使使用用圆圆形形系统抽样中的模余数法。系统抽样中的模余数法。现在学习的是第26页,共91页27 (4 4)随机系统抽样法)随机系统抽样法 在在这这种种方方法法中中,名名录录在在系系统统抽抽样样前前要要进进行行随随机机排排序序。如如果果完完全全按按原原来来的的排排序序,会会把把一一些些可可能能的的样样本本排排除除在在外外。在在上上面面介介绍绍的的系系统统抽抽样样的的例例子子中中,不不可可能能把把单单元元3 3和和4 4同
19、同时时抽抽入入同同一一个个样样本本。把把名名录录重重新新随随机机排排列列后后会会增增加加潜潜在在的的可可能抽到的样本数量。能抽到的样本数量。实实际际上上这这些些方方法法都都有有些些问问题题。例例如如,对对系系统统抽抽样样法法或或随随机机系系统统抽抽样样法法,一一个个大大小小大大于于抽抽样样间间隔隔的的单单元元,就就有有重重复复被被抽抽中中的的可可能能。只只有有把把这这些些大大单单元元放放入入单单独独的的一一个个层层,并并独独立立地地对对它它们们进进行行抽抽样样,才才能能克克服服这这个个问问题题。另另一一个个问问题题是是估估计计值值的的抽抽样样方差估计比较困难。方差估计比较困难。现在学习的是第2
20、7页,共91页28 三、三、Hansen-HurwitzHansen-Hurwitz估计量及其性质:估计量及其性质:对对于于多多项项抽抽样样,由由于于抽抽样样是是不不等等概概率率的的,每每个个样样本本单单元元的的观观测测值值就就不不再再是是“平平等等的的”,因因此此对对于于总总体体参参数数的的估估计计与与 等等 概概 率率 抽抽 样样 不不 同同。汉汉 森森 赫赫 维维 茨茨 提提 出出,如如 果果 是是按按 为为入入样样概概率率的的多多项项抽抽样样抽抽得得的的样样本本指指标标值值,相应的相应的 为为 ,则总体总和,则总体总和Y Y的无偏估计量如下:的无偏估计量如下:现在学习的是第28页,共9
21、1页29且且若若n n1 1,则,则 的无偏估计量为的无偏估计量为现在学习的是第29页,共91页30对于对于PPSPPS抽样,抽样,所以有,所以有其其中中 是是第第i i个个样样本本单单元元的的观观测测值值,例例如如商商店店的的年年销销售售额额,而而 是是该该单单元元的的大大小小,例例如如商商店店的的员员工工人人数数,则则 即是第即是第i i个商店人均年销售额。对个商店人均年销售额。对n n个个 取平均即是样本商业网点人均年销售额的平均,取平均即是样本商业网点人均年销售额的平均,将将此此数数乘乘以以 (即即该该地地所所有有商商业业网网点点的的员员工工总总数数),即即可获得该地商业销售总额的估计
22、。可获得该地商业销售总额的估计。现在学习的是第30页,共91页三、三、Hansen-HurwitzHansen-Hurwitz估计量及其性质:估计量及其性质:现在学习的是第31页,共91页32举例:举例:下下表表是是某某系系统统全全部部N=36N=36个个单单位位上上一一年年职职工工人人数数 及及当当年年职职工工人人数数 的的数数据据,以以 为为单单位位大大小小 的的度度量量,对对单单位位进进行行PPSPPS抽抽样样,n=6n=6,估估计计全全系系统统当当年年职职工工总总人人数数Y Y,并并与与简简单单随随机抽样做精度比较。机抽样做精度比较。现在学习的是第32页,共91页某系统各单位上一年与当
23、年职工人数单位号159863322118363065643012327353723866142164710721145现在学习的是第33页,共91页某系统各单位上一年与当年职工人数单位号8432501921623510169817781115701541125024861349751614723786现在学习的是第34页,共91页某系统各单位上一年与当年职工人数单位号15712740163353521726729918165817141923125520152421172181现在学习的是第35页,共91页某系统各单位上一年与当年职工人数单位号2223424323312338243513712
24、5252281261942102714916628173189现在学习的是第36页,共91页某系统各单位上一年与当年职工人数单位号29318344302042273152633218817433971223421824235475136838879现在学习的是第37页,共91页n解:对单位进行PPS抽样:根据公式,Y的汉森-赫维茨估计 的理论方差为:现在学习的是第38页,共91页n而若对单位进行简单随机抽样,同样样本量时Y的简单估计 的方差可计算如下:n因此在此例中,PPS抽样的设计效应为:n可见对PPS抽样,估计量的精度提高非常显著。现在学习的是第39页,共91页n在实际中 当然是未知的,只
25、有抽样才能观测到。下面列出4组PPS样本,分别计算Y的估计量并作方差估计。4组样本抽得的单位号码如下:n样本I:4,10,23,11,13,3;n样本II:1,34,18,11,29,8;n样本III:12,10,36,4,24,4;n样本IV:14,4,18,11,34.现在学习的是第40页,共91页n对每个样本 ,计算Y的估计量,记为 。为方便起见,令n则n计算结果列在下表中。现在学习的是第41页,共91页 对前面表的总体进行n=6的PPS抽样的结果样本号12341.04635481.07090131.04907581.0652787193131976619363196620.015584
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 不等 概率 抽样
限制150内