第5章不等概率抽样课件.ppt
第5章不等概率抽样第1页,此课件共91页哦例nOBrien et al.(1995)对Philadelphia地区的病人进行抽样,目的是了解病人对于医疗服务的偏好。目标总体是这一区域的所有注册的医院的病人。总共有294家医院,27652个床位(抽样以前,研究人员只知道床位数,不知道病人数)。第2页,此课件共91页哦等概率的抽取样本医院的缺点?n首先,可能医院中愿意接受CPR治疗的病人数量会正比于医院床位的数量,采用等概简单估计量可能会有大的方差。n其次,自加权的等概率样本可能难于管理。可能仅仅为了调查一两个病人就需要去一家医院,并且合理分配调查人员的工作负担也是比较困难的。n第三,调查成本在调查开始的时候是未知的-一个40家医院的样本可能包括了主要的大的医院,这会导致比预计更大的成本。第3页,此课件共91页哦其他办法?n调查人员还可以采用与医院病床数量成比例的方法抽取57个医院,然后从每个样本医院中抽取30个简单随机样本床位。n如果病人数等于床位数,并且医院实际的床位数和抽样时依据的病床数据一致,每个病人是否有相同的入样概率?n而且成本在调查实施前是已知的,因为每个访员在每个医院访问的病人数量是相同的。而且,总体总量的方差可能更小。第4页,此课件共91页哦n分层抽样:抽样选择概率小的单位会有较高的权数。n采用不等概率抽样来减少抽样方差而不采用清晰的分层。采用不同的概率来选择初级样本单元,并且在估计中采用不同的权数来进行弥补。n抽样的关键是每个样本的选择概率是已知的。iP)在第一次抽取中被抽中单元i(iP被选入样本)单元i(第5页,此课件共91页哦5.1 不等概抽样一、不等概抽样的必要性:一、不等概抽样的必要性:在简单随机抽样中,总体(或层)中的每个在简单随机抽样中,总体(或层)中的每个单元入样的概率都相等。单元入样的概率都相等。如果总体中的每如果总体中的每个单元在该总体中的地位个单元在该总体中的地位(或重要性或重要性)相差相差不多,则这种基于等概率的抽样是理所当不多,则这种基于等概率的抽样是理所当然的选择。等概率抽样不仅实施简单,而然的选择。等概率抽样不仅实施简单,而且相应的数据处理公式也简单。但是在许且相应的数据处理公式也简单。但是在许多实际问题中,我们还需要使用不等概抽多实际问题中,我们还需要使用不等概抽样样(sampling with unequal(sampling with unequal probabilities)probabilities)。第6页,此课件共91页哦二、不等概率抽样的适用场合:二、不等概率抽样的适用场合:一种情况是调查的总体单元与抽样总体的单元可能不一致一种情况是调查的总体单元与抽样总体的单元可能不一致;另一种需要用到不等概抽样的情况是,抽样单元在总体中所占的另一种需要用到不等概抽样的情况是,抽样单元在总体中所占的地位不一致;地位不一致;最重要的一种不等概抽样乃是使每个单元入样的概率与该单元的最重要的一种不等概抽样乃是使每个单元入样的概率与该单元的大小成比例的抽样大小成比例的抽样(sampling with probabilities(sampling with probabilities proportional to sizesproportional to sizes,简称,简称PPSPPS抽样抽样)。第7页,此课件共91页哦二、不等概率抽样的适用场合:二、不等概率抽样的适用场合:第三种需用不等概率抽样的情况是为了改善估计第三种需用不等概率抽样的情况是为了改善估计量的特性。量的特性。每个可能的样本若被抽的概率与样本中单元的每个可能的样本若被抽的概率与样本中单元的辅助变量之和成正比的话,则按此进行不等概辅助变量之和成正比的话,则按此进行不等概抽样所得到的样本,用通常的比估计方法所得抽样所得到的样本,用通常的比估计方法所得的估计量是无偏的。的估计量是无偏的。第8页,此课件共91页哦9 总之,在实际工作中需要我们经常采用不等概率抽样总之,在实际工作中需要我们经常采用不等概率抽样。另外,从上面列举的情况也可看到,凡需使用不等概抽。另外,从上面列举的情况也可看到,凡需使用不等概抽样的场合,必须提供总体单元的某种辅助信息,例如每个样的场合,必须提供总体单元的某种辅助信息,例如每个单元的单元的“大小大小”度量度量MiMi或辅助变量或辅助变量XiXi等。等。第9页,此课件共91页哦10三、不等概抽样的主要分类 不等概抽样可按多种原则进行分类。鉴于不等概抽样不等概抽样可按多种原则进行分类。鉴于不等概抽样同时会带来目标量估计及其方差估计的复杂性,可分为同时会带来目标量估计及其方差估计的复杂性,可分为 放回抽样:每次在总体放回抽样:每次在总体(或层或层)中按一定概率抽取一个单中按一定概率抽取一个单元,抽取后放回总体,再进行下一次抽样,每次抽样都元,抽取后放回总体,再进行下一次抽样,每次抽样都是独立的。是独立的。不放回抽样。其代价是:由于丧失了独立性,无论是不放回抽样。其代价是:由于丧失了独立性,无论是抽样方法还是方差估计,都要比放回抽样繁复得多。抽样方法还是方差估计,都要比放回抽样繁复得多。第10页,此课件共91页哦11 另一种分类是:视每次抽样另一种分类是:视每次抽样(放回抽样的情形放回抽样的情形)概率或概率或每个单元的入样概率每个单元的入样概率(不放回抽样的情形不放回抽样的情形)是否严格地与单是否严格地与单元的大小成比例。另外,看样本量元的大小成比例。另外,看样本量n n是固定的还是随机的是固定的还是随机的。最重要的情形乃是当。最重要的情形乃是当n n固定,且上述概率与单元大小严格成固定,且上述概率与单元大小严格成比例的不等概率抽样。以后我们将这种情形的放回抽样称为比例的不等概率抽样。以后我们将这种情形的放回抽样称为PPSPPS抽样,称相应的不放回抽样为抽样,称相应的不放回抽样为PSPS抽样。抽样。第11页,此课件共91页哦12 对于不放回抽样,按其样本单元抽取方式的不同又可分为对于不放回抽样,按其样本单元抽取方式的不同又可分为以下几种方法:以下几种方法:1.1.逐个抽取法。每次从尚未入样的单元中以一定概率抽逐个抽取法。每次从尚未入样的单元中以一定概率抽取一个单元,这个概率通常与已经入样的单元有关,取一个单元,这个概率通常与已经入样的单元有关,2.2.重抽法。以一定概率逐个进行放回抽样,若一旦抽到重抽法。以一定概率逐个进行放回抽样,若一旦抽到重复单元,则放弃所有已抽到的单元而重新抽取,直到抽到重复单元,则放弃所有已抽到的单元而重新抽取,直到抽到规定单元数且所有入样单元都不同为止。规定单元数且所有入样单元都不同为止。Back第12页,此课件共91页哦13 3.3.系统抽取法。将总体单元按某种顺序排列,且将规定系统抽取法。将总体单元按某种顺序排列,且将规定的单元入样(或其倍数)累计起来,并确定抽样间隔,在这的单元入样(或其倍数)累计起来,并确定抽样间隔,在这个范围内产生一个随机数以确定初始入样单元,然后按上述个范围内产生一个随机数以确定初始入样单元,然后按上述抽样间隔确定其余的样本单元。抽样间隔确定其余的样本单元。4.4.全样本方法。对每个可能样本规定一个被抽中的概率全样本方法。对每个可能样本规定一个被抽中的概率,按这个概率一次抽取整个样本。,按这个概率一次抽取整个样本。Back第13页,此课件共91页哦四、不等概抽样的特点 不等概抽样的主要优点是:由于使用了辅助信息,提高了抽样策略的统计效率,与简单随机抽样甚至与分层抽样相比,能显著地减少抽样误差。不等概抽样有以下的缺点:1)抽样框中的所有单元,都要有高质量的、能用作大小度量的辅助信息;第14页,此课件共91页哦n2)抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为需要度量和存储总体中每一个单元的大小;n3)并非在任何情况下都能使用,因为并不是每一个总体都有稳定且与主要调查变量相关的有关大小或规模的度量;n4)抽样及估计(特别对不放回抽样)相当复杂;n5)当单元大小度量不准确或不稳定时不适用,此时更好的办法是将单元按大小分组并使用分层抽样。第15页,此课件共91页哦5.2 放回不等概抽样一、多项抽样与一、多项抽样与PPSPPS抽样:抽样:1.1.多项抽样多项抽样:称称为为多多项项抽抽样样。放放回回的的不不等等概概率率抽抽样样又又,个个单单元元(有有可可能能重重复复)次次,共共抽抽到到独独立立地地进进行行这这样样的的抽抽样样,且且入入样样概概率率:总总体体单单元元:元元的的入入样样概概率率如如下下:在在每每次次抽抽样样中中,每每个个单单抽抽样样。个个单单元元,对对其其进进行行放放回回设设总总体体包包含含nn1ZZZZZNi21NN1iiNi21 第16页,此课件共91页哦*这种放回的不等概率抽样为何又叫多项抽样?这种放回的不等概率抽样为何又叫多项抽样?为多项抽样。为多项抽样。放回的不等概率抽样称放回的不等概率抽样称这是个多项分布。这是个多项分布。!)()()()的联合分布为:)的联合分布为:,多维随机变量(多维随机变量(,且,且数,数,个总体单元被抽到的次个总体单元被抽到的次第第次抽样中次抽样中为在为在设设 N21NN2211tNt2t1N21tNtnt2tnt1tnN21N1iiN1iiNi21Ni21iZZZtttnZCZCZCtttnt1ZttttZZZZNi21i,nt第17页,此课件共91页哦2.PPS2.PPS抽样抽样 :(抽抽样样)率率抽抽样样称称为为与与大大小小成成比比例例的的概概这这种种特特殊殊的的多多项项抽抽样样就就小小成成比比例例,中中的的入入样样概概率率与与单单元元大大则则每每个个单单元元在在每每次次抽抽样样。,指指标标,个个单单元元的的大大小小或或规规模模的的是是用用于于说说明明第第其其中中:在在多多项项抽抽样样中中,若若取取 N1ii0i0iiMMN1iiM,0MMZ第18页,此课件共91页哦19 2.PPS 2.PPS抽样抽样 PPSPPS抽样是与大小(或规模)成比例的概率抽样,是一种抽样是与大小(或规模)成比例的概率抽样,是一种使用辅助信息从而使入样概率不相等的抽样技术。使用辅助信息从而使入样概率不相等的抽样技术。如果总体单元的大小或规模变化很大,且这些大小是已如果总体单元的大小或规模变化很大,且这些大小是已知的,这样的信息就可以用在抽样中,以提高统计效率。如知的,这样的信息就可以用在抽样中,以提高统计效率。如果单元大小的度量是准确的,而且所研究的变量与单元的大果单元大小的度量是准确的,而且所研究的变量与单元的大小相关,小相关,PPSPPS抽样能极大地提高精度。但如果大小的度量不抽样能极大地提高精度。但如果大小的度量不大准确,最好按大小分组并使用分层抽样。大准确,最好按大小分组并使用分层抽样。第19页,此课件共91页哦20 PPS PPS抽样的入样概率。如上所述,抽样的入样概率。如上所述,PPSPPS抽样时可取抽样时可取为第为第i i个单元的入样概率,其中个单元的入样概率,其中 是总体中所有是总体中所有单元的单元的“大小大小”之和,之和,为第为第i i个单元的大小。个单元的大小。0iiMZM01NiiMMiM第20页,此课件共91页哦21 二、多项抽样的实施方法二、多项抽样的实施方法 如何抽取一个不等概率样本呢?有三种主要方法:代如何抽取一个不等概率样本呢?有三种主要方法:代码法、系统法及随机系统法。以下的讨论以码法、系统法及随机系统法。以下的讨论以PPSPPS抽样为例抽样为例,并假定单元大小皆为整数。,并假定单元大小皆为整数。第21页,此课件共91页哦22 (1 1)代码法)代码法(累计和法,随机法或汉森累计和法,随机法或汉森赫维茨法赫维茨法)设设N N不太大,且不太大,且 为第为第i i单元大小的度量,且为整数,对单元大小的度量,且为整数,对总体中的每个单元计算累计大小,得到总体所有单元代码的总体中的每个单元计算累计大小,得到总体所有单元代码的累计和累计和 ,对总体中每个单元确定与它相对应的代码范围,对总体中每个单元确定与它相对应的代码范围;在;在1 1到总的累计大小到总的累计大小 范围内抽取一个随机数,该随机数范围内抽取一个随机数,该随机数相应的代码范围中的单元即为入样单元。重复上述步骤,直到抽相应的代码范围中的单元即为入样单元。重复上述步骤,直到抽得得n n个单元为止。个单元为止。iM0M0M第22页,此课件共91页哦23PPSPPS抽样时,单元的代码如下表:抽样时,单元的代码如下表:第23页,此课件共91页哦24 (2 2)拉希里法(二次抽样法)拉希里法(二次抽样法)代码法要将代码法要将 累计,在累计,在N N不太大时是适用的,但当不太大时是适用的,但当N N很大时,就很不方便。此时可用很大时,就很不方便。此时可用LahiriLahiri(拉希里)(拉希里)19511951年提出年提出的方法。的方法。令令 每次抽取一个范围内的随机数每次抽取一个范围内的随机数 及及 范围内的随机数范围内的随机数m m,若,若 ,则第,则第 单元入样;否则单元入样;否则,重抽重抽 。此时,第。此时,第i i个单元的入样概率与个单元的入样概率与 成正比成正比,从而,从而 。重复这一过程,直到抽够所需的。重复这一过程,直到抽够所需的 个单个单元。元。iMiMNi1max*Mi*1 M,mMii),(miiM0/iiZMMn第24页,此课件共91页哦2.2.拉希里法拉希里法(二次抽取法二次抽取法):i*iii*iNi1*MMMN1zmii,MmmM1iN1MmaxM 显然,显然,)。)。,(个单元入样,否则重抽个单元入样,否则重抽则第则第若若。上的随机数上的随机数,及及,上的随机数上的随机数,每次取一个每次取一个令令第25页,此课件共91页哦26 (3 3)系统)系统PPSPPS抽样方法抽样方法 对总体中的每个单元,计算累计大小对总体中的每个单元,计算累计大小;对总体中每个单元确定与它相对应的代码范围;对总体中每个单元确定与它相对应的代码范围;确定抽样间隔确定抽样间隔k=k=总累计大小总累计大小/n/n;在在1 1和和k k的范围内确定一个随机起点的范围内确定一个随机起点r r;与代码与代码r r,r+kr+k,r+2kr+2k,r+r+(n-1n-1)k k所在范围相对应所在范围相对应的单元入样。的单元入样。注意,当注意,当r+r+(n-1n-1)k k超过总累计大小时,应使用圆形系超过总累计大小时,应使用圆形系统抽样中的模余数法。统抽样中的模余数法。第26页,此课件共91页哦27 (4 4)随机系统抽样法)随机系统抽样法 在这种方法中,名录在系统抽样前要进行随机排序。在这种方法中,名录在系统抽样前要进行随机排序。如果完全按原来的排序,会把一些可能的样本排除在外。如果完全按原来的排序,会把一些可能的样本排除在外。在上面介绍的系统抽样的例子中,不可能把单元在上面介绍的系统抽样的例子中,不可能把单元3 3和和4 4同时同时抽入同一个样本。把名录重新随机排列后会增加潜在的可抽入同一个样本。把名录重新随机排列后会增加潜在的可能抽到的样本数量。能抽到的样本数量。实际上这些方法都有些问题。例如,对系统抽样法或随实际上这些方法都有些问题。例如,对系统抽样法或随机系统抽样法,一个大小大于抽样间隔的单元,就有重复被机系统抽样法,一个大小大于抽样间隔的单元,就有重复被抽中的可能。只有把这些大单元放入单独的一个层,并独立抽中的可能。只有把这些大单元放入单独的一个层,并独立地对它们进行抽样,才能克服这个问题。另一个问题是估计地对它们进行抽样,才能克服这个问题。另一个问题是估计值的抽样方差估计比较困难。值的抽样方差估计比较困难。第27页,此课件共91页哦28 三、三、Hansen-HurwitzHansen-Hurwitz估计量及其性质:估计量及其性质:对于多项抽样,由于抽样是不等概率的,每个样本单元对于多项抽样,由于抽样是不等概率的,每个样本单元的观测值就不再是的观测值就不再是“平等的平等的”,因此对于总体参数的估,因此对于总体参数的估计与等概率抽样不同。汉森计与等概率抽样不同。汉森赫维茨提出,如果赫维茨提出,如果 是按是按 为入样概率的多项抽样抽得的样本指标值,为入样概率的多项抽样抽得的样本指标值,相应的相应的 为为 ,则总体总和,则总体总和Y Y的无偏估计量如下:的无偏估计量如下:12,ny yy0iZ iZ12,nz zz11niHHiiyYnz第28页,此课件共91页哦29且且若若n n1 1,则,则 的无偏估计量为的无偏估计量为21221211()()1()1()NiHHiiiNiiiNNjiijij iijYV YZYnZYYnZYYZ ZnZZ()HHV Y211()()(1)niHHHHiiyV YYn nz第29页,此课件共91页哦30对于对于PPSPPS抽样,抽样,所以有,所以有其中其中 是第是第i i个样本单元的观测值,例如商店的年销售额个样本单元的观测值,例如商店的年销售额,而,而 是该单元的大小,例如商店的员工人数,则是该单元的大小,例如商店的员工人数,则 即是第即是第i i个商店人均年销售额。对个商店人均年销售额。对n n个个 取平均即是样本商业网点人均年销售额的平均,取平均即是样本商业网点人均年销售额的平均,将此数乘以将此数乘以 (即该地所有商业网点的员工总数),即(即该地所有商业网点的员工总数),即可获得该地商业销售总额的估计。可获得该地商业销售总额的估计。0/iizMM01niHHiiMyYnMiyiM/iiyM/iiyM0M第30页,此课件共91页哦三、三、Hansen-HurwitzHansen-Hurwitz估计量及其性质:估计量及其性质:的无偏估计。的无偏估计。是是则则,取值取值样本单元样本单元)Y(V)Yzy()1n(n1)Y(v)3()YZY(Zn1)Y(V)2(Y)Y(E)1(zyn1Y,zzZHH2HHn1iiiHH2N1iiiiHHHHn1iiiHHn1i 第31页,此课件共91页哦32举例:举例:下表是某系统全部下表是某系统全部N=36N=36个单位上一年职工人数个单位上一年职工人数 及当及当年职工人数年职工人数 的数据,以的数据,以 为单位大小为单位大小 的度量,对的度量,对单位进行单位进行PPSPPS抽样,抽样,n=6n=6,估计全系统当年职工总人数,估计全系统当年职工总人数Y Y,并,并与简单随机抽样做精度比较。与简单随机抽样做精度比较。iXiYiXiM第32页,此课件共91页哦某系统各单位上一年与当年职工人数单位号159863322118363065643012327353723866142164710721145iXiY第33页,此课件共91页哦某系统各单位上一年与当年职工人数单位号8432501921623510169817781115701541125024861349751614723786iXiY第34页,此课件共91页哦某系统各单位上一年与当年职工人数单位号15712740163353521726729918165817141923125520152421172181iXiY第35页,此课件共91页哦某系统各单位上一年与当年职工人数单位号22234243233123382435137125252281261942102714916628173189iXiY第36页,此课件共91页哦某系统各单位上一年与当年职工人数单位号29318344302042273152633218817433971223421824235475136838879iXiY第37页,此课件共91页哦n解:对单位进行PPS抽样:根据公式,Y的汉森-赫维茨估计 的理论方差为:36361136,6,18457,19583iiiiNnXXYYHHY222211211()11845720823.687 19583 414483.666NNiiHHiiiiYYV YYXYnZnX()376.1431MHHV Y第38页,此课件共91页哦n而若对单位进行简单随机抽样,同样样本量时Y的简单估计 的方差可计算如下:n因此在此例中,PPS抽样的设计效应为:n可见对PPS抽样,估计量的精度提高非常显著。SRSY2()36 30()419650.31755370566SRSN NnV YSn()8691.2057SRSV Y1414840.00187375537056deff 第39页,此课件共91页哦n在实际中 当然是未知的,只有抽样才能观测到。下面列出4组PPS样本,分别计算Y的估计量并作方差估计。4组样本抽得的单位号码如下:n样本I:4,10,23,11,13,3;n样本II:1,34,18,11,29,8;n样本III:12,10,36,4,24,4;n样本IV:14,4,18,11,34.iY第40页,此课件共91页哦n对每个样本 ,计算Y的估计量,记为 。为方便起见,令n则n计算结果列在下表中。(1,2,3,4)Y11niiiyynx211()()(1)niiiyv yyn nx2,()()YXyv YX v y第41页,此课件共91页哦 对前面表的总体进行n=6的PPS抽样的结果样本号12341.04635481.07090131.04907581.0652787193131976619363196620.0155840.0252070.0177420.019740287.6426465.2464327.4601364.3344Yy()v Y()v Y第42页,此课件共91页哦n注意到不同样本计算的估计量 的值相差不大,说明它的方差并不大,但方差估计量 的稳定性较差(表中列出的只是标准差的估计),其中原因之一是样本量还不够大。Y()v Y第43页,此课件共91页哦例例1 1 n某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用以与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本,第44页,此课件共91页哦iimiyiimiyiimiy1*38.2310926106.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.00940269.9784298.8199218*21.00640276.20510第45页,此课件共91页哦757087(元)niiiHHmynMY102.651070.13102423.381092623.3810926303676niHHiiHHMYmynnMYv120201HHHHYvYs75708717411896.1HHHHYYstr152302.045.02n174118 相对误差相对误差达到20时所需样本量?第46页,此课件共91页哦有放回不等概整群抽样第47页,此课件共91页哦四四.按与群大小按与群大小M Mi i成比例的成比例的PPSPPS抽样抽取群:抽样抽取群:ni1nm1jiji1mmmyyyyi群大小群大小群和群和样本:样本:群。群。的概率抽取第的概率抽取第每次按每次按iN,2,1i,MMZ0ii 0000111111nnnniiHHiiiiiiiiHHYHensenhurwitzyMyMYyMyM ynznmnnYY则总体总和 的估计采用统计量:且是 的无偏估计量。第48页,此课件共91页哦 N1i2ii0N1i20ii0iN1i2iiiHHYYMnMYMMYMMn1YZYZn1YV)()()()(n1i2i20n1i2HHiiHHyy1nnMYzy1nn1Yv)()()()()(第49页,此课件共91页哦 n1i2i0HHN1i2ii0HH0HHyy1nnMYvYYMnMYV,yMY)()()()()(且是无偏估计量。且是无偏估计量。yMyMMYY000HHHH )()()()(HH20HHHH20HHYvM1YvYVM1YV 第50页,此课件共91页哦例例2 2:某公司分:某公司分8 8个部门,共有职工个部门,共有职工1295012950人,各部门职工人,各部门职工数如下:数如下:按与职工数成比例的概率抽按与职工数成比例的概率抽3 3个部门。个部门。部门号部门号i i职工数职工数1 12 23 34 45 56 67 78 81200120045045021002100860860284028401910191039039032003200第51页,此课件共91页哦(1 1)随机数为)随机数为20112011、79727972、1028110281,问抽中哪几个部,问抽中哪几个部门?门?(2 2)若三个部门的职工病假天数依次为)若三个部门的职工病假天数依次为43204320、41604160、57905790。估计该公司每个职工平均病假天数及标准差。估计该公司每个职工平均病假天数及标准差。解:解:129509751975093619360745174504611461037513750165116501201120011295097509360745046103750165012003200390191029408602100450120087654321MMiii代码代码累计累计第52页,此课件共91页哦11.0)Y(v0119.0)Yzy()1n(nM1)Y(v02.2zynM1MYY8631028179722011HH2HHn1iii20HHn1iii00HHHH 这这三三个个部部门门被被抽抽中中。部部门门的的代代码码范范围围,、分分别别属属于于、第53页,此课件共91页哦5.3 多阶段有放回不等概抽样第54页,此课件共91页哦一、对初级单元进行放回不等概率抽样时一、对初级单元进行放回不等概率抽样时,总体总和总体总和Y Y的估计的估计n第一阶抽样按放回不等概率抽样第一阶抽样按放回不等概率抽样(多项抽样多项抽样)抽取初级元,抽取初级元,n第二阶抽样并没有作出特别的规定第二阶抽样并没有作出特别的规定,只要初级单元指标只要初级单元指标YiYi的估计的估计 是无偏是无偏的的.n1i2HHiiHHN1iii22N1iiiiHHiiin1iiiHH)YzY()1n(n1)Y(vZ)Y(Vn1)YZY(Zn1)Y(VyMY,zYn1Y其中其中iY第55页,此课件共91页哦2i2ii22ii2N1iii22N1iiiiHHSmf1M)Y(VZ)Y(Vn1)YZY(Zn1)Y(V 其中其中 N1iii22N1iiiin1iiii212N1iiiin1i2ii221n1iii1HH21HH21HHn1iiiHHZ)Y(Vn1)YZY(Zn1zz/)Y(Vn1En1)YZY(Zn1z)Y(Vn1E)zYn1(V)Y(VE)Y(EV)Y(VzYn1Y:证明证明第56页,此课件共91页哦自加权情形:自加权情形:n第一阶抽样按放回不等概率抽样抽取初级单元,第一阶抽样按放回不等概率抽样抽取初级单元,n第二阶抽样都抽取第二阶抽样都抽取m m个。个。)nzfMmff(yf1Yff1KmnzMymzMn1zyMn1zYn1Yi0iii20n1im1jij0HH00iiin1im1jijiiin1iiiin1iiiHHii 事先确定,则事先确定,则如果如果则有则有级单元被抽中的概率。级单元被抽中的概率。表示总体中任意一个二表示总体中任意一个二其中其中常数常数则要求则要求是自加权的,是自加权的,如果如果第57页,此课件共91页哦自加权情形:自加权情形:n第一阶抽样按第一阶抽样按PPSPPS抽样抽取初级单元,抽样抽取初级单元,n第二阶抽样按简单随机抽样抽取次级单元,都抽取第二阶抽样按简单随机抽样抽取次级单元,都抽取m m个。个。n1i2i20PPS0PPS0n1im1jij0n1im1jij0iin1iiiin1iiiHH)yy()1n(nM)Y(vyMYyMynmMmyM/MMn1zyMn1zYn1Y第58页,此课件共91页哦 实际工作中,对于各级单元大小不相等时多阶抽样,自实际工作中,对于各级单元大小不相等时多阶抽样,自加权通常的做法是:加权通常的做法是:除了最后一阶采用等概率抽样除了最后一阶采用等概率抽样(放回的或不放回的均可放回的或不放回的均可),前几阶均采用,前几阶均采用PPSPPS抽样,并且自第二阶开始,每一抽样,并且自第二阶开始,每一阶的样本量都相同阶的样本量都相同(即即mi=mmi=m,kj=k,)kj=k,),则样本是自加,则样本是自加权的,其估计量的形式非常简单。权的,其估计量的形式非常简单。总体总和的估计为总体总和的估计为 的方差估计为的方差估计为yMynmkMY0n1im1jk1uiju0 Y n1i2i20)yy()1n(nM)Y(v第59页,此课件共91页哦二、各级单元大小不相等时,多阶抽样的总样本量及最二、各级单元大小不相等时,多阶抽样的总样本量及最优样本量的配置优样本量的配置 二阶自加权情形:二阶自加权情形:n第一阶抽样按第一阶抽样按PPSPPS抽样抽取初级单元,抽样抽取初级单元,n第二阶抽样按简单随机抽样抽取次级单元,都抽取第二阶抽样按简单随机抽样抽取次级单元,都抽取m m个。个。n1i2i20PPS0PPS)yy()1n(nM)Y(vyMY第60页,此课件共91页哦这时,多阶抽样的总样本量可以这样确定:这时,多阶抽样的总样本量可以这样确定:n1.1.根据简单随机抽样时应抽样本量根据简单随机抽样时应抽样本量n2.2.再乘以设计效应再乘以设计效应deffdeff获得。获得。多阶抽样与简单随机抽样相比其效率比较低,多阶抽样与简单随机抽样相比其效率比较低,deffdeff应该大于应该大于1 1。实际工作中,可取。实际工作中,可取deffdeff的经验数据。不同项的经验数据。不同项目的目的deffdeff不同。不同。第61页,此课件共91页哦例例:某调查公司接受了一项关于全国城市成年居民人均奶制品消费支出及每某调查公司接受了一项关于全国城市成年居民人均奶制品消费支出及每天至少喝一杯鲜奶的人数的比例情况的调查。确定抽样范围为全国地级及天至少喝一杯鲜奶的人数的比例情况的调查。确定抽样范围为全国地级及以上城市中的成年居民。成年居民指年满以上城市中的成年居民。成年居民指年满1818周岁以上的居民。周岁以上的居民。第一步:确定抽样方法。第一步:确定抽样方法。调查公司决定采用多阶抽样方法进行方案设计,调查的最小单元为调查公司决定采用多阶抽样方法进行方案设计,调查的最小单元为成年居民。确定调查的各个阶为城市、街道、居委会、居民户,在居成年居民。确定调查的各个阶为城市、街道、居委会、居民户,在居民户中利用二维随机表民户中利用二维随机表(Kish(Kish随机表的简化随机表的简化)抽取成年居民。抽取成年居民。第二步:确定样本量及各阶样本量的配置。第二步:确定样本量及各阶样本量的配置。按简单随机抽样时,在按简单随机抽样时,在9595置信度下,绝对误差为置信度下,绝对误差为5 5,取使方差达,取使方差达到最大时的消费奶制品的居民比例为到最大时的消费奶制品的居民比例为5050,则全国样本量应为:,则全国样本量应为:2220222 0.5 0.54000.05z PQnd第62页,此课件共91页哦根据以往调查的经验,估计回答率根据以往调查的经验,估计回答率b=80b=80,因此调整样,因此调整样本量为:本量为:多阶抽样的效率比简单随机抽样的效率低,这里取设计多阶抽样的效率比简单随机抽样的效率低,这里取设计效应效应deff=3.2deff=3.2,则在全国范围内应调查的样本居民为:,则在全国范围内应调查的样本居民为:各阶的样本量配置为:各阶的样本量配置为:初级单元:初级单元:2020个城市;个城市;二级单元:每个样本市内抽二级单元:每个样本市内抽4 4个街道,共个街道,共8080个街道;个街道;三级单元:每个样本街道内抽三级单元:每个样本街道内抽2 2个居委会,共个居委会,共160160个居委会;个居委会;四级单元:每个样本居委会内抽四级单元:每个样本居委会内抽1010个居民户,个居民户,16001600个居户。个居户。在样本居民户内,利用二维随机表抽在样本居民户内,利用二维随机表抽1 1名成年居民。名成年居民。5008.0400bnn01 )(16002.3500deffnn12人人 第63页,此课件共91页哦第三步:确定抽样方法。第三步:确定抽样方法。第一阶,在全国城市中按与人口数成比例的放回的不等第一阶,在全国城市中按与人口数成比例的放回的不等概抽样,即概抽样,即PPSPPS抽样。抽样。第二阶和第三阶分别按与人口数成比例的不等概等距抽第二阶和第三阶分别按与人口数成比例的不等概等距抽样。样。以第二阶为例,在某个被抽中的样本城市中,将其所属以第二阶为例,在某个被抽中的样本城市中,将其所属的街道编号,搜集各街道的人口数,赋予每个街道与其人口的街道编号,搜集各街道的人口数,赋予每个街道与其人口相同的代码数;根据该市总人口数除以样本量相同的代码数;根据该市总人口数除以样本量4 4,确定抽样间,确定抽样间距;然后对代码进行随机起点的等距抽样,则被抽中代码所距;然后对代码进行随机起点的等距抽样,则被抽中代码所在的街道为样本街道。在的街道为样本街道。第四阶,分别在每个样本居委会中,按等距抽样抽出第四阶,分别在每个样本居委会中,按等距抽样抽出1010个个民户。民户。即根据居委会拥有的居民户数除以样本量即根据居委会拥有的居民户数除以样本量1010得到抽样距,得到抽样距,然后随机起点等距抽样。然后随机起点等距抽样。第64页,此课件共91页哦在每个样本居民户中,调查员按二维随机表抽取在每个样本居民户中,调查员按二维随机表抽取1 1名成年居民。二维随机名成年居民。二维随机表的使用方法如下。表的使用方法如下。(1)(1)随机号的确定。应事先在随机表的第一行数字上,选好一个数字,并划上一随机号的确定。应事先在随机表的第一行数字上,选好一个数字,并划上一个圈,被圈好的这个数字就是这份问卷的随机号。随机号的选择一般由小到个圈,被圈好的这个数字就是这份问卷的随机号。随机号的选择一般由小到大或循环给出。可以根据便于操作又保证实现随机的原则,选择确定随机号大或循环给出。可以根据便于操作又保证实现随机的原则,选择确定随机号的适当方法。的适当方法。(2)(2)选出被访者。将所有符合基本要求的家庭成员按年龄从大到小的选出被访者。将所有符合基本要求的家庭成员按年龄从大到小的顺序列入随机表中,以事先做好的随机号为纵坐标、以最小家庭顺序列入随机表中,以事先做好的随机号为纵坐标、以最小家庭成员为横坐标,交叉处对应的数字即为被访者的序号。例如,某成员为横坐标,交叉处对应的数字即为被访者的序号。例如,某受访户的随机号确定为受访户的随机号确定为4 4,该户中家庭成员符合本次调查要求的共有,该户中家庭成员符合本次调查要求的共有4 4人人。将这。将这4 4人的基本情况按年龄从大到小的顺序填入下面的二维随机人的基本情况按年龄从大到小的顺序填入下面的二维随机表中。表中。第65页,此课件共91页哦序号序号 姓名姓名 性别性别 年龄年龄 1 2 3 4 5 6 7 8 9 10 11 12 1 肖明肖明 男男 53 1 1 1 1 1 1 1 1 1 1 1 1 2 汪红汪红 女女 52 2 1 1 2 1 2 1 2 1 2 2 1 3 肖晓波肖晓波 男男 23 3 2 1 1 3 2 2 1 3 1 2 3 4 肖晓玲肖晓玲 女女 21 4 1 3 2 2 3 1