抽样调查-5不等概率抽样.ppt
抽样调查抽样调查(Sampling Survery)李启才 Chap5 Chap5 不等概率抽样不等概率抽样 5.1 不等概率抽样抽样调查 5.2 放回不等概率抽样 5.3 多阶段有放回不等概率抽样 5.4 不放回不等概率抽样抽样调查5.1 不等概率抽样不等概率抽样 由于抽样单元在总体中占有的地位不一样,有时需由于抽样单元在总体中占有的地位不一样,有时需赋予每个单元不同的被抽中概率,以便更合理的推算估赋予每个单元不同的被抽中概率,以便更合理的推算估计。计。例如反映北京经济发展的情况,像首钢等这样的大型企例如反映北京经济发展的情况,像首钢等这样的大型企业影响比较大,而一些名不见经传的小企业是否抽中往业影响比较大,而一些名不见经传的小企业是否抽中往往无足轻重。因而在抽样中如果把他们处在同等地位显往无足轻重。因而在抽样中如果把他们处在同等地位显然有缺陷。然有缺陷。不等概率抽样主要分为不等概率抽样主要分为(一)放回不等概率抽样和(二)不放回不等概率抽样。(一)放回不等概率抽样和(二)不放回不等概率抽样。它们在抽样方式和估计量构造方面都与前面有很大不同。它们在抽样方式和估计量构造方面都与前面有很大不同。在有放回等概率抽样中,最常用的是按总体单元的规模在有放回等概率抽样中,最常用的是按总体单元的规模大小来确定抽选的概率。大小来确定抽选的概率。抽样调查1 PPS抽样(抽样(probability proportional to size)设Z1,Z2,Zn是一组概率分布(分布列),按这组概率对总体中的N个单元进行有放回抽样,每次抽中第 i个单元的概率Zi,独立进行n次,则这种抽样叫多项抽样.特别地,设总体种第i个单元的规模度量为Mi,可取这时称为PPS抽样。其中某单元可能被不止一次抽中,此时只调查一次,但计算时出现几次按几次计算。抽样调查2 实施办法实施办法 1)代码法代码法(累积总和法)(汉森&赫维茨,Hansen&Hurwitz 1943)在PPS抽样中,赋予每个单元与规模Mi相等的代码,将代码累加得到M0,每次抽样都产生一个1,M0之间的随机数,设为m,则代码m所对应的单元被抽中.如果Mi不是整数,则乘以某个倍数.单元单元规模累加和代码范围123.M1M2M3.M1M1+M2M1+M2+M3.1M1M1+1M1+M2M1+M2+1M1+M2+M3.抽样调查例例5.1 设某个总体有N=10个单元,相应单元的大小Mi及代码,我们要在其中产生一个 n=3的样本.iMiMi*10累加Mi*10代码12345*6*7*89100.614.51.513.77.815103.661.1614515137781501003660116151166303381531631667727738167151152166167303304381382531532631632667668727728738和M0=73.8738-先在1,738中产生第一个随机数如是354,再在1,738中产生第二个随机数如是553,最后1,738中产生第三个随机数如是493,则它们对应的第5,6,7号单元被抽中。易验证每个单元被抽中的概率与其规模成正比。抽样调查2)拉希里方法拉希里方法(Lahiri,印度)第一步:先在1N中随机等概率抽取一个数字,不妨设为i,则i成为侯选的被抽中单元,其是否抽中还依赖于第二步;第二步:令,在 之间等概率随机取 m,如果m小于刚才抽中第i个单元的规模 Mi,即 mMi,则第 i个单元被抽中,否则重复第一步和第二步,直到两步都符合才算抽中,这样依次下去,直到抽满n个单元为止.续上例:在1,10和1,150中分别产生(i,m)演示如下,抽样调查(3,121),舍弃,重抽;(8,50),舍弃,重抽;(7,77),第7号单元入样;(5,127),舍弃,重抽;(4,77),第4号单元入样;(9,60),第9号单元入样.因此第4,7,9号单元被抽中。抽样调查注注:总体单元大小规模的度量往往不止一个,如度量一个企业的大小,可以是资金多少,也可以是产值和销售额的大小,还可以使人员的多少等。如估计全乡村平均年收入,可以以每村家庭户数作为规模度量。实际调查中,应据与调查的目标量Yi的相关程度以及获取数据简易程度综合考虑。iMi累加Mi代码1234567891012045210862841913932016738120165375461745936975129514621500112012116516637537646146274574693693797597612951296146214631500和1500-抽样调查3 不放回不等概率抽样 对于放回抽样,总体参数的估计及其方常估计比较简单,但样本单元中可能有单元被抽中多次,直观上,同一单元没有必要调查多次。因此可以考虑不放回不等概率抽样,即每次在总体中对每个单元按入样概率进行抽样,抽取后不再放回,对总体中剩下的单元进行下一次抽样。不放回概率抽样比放回概率抽样效率高,但难以实施,参数估计及精度计算比较困难。不放回不等概率抽样后述。包含概率:总体中第i个单元被包含到样本的概率用i表示(i nZi)抽样调查5.2 放回不等概率抽样放回不等概率抽样例例一个城市有4个超市,营业面积从100平方米到1000平方米不等(见表5-2)。我们的目标是通过抽取一家超市来估计这个4个超市上个月的总销售量。5.2.1 n1 演示抽样调查抽样调查抽样调查5.2.2 汉森汉森赫维茨(赫维茨(Hansen-Hurwitz)估计量)估计量总体总量估计量:(5.4、5.5)其直观意义是用入样的单元目标量比其在总体中的权重去估计总体总量然后加权平均。可以证明它是总体总量的无偏估计。(5.6)(5.7)(5.8)抽样调查证明:考虑总体 独立重复抽取,第i个单元被抽取的概率为即为Zi,就是n次观察值的样本平均值。根据数理统计,抽样调查总体方差的无偏估计,作业作业:请写出总体均值的估计量和方差以及方差的估计量。例例5.2 某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份上年各企业完成产量的报告,将其汇总得到所属企业上年完成的产量为3676万吨。考虑到时间紧张,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是各企业之间的规模和管理水平差异比较大,大企业一般管理水平比较高,因此采用与上年产量成比例的PPS抽样,从所属企业抽取一个样本量为30的样本,调查结果如表5-5。要根据以上调查结果估计该部门所属企业当月完成的利润,并给出估计的相对误差。如果要求在相同条件下相对误差达到20%,所需要的样本量是多少?抽样调查 例例5.2 DATA抽样调查抽样调查(见2.5pptpage72结论)抽样调查与群规模成比例的不等概率抽样与群规模成比例的不等概率抽样(5.9)(5.10)抽样调查(5.12)例5.3 某企业欲估计上季度每位职工的平均病假天数。该企业共有8个分厂,现用不等概率抽样拟抽取3个分厂为样本,并以95的置信度计算置信区间。抽样调查解:由于n3,采用pps抽样,在数字112950之间产生3个随机数,分别是022011,07972和10281,于是3分厂、6分厂和8分厂入样。用y1,y2,y3分别表示三个分厂职工的病假天数,调查结果为y14320,y24160,y35790。2.43+-1.96*0.37抽样调查5.3 多阶段不等概率抽样多阶段不等概率抽样5.3.1 两阶段有放回不等概率抽样两阶段有放回不等概率抽样对初级单元进行放回不等概率抽样时,事先规定每个初级单元被抽中的概率 Zi(Z i 1),对被抽中的初级单元,再抽取mi个二级单元。如果某个初级单元被抽中多次,则将这mi个二级单元放回,重新抽取 mi(5.13)抽样调查(5.14)该估计量是无偏的,且其方差为其方差无偏估计为(5.15)PPS抽组,二阶抽样为简单抽样 当mim固定时,估计量是自加权估计量(5.18)抽样调查(5.19)例例5.4某小区拥有10座高层建筑,每层建筑拥有的楼层数如表5-7所示。高层建筑ABCDEFGHIJ楼层1212 1615101610181620用二阶抽样防范抽出10个楼层进行调查,第一阶段为有放回、按与每座建筑拥有的楼层数成比例的不等概率抽样抽取5座建筑,第二阶段按简单随机抽样对美座建筑抽取两个楼层。对10个楼层居民人数调查的结果如表8-5所示,请对小区总居民数进行估计,并给出估计精度。表5-7 10座高层建筑的各自层数抽样调查表5-8 抽取中的一阶样本序号和10个楼层的居民数一阶样本序号12345居民数18,1215,1819,1316,1016,11解:解:抽样调查多阶段抽样有放回不等概率抽样(略)5.4 无放回不等概率抽样无放回不等概率抽样抽样调查高邮“希望”的春天