不等概率抽样.ppt
第六章 不等概抽样n一、概述一、概述n二、放回不等概抽样二、放回不等概抽样n三、不放回不等概抽样三、不放回不等概抽样第一节 概述n一、引言n简单随机抽样的一个基本特点是总体中的每一个单元的入样概率都相等,因此,它是一种等概抽样。n分层随机抽样中每一层内的抽样也是按照简单随机抽样进行的,因此,层内的抽样仍是等概率的。n如果总体中的每个单元在该总体中的地位(或重要性)相差不多,则等概抽样是理所当然的选择。但是,如果总体单元相差较大,等概率抽样的效果就不一定好。n在实际问题中,我们还需要使用不等概率抽样不等概率抽样(sampling with unequal probablities)。n二、概念及其必要性n不等概抽样不等概抽样:即每个单元入样的概率不相等.n为了提高抽样效率,通常采用两种不等概抽样方法:(1). 将总体单元按规模(大小)分层,对较大单元的层抽样比定高些,而较小单元的层抽样比定得低一些;(2). 赋予每个单元与其规模(或辅助变量)成比例的入样概率,即大单元的入样概率大,小单元入样概率小.问题问题:入样概率不等入样概率不等,是否影响推算结果是否影响推算结果?n使用不等概抽样的必要性:n(1)调查的总体单元与抽样的总体单元可能不一致。 例如:某小学欲对学生的家庭情况进行调查,调查总体是全校学生的家庭。注意:许多家庭只有一个孩子在该校就读,但也有些家庭有两个或两个以上的孩子在该校就读。 从抽样的角度来讲:将学生作为抽样单元是方便的,因为相应的抽样框是现成的。 而从调查的角度而言,对每个(学生)家庭实行等概抽样又是合理的。 这就产生了一个问题:若对学生实行等概抽样,则每个家庭被抽中的概率并不相等。而为了使每个家庭入样概率相等,只能对学生使用不等概抽样不等概抽样。 不等概抽样的方法是:对每个学生登记其家庭在该校就读的学生人数,每个学生的家庭入样概率应与这个数字成反比。n(2)抽样单元在总体中所占的地位不一致。 例如:对船舶运输量进行调查时,以船舶为抽样单元,则有的是从事远洋运输的万吨巨轮,更多的是从事内河河网地区运输的上百吨乃至几十吨小船。显然,大船比小船处于更重要的地位。 类似的例子还有:通过对企业的调查估计某地区某一时期内的总产值,通过对商业网点的调查估计该地区的商品零售总额,等等。 在这些例子中,若对单位(船舶、企业、商店)实行等概抽样,估计效果一般不会很好。 若对单位采用不等概抽样,使大单位入样概率大,小单位入样概率小,就可提高估计的精度。n(3)为了改善估计量的特性。 例如,第五章已经学过,简单随机抽样比率估计量是渐近无偏的,要使它成为无偏估计,只要每个大小为n个样本被抽中的概率与其辅助变量的和成正比的话,则这时的比率估计量就是无偏的。 显然,这个样本并不是简单随机样本,而是一个不等概抽样获得的样本。n(4)其他情况:整群抽样、多阶段抽样中群或初级单元大小相差较大情形。n不等概抽样的优点优点:大大提高估计精度,减小抽样误差。n使用不等概抽样的前提条件前提条件:必须要有说明每个单元规模大小的辅助变量来确定每个单元的入样概率。这在抽样及推算时都是必要的。n三、不等概抽样的种类 n(一)按抽样过程中被抽到的单元是否被放回总体中去而分为放回抽样和不放回抽样放回抽样和不放回抽样。n放回的不等概率抽样:每次在总体中按一定概率放回的不等概率抽样:每次在总体中按一定概率抽取一个单元,抽取后放回总体,再进行下一次抽取一个单元,抽取后放回总体,再进行下一次抽样。抽样。.其好处其好处在于:每次抽样过程都是从同一个总体独立进行的,因此它的数据处理就特别简单。n不放回的不等概率抽样:不放回的不等概率抽样:虽然效率常常更高,但由于丧失了独立生,无论抽样方法还是方差估计都比放回抽样复杂得多。n在某种意义上可以这样说,抽样调查中的放回抽样主要用于不等概率抽样这种特殊情形。n对于不放回抽样,按其样本单元抽取方式的不同又可分为以下几种方法: 1.逐个抽取法 每次从尚未入样的单元中以一定概率抽取一个单元,这个概率通常与已经入样的单元有关。 2.重抽法 以一定概率逐个进行放回抽样,若一旦抽到重复单元,则放弃所有已抽到的单元而重新抽取,直到抽到规定单元数目所有入样单元都不同为止。 3.系统抽取法 将总体单元按某种顺序排列,将规定的入样概率汇总,根据样本量确定抽样间距k,在1k 产生一个随机数,并确定相应的初始入样单元,以后在总体中每隔k 个单元抽出一个作为样本单元. 4.全样本法 对每个可能样本规定一个被抽中的概率,按这个概率一次抽中整个样本。n(二)视每个单元每次被抽中的概率(放回抽样情形)或最终样本中包含某个单元的概率(不放回抽样情形)是否严格地与单元的大小成比例。另外,看最终样本量n是固定的还是随机的。n最重要的情形乃是当n固定,且上述概率与单元大小严格成比例的不等概抽样,这种情形的放回抽样称为PPS抽样抽样,而相应的不放回抽样为PS抽样抽样。n四、区域抽样(area sampling)n适用于:区域或面积本身就是抽样单元,区域或面积本身就是抽样单元,或抽样单元的名单抽样框无法获得,但或抽样单元的名单抽样框无法获得,但每个抽样单元只隶属于某个区域每个抽样单元只隶属于某个区域n例如例如:小麦产量调查:对地块的抽样可小麦产量调查:对地块的抽样可以是简单随机抽样,也可以是按面积进以是简单随机抽样,也可以是按面积进行的不等概抽样。行的不等概抽样。n抽样框的类型抽样框的类型: 名单抽样框名单抽样框:即由抽样单元的名单组成 区域抽样框区域抽样框:即由定义明确的区域组成,而 一个区域是由个体组成对于区域抽样可以采用整群抽样(抽样单元是其本身),也可采用多阶段抽样(抽样单元是区域内的个体)n区域抽样框的优点区域抽样框的优点: 容易定义和识别 比较稳定 容易操作,回答率较高第二节 放回不等概抽样n一、PPS抽样n二、汉森赫维茨估计量一、PPS抽样n(一)多项抽样和PPS抽样这就是多项抽样这一术语的由来。nPPS抽样抽样:n如果每个单元有说明其大小或规模的度量Mi,则Zi可取:n此时,每个单元在这次抽样中的入样概率与单元大小成比例,称这种特殊的多项抽样为放回的与大小放回的与大小成比例的概率抽样成比例的概率抽样(Sampling with probability proportional to size),简称PPS抽样抽样。NiiiiiMMMMZ10n注:由于抽样是放回的,因此,某个单元可能在样本中出现多次,出现这种情况时,对这个单元的调查只进行一次,但计算时按抽中几次计算几次的原则。n(二)实施方法n1.代码法(汉森赫维茨法)n在PPS抽样中,赋予每个单元与Mi相等的代码数,将代码数累计得到M0,每次抽样都产生一个1,M0之间的随机数,设为m,则代码m所对应的单元被抽中。注: 如果 Mi 不是整数,则乘以某个倍数.【例例】设某个总体有N=10个单元,相应的单元大小 及其代码数如下页表,现要在其中产生一个 n=3 的样本. i 累计累计 代码代码10.66616214.5145151715131.515166152166413.713730316730357.87838130438161515053138253171010063153263183.6366676326679660727668727101.111738728738738_10iMiM10iM8 .730M解解: : 在(1-738)产生第一个随机数为345,则5好被抽中; 第二个随机数553,则7号被抽中; 第三个随机数493,则6号被抽中.n2. 拉希里法拉希里法(二次抽样法二次抽样法) 当N相当大时,累计的M0将很大,给代码法的实施带来不方便,此时可用Lahiri1951年提出的方法.令 , 即所有 中最大值, 每次抽样都分别产生一个 之间的随机数i及 之间的随机数m, 如果 ,则第i个单元被抽中; 否则,重抽一组(i,m). 显然,第i个单元的入样与否受到m的影响,只有 时它才入样,因此第 i个 单元入样的可能性与Mi 的大小成正比,此时Zi=Mi / M0.iNimMmax1*iMN, 1mMiiMm *, 1 M i 10.66214.514531.515413.713757.87861515071010083.6369660101.111738iM10iM8 .730M150*MN=10在1,10和1,150中分别产生 (i,m):如 (3,121), M3=15m=121, 舍弃,重抽 如产生(7,77), M7=100 m=77, 第7号单元入样二、汉森赫维茨估计量n对于放回不等概抽样,对总体总量Y的估计是汉森赫维茨(HansenHurwitz)估计:niiiniiiHHmynMzynY1011n2. 的方差为的方差为:n3. 的无偏估计为的无偏估计为)(HHYVHHY211YZYZnYViiNiiHHniHHiiniHHiiHHMYmynnMYzynnYv12020211111n汉森赫维茨估计量具有如下性质:n对于所有的 n1. NiZi, 2 , 1, 0YYEHH)(即它是无偏的。【例例】 某部门要了解所属85008500家生产企业当月完成的利润,该部门手头已有一份上年各企业完成产量的报告,将其汇总得到所属企业上年完成的产量为上年完成的产量为36763676万吨万吨. 考虑时间紧,准备采用抽样调查来推算当月完成的利润采用抽样调查来推算当月完成的利润,根据经验,企业的产量和利润相关性比较强企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高,因此采用与上年产量成比例的与上年产量成比例的PPSPPS抽样抽样,从所属企业中抽出一个样本量为样本量为3030的样本的样本,调查的结果如下表:n要求要求: 根据以上调查结果估计该部门所属企业当月完成的利润,并给出95%置信度下估计的相对误差.如果要求在相同条件下相对误差达到20%,所需的样本量应该是多少?i ii1* 38.2310926106.51900191.510213.70102411158642088030.75131271721 28.42 1367242.85301316104522*9.0138455211021412.3220230.7548065600153.864600246311710.82901615.8237025 28.43928482430179940269.9784298.8199218*21640276.2510imimiyiyiyim*该样本单元被抽中两次;mi为企业上年完成的产量,yi为企业当月完成的利润。n解;n=30, 36760M)7570872.6510.7.13102423.381092623.381092630367610(百元niiiHHmynMY8 . 530317005144286.6730630367636767570872 . 6510.36767570877 .1310242367675708723.38109262930367612222212020niHHiiHHMYmynnMYv)(174118百元HHHHYvYs在置信度为时,其相对误差为:在置信度为95%,相对误差 时,所需要的样本量为: %4575708717411896. 1HHHHYYstr152302 . 045. 022121nrrn%201r参见课本P39第三节不放回不等概抽样第三节不放回不等概抽样n一、PS抽样与包含概率n包含概率包含概率:n在放回的不等概率抽样即多项抽样中,每个单元的入样概率Zi起着关键的作用。n在不放回抽样中,每个单元被包含到样本的概率也即入样概率 及任意两个单元都包含到样本的概率 都起着十分重要的作用,它们通称为包含概率包含概率(inclusion probabilities)。n在不放回抽样中,包含概率满足如下性质:)Pr( ii),Pr(jiijnNii1iNijijn) 1( 1211 nnNiNijij(1)(2)(3)性质性质(1)是显然的。性质性质(2)是对每个已在样本中的单元而言的,固定了这个特定的单元,总体中其它N-1个单元在样本中只可能有n-1个单元元,因此:性质性质(3)直接利用了性质(2)nPS抽样n对于不放回不等概抽样,如果每个单元入样概率 与其大小或规模的度量 严格成比例,记 ,则由性质(1)有:n称这种不放回的与单元大小成比例的概率抽样为PS抽样iiM0MMZiiiinZ二二. 霍维茨霍维茨-汤普森估计量及其性质汤普森估计量及其性质对于不放回的不等概抽样,对总体总量Y的估计采用霍维茨(Horvitz)和汤普森(Thompson)提出的如下估计量:niiiHTyY1霍维茨汤普森估计量 具有如下性质:HTY1.若 ,则 是 Y 的无偏估计,且它的方差为:),.,2 , 1(0NiiHTYjiNiNijjijiijiNiiiHTYYYYV12121若n固定,又有:21jjiiNiNijijjiHTYYYV 要使估计量的方差V小,应尽可能使 之间的差别比较小.NiYii,.,2 , 12.如果 ,则 的无偏估计为:);,.,2 , 1, ( 0, 0jiNjiijiHTYVjininijijjijiijiniiiHTyyyYv121221又当n固定时,以下耶茨(Yates)格伦迪(Grundy)森(Sen)估计量也是 的无偏估计: HTYV21ninijjjiiijijjiHTYGSyyYvn【例例】假设有5个居委会,每个居委会的住户数X已知,但常住居民人数未知,现从这5个居委会抽出2个来估计常住居民的总人数.如下表: 5个居委会有关数据 i 住户数(X)常住居民人数(Y)包含概率( )140011000.822506000.532005000.441002400.2550800.1 1000 2520 _i8 .01000400201XXnXXniNiiii如第一个居委会如第一个居委会的包含概率的包含概率: 下面分别用霍维茨-汤普森估计量及简单随机抽样简单估计计算对总量的估计,不同估计量的估计结果为:样本1,2257542501,3262540001,4257533501,5217529502,3245027502,4240021002,5200017003,4245018503,5205014504,52000800平均2520(需要抽到各样本的概率需要抽到各样本的概率)2520niiiPSyY1yNYsrs三、n不同情况下的严格PS抽样n(一) n=2 的情形的情形之一可以证明:这种方法能保证每个单元的入样概率为:可以证明:这种方法能保证每个单元的入样概率为:),.,2,1(2NiZii因此,布鲁尔方法是严格的因此,布鲁尔方法是严格的PS抽样。抽样。布鲁尔方法布鲁尔方法布鲁尔方法的包含概率:布鲁尔方法的包含概率:对总体总量的估计可采用霍维茨对总体总量的估计可采用霍维茨-汤普森估计量:汤普森估计量:NiiijijijiijiiZZZZZZZZZ12112121142【例例】上例用若布鲁尔方法,所有可能样本的计算结果ij样本样本, 0.34879, 0.26574, 0.12457, 0.06090, 0.09135, 0.04048, 0.01938, 0.02907, 0.01384, 0.00588psYijpsY2520ijpspsYYE93.226702ijpspsYYYVpsY的均值为:的方差为:【例例】n在全国职工生活进步调查中,调查总体是全国县级市以上城市共622个.所用的对城市抽样方法是:n将所有的直辖市、省会(自治区首府)城市及计划单列市都作为必调查城市(即每个都构成自我代表层),n其余城市按地区(沿海、内地、边远共三个地区)城市级别(地级市与县级市)以及职工平均工资水平的高低分成若干小层.n在每个小层中用布鲁尔方法抽取两个城市在每个小层中用布鲁尔方法抽取两个城市,其中城市规模以市区与近郊区人口数为其度量.n作为说明,下表列出了某小层8个城市中抽取两个样本城市的具体步骤(数字是假设的).n N=2的布鲁尔抽样方法示例iM累计累计累计累计1.2.3.4.5.6.7.8.合计合计.0/MMZiiiiiZZZ211iiiZZZ211)5( jZj2500M 为抽取第一个样本城市,在0,1范围内产生随机数为0.761,乘以1.2857,得0.9784,则意味着城市被抽中 为抽第二个样本城市,将除Z5的其它j累计,总值为0.852产生另一个0,1范围内的随机数0.498,用0.4980.8520.424则城市为第二个样本城市其中, 是城市市区人口数(单位:万人)iM是层内所有城市的市区人口数。iiiZZZ211对累计总值是1.2857(二)(二)n的情形的情形仅介绍水野法。水野法也是一种逐个抽取的方法,它以概率:NinNnnNZNnZii, 2 , 1,11*抽取第一个样本单元,在剩下的N-1个单元中,不放回、等概率地抽取n-1个单元。可以证明,只要对每个i,有:110NnMnMi则这种抽样方法就是严格PS抽样的,且此时的包含概率为:nNnZZNnNNnnZjiijii2211*注意:为了满足此式,要求总体中的单元大小差异不能太大,如果总体中的单元相差过大,台以通过分层使层的单元大小相仿。四四. 几种非严格的几种非严格的 抽样抽样PSn非严格: n 不固定,而是随机的; 或不是严格不放回的; 或包含概率 与单元大小并非严格成比例.i(一一)耶茨耶茨-格伦迪格伦迪(Yates-Grundy)逐个抽取法逐个抽取法 每次都以与未入样的单元的 成比例的概率抽样,即以 抽取第一个样本单元 ,设第1个单元入样; 以 在剩下的N-1个单元中抽取第二个样本单元,设第2个单元入样;以 在剩下的N-2个单元抽取第三个样本单元;依次类推,直到抽出n个样本单元.iZiZ11ZZi211ZZZi由于YatesGrundy方法的 不易计算,因而不能用HorvitzThompson估计量。这时可以采用Raj(拉奇)估计量:i设 为抽中顺序排列的样本单元的指标值,相应的Z值为 ,令:nyyy,.,21nzzz,.,2112112112212111.1.:1nnnnnzzzzyyyytzzyytzyt则Raj估计量为:niiRajtnY11它是总体总量Y的无偏估计,对其方差 的无偏估计为:)(RajYVniRajiRajYtnnYv12) 1(1n【例例】总体由个单元组成, 要在总体中按不等概逐个抽取法抽取n=3个样本单元,并在调查后对总体进行推算300M i抽取第一个样本单元代码抽取第二个样本单元代码抽取第三个样本单元代码*iMiMiM300M2640 MM24840MMMn(1)首先利用代码法进行抽样:n如果在(1,30)的范围内产生的随机数为12,则代码12所在的4号单元被抽中.n 如果在(1,26)的范围内产生的随机数为23,则代码23所在的8号单元被抽中.n 如果在(1,24)的范围内产生的随机数为5,则代码5所在的3号单元被抽中. (2) 由样本推算总体按被抽出的顺序排列,样本单元为4,8,3号单元,相应的 值分别为: iz306,302,304调查完毕后,如果相应的指标值为384,yyy444415 . 7304yyzyt8484488421330413021yyyyzzyyt3843848433843430230413061yyyyyyzzzyyyt先计算:n将 n =3及 代入321,tttniiRajtnY11niRajiRajYtnnYv1211则得到总体总量的估计及其方差的样本估计.(二二) (Poisson)泊松抽样泊松抽样 n泊松抽样是一种严格不放回, 严格成立,但样本量n事先不能确定的抽样方法,由Hajek(哈杰克)设计n方法方法: 对总体每个单元赋予一个入样概率 ,设定一个常数 ,使得 .然后对总体每个单元分别产生一个 0,1 之间的随机数r,如果 ,则这个单元被抽中,否则,这个单元就未被抽中.iinZ0niiZn0iri例如例如,某个单元入样概率为0.82,则产生0099之间的一个随机数(00对应100),设这个随机数为63,则0,1之间的随机数 r=0.63, 0.630.82.因此,这个单元被选中.总体总量Y的估计:niiiPSyY1PSY是Y的无偏估计估计量方差 的无偏估计为:2211iiniiPSyYvPSYV 缺点缺点: 泊松法每次的样本量 n 事先不能确定,一种极端的情形是可能一个单元也没被抽中,或所有的单元都被抽中.如果出现这种极端的情形,则重新进行泊松抽样,直到样本不出现上述的极端情形为止.