《抽样技术-第三章.pptx》由会员分享,可在线阅读,更多相关《抽样技术-第三章.pptx(99页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2022-4-241第三章第三章 分层随机抽样分层随机抽样 3.1 概述3.2 简单估计量及其性质3.3 比率估计量及其性质3.4 回归估计量及其性质3.5 各层样本量的分配3.6 总样本量的确定3.7 分层抽样的其他方面2022-4-242第一节第一节 概述概述2022-4-243 定义定义3.3 分层随机抽样(stratified random sampling):如果每层中的抽样都是独立地按照简单随机抽样进行的,那么这样的分层抽样称为分层随 机 抽 样 , 所 得 的 样 本 称 为 分 层 随 机 样 本(stratified random sample)。2022-4-2442022
2、-4-245二、作用n由于每层都进行抽样,这就可使样本在总体中分布更加均匀,从而具有更好的代表性。n由于抽样在每一层中独立进行,所以一者允许各层选择不同的适合本层的抽样方法,二则可同时对各子总体(层)进行参数估计,而不单是对整个总体的参数进行估计。n由于各层的总体方差因单元之间差异小而肯定小于整个总体的方差,而抽样精度与此成正比,所以分层抽样可以提高参数估计的精度。三、符号2022-4-246所有总体参数的估计量都采用下标“st”以示区别:2022-4-2472022-4-248第二节第二节 简单估计量及其性质简单估计量及其性质一、对总体均值的估计一、对总体均值的估计n分层样本分层样本,总体均
3、值总体均值 的估计的估计n分层随机样本分层随机样本,总体均值总体均值 的简单估计的简单估计 YW YNN YsthhhLhhhL111yW yNN ysthhhLhhhL111YY2022-4-249估计量的性质 n性质性质1&21&2:对于一般的分层抽样,如果 是 的无偏估计( ),则 是 的无偏估计。 的方差为:n只要对各层估计无偏,则总体估计也无偏。n各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体的推算也是无偏的。YhYhhL12 , ,YstYYst V YW V YsthhhL212022-4-2410证明性质1 由于对每一层有 因此, 估计量的方差 由于各层是独立抽
4、取的,因此上式第二项中的协方差全为0,从而有 hhYYE LhhhLhhhstYEWYWEYE11YNYYNYNNYWLhhLhhhLhhh11111 LhLhkkhkhLhhhLhhhstYYCovWWYVWYWVYV1121,2 LhhhstYVWYV122022-4-2411n 性性质质3:对于分层随机抽样, 是 的无偏估计, 的方差为: YystystV yW V yWfnSsthhhLhhhhhL2122112022-4-2412证明性质3: 对于分层随机抽样,各层独立进行简单随机抽样,对每一层有 因此,由性质1,有 由第二章性质2,得 因此n hhYyEYyEstLhhhstyVW
5、yV1221hhhhSnfyVV yW V yWfnSsthhhLhhhhhL2122112022-4-2413n 性性质质4:对于分层随机抽样, 的一个无偏估计为: V ystv yW v yWfnssthhhLhhhhhL2122112022-4-2414证明性质4: 对于分层随机抽样,各层独立进行简单随机抽样,由第二章性质3,得 的无偏估计为: 因此, 的一个无偏估计为: hyV21hhhhsnfyvV ystLhhhhhLhhhstsnfWyvWyv1221212022-4-2415二、对总体总量的估计二、对总体总量的估计n 总体总量 的估计为: n如果得到的是分层随机样本,则总体总量
6、的简单估计为: LhhstYYNY1YNystY2022-4-24162.估计量的性质n性性质质1 1:对于一般的分层抽样,如果是 的无偏估计,则 是 的无偏估计。 的方差为:YstYYY LhhstYVYVNYV12Y LhhhLhhhYVNYVWN121222022-4-2417n性性质质2:对于分层随机抽样, 的方差为:Y LhhhhhLhhhSnfNyVNYV1221212022-4-2418n性性质质3 3:对于分层随机抽样, 的一个无偏估计为: YV LhhhhhLhhhsnfNyvNYv1221212022-4-2419例例3.13.1 n调查某地区的居民奶制品年消费支出,以居民
7、户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及其95%的置信区间。层层居民户居民户总数总数样本户奶制品年消费支出样本户奶制品年消费支出12345678910120010400110151040809002400501306080100551608516017037501802601100140602001803002204150050351502030251030252022-4-2420112000.070182850NWN111100.05200nfN11111139.5niiyyn122
8、1111111624.7221niisyyn2105y 3165y 424y 222166.667s 238205.556s 24193.333s 同理,求得:2022-4-242141hhhyNY 44222281115.93 10hhhhhhhhfv YNW v yNsn 23208v Y s Y 209650223208ts YY2022-4-2422 三、对总体比例的估计三、对总体比例的估计 n总体比例P的估计为: n估计量的性质 pW psthhhL1 性性质质1:对于一般的分层抽样,如果 是 的无偏估计( ),则 是 的无偏估计。 的方差为:hphPhL12 , ,pstPpstV
9、 pW V psthhhL212022-4-2423性性质质2:对于分层随机抽样, 是 的无偏估计,pstPV pNnNP Qnhhhhhhh1NNhh 1因而 的方差为: pstV pW V pNNNnNP QnsthhhLhhhhhhhhL21221111221NNNnNP QnhhhhhhhhLWfP QnhhhhhhL2112022-4-2424 性性质质3:对于分层随机抽样, 的一个无偏估计为:V pstLhhhhhLhhhstsnfNNpvWpv12221211Wfp qnhhhhhhL2111第三节第三节 比率估计量及其性质比率估计量及其性质n先“比”后“加权”,此时所得的估计量
10、称为分别比估计(separate ratio estimator)n先 “加权”后“比”,这样所得的估计量称为联合比估计(combined ratio estimator)2022-4-2425分别比估计n定义3.4 总体均值 和总体总量 的分别比估计为:2022-4-2426YY11LLhRShRhhhhhhyyW yWXx111LLLhhRSRShhhRhhhhhhyyYNyNXXYxxn定理3.5 对于分层随机抽样的分别比估计,若各层的样本量 都比较大,则有2022-4-2427hn()RSE yY()()RSRSMSE yV y22221(1)(2)LhhyhhxhhhyhxhhhWf
11、SR SRS Sn证明n根据比估计量的性质,当 比较大时,有2022-4-2428hn()RhhE yY()()RhRhMSE yV y222(1)(2)hyhhxhhhyhxhhfSR SRS Sn11()()LLRShRhhhhhE yWE yW YY1()()LRShRhhMSE yMSEW y21()LhRhhW MSE y21()LhRhhW V y()RSV y22221(1)(2)LhhyhhxhhhyhxhhhWfSR SRS Sn联合比估计n2022-4-2429YYn2022-4-2430()RCE yY()()RCRCMSE yV y22221(1)(2)Lhhyhxhh
12、yhxhhhWfSR SRS Sn分别比估计与联合比估计的比较2022-4-24311)当 ,即 或 分别比估计的精度与联合比估计的精度是一样的。2)当 ,即 ,分别比估计的精度不低于联合比估计的精度。3)当 且 ,这意味着分别比估计的精度要高于联合比估计的精度。2022-4-2432()0hRRhRR22()2()0hxhhyhxhhxhRR SS SR S()0hRRhRR2221(1)()()()0LhhRCRShxhhhWfV yV yRRSn()0hRR2hxhxhhyhyhRR SSRSS4)当 且 , 或 且 ,联合比估计的精度要高于分别比估计的精度。5)当 ,即比估计量的方差小
13、于简单估计量的方差时,需视具体情况而定。 2022-4-2433()0hRR2hxhxhhhyhyhRR SSRSS()0hRR2hxhxhhhyhyhRR SSRSS12xhhhyhhSXSY第四节第四节 回归估计量及其性质回归估计量及其性质n与比估计相似,将回归估计的思想与技术用于分层随机样本时,同样有两种可行的办法:n先“回归”后“加权”,此时所得的估计量称为分别回归估分别回归估计计;n先“加权”后“回归”,这时所得的估计量称为联合回归估联合回归估计计3.4.1分别回归估计分别回归估计n定义3.6分别回归估计分别回归估计是指在分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再对
14、各层的回归估计按总体层权进行加权平均。1. 各层的回归系数各层的回归系数h事先给定事先给定 2.不能事先设定各层的回归系数不能事先设定各层的回归系数h3.4.2联合回归估计联合回归估计1.当当为事先设定的常数时为事先设定的常数时2.当回归系数当回归系数不能事先设定时不能事先设定时3.4.3 分别回归估计与联合回归估计的比较分别回归估计与联合回归估计的比较经化简得经化简得:例3.3n已知某公司一般职员(包括办事员和保管人员)及高级管理(经理)人员刚进入公司时的工资总额,欲通过抽样调查估计当前该公司职员的工资总额Y。抽样按照一般职员层与高管层进行分层随机抽取。一般职员层抽取n1=15名职员,高管层
15、抽取n2=10名职员。同时还知道一般职员层人员总数N1=390名,该类职员进入公司时工资总额为X1=5 523 965元;高管层人员总数N2=84名,该类职员进入公司时工资总额为X2=2 541 660元。经过分层随机抽样调查所得的数据如表35所示。请对上述数据分别按照分别比估计、联合比估计、分别回归估计、联合回归估计以及差估计方法对该公司当前职员工资总额Y做出估计,同时计算出各个估计量的精度。五种估计方法五种估计方法结果比较结果比较n注意注意:此时的比估计和回归估计(回归系数采用样本回归系数进行估计)均为有偏估有偏估计,并且考虑到各层的样本量都不大,回归估计的偏倚有可能更大,所以此时采用比估
16、计,特别是联合比估计会更保险。 而差估计虽然标准差相对较大,但它却是无偏的无偏的,均方误差并不一定大,所以仍然有采用的价值。3.4.4 比率估计与回归估计小结比率估计与回归估计小结n在分层随机抽样中,当辅助变量可加以利用时辅助变量可加以利用时,为了提高估提高估计量的精度计量的精度,可以采用分别比估计、联合比估计、分别回归分别比估计、联合比估计、分别回归估计以及联合回归估计估计以及联合回归估计等估计方法。n在比估计比估计中, 当各层样本量都较大时,分别比估计与联合比估计近似无偏;当某些层的样本量不够大,而总样本量较大时,联合比估计近似无偏。n在回归估计回归估计中,少数情况下,回归系数可以是事先设
17、定的常数,其估计量无偏;多数情况下,回归系数需利用样本回归系数进行估计,其估计有偏,但在大样本的情况下近似无偏。n当Y与X高度相关时,分别比估计、联合比估计、分别回归估计以及联合回归估计等估计等产生的估计量都是有效的都是有效的。选择估计方选择估计方法,法,大致需遵循的原则大致需遵循的原则n在选择估计方法时在选择估计方法时,大致需遵循下面的原则大致需遵循下面的原则:(1)由于分别估计(无论是分别比估计还是分别回归估计)要求各层的样本量都比较大,所以当某些层的样本量不够大时,建议采用联合估计(2)当回归系数需要由样本进行估计时,回归估计量是有偏的。 在这种情况下,采取比估计尤其是联合比估计也许更保
18、险(3)如果各层的样本量都比较大,同时每层的比估计或回归估计也比较有效(即h均比较大),而且各层的Rh之间(或h之间)差异较大,则此时分别估计优于联合估计,估计量的方差更小(4) 如果各层的样本量不大,而且各层的Rh之间(或h之间)差异较小,则采用联合估计较为适宜(5) 如果各层的Rh之间(或h之间)差别不是太大,而且并不是每层的样本量都相当大,则联合估计可能更保险一些n如果各层的回归系数都接近于1,则可以采用差估计。虽然有时差估计量的方差偏大,但由于它为无偏估计量,所以总的均方误差不一定大2022-4-2461第五节第五节 各层样本量的各层样本量的分配分配 n 确定样本量:总的样本量,各层样
19、本量n估计量的方差不仅与各层的方差有关,还和各层所分配的样本量有关。n实际工作中有不同的分配方法,可以按各层单元数占总体单元数的比例分配,也可以采用使估计量总方差达到最小、费用最小。 2022-4-24622022-4-2463一、比例分配一、比例分配 n按各层单元数占总体单元数的比例,也就是按各层的层权进行分配.n对于分层随机抽样,这时总体均值的估计是nnNNWhhhfNnNnfhhhLhnihihhLhhhLhhhprophynnnynnyWy11111)(yynynniiLhnihih11111自加权2022-4-2464总体中的任一个单元,不管它在哪一个层,都以同样的概率入样,总体中的
20、任一个单元,不管它在哪一个层,都以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。这种样因此按比例分配的分层随机样本,估计量的形式特别简单。这种样本也称为自加权的样本。本也称为自加权的样本。n总体比例的估计是 ppnaprophhL1V yW V yWnnfnSfnW SprophhhLhhhhhhLhhhL21212111V pfNnN P QNfnW P QprophhhhhLhhhhL111211NSWnSWyVLhhhLhhhprop12122022-4-2465二、最优分配二、最优分配 (一)最优分配(一)最优分配n在分层随机抽样中,如何将样本量分配到各层,使得总
21、费用给定的条件下,估计量的方差达到最小,或给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。2022-4-24662022-4-24672022-4-2468定理定理3.7的证明的证明n对所有层成立时, 达到极小 22220111LLLhhhhhhhhhhhWWV CVSCcSc nNn VC hhhhW SnKc11LLhhhhhhW SnnKcnnW ScW ScN ScN SchhhhhhhhLhhhhhhhL11222hhh haba bhhhhW Sanhhhbc nhhhhhhhhhhhc nncbKaW SW Sn常数2022-4-2469n简单线性费
22、用函数,总费用由此得出下面的行为准则,如果某一层n单元数较多n内部差异较大n费用比较省则对这一层的样本量要多分配一些。Ccc nhhhL01nnW ScW ScN ScN SchhhhhhhhLhhhhhhhL112022-4-2470三三 Neyman(内曼(内曼)最优分配)最优分配n如果每层抽样的费用相同,最优分配可简化为n这种分配称为Neyman分配。这时, 达到最小。 nnW SW SnN SN ShhhhhhLhhhhhL11V ystLhhhLhhhstSWNSWnyV1212min112022-4-2471例例3.43.4 某市有甲、乙两个地区,现要进行家庭收入的调查。令n=50
23、0,已知甲地区共有20 000户居民,乙地区共有50 000户居民;甲地居民和乙地居民年收入标准差估计分别为S1=2 500,S2=2 000;同时对甲地和乙地每户的平均抽样费用之比为2 3,请分别计算出在甲地和乙地进行比例分配、一般最优分配(考虑费用因素)以及内曼分配(不考虑费用因素)的样本量。2022-4-24722022-4-24732022-4-2474四、某些四、某些层要求大于层要求大于100%100%抽样抽样时的修正时的修正 n 按最优分配时,有时抽样比f较大,某个层的 又比较大,则可能出现按最优分配计算的这个层的样本量 超过 的情况。n实际工作中,如果第 k 层出现这种情况,最优
24、分配是对这个层进行100%的抽样,即取 ,然后,将剩下的样本量 按最优分配分到各层。 ShNhnhnNkk五、五、偏离最优分配时对精度的影响偏离最优分配时对精度的影响2022-4-2475例3.62022-4-24762022-4-24772022-4-2478第六节第六节 总样本量总样本量的确定的确定 n令 当方差 给定时 222222222211111111LLLLLhhhhhhhhhhhhhhhhhhhhhfWWWWVWSSSSSnnNnwNWhhnwn VNSWVwSWnhhhhh22222tYrtdVNSWtYrwSWNSWtdwSWnhhhhhhhhhh222222222022-4
25、-2479n当按比例分配时, n实际工作中,n的计算可以分为两步,先计算:n然后进行修正: wWhhnW SVW SNhhhh22VSWnhh20nnnN0012022-4-2480n当按Neyman分配时, wW SW ShhhhhnW SVW SNhhhh222022-4-24812、精度要求是以精度要求是以 的绝对误差限的绝对误差限d(在给定的置在给定的置信水平信水平1-下下)的形式给出的的形式给出的2022-4-24822022-4-24833.精度要求以精度要求以 的相对误差限的相对误差限r(在给定的置信水在给定的置信水平平1-下下)的形式给出的形式给出2022-4-24842022
26、-4-2485例3.72022-4-24862022-4-24872022-4-24882022-4-2489二、总费用给定时总样本量的确定n给定V时Ccc nhhhL011hhhhLhhhhW ScwW ScnW ScW ScVW SNhhhhhhhh()22022-4-2490给定C时011LLhhhhhhhCcc nKc W S01LhhhhCcKc W S01hhhLhhhhhCcW Sncc W S00()()()()hhhhhhhhhhhhhhhhCcW ScCcN ScnW ScN SchhhhW SnKc2022-4-2491第七节第七节 分层抽样的其他方面分层抽样的其他方面
27、一一、多重分层多重分层n定义定义当调查指标与两个或多个辅助变量x1,x2,都存在相关关系时,为了提高分层的效益,需要按每一个辅助变量进行分层,通常的做法是先按最主要的变量分成大层,在大层中再按第二主要变量分成子层,从而形成交叉分层。当存在多个分层变量时,这种分层方式即称为多重分层(multiple stratification)。n对于多重分层,当“子层”划分好以后,就要考虑样本量在样本量在各子层的分配问各子层的分配问题。最简单常用的样本量分配方法是按照与每一子层大小成比例的原则进行分配。n在多重分层中,有时会出现这样一个问题:当总样本当总样本量量n相对于子层总数相对于子层总数RC不够大时不够
28、大时,会出现某些子层会出现某些子层分配不到样本的情况。分配不到样本的情况。 若nmax (R,C),则此时应当考虑重新确定分层变量或者不采用分层抽样,否则这种分层的效益是很难保证的。 若nRC,同时还满足nmax (R,C),就可以考虑用试验设计的思想来进行样本量的分配。2022-4-24922022-4-2493二、二、事后分层事后分层 实际工作中,有时进行事先分层会存在一定的困难n各层的抽样框无法得到n几个变量都适合于分层,要进行事先的交叉分层比较困难,并且我们并不需要交叉分层后每个子层的估计n一个单位到底属于哪一层要等到样本数据收集到以后才知道n总体规模N太大,事先分层太费事等n事后分层
29、技术要求层权Wh已知或者可以通过某种途径获得,当层权Wh未知而需要进行估计时,应当确保层权的估计值与实际的层权相差甚小,否则将达不到提高估计量精度的目的。n同时,在使用事后分层技术时还应该注意“事后层事后层”的数目不宜太多。的数目不宜太多。2022-4-2494事后分层的具体实施办法事后分层的具体实施办法2022-4-24952022-4-24962022-4-2497n简单随机样本,事后分层落到第层的样本量nhLhhhLhhhhpstSWNnSWyV12122122111hNhhihihSYYNLhhhpstyWy1nh固定并都大于0的条件下n足够大时,为无偏估计2022-4-2498n第一项就是按比例分配分层抽样估计量的方差,第二项表示因事后分层而非事先按比例分配分层引起的方差增加量n只要样本量足够大,事后分层的精度与按比例分配事先分层的精度相当LhhhLhhhpstSWnSWnfyVE122121112)(LhhhpropSWnV122112022-4-2499n 如果样本是按某一个辅助指标分层后抽取的,只要这个事先分层抽样是严格按比例按比例分配分配进行的,则这个样本是自加权自加权的,总体中每个单元被抽中的概率相同,我们可以将这个样本看作简单随机样本,分别对看作简单随机样本,分别对其它指标进行事后分层估计其它指标进行事后分层估计。
限制150内