《抽样调查-第9章-二重抽样ppt课件.ppt》由会员分享,可在线阅读,更多相关《抽样调查-第9章-二重抽样ppt课件.ppt(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、返回9.1 引言一、二重抽样的定义二重抽样(double sampling),也称二相抽样,是指分两步抽取样本。先从总体N中抽样一个较大的样本 ,称为第一重样本,对其进行调查以获取总体的某些信息,为下一步的抽样估计提供条件;然后在第一重样本中再进行第二次抽样。这种抽样方法称为二重抽样。n二、二重抽样与两阶段抽样的区别 1.两阶段抽样是先从总体N个单元中抽出n个样本单元,却并不对n个样本都进行调查,而是从中再抽出若干个二级单元进行调查。返回2。两阶段抽样的第二阶段抽样单元与第一阶段抽样单元往往是不同的。而二重抽样的第二重样本往往是第一重样本的子样本。三、二重抽样的作用(一)有利于筛选主调查对象(
2、二)节约调查费用(三)提高抽样效率(四)可用于研究样本轮换中的某些问题(五)降低无回答偏倚返回9.2 为分层的二重抽样 分层抽样是一种应用广泛的抽样方程,但进行分层抽样有一个前提,即需要将总体N个单元划分为L个互不重叠的层,而且需要知道各层的权重。如果事先无法知道总体的层权,可以采用二重抽样方法。一、符号说明用下标h表示层数,Lh, 2 , 1总体第h层的单元数:hN总体单元数:LhhNN1第一重样本第h层的单元数:hn第一重样本单元数:Lhhnn1返回第二重样本第h层的单元数:hn第二重样本单元数:Lhhnn1总体单元第h层的权重:NNWhh第一重样本第h层的权重:nnwhh第二重样本第h层
3、的抽样比:10 ,hDhhhDfnnf第二重样本第h层j单元的观测值:Lhnjh, 2 , 1;, 2 , 1hjy第二重样本第h层样本单元的平均数:hnjhjhhyny11总体方差:2S,第h层的总体方差:2hS返回第一重样本第h层方差:2hs第二重样本第h层方差:212)(11hnjhjhhyynsh二、抽样方法第一步: 利用简单随机抽样,从总体的N个单元中随机抽取第一重样本,样本单元数为 ;根据已知的分层标志将第一重样本分层,令 ,则 是总体层权 的无偏估计。n),2, 1( ,LhnnwhhhwhW第二步:利用分层随机抽样,从第一重样本中抽取出第二重样本,样本单元数为n ,第h层样本单
4、元数为hnLhhnn1返回三、估计量及其性质(一)均值估计量采用二重分层抽样,对总体均值 的估计量为:YhLhhstDywy1(二)均值估计量 的性质stDy性质1 估计量 是 的无偏估计。即stDyYYyEstD)(因为hhyyE)(所以有)()()(12121hLhhstDstDywEEyEEyEYyEywEhhLhh)()(111返回性质2 的方差为:stDy) 11()11()(122hDLhhhstDfnSWSNnyV 式中, 为总体方差; 为第h层的总体方差; 为第二重样本第h层的抽样比。2S2hShDf性质3 的样本估计量为:stDy21221)()11()11()(stDhLh
5、hhhhhLhstDyywNnswnnyv式中, 为 的近似无偏估计; 为第二重样本第h层方差。)(stDyv)(stDyV2hs返回【例9.1】某银行要调查其客户的资产情况,已知该银行的客户数为8000,针对客户规模差异较大的特点,拟采用分层抽样。但由于缺乏现有的分层资料,决定采用二重分层抽样方法。第一重样本量 =1000,根据其自报的资产情况可分为4层:第一层为300万元以下;第二层为300万元1000万元;第三层为1000万元件2000万元;第四层为2000万元以上。然后在第一重样本分层的基础上,在各层分别抽取第二重样本。第二重样本量为n20041hhnn,对这200个客户进行详细的调查
6、,取得有关数据如下表,试估计该银行所有客户的资产总额及其抽样标准误差。返回分 层第一重样 本第二重样 本样本均值300万元以下3001000100020002000万元以上合计5403201004010008060402020027154040031009600451201.012.7115.38690.53hyjijy22js解 根据上表可计算各层的权重:04.0,10.0,32.0,54.010005404321wwww该银行客户的平均资产额估计为:4004. 01510. 0732. 0254. 01hLhhstDywy42. 6(百万元)返回该银行共有8000个客户,故全部客户资产总额
7、为:5136042. 68000stDyNY(百万元) 的方差估计为:stDy21221)()11()11()(stDhLhhhhhhLhstDyywNnswnnyv)01. 1 ()54. 0)(5401801()11(2221hhhhLhswnn036822. 0)53.690()04. 0)(401201(2055239. 0)()11(21stDhLhhyywNn返回因此,092061. 0055239. 0036822. 0)(stDyv该银行客户资产总额的抽样标准误的估计:32.2427)()()(stDstDyvNyNsYs(百万元)四、二重分层抽样样本量的最优分配 二重分层抽样
8、中有两次抽样,这两次抽样的样本量 即 和 ,直接影响估计的精度。第一重抽样 越大,对分层信息的了解和估计就越精确,从而可以减少估计量的误差;同样,第二重抽样 越大,估计量的方差越小。调查的经费是有限的,因此,需要在给定费用的条件下,选择 和 ,使得估计量的方差 最小。n nnnn n)(stDyV返回 假设第一重抽样的单元平均调查费用为 ,第二重抽样第 h 层的单元平均费用为 。忽略其他费用,则费用函数可以表示为:1chc2LhhhTncncC121由于 是随机变量,所以选择 和 的期望费用 为:hnnhDfTChhDLhhTTWfcnncCEC121)(而总体均值估计量的方差为:) 11()
9、11()(122hDLhhhstDfnSWSNnyV返回要在一定的费用约束下使估计方差最小化,则有)()(121hLhhDhTstDWfcnncCyVL) 11()11(122hDLhhhfnSWSNn)(121hLhhDhTWfcnncC由得及00hDfLnLLhhhhhhDSWSccSf12221)(返回LhhDhhTfWccCn121 在实际应用中,要确定最优的 和 ,需要对总体事先有一定的了解,例如对 有一些粗略的估计。nhDfhhWSS,22返回9.3 为比率估计的二重抽样一、二重抽样比率估计的抽样方法第一步 从总体的N个单元中随机抽取第一重样本,样本单元数为 ;对于第一重样本,仅观
10、测辅助变量信息,用辅助变量的样本均值 估计总体均值 。nniixnx11X第二步 从第一重样本中随机抽取出第二重样本,样本单元数为 ;对于第二重样本,观测目标变量与辅助变量,并用获得的 和 ,计算 ,构造比率估计。nyxxyR 二、二重抽样的比率估计及其性质二重抽样对总体均值 的比率估计:Y返回xxyyRD 式中, 分别为第二重样本目标变量与辅助变量的样本平均数; 为第一重样本辅助变量的平均数。xy,x性质4 与简单随机抽样下的比例估计一样, 是个有偏估计,其偏倚随着样本量的增加而缩小。当第二重样本的样本量 足够大时, 是近似无偏的。即RDyxxyyRDYyERD)(证明:记,xyRxyR因为
11、当第二重样本量n足够大时有返回)()()(2121RExEyEEyERDRDYyE)(1因此, 是 的近似无偏估计。RDyY性质5 二重抽样比率估计的方差为:)()()(2121RDRDRDyVEyEVyV)()(2211RVxEyV)2)(11()11(2222yxxyyRSSRSnnSNn返回通常 可忽略,因此N1)2)(11(1)(222yxxyRDRSSRnnSnyV 式中, 分别为Y和X的总体方差和总体协方差,yxxySSS,22XYR 性质6 二重抽样比率估计方差的样本估计:)2)(11(1)(222yxxyRDsRsRnnsnyv返回【例9.2】 某住宅小区共有200个住户,现估
12、计小区住户家庭月平均收入的平均水平。家庭收入的数据不易调查,而家庭支出的资料相对容易获取,而且家庭月平均收入与家庭月平均支出之间强相关,因此拟采用二重抽样比率估计方法。先从住户中随机抽取100个住户作为第一重样本,调查家庭月平均支出,结果家庭月平均支出的样本均值为1500元,然后从这100个住户中随机抽选 10户作为第二重样本,调查家庭月平均收入和家庭月平均支出,资料见下表。试估计该小区家庭月平均收入,并计算估计量标准差。返回样本住户家庭月平均支出家庭月平均收入123456789101 5001 2002 0001 8001 3003 000 8001 4001 6001 1002 0001
13、8002 8002 5001 9005 8001 3002 0002 3001 600某小区住户家庭收支的样本数据返回解: 由题知 ,从上表计算得1500 x5287. 1,1570,2400Rxy8 .747777, 2 .371222,161333322xyxysss该小区住户的平均家庭月收入估计为:229315005287. 1xxyyRD 的方差估计为:RDy)2)(11(1)(222yxxyRDsRsRnnsnyv2 .3712225287. 1)(1001101(101613333289.336468 .7477775287. 12返回 的标准差的估计为:RDy43.183)()(
14、RDRDyvys三、二重抽样比率估计时样本量的最优分配问题:在给定的费用条件下,选择第一重样本量和第二重样本量 ,(其中 为抽样比),使得估计量的方差 最小。nfnf)(RDyV费用函数:fncncncncCT2121其中, 为第一重抽样的单元平均调查费用; 为第二重抽样的单元平均调查费用。1c2c返回求最优值:因总体均值估计量的方差为)2)(11(1)(222yxxyRDRSSRnnSnyV)()2)(11(121222fncncCRSSRnnSnTyxxy由 及 得0nL0fL)()(21fncncCyVLTRD返回)2()2(2222221xyxyxxySRRScRSSRScffccCn
15、T21返回9.4 为回归估计的二重抽样一、二重抽样回归估计的抽样方法第一步: 从总体的N个单元中随机抽取第一重样本,样本单元数为 ;对于第一重样本,仅观测辅助变量信息 ,用辅助变量的样本均值 估计其总体均值nixniixnx11.X第二步: 从第一重样本中随机抽取出第二重样本,样本单元数为 ;对于第二重样本,观测目标变量 与辅助变量 ,并计算 和回归系数 ,构造回归估计。niyixxy,b返回二、二重抽样的回归估计及其性质(一)二重抽样的回归估计二重抽样对总体均值 的回归估计:Y)(xxbyylrD 式中 和 分别为第一重样本和第二重样本中辅助变量的平均值; 为根据第二重样本计算的目标变量的样
16、本平均数, 为根据第二重样本计算的 对 的回归系数。xxybiyix(二)二重抽样回归估计的性质性质7 是个有偏估计,其偏倚随着样本量的增大而縮小。当第二重样本的样本量 n 足够大时,lrDy返回)(xxbyylrD是近似无偏的。即YyElrD)()()()(2121xxbyEEyEEyElrDlrD证明:YyE1性质8 二重抽样回归估计的方差为:)()()(2121lrDlrDlrDyVEyEVyV式中,,)1)(11()11()(2222ynlrDsnnsnnyV返回222)1 (yess为第二重样本残差方差,其均值近似等于总体残差方差.)1 (222yeSS因此)()11()()(211
17、elrDsEnnyVyV)1 ()11()11(222yySnnSNn222)11(yySnnnS性质9 二重抽样回归估计方差的样本估计:222)11()(yylrDsrnnnsyv返回 式中是用第二重样本的方差 估计 ,用相关系数 估计 。2ys2ySr【例9.3】以例9。2的数据,用二重抽样进行回归估计。试估计该小区家庭月平均收入,并计算估计量的标准差。解:由题知 由表可计算出,1500 x014. 2,96626. 0,1570,2400brxy2 .371222,161333322xyss该小区家庭月平均收入估计为:)(xxbyylrD02.2259)15701500(014. 224
18、00返回 的方差估计为:lrDy222)11()(yylrDsrnnnsyv116333396626. 0)1001101(101613333213.25766lrDy的标准差的估计:52.160)()(lrDlrDyvys 在实际应用中,二重抽样容量n较大条件下,才能有效消除用样本回归系数进行回归估计可能产生的偏倚。返回三、二重抽样回归估计时样本量的最优分配 在给定的费用条件下,选择第一重样本量 和第二重样本量 , 其中 为抽样比,使得估计量的方差 最小。nfnf)(lrDyV1c 假设第一重抽样的单元平均调查费用为 ,第二重抽样的单元平均调查费用为2c., 2 , 1,Lh费用函数为:fn
19、cncncncCT2121总体均值估计量的方差为:)1 ()11()11()(222yylrDSnnSNnyV返回要在一定的费用约束下令估计方差最小化,则有)()(21fncncCyVLTlrD)1 ()11()11(222yySnnSNn)(21fncncCT由 及 得0nL0fL2221)1(ccf)1 (221121cccCfccCnTT返回 本章小结本章小结(1)(1)二重抽样的主要特点二重抽样的主要特点是分两步进行抽样是分两步进行抽样, ,每步每步都抽取一个样本都抽取一个样本. .(2)(2)二重抽样有多个用途二重抽样有多个用途:为了分层为了分层;为了比率估计为了比率估计;为了回归估计为了回归估计.(3)(3)两次抽样的样本量将直接两次抽样的样本量将直接影响估计的精度影响估计的精度. .返回本章作业本章作业 (1 1)熟悉本章附录的证明;)熟悉本章附录的证明;(2 2)思考书后习题)思考书后习题1,1,习题习题2 2;(3 3)在作业本上完成书后)在作业本上完成书后习题习题3,3,习题习题5 5。(第九章结束)
限制150内