《抽样调查-第3章分层随机抽样.pptx》由会员分享,可在线阅读,更多相关《抽样调查-第3章分层随机抽样.pptx(98页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、返回3.1 引 言一、定义先将总体 N 个单元划分成 L 个互不重复的子总体,每个子总体称为层,它们的大小分别为LNNN,21)(1LhhNN 然后,在每个层中独立地进行抽样,称为分层抽样.返回二、作用分层抽样在实际工作中应用的非常广泛,主要是因为它具有其它抽样方法所没有的特点:1.分层抽样的抽样效率较高,也就是说,分层抽样的估计精度较高。2.分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。3.层内抽样方法可以不同,而且便于抽样工作的组织。返回三、使用场合在对分层进行具体划分时,通常考虑如下原则:1.层内单元具有相同性质,通常按调查对象的不同类型进行划分。2.尽可能使层内单元的标志
2、值相近,层间单元的差异尽可能大。3.既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。4.抽样组织实施的方便,通常按行政管理机构设置进行分层。返回四、符号说明我们用下标h表示层号(h=1,2,,L)。关于第h层的记号如下:单元总数:hN样本单元数:hn第 i个单元标志值(观察值):hiy返回单元权数:NNWhhhY总体均值:hNihihYN11第L层总体方差:hNihhihhYYNS122)(11返回抽样比:hhhNnf 样本均值:hyhnihihyn11第L层样本方差:hnihhihhyyns122)(11返回3.2 简单估计量及其性质一、总体均值
3、的估计1.估计量的定义 总体均值Y的估计:hYLh 1stYhW=LhhhYNN11如果得到的是分层随机样本,则总体均值Y的简单估计为:LhhhLhhhstyNNyWy111返回2.估计量的性质性质一 对于一般的一般的分层抽样,如果hY是hY的无偏估计( h=1,2, ,L),则stY是Y的无偏估计。stY的方差为:V(stY)=)(12LhhhYVW值得注意的是:只要对各层估计是无偏的,则对总体的估计也是无偏的。 因此,各层可以采用不同的抽样方法,只要相应因此,各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对整体的推算也是无偏的的估计量是无偏的,则对整体的推算也是无偏的。返回性质一
4、的证明:由于对每一层有hhYYE)(YNYYNYNNYWYEWYWEYELhhhLhhhLhhhLhhhLhhst1111111)()()(因此返回性质二 对于分层简单随机抽样,Ysty是的无偏估计,sty的方差为:LhhhhhLhhhstSnfWyVWyV122121)()(返回性质二的证明:若各层独立进行简单随机抽样,对每一层有LhhhststhhyVWyVYyEYyE12)()(,)(,)(21)(hhhhSnfyV由第二章性质二得212121)()(hhhLhhhLhhstSnfWyVWyV因此返回LhhhhhLhhhstsnfWyvWyv122121)()(性质三 对于分层随机抽样,
5、的无偏估计为:)(styV返回性质三的证明:对于分层随机抽样,各层独立进行简单随机抽样,由第二章性质三,得21)(hhhhsnfyv212121)()(hhhLhhhLnhstsnfWyvWyv因此,)(styV的一个无偏估计为:返回二、总体总量的估计1.估计量的定义 总体总量 Y 的估计为:LhhstYYNY1如果得到的是分层随机样本,则总体总量 Y 的简单估计为:styNY 2.估计量的性质Y由于Ysty与只差一个常数,因此,sty与具有相同的性质。返回性质一 对于一般的分层随机抽样,如果Y是sty)()()(12LhhstYVYVNYV的无偏估计,则Y是的无偏估计,Y的方差为:)()(1
6、2122LhhhLhhhYVNYVWN性质二 对于分层随机抽样,Y的方差为:)(YV)(12LhhhYVNLhhhhhSnfN1221=返回)(Yv)(12LhhhYvNLhhhhhsnfN1221=性质三 对于分层随机抽样,)(YV的无偏估计为:【例3.1】 调查某地区的居民奶制品年消费支出,以居民户为调查单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽出10户,调查获得如下数据(单位:元)估计该地区居民奶制品年消费总支出及估计的标准差。(数据见下表)返回 样本户奶制品年消费支出样本户奶制品年消费支出层居民户总数样本户奶制品年消费支出(元)123456789101200104
7、0011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025返回05. 020010,07018. 0285020011111NnfNNW025. 040010,14035. 0285040022222NnfNNW由上表,N=2850,各层的层权及抽样比为:0133. 075010,26316. 0285075033333NnfNNW0067. 0150010,52632. 02850150044444NnfNNW),4 , 3 , 2 , 1( ,10h
8、nh返回各层样本均值及样本方差为:5.39111111niiyny722.1624)(1121111211yynsnii同理有333.193,24556.8205,165667.2166,105244233222sysysy返回因此,估计奶制品年消费总支出为:2096502415001657501054005 .3920041hhhyNY8241241221039. 51)()(hhhhhhhhsnfNyvWNYv估计量方差及标准差的样本估计23208)()(YvYs返回三、总体比例的估计1.估计量的定义总体比例 P 的估计为:LhhhstpWp12.估计量的性质 如果定义, 0, 1iY第
9、i个单元具有所考虑的特征;其他。(i=1,2, ,N)则对总体比例的估计类似对总体均值的估计,这时,stpsty与具有同样的性质。返回的无偏估计(h=1,2, ,L),则性质一 对于一般的分层随机抽样,如果hhPp 是stp是 P 的无偏估计。stp的方差为:LhhhstpVWpV12)()(性质二 对于分层随机抽样,stp是 P 的无偏估计。证明:注意到hhhhhhhnQPNnNpV1)(及hhNN1因而stp的方差为:返回LhhhhhhhhLhhhstnQPNnNNNpVWpV121221)(1)()(LhhhhhhhhnQPNnNNN122)(1LhhhhhhnQPfW12)1 (性质三
10、 对于分层随机抽样,stp的无偏估计为V()LhhhhhhhhLhhhstnqpNnNNNpvWpv1212211)(1)()(LhhhhhhnqpfW121)1 (返回【例3.2】 在例3.1的调查中,同时调查了居民拥有家庭电脑的情况,获得如下数据(单位:台),如表3.2。估计该地区居民拥有家庭电脑的比例及估计的标准差。(数据见下表)返回 样本户拥有家庭电脑情况样本户拥有家庭电脑情况层居民户总数样本户拥有家庭电脑情况12345678910120000010001002400010000001037501100001010415001000000000表3.2返回1 . 0, 4 . 0, 2
11、 . 0, 2 . 04321pppp2 . 0) 1 . 015004 . 07502 . 04002 . 0200(2850114141hhhhhhstpNNpWp005. 0)0099. 015004 . 07500173. 04000169. 0200(28501)(1)(222224122hhhhpvNNpv解:由上表可得该地区居民拥有家庭电脑比例的估计为:估计量的方差为:返回3.3 比率估计量及其性质 将比率估计的思想和技术用于分层随机样本时,对将比率估计的思想和技术用于分层随机样本时,对总体参数的估计有两种途径:总体参数的估计有两种途径: 一种是对每层样本分别考虑比估计量,然后对
12、各层一种是对每层样本分别考虑比估计量,然后对各层的比估计量进行加权平均的比估计量进行加权平均, ,此时所得的估计量称为此时所得的估计量称为分别分别估计估计(separate ratio estimator);separate ratio estimator); 另一种是对比率的分子、分母分别加权计算出分层另一种是对比率的分子、分母分别加权计算出分层估计量,然后用对应的估计量来构造比估计,这样所得估计量,然后用对应的估计量来构造比估计,这样所得的估计量称为的估计量称为联合比估计联合比估计(combined combined ratioestimatorratioestimator).).返回1.
13、分别比率估计总体均值Y总体总量Y的分层比率估计为:hLhhhhLhRhhRsXxyWyWy11总体均值:总体总量:LhRhhLhhhRsRsYXxyyNY11:hW层权L: 层数hy的简单估计为hY:hx的简单估计为hX:Rhy为hY的比率估计,RhY为hY比率估计返回比率估计量的方差:)2()1 ()(22212xhyhhhxhhyhLhhhRsSSRSRSnfWyV)2()1 ()(22212xhyhhhxhhyhLhhhRsSSRSRSnfNYV式中,hxhyhhhhSSNnf;22分别为第 i层指标Y,X的方差及相关系数. 分别比率估计量要求每一层的样本量分别比率估计量要求每一层的样本
14、量都比较大都比较大, ,否则否则, ,偏倚可能比较大偏倚可能比较大. .返回2.联合比率估计(combined ratio estimator)总体均值:XRXxyycststRc总体总量:XRXxyYcststRc式中:sty表示Y的无偏估计;stx表示X的无偏估计.均方误差为:)2()1 ()()(22222yxhxhyhhhRcRcRSSRSnNfNyVyMSE)2()1 ()()(2222yxhxhyhhhRcRcRSSRSnfNYVYMSE返回3.分别比率估计量与联合比率估计量的比较一般而言,分别比率估计量的方差小于联合比一般而言,分别比率估计量的方差小于联合比率估计量的方差。但当每
15、层的样本量不太大时,还率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。率估计量的偏倚很大,从而使总的均方误差增大。实际使用时,如果各层的样本量都较大,且有实际使用时,如果各层的样本量都较大,且有理由认为各层的比率理由认为各层的比率Rh差异较大,则分别比率估计差异较大,则分别比率估计优于联合比率估计。当各层的样本量不大,或各层优于联合比率估计。当各层的样本量不大,或各层比率比率Rh差异很小,则联合比率估计更好些。差异很小,则联合比率估计更好些。返回【例4.4】 某市某市
16、19961996年对年对950950家港口生产单位完成的家港口生产单位完成的吞吐量进行了调查,吞吐量进行了调查,19971997年欲对全市港口生产单位完年欲对全市港口生产单位完成的吞吐量进行调查。对港口生产单位按非国有成的吞吐量进行调查。对港口生产单位按非国有(h=1)(h=1)和国有(和国有(h=2)h=2)分为两层,单位数分别为分为两层,单位数分别为800800家和家和150150家,家,分别在两层中调查了分别在两层中调查了1010家和家和1515家港口生产单位,家港口生产单位,调查数据如下表,试计算调查数据如下表,试计算19971997年全市港口生产单位完年全市港口生产单位完成的吞吐量。
17、成的吞吐量。19971997年国有和年国有和非国有企业调非国有企业调查数据如下页查数据如下页返回ixiyiixiyi19580149553022202102210320335938433604964120117423040051771805600651625325861000880730234977005608332286811001230927221597208231013797103103901147846512817650139191160141160107015735698返回(将上述数据计算的中间结果列于P77的表中)1.1.按分别比率估计量估计按分别比率估计量估计68.919389
18、25)2()1 ()(5 .2725362221221yxhhxhhyhLhhhhRShhhRSsRsRsnfNYvXRY返回2.2.按联合比率估计量估计按联合比率估计量估计84.86293698)2()1 ()(1 .271956274300279700277310222212yxhxhyhLhhhhRCststRCsRsRsnfNYvXXYY 按联合比率估计量按联合比率估计量估计比按分别比率估计估计比按分别比率估计量估计要好一些量估计要好一些!返回三、分别比率估计与联合比率估计的比较)(2)()1 ()()(22212xhyhhhxhhLhhhhRSRCSSRRSRRnfWyVyV)(2)
19、()1 (22212xhhxhyhhhxhhLhhhhSRSSRRSRRnfW)(2)()1 (2212xhhxhyhhxhhhLhhhhSRSSSRRRRnfW具体情况分析参看教材P87返回3.4 回归估计量及其性质 与比估计相似,将回归估计的思想和技术用于与比估计相似,将回归估计的思想和技术用于分层随机抽样时,同样有两种方法:分层随机抽样时,同样有两种方法: 一种是对每层样本分别求取回归估计量,然后一种是对每层样本分别求取回归估计量,然后对各层的回归估计量进行加权平均,此时所得的对各层的回归估计量进行加权平均,此时所得的估计量称为估计量称为分别回归估计分别回归估计(separate reg
20、ression separate regression estimator);estimator); 另一种是对两个变量先分别计算出分层简单估另一种是对两个变量先分别计算出分层简单估计量然后再对它们的分层简单估计量来构造回归估计量然后再对它们的分层简单估计量来构造回归估计,这时所得的估计量称为计,这时所得的估计量称为联合回归估计联合回归估计 (combined regression estimator).combined regression estimator).返回1.分别回归估计(separate regression estimator)总体均值Y的估计:LhLhhhhhhlrhhlr
21、sxXyWyWy11)(总体总量Y的估计:LhhhhhhlrslrsxXyNyNY1)(返回 当当各层的各层的回归系数为事先给定的常数时回归系数为事先给定的常数时, ,分别回归估计量是无偏的。分别回归估计量是无偏的。其方差为其方差为: :)2()1 ()(2222yxhhxhhyhhhhhlrsSSSnfWyV其中 是第h层的回归系数h返回并且当LhSSxhyxhh, 2 , 1,2时,)(lrsyV达到最小,即)1 ()1 ()(2212minhyhLhhhhlrsSnfWyVhnihhihnihhihhihxxxxyyb121)()(通常未知,可用回归系数作为的估计:hhbh返回注 意 (
22、1)分别回归估计量是有偏的,但当每一层的样本量 都很大时,估计的偏倚可以忽略,其方差近似为:hn)1 ()1 ()(2212hyhLhhhhlrsSnfWyV(2)这里 是子总体的回归系数, 是子总体样本的回归系数,前者是未知的,后者是可知的。hbh返回方差)(lrsyV的样本估计值为:212)1 ()(ehLhhhhlrssnfWyv式中,hnihhihhhihehxxbyyns122)()(21 分别回归估计量要求每一层的样本量都较大分别回归估计量要求每一层的样本量都较大, ,如如果这个条件得不到满足果这个条件得不到满足, ,则分别回归估计量的偏倚则分别回归估计量的偏倚可能很大可能很大,
23、,这时这时, ,采用联合回归估计量更好些。采用联合回归估计量更好些。返回2.联合回归估计(combined regression estimator)总体均值Y的估计:)(ststlrcxXyy总体总量Y的估计:)(ststlrclrcXXYyNY式中,ststxy 和分别为XY和的分层估计。lrclrcYy及是无偏的,其方差为:)2()1 ()(22222yxhxhyhhhhhlrcSSSnNfNyV)2()1 ()(2222yxhxhyhhhhhlrcSSSnfNYV返回并且,只要取LhhxhhhLhyxhhhcnSfWnSfWB12212)1 ()1 (时,)(lrcyV达到最小。当回归
24、系数未知时,取为cB的样本估计:LhhxhhhLhyxhhhcnsfWnsfWb12212)1 ()1 (这时,联合回归估计量是有偏的,但当样本量n较大时,估计的偏倚可以忽略,其方差近似为:返回)2()1 ()(2222yxhcxhcyhhhhhlrcSBSBSnfWyV方差)(lrcyV的样本估计为:)2()1 ()(2222yxhcxhcyhhhhhlrcsbsbsnfWyv返回 分别回归估计与联合回归估计的比较 当回归系数设定时当回归系数设定时, ,分别回归估计优于分别回归估计优于联合回归估计;联合回归估计; 当回归系数由样本估计时当回归系数由样本估计时, ,如果各层的样如果各层的样本量
25、不太小本量不太小, ,采用采用分别回归估计为宜分别回归估计为宜. . 否则,否则,采用联合回归估计为好!采用联合回归估计为好! 返回【例4.6】(续例4.4)利用回归估计量估计该市港口生产单位1997年完成的吞吐量。解:样本回归系数:h=1,非国有h=2,国有1.070170.856402hb则按分别回归估计量估计:(见P85)30.270556lrsY22.89872469)(lrsYv11.9480)()(lrslrsYvYs返回按联合回归估计量估计:(见教材P86)4 .271753,0290. 1lrccYb,17.85358332)(lrcYv96.9238)()(lrclrcYvY
26、s 从本题看从本题看, ,联合回归联合回归估计量比分别回归估计估计量比分别回归估计量要优一些量要优一些! !返回 分别比率估计、联合比率估计、分别回归分别比率估计、联合比率估计、分别回归估计和联合回归估计的比较估计和联合回归估计的比较 (参看教材P96. 【例3.3】)返回比率估计与回归估计总结:比率估计与回归估计总结: 在分层随机抽样中,当有辅助变量信息可以利在分层随机抽样中,当有辅助变量信息可以利用时,我们可以采用分别比率估计、联合比率估计、用时,我们可以采用分别比率估计、联合比率估计、分别回归估计以及联合回归估计方法。在选用这些分别回归估计以及联合回归估计方法。在选用这些估计量时,要注意
27、以下几个问题:估计量时,要注意以下几个问题: 1 1、比估计是有偏估计量,当各层样本量都较大时、比估计是有偏估计量,当各层样本量都较大时两种比估计都近似无偏;当某些层的样本量不够大,两种比估计都近似无偏;当某些层的样本量不够大,而总样本量较大时,联合比率估计近似无偏。而总样本量较大时,联合比率估计近似无偏。返回 2 2、在回归估计中,若事先设定回归系数,其估计量、在回归估计中,若事先设定回归系数,其估计量无偏;若用样本回归系数作为回归估计系数,其估计无偏;若用样本回归系数作为回归估计系数,其估计量有偏,但在大样本情况下近似无偏。量有偏,但在大样本情况下近似无偏。 3 3、当主要变量、当主要变量
28、Y Y和辅助变量和辅助变量X X高度相关时,比率估高度相关时,比率估计和回归估计都是有效的,且能大幅度地提高估计计和回归估计都是有效的,且能大幅度地提高估计精度。精度。返回3.3 样本量在各层的分配对于分层抽样,当总的样本量一定时,还需研究各层应该分配多少样本量的问题,因为对总体推算时,估计量的方差与各层的方差有关,还与各层所分配的样本量有关。一、比例分配这里的比例分配指的是按各层单元数占总体单元数的比例,也就是按各层的层权进行分配,这时fNnNnfWNNnnhhhhhh或对于分层抽样,这时总体均值Y的估计是:返回hnihihLhhhLhLhhhhpropynnnynnyWy11111yyny
29、nniiLhnihih11111总体比例 P 的估计是:Lhhproppnpp11 这是因为总体中的人一单元,不管它在哪一层,以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。这种样本也称为自加权的样本。返回的方差为propy21121)()(hhhLhLhhhhhpropSnfnnWyVWyVLhhhSWnf121的方差为proppLhhhhLhhhhhPROPQPWnfNQPNNnfPV112111)(返回二、最优分配1.最优分配如果我们考虑简单线性费用函数,总费用LhhhnccC10则最优分配是:LhcSNcSNcSWcSWnnLhhhhhhhLhhhhhhhh, 2
30、 , 1,11返回)()11()()(1021210hLhhhhLhhhLhhhstncccSNnWcnccyVLLhcSWnnLhhhhh, 2 , 1, 01222证明:作拉格朗日函数,求条件极值:返回., 2 , 1,/11LhcSNcSNcSWcSWnnLhhhhhhhLhhhhhhhhLhhhhLhhhhhhcSWnncSWn122122,解得:由此得出下面的准则: 如果某一层单元数较多,内部差异较大,费用比较省,则对这一层的样本量要多分配些,返回2. Neyman(内曼)分配对于分层随机样本,作为特例,如果每一层的费用相同,即cch时,最优分配可简化为:LhSNsNnSWSWnnL
31、hhhhhLhhhhhh, 2 , 1,11这种分配称为Neyman分配.这时,)(styV达到最小。返回【例3.3】续例3.1如果样本量仍为 n=40 ,则按比例分配和Neyman分配时,各层的样本量应为多少?(见17)解:按比例分配时,各层的样本量为:05.214052632. 053.104026316. 061. 54014035. 081. 24007018. 044332211nWnnWnnWnnWn即各层的样本量分别为 3,6,11,20.返回对于Neyman分配,根据前面计算所得的各层权数和方差,得到:8286. 2722.162407018. 011sW5330. 6667.
32、216614035. 022sW8380.23556.820526316. 033sW3181. 7333.19352632. 044sW51775.403181. 78380.235330. 68286. 241hhhsW返回因此,按Neyman分配时,各层应分配的样本量为:.23. 753.2345. 679. 251775.408286. 24043241111nnnsWsWnnhhh即各层的样本量分别为 3,,.返回【例例3.53.5】某市有甲、乙两个地区,现进行家庭收入某市有甲、乙两个地区,现进行家庭收入的调查。令的调查。令n=500,n=500,已知甲地区共有已知甲地区共有2000
33、020000户居民,乙地户居民,乙地区共有区共有5000050000户居民;甲地区居民和乙地区居民年收入户居民;甲地区居民和乙地区居民年收入标准差估计分别为标准差估计分别为 ;同时对甲地和;同时对甲地和乙地每户的平均抽样费用之比为乙地每户的平均抽样费用之比为2 2:3 3,请分别计算出,请分别计算出甲地和乙地进行比例分配、一般最优分配(考虑费用甲地和乙地进行比例分配、一般最优分配(考虑费用因素)以及内曼分配(不考虑费用因素)的样本量。因素)以及内曼分配(不考虑费用因素)的样本量。2000,250021SS【解解】根据已知的数据,通过计算整理可根据已知的数据,通过计算整理可得下表:得下表:返回h
34、1200000.285725002713.2857505.07632500000.7143200031428.5714823.7861总计700001.0000-2141.85711328.8624关于样本量分配的计算关于样本量分配的计算hNhWhShchhSWhhhcSW/(1) 比例分配。35714.3577143. 050014386.1422857. 05002211nWnnWn返回(2 2)一般最优分配)一般最优分配31086.132879.824500/19086.132808.505500/21222222211111hhhhhhcSWcSWnncSWcSWnn返回(3 3)内曼
35、分配)内曼分配334857.2141571.1428500167857.2141286.714500212222221111hhhhSWSWnnSWSWnn返回结果比较结果比较 , 对比上面三组结果可以发现对比上面三组结果可以发现: 一般最优分配在乙地所抽取的样本量是最小的。一般最优分配在乙地所抽取的样本量是最小的。这是因为一般最优分配考虑了费用问题,在乙地抽样这是因为一般最优分配考虑了费用问题,在乙地抽样的单位平均费用较高,所以最优的原则应是适当增加的单位平均费用较高,所以最优的原则应是适当增加甲地的样本量,减少乙地的样本量。甲地的样本量,减少乙地的样本量。 一般最优分配和内曼分配在甲地的样
36、本量都比比一般最优分配和内曼分配在甲地的样本量都比比例分配大,这是因为甲地总体的方差较大。为了保证例分配大,这是因为甲地总体的方差较大。为了保证估计量方差小,子总体方差大的就要多抽些样本,否估计量方差小,子总体方差大的就要多抽些样本,否则就要少抽样本。则就要少抽样本。返回3.某些层要求大于100%抽样时的修正hS又比较大,则可能按最优分配计算的这个层的样按最优分配时,可能抽样比Nnf 较大,某个层的本量hn超过hN的情况.若出现这种情况,则对该层进行不100%的抽样,hhNn 即返回3.4 样本量的确定(1)一般公式令hhnwn 其中hw已经选定,于是当方差 V给定时,有2122122121h
37、LhhhhLhhhhLhhhhSNWSnWSnfWVlhhhhLhhhhSWWNSwWn12212211返回NSWVwSWnhhhhh2222得到确定样本量的一般公式为:得到确定样本量的一般公式为:LhhhhhLhhSWNVnnwSWVn12021011)/(1令则返回(2 2)若按比例分配)若按比例分配:将将 代入上式可得代入上式可得hhWwhhWwNnnnSWVnhLhh/1100210返回()内曼分配:()内曼分配:将代入上面两式可得:将代入上面两式可得:hLhhhhhSWSWw1/LhhhhLhhSWNVnnSWVn12021011)(1返回()最优分配:()最优分配:将代入上式可得:
38、将代入上式可得:LhhhhhhhhcSWcSWw1/LhhhLhLhhhhhhhSWNcSWcSWn121111)/()(返回即即22)()(tYrtdVd: d: 绝对误差;绝对误差; r r:相对误差;:相对误差;t: : 标准正态分布的双侧标准正态分布的双侧分位数分位数; ;这时,样本量的一般形式可以表示为:这时,样本量的一般形式可以表示为:如果估计精度是以误差限的形式给出如果估计精度是以误差限的形式给出返回NSWtYrwSWnhhhhh22222)( 下面将分别给出比例分配、内曼分配和最优分配时的样本量分配形式:返回(1 1)若按比例分配)若按比例分配:将将 代入上式可得代入上式可得h
39、hWwhhWwNSWtYrSWnLhhhLhhh12212)(返回(2)当按Neyman分配时,LhhhhhhSWSWw12NSWtYrSWnLhhhLhhh12212)()(返回(3)最优分配时:)最优分配时:将代入上式可得:将代入上式可得:LhhhhhhhhcSWcSWw1/LhhhLhLhhhhhhhSWNtYrcSWcSWn122111)()/()(返回 例例3.43.4(续例3.1)如果要求在95%置信度下,相对误差不超过10%,则按比例分配和Neyman分配时,总样本量分别为多少?解:当按比例分配时:由前面的计算结果,可以得到各层的Whs2h。016.114722.16242850
40、200211211sNNsW096.304667.21662850400221222sNNsW36.2159556.82052850750233233sNNsW754.101333.19328501500244244sNNsW返回22.26792hhsW在95%置信度时,对应的 t =1.96,又5614.732850209650NYyst因此得到086.14)96. 15614.731 . 0()(22tyrVst由此可以得到2 .1900n对0n进行修正,得到修正后的 n 17928502 .19012 .190100Nnnn返回2.最优分配需要考虑费用时的情形在最优分配时,如果考虑费用为
41、简单线性函数LhhhnccC10则由式(3.21)有:LhhhhhhhhcSWcSWw1Lh, 2 , 1当方差 V 给定时,代入式(3.24)得到样本量为:NSWVcSWcSWnhhhhhhhh)/()(返回3.5 分层时的若干问题1.抽样效果分析对于固定样本量的情况,如果hN1相对于1可以忽略,则srspropoptVVV式中,srspropoptVVV,分别为分层随机抽样最优分配、分层随机抽样按比例分配以及简单随机抽样简单估计的方差。返回二、层的划分 既然分层抽样比简单随机抽样效率高,那么如何既然分层抽样比简单随机抽样效率高,那么如何构造层,构造多少层,才能使分层抽样发挥其效率高构造层,
42、构造多少层,才能使分层抽样发挥其效率高的特点呢?的特点呢? 这就涉及最优分层和确定层数的问题。这就涉及最优分层和确定层数的问题。返回(一)最优分层iY为了提高抽样效率,按调查目标量进行分层当然是最好的,但我们在调查前并不知道 的值,因此分层只能通过与高度相关的辅助指标 来进行.(见P56)iYiX返回(二) 层的确定 当分层是按自然层或单元类型划分时,层数是自然的,但当遇到上述运用累积平方根法进行分层时,就存在层数问题。 在实际工作中,层数一般不超过六层。虽然增加层数可以提高估计精度,但在总费用一定的条件下增加层数必然导致降低样本量,这时就要考虑增加层数而降低样本量在精度上是否合算。返回三、事
43、后分层 我们一般在抽样之前将总体中的所有单元分好层,但在实际工作中,有时没有层的抽样框,或总体特别大来不及事先分层等原因.这时我们又想采用分层抽样,就可以采用事后分层.返回 事后分层要注意的问题事后分层要注意的问题(1)(1)要求我们可以通过某种途径知道各要求我们可以通过某种途径知道各层的层大小或层权层的层大小或层权; ;(2)(2)层权与实际情况不能相差太大层权与实际情况不能相差太大, ,否则否则不可能提高精度不可能提高精度; ;(3)(3)事后分层的层数不宜太多事后分层的层数不宜太多. .返回 事后分层的具体实施办法事后分层的具体实施办法 先采用简单随机抽样的方法从总体中抽取一先采用简单随
44、机抽样的方法从总体中抽取一个样本量为个样本量为n n的样本,然后对样本中的单元按某的样本,然后对样本中的单元按某种特征进行分层。种特征进行分层。 假设在容量为假设在容量为n n的样本中,落入第的样本中,落入第h h层的样本层的样本单元数为单元数为 ,有,有 , 则此时对总体均值的事后分层估计为:则此时对总体均值的事后分层估计为:hmnmLhh1返回21221122111)(111)()1(hNihihhhLhhLhhhhpstmihihLhhhLhhpstYYNSSWNmSWyVymWyWyhh这里,这里, 下标下标“pstpst”表示事后分层;表示事后分层; 代表落入第代表落入第h h层的第
45、层的第i i个个 样本单元的指标值。样本单元的指标值。hiy返回 理论上理论上, ,只要只要n n充分大,事后分层估计量是充分大,事后分层估计量是无偏的。且它的方差有如下性质:无偏的。且它的方差有如下性质:LhhhprophLhhhLhhpstpstSWnVSWnSWnfyVEYyE12221221)1 (1)1 (11)()(返回LhhhproppstSWnVyVE122)1 (1)( 由上式可以看出,第一项就是按比例分由上式可以看出,第一项就是按比例分配分层抽样估计量的方差,第二项表示因事配分层抽样估计量的方差,第二项表示因事后分层而非事先按比例分配分层引起的方差后分层而非事先按比例分配分
46、层引起的方差增加量。由此看出,只要样本量足够大,事增加量。由此看出,只要样本量足够大,事后分层的精度与比例分配事先分层的精度相后分层的精度与比例分配事先分层的精度相当。当。返回 事后分层均值估计量事后分层均值估计量 的方差的方差 ,可以用下面的式子来估计:可以用下面的式子来估计:psty)(pstyV21221)(11)1 (1)(hmihihhhLhhpstyymssWnfyvh其中其中返回例例3.73.7 某高校欲了解在校学生用于课外进修(考证等)的开支,在全校8000名学生中抽出一个200人的简单随机样本.根据学生科的统计,本科生人数为全校学生的70%,调查最近一个学期课外进修支出(单位
47、:元)的结果如下表.试估计全校学生用于课外进修的平均支出.返回层层权 样本量样本均值样本标准差本科生0.7120253.4231.00研究生0.380329.4367.00合计1200283.8294.57在校学生课外进修开支调查结果在校学生课外进修开支调查结果解:全校学生用于课外进修的平均开支为:2 .2764 .3293 . 04 .2537 . 021hhhpstyWy返回2122221)1 (11)(hhhhhhpstsWnsWnfyv83.381)3677 . 02313 . 0(2001)3673 . 02317 . 0(200025. 0122222估计量的方差为:返回如果采用简
48、单估计,则估计的方差为:01.42357.294200025. 011)(22snfyv 很显然,事后分层抽样要比简单随机抽样的估计量精度要高!返回思考题思考题(教材P131,题3.7) 如果一个大的简单随机样本按类别分为如果一个大的简单随机样本按类别分为6 6组,组,然后按层的实际大小重新进行加权,这一过程称然后按层的实际大小重新进行加权,这一过程称为事后分层,采用这种方法是由于(判断以下说为事后分层,采用这种方法是由于(判断以下说法的对错):法的对错):(1 1)它是比简单随机抽样产生更精确的结果;)它是比简单随机抽样产生更精确的结果;(2 2)它是比按比例分配产生更精确的结果;)它是比按
49、比例分配产生更精确的结果;(3 3)它是比按最优分配产生更精确的结果;)它是比按最优分配产生更精确的结果;(4 4)在抽样时不能得到分层变量;)在抽样时不能得到分层变量;(5 5)它的估计量的方差与真正按比例分层随机)它的估计量的方差与真正按比例分层随机 抽样的方差差不多。抽样的方差差不多。返回本章小结本章小结分层抽样技术在实际分层抽样技术在实际中应用非常广泛;中应用非常广泛;其优点主要是便于组织其优点主要是便于组织管理且抽样效率通常比简管理且抽样效率通常比简单随机抽样要高;单随机抽样要高;与简单随机抽样相比分层抽样在抽样之前需与简单随机抽样相比分层抽样在抽样之前需要对总体抽样框进行分层,这个过程有时是现要对总体抽样框进行分层,这个过程有时是现成的,有时需要增加额外的工作量。成的,有时需要增加额外的工作量。返回本章作业本章作业 (1 1)熟悉本章的证明;)熟悉本章的证明;(2 2)思考书后习题)思考书后习题3.13.1、习题、习题3.2 3.2 ;(3 3)在作业本上完成书后习题)在作业本上完成书后习题3.33.3,习题,习题3.43.4, 习题习题3.53.5。(第三章结束)
限制150内