第四章分层随机抽样(抽样理论与方法河南财政学院).pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第四章分层随机抽样(抽样理论与方法河南财政学院).pptx》由会员分享,可在线阅读,更多相关《第四章分层随机抽样(抽样理论与方法河南财政学院).pptx(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章 分层随机抽样分层随机抽样河南财经学院河南财经学院4.1 4.1 概述概述 一、分层抽样(一、分层抽样(stratified sampling)stratified sampling)、分层随机抽样分层随机抽样(stratified random sampling)(stratified random sampling) 分层抽样分层抽样:将容量为:将容量为N N的总体分成的总体分成L L个不相重叠的子总个不相重叠的子总体,子总体的大小分别为体,子总体的大小分别为N N1 1、 N N2 2、 N NL L,皆已知,且皆已知,且 则每个子总体就称为层。从每层中独立地进行抽样,则每个
2、子总体就称为层。从每层中独立地进行抽样,这样的抽样方法称为分层抽样。这样的抽样方法称为分层抽样。 分层随机抽样分层随机抽样:在分层抽样中,如果每层中的抽样都:在分层抽样中,如果每层中的抽样都是简单随机抽样,则这样的分层抽样称为分层随机抽是简单随机抽样,则这样的分层抽样称为分层随机抽样。样。NNL1ih 河南财经学院河南财经学院二、分层抽样的适用场合二、分层抽样的适用场合 不仅需要估计总体参数,也需要估计各层参数。不仅需要估计总体参数,也需要估计各层参数。 便于管理,按现成的地理分布或行政划分来分层。便于管理,按现成的地理分布或行政划分来分层。 希望样本中能包含各个部分,以增加代表性。希望样本中
3、能包含各个部分,以增加代表性。 把一个内部差异很大的总体分成几个内部比较相似的把一个内部差异很大的总体分成几个内部比较相似的子总体(层)进行分层抽样,可以提高估计量的精度。子总体(层)进行分层抽样,可以提高估计量的精度。如果有极端值,也可以把它们分离出来形成一层。即如果有极端值,也可以把它们分离出来形成一层。即“层间方差大,层内方差小层间方差大,层内方差小”。三、进行分层抽样时,应注意的方面三、进行分层抽样时,应注意的方面 层内抽样设计的选择。层内抽样设计的选择。 分层变量的选择。分层变量的选择。 各层样本量的分配,样本总量的确定。各层样本量的分配,样本总量的确定。 层数。层数。 层的分界。层
4、的分界。河南财经学院河南财经学院4.2 4.2 简单估计量及其性质简单估计量及其性质对总体均值或总值的估计:对总体均值或总值的估计:层权层权hhWN/N L21hhL,表示层的编号,表示层的编号,层,以层,以设总体分为设总体分为 nnnnnNNNNNL1ihL1L1ihL1 ,)样样本本(,)总总体体(河南财经学院河南财经学院 hhhhhhn1i2hhih2hN1i2hhih2hn1ihihhN1ihihhn1ihihN1ihihyy1n1sYY1N1Syn1yYN1YyyYYhh)()(层样本层样本第第层层总体第总体第hnhNhhi1hhhhi1hhyyynhYYYNh,个样本单元:个样本单
5、元:层样本有层样本有第第,个总体单元:个总体单元:层有层有总体第总体第河南财经学院河南财经学院例例4.1 4.1 总体由总体由10001000人组成,按以往的收入情况将总体分成人组成,按以往的收入情况将总体分成两层:第一层(高收入层),两层:第一层(高收入层),2020人;第二层(低收入人;第二层(低收入层),层),980980人。从第一层随机抽取人。从第一层随机抽取2 2人,调查上月收入,人,调查上月收入,得数据(单位:元)得数据(单位:元)12001200及及16001600;从第二层随机抽取;从第二层随机抽取8 8人,人,调查上月收入,得数据(单位:元)调查上月收入,得数据(单位:元)2
6、20220、230230、180180、320320、400400、340340、280280、360360。估计这。估计这10001000人上月平均收入。人上月平均收入。解:解: 对比:对比:43.31325.29110009801400100020yWyWNyNyNNYYY2211221121 5131036022016001200y 河南财经学院河南财经学院一、分层抽样中一、分层抽样中, L1hhhhYYYNYh,层,都有层,都有若对任一层,假设为第若对任一层,假设为第 L1hh2hL1hhL1hhhL1hhYVNYVYVYNYY)1()()()(方差方差 L1hh2hstL1hhhL1
7、hhhL1hhst)Y(VWYVYWYNNNYY)2()(方差方差河南财经学院河南财经学院 L1h2hhh2hL1hh2hststSnf1WyVWyVy)()(的方差为的方差为ststL1hhhL1hhhststyY,yWYWyYY. 1记为记为为:为:的无偏简单估计的无偏简单估计 )的无偏估计。)的无偏估计。(且为且为的估计:的估计:的方差的方差yVsnf1W)y(v)y(VY2hL1hhh2hstst hhyY,的简单估计为的简单估计为则则分层随机抽样分层随机抽样河南财经学院河南财经学院 )y( suy),y( suy1Yst21stst21st的置信区间为:的置信区间为:的置信度为的置信
8、度为 L1h2hhh2hL1hh2hL1hhL1hhhL1hhhL1hhSnf1NyVNYVYVyNYNYYY. 2)()()(方差方差的估计:的估计:总体总和总体总和2hL1hhh2hststsnf1W)y(v)y(VY 的无偏估计:的无偏估计:的方差的方差河南财经学院河南财经学院例例3.3. 调查某地区的居民奶制品年消费支出,以居民调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户分为户为抽样单元,根据经济及收入水平将居民户分为层,每层按简单随机抽样抽取户,调查数据如下,层,每层按简单随机抽样抽取户,调查数据如下,估计该地区居民奶制品年消费总支出及估计的标准差
9、。估计该地区居民奶制品年消费总支出及估计的标准差。样本户奶制品年消费支出样本户奶制品年消费支出层层居民居民户总户总数数样本户奶制品年消费支出样本户奶制品年消费支出1 12 23 34 45 56 67 78 89 910101 1200200101040400 0110110151510104040808090900 02 2400400505013013060608080100100555516016085851601601701703 37507501801802602601101100 014014060602002001801803003002202204 41500150050503
10、53515150 0202030302525101030302525河南财经学院河南财经学院解:解:2096502415001657501054005 .39200yNY)1(L1hhh 23208)Y(v)Y( s1039. 5snf1N)yN(v)Y(v)Y(VY)2(82hL1hhh2hst 的估计:的估计:的方差的方差333.193s24y556.8205s165y667.2166s105y722.1624s5 .39y244233222211 :各层样本均值及方差为各层样本均值及方差为河南财经学院河南财经学院(3 3)该地区居民奶制品年消费总支出的置信度为)该地区居民奶制品年消费总支
11、出的置信度为95%95%的的置信区间为置信区间为 255138164162)Y( suY),Y( suY2121, 河南财经学院河南财经学院例例3.33.3:某市进行家庭收入调查,分城镇居民及农村居:某市进行家庭收入调查,分城镇居民及农村居民两部分抽样,在全部城镇居民民两部分抽样,在全部城镇居民2356023560户中随机抽取户中随机抽取300300户,在全部农村居民户,在全部农村居民148420148420户中随机抽取户中随机抽取250250户,户,调查结果是城镇年平均户收入为调查结果是城镇年平均户收入为1518015180元,标准差为元,标准差为29722972元;农村年平均户收入为元;农
12、村年平均户收入为98569856元,标准差为元,标准差为25462546元。求全市年平均户收入的置信度为元。求全市年平均户收入的置信度为90%90%的置信的置信区间。区间。解:解:34.142snf1W)y(v)y( s21i2iii2istst 39.1058598561719801484201518017198023560yWyWy2211st 54.1081924.10351,34.142645. 139.1058590%,即即的置信区间为:的置信区间为:信度为信度为全市年平均户收入的置全市年平均户收入的置 河南财经学院河南财经学院3 3、分层随机抽样中,总体比例、分层随机抽样中,总体比
13、例P P的简单估计的简单估计.pP,pWPWpPL1hhhL1hhhst记记为为的的简简单单估估计计为为 ,则,则的简单估计为的简单估计为设设hhpP L1hh2hststpVWpVp)()(的方差的方差 L1h2hhh2hSnf1W L1hhhhhhh2hQP1NNnf1W很大时)很大时)当当hL1hhhhh2hN(QPnf1W 河南财经学院河南财经学院估计的性质估计的性质(1 1)(2 2)的无偏估计。的无偏估计。且是且是的简单估计为的简单估计为的性质:的性质:stL1hhhststppWpPp 很大时)很大时)当当)()(的方差的方差hL1hhhhh2hL1hhhhhhh2hL1hh2h
14、ststN(QPnf1WQP1NNnf1WpVWpVp 河南财经学院河南财经学院)的无偏估计。)的无偏估计。(且为且为的估计:的估计:的方差的方差stL1hhhhh2hstststpVqp1nf1W)p(v)p(Vp )p( sup),p( sup1Pst21stst21st的置信区间为:的置信区间为:的置信度为的置信度为(3)(3)(4)(4)河南财经学院河南财经学院 L1hh2hL1hh2hL1hhhL1hhhpVNPVNAVApNPNA)()()(的方差的方差4 4河南财经学院河南财经学院例例:在某行业技术人员中,按年龄分层,调查会使用计:在某行业技术人员中,按年龄分层,调查会使用计算机
15、者所占的比例。数据如下:算机者所占的比例。数据如下: 试估计总体中会计算机者占的比例。试估计总体中会计算机者占的比例。层层人数人数入样人数入样人数样本中会使用样本中会使用计算机的人数计算机的人数3030岁以下岁以下778177817171242430-3530-35岁岁749774976868121236-4036-40岁岁977997798989222241-4541-45岁岁46274627424211114545岁以上岁以上5366536650504 4总计总计3505035050320320河南财经学院河南财经学院解:解:2286. 0pWp)1(51hhhst 000534. 01n
16、)p1(p)f1(W)p(v)2(51hhhhh2hst %39.27%,33.18)p(Vup, )p(Vup%95P)3(st21stst21st 的置信区间为:的置信区间为:置信度为置信度为河南财经学院河南财经学院3.3 3.3 各层样本量的分配各层样本量的分配在分层随机抽样中,假设样本量在分层随机抽样中,假设样本量n n固定固定 L1h2hhL1hh2h2h2hL1hhh2hstNSWnSWSnf1W)y(VY的方差:的方差: L1hhh0nccC,则总费用为:,则总费用为:考虑简单线性费用函数考虑简单线性费用函数河南财经学院河南财经学院1.1.比例分配:指按各层层权(各层单元数占总体
17、单元数的比例分配:指按各层层权(各层单元数占总体单元数的比例)进行分配。比例)进行分配。 l1h2hhh2hpropSnf1W)y(VhhhWNNnn L1hhhpropyWy则:则:fNnNnfhhh hin1ihL1hhhyn1NN hin1ihL1hhhyn1nnyyn1L1hn1ihhi l1h2hh2hSnWf1W l1h2hh2w2wl1h2hhSWS,Snf1SWnf1权平均。权平均。为各层方差按层权的加为各层方差按层权的加其中其中河南财经学院河南财经学院例例:假设某公司欲估计某类产品的用户的每年平均支出。:假设某公司欲估计某类产品的用户的每年平均支出。企划人员拟就整个潜在用户的
18、名单,共企划人员拟就整个潜在用户的名单,共80008000户。户。 采用分层随机抽样抽取样本采用分层随机抽样抽取样本200200户,求按比例分配时户,求按比例分配时各层样本量。各层样本量。层层每层每层中的潜在用户中的潜在用户少用少用20002000中等中等40004000多用多用20002000总和总和N=8000N=8000河南财经学院河南财经学院。、各层样本量分别为各层样本量分别为50100505080002000nWn10020080004000nWn3322 5020080002000nWn11 解:解:河南财经学院河南财经学院例例. . 某电视台要在某地区的住户中某电视台要在某地区的
19、住户中, ,调查该台的晚间新闻调查该台的晚间新闻的收视率。该地区包括的收视率。该地区包括3 3个县个县, ,共有共有6740167401家住户。假定家住户。假定该电视台采用等比例分层随机抽样分别从三个县抽取该电视台采用等比例分层随机抽样分别从三个县抽取住户,样本量为住户,样本量为15001500。每个县的总户数以及抽样数据。每个县的总户数以及抽样数据列表如下:列表如下: 求该地区新闻收视率的求该地区新闻收视率的95%95%的置信区间。的置信区间。县县i i每个县的户数每个县的户数N Ni i每个县被抽出每个县被抽出的户数的户数n ni i 每个县的样本收每个县的样本收视率视率 p pi i1
20、12 23 348107481071241912419 6875 6875 10711071 276 276 153 153 0.270.270.180.180.170.17合计合计N=67401N=67401n=1500n=1500河南财经学院河南财经学院解:解:分层随机抽样时,收视率分层随机抽样时,收视率P P的估计为:的估计为: 011. 0182. 015006740115001snf1)p(v)p( s182. 083. 017. 067401687582. 018. 0674011241973. 027. 06740148107qpWsWs243. 0pWp2wstst31hhhh
21、2h31hh2w31hhhst 河南财经学院河南财经学院收视率收视率P P的置信度为的置信度为95%95%的近似置信区间为:的近似置信区间为:即有即有95%95%的把握可以认为,该地区的新闻收视率在的把握可以认为,该地区的新闻收视率在22.1%22.1%26.5%26.5%之间。之间。 265. 0 ,221. 0011. 096. 1243. 0)p( spst21st即即 河南财经学院河南财经学院2.2.最优分配:最优分配: L1hhh0nccC,则总费用为:,则总费用为:考虑简单线性费用函数考虑简单线性费用函数 L1h2hhL1hh2h2h2hL1hhh2hstNSWnSWSnf1W)y
22、(VY的方差:的方差:河南财经学院河南财经学院L, 2 , 1h,c/SWc/SWnnL1hhhhhhhh 样本量的最优分配为:样本量的最优分配为:的方差达到最小值的方差达到最小值在最优分配中,在最优分配中,)y(VYstmin L1h2hhL1hh2h2hstminNSWnSW)y(V L1h2hhL1hhhhL1hhhhNSW)c/SW)(cSW(河南财经学院河南财经学院 L1h2hhL1hh2h2hL1h2hhh2hL1h2hhh2hhNSWnSWS)N1n1(WSnf1WVn ,估计量的方差为,估计量的方差为对给定的对给定的证明:证明: L1hh2h2hL1h2hhnSWNSWVV L
23、1hhh0TnCCC L1hhh0TnCCCC河南财经学院河南财经学院)nC)(nSW(CVL1hhhL1hh2h2h 常数常数有的有的等式成立的条件是对所等式成立的条件是对所许瓦兹不等式许瓦兹不等式根据柯西根据柯西 hh2hh2h2hab,h)ba()b)(a(: 2L1hhhhL1h2hhL1h2hhh)CSW()nC)(nSW(CV 达到最小达到最小时时即即常数常数且当且当CV,CSWKn, )K(SWnCnSWnChhhhhhhhhhhhh )nC)(nSW(L1h2hhL1h2hhh 河南财经学院河南财经学院L, 2 , 1h,c/SWc/SWnnL1hhhhhhhh 样本量的最优分
24、配为:样本量的最优分配为:的方差达到最小值的方差达到最小值在最优分配中,在最优分配中,)y(VYstmin L1h2hhL1hh2h2hstminNSWnSW)y(V L1h2hhL1hhhhL1hhhhNSW)c/SW)(cSW( hhhhhhC/SWKnn河南财经学院河南财经学院例例. .在例在例3.23.2中,样本量仍为中,样本量仍为n=40n=40,则按比例分配和则按比例分配和NeymanNeyman分配时,各层的样本量为多少?分配时,各层的样本量为多少?)时的最优分配。)时的最优分配。用相同(用相同(指每层抽取一个单元费指每层抽取一个单元费分配:分配:L, 1h, ccNeymanh
25、 特例:特例: h2hh2hhhstminstminSWN1SWn1yVyVY,Neyman)()():):(的方差达到最小值的方差达到最小值分配下分配下在在L, 2 , 1h,SWSWnnL1hhhhhh 河南财经学院河南财经学院例例. . 在例在例3.33.3中,样本量仍为中,样本量仍为n=550n=550。 城镇居民城镇居民2356023560户,农村居民户,农村居民148420148420户。户。 城镇居民与农村居民的年收入的标准差分别为城镇居民与农村居民的年收入的标准差分别为S S1 1=3000=3000元元,S,S2 2=2500=2500元。元。 对城镇居民与农村居民抽样平均每
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 分层 随机 抽样 理论 方法 河南 财政 学院
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内