第四章分层随机抽样.pptx
《第四章分层随机抽样.pptx》由会员分享,可在线阅读,更多相关《第四章分层随机抽样.pptx(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章 分层随机抽样4.1 概述 4.1.1分层抽样分层抽样(stratified sampling)、分层随机抽样分层随机抽样(stratified random sampling):分层抽样分层抽样:将容量为N的总体分成L个不相重叠的子总体,子总体的大小分别为N1、 N2、 NL,皆已知,且 每个子总体就称为层。层。从每层中独立地进行抽样,这样的抽样方法称为分层抽样分层抽样。分层随机抽样分层随机抽样:在分层抽样中,如果每层中的抽样都是简单随机抽样,则这样的分层抽样称为分层随机抽样。NNLhh14.1.2分层抽样的适用场合分层抽样的适用场合:(1)不仅需要估计总体参数,也需要估计各层参数。(
2、2)便于管理,按现成的地理分布或行政划分来分层。(3)希望样本中能包含各个部分,以增加代表性。(4)把一个内部差异很大的总体分成几个内部比较相似的子总体(层)进行分层抽样,可以提高估计量的精度。如果有极端值,也可以把它们分离出来形成一层。 即“层间方差大,层内方差小”。4.2 简单估计量及其性质对总体均值或总值的估计:层权hhWNN/LhhL,表示层的编号,层,以设总体分为21nnnnnNNNNNLihLLihL1111,)样本(,)总体(hhhhhhnihhihhNihhihhnihihhNihihhnihihNihihyynsYYNSynyYNYyyYYhh1221221111111111
3、)()(层样本第层总体第hhNhnhihhhhihhyyynhYYYNh,个样本单元:层样本有第,个总体单元:层有总体第11一、分层抽样中一、分层抽样中LhhhhYYYNYh1,层,都有若对任一层,假设为第LhhhLhhLhhhLhhYVNYVYVYNYY12111) 1 ()()()(方差LhhhstLhhhLhhhLhhstYVWYVYWYNNNYY12111)()2()(方差LhhhhhLhhhststSnfWyVWyVy122121)()(的方差为ststLhhhLhhhststyYyWYWyYY记为为:的无偏简单估计,. 111)的无偏估计。(且为的估计:的方差yVsnfWyvyVY
4、hLhhhhstst2121)()(hhyY的简单估计为则分层随机抽样,)(),(12121ststststysuyysuyY的置信区间为:的置信度为LhhhhhLhhhLhhLhhhLhhhLhhSnfNyVNYVYVyNYNYYY1221211111. 2)()()(方差的估计:总体总和2121)()(hLhhhhststsnfWyvyVY的无偏估计:的方差例4.:调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户分为层,每层按简单随机抽样抽取户,调查数据如下,估计该地区居民奶制品年消费总支出及估计的标准差。表:样本户奶制品年消费支出表:样本户奶制品年消费支出
5、层 居民户总数样本户奶制品年消费支出1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025解:2096502415001657501054005 .39200)1 (1LhhhyNY23208)()(1039.51)()()()2(8212YvYssnfNyNvYvYVYhLhhhhst的估计:的方差333.19324556.8205165667.2166105722.16245 .39244233222211sy
6、sysysy:各层样本均值及方差为(3)该地区居民奶制品年消费总支出的置信度为95%的置信区间为255138164162)(),(2121,YsuYYsuY例4.3:某市进行家庭收入调查,分城镇居民及农村居民两部分抽样,在全部城镇居民23560户中随机抽取300户,在全部农村居民148420户中随机抽取250户,调查结果是城镇年平均户收入为15180元,标准差为2972元;农村年平均户收入为9856元,标准差为2546元。求全市年平均户收入的置信度为90%的置信区间。解:34.1421)()(2122hhhhhststsnfWyvys39.105859856171980148420151801
7、71980235602211yWyWyst54.1081924.10351,34.142645. 139.1058590%,即的置信区间为:信度为全市年平均户收入的置3、分层随机抽样中,总体比例P的简单估计stLhhhLhhhstpPpWPWpP记为的简单估计为,11,则的简单估计为设hhpPLhhhststpVWpVp12)()(的方差LhhhhhSnfW1221LhhhhhhhhQPNNnfW1211很大时)当hLhhhhhhNQPnfW(112估计的性质(1)(2)的无偏估计。且是的简单估计为的性质:stLhhhststppWpPp1很大时)当)()(的方差hLhhhhhhLhhhhhh
8、hhLhhhststNQPnfWQPNNnfWpVWpVp(111121212)的无偏估计。(且为的估计:的方差stLhhhhhhstststpVqpnfWpvpVp1211)()()3()(),(1)4(2121ststststpsuppsupP的置信区间为:的置信度为LhhhLhhhLhhhLhhhpVNPVNAVApNPNA121211. 4)()()(的方差例:在某行业技术人员中,按年龄分层,调查会使用计算机者所占的比例。数据如下:试估计总体中会计算机者占的比例。层人数入样人数样本中会使用计算机的人数30岁以下778171243035岁749768123640岁977989224145
9、岁4627421145岁以上5366504总计35050320解:2286. 0) 1 (51hhhstpWp000534. 01)1 ()1 ()()2(512hhhhhhstnppfWpv%39.27%,33.18)(, )(%95) 3(2121ststststpvuppvupP的置信区间为:置信度为4.3 各层样本量的分配在分层随机抽样中,假设样本量n固定LhhhLhhhhhLhhhhstNSWnSWSnfWyVY121222121)(的方差:LhhhnccC10,则总费用为:考虑简单线性费用函数1.比例分配:指按各层层权(各层单元数占总体单元数的比例)进行分配。lhhhhhpropS
10、nfWyV1221)(hhhWNNnnLhhhpropyWy1则:fNnNnfhhhhinihLhhhynNN111hinihLhhhynnn111yynLhnihhi111lhhhhSnWfW1221lhhhwwlhhhSWSSnfSWnf122212,11权平均。为各层方差按层权的加其中例:假设某公司欲估计某类产品的用户的每年平均支出。企划人员拟就整个潜在用户的名单,共8000户。 采用分层随机抽样抽取样本200户,求按比例分配时各层样本量。层每层中的潜在用户少用2000中等4000多用2000总和N=8000。、各层样本量分别为501005050800020001002008000400
11、03322nWnnWn502008000200011nWn解:例. 某电视台要在某地区的住户中,调查该台的晚间新闻的收视率。该地区包括3个县,共有67401家住户。假定该电视台采用分层随机抽样分别从三个县抽取住户,样本量为1500。每个县的总户数以及抽样数据列表如下: 求该地区新闻收视率的95%的置信区间。县h每个县的户数Nh每个县被抽出的户数nh 每个县的样本收视率 ph1234810712419 6875 1071 276 153 0.270.180.17合计N=67401n=1500解:分层随机抽样时,收视率P的估计为: 011. 0182. 0150067401150011)()(18
12、2. 083. 017. 067401687582. 018. 0674011241973. 027. 06740148107243. 0231231231wststhhhhhhhwhhhstsnfpvpsqpWsWspWp收视率P的置信度为95%的近似置信区间为:即有95%的把握可以认为,该地区的新闻收视率在22.1%26.5%之间。265. 0 ,221. 0011. 096. 1243. 0)(21即ststpsp2.最优分配:LhhhTnccC10,则总费用为:考虑简单线性费用函数LhhhLhhhhhLhhhhstNSWnSWSnfWyVY121222121)(的方差:LhcSWcSW
13、nnLhhhhhhhh, 2 , 1,/1样本量的最优分配为:的方差达到最小值在最优分配中,)(minstyVYLhhhLhhhhstNSWnSWyV122122min)(LhhhLhhhhLhhhhNSWncSWcSW12211)/)(LhhhLhhhhLhhhhhLhhhhhNSWnSWSNnWSnfWV12122122122h)11(1n ,估计量的方差为对给定的证明:LhhhhLhhhnSWNSWVV12212L1hhh0nCCCTL1hhh0CnCCCT)(CVL1hhh122nCnSWLhhhh常数有的等式成立的条件是对所许瓦兹不等式根据柯西hhhhhabhbaba,)()( :2
14、2h221L1h2hh12)()(CVLhhhhLhhhhCSWnCnSW达到最小时即常数且当CV,K, )K(hhhhhhCSWnSWnCnSWnChhhhhhh)(L1h2hh12nCnSWLhhhhLhcSWcSWnnLhhhhhhhh, 2 , 1,/1样本量的最优分配为:的方差达到最小值在最优分配中,)(minstyVYLhhhLhhhhstNSWnSWyV122122min)(LhhhLhhhhLhhhhNSWncSWcSW1211)/)(hhh/KCSWnnhhh)时的最优分配。用相同(指每层抽取一个单元费分配:LhccNeymanh, 1,特例:hhhhhhststSWNSWn
15、yVyVYNeyman222minmin11,)()():(的方差达到最小值分配下在LhSWSWnnLhhhhhh, 2 , 1,1例.在例4.3中,样本量仍为n=550。 城镇居民23560户,农村居民148420户。 城镇居民与农村居民的年收入的标准差分别为S1=3000元,S2=2500元。 对城镇居民与农村居民抽样平均每户的费用比为1:2, 试求城镇与农村两层比例分配与最优分配的样本量。 又若不考虑费用因素,那么最优分配的结果如何?7555017198023560111nWn)比例分配解:(43327.4335503 .19366 .1525/12222ncSWcSWnLhhhh475
16、55017198014842022nWn11773.1165503 .1936411/211111ncSWcSWnLhhhh)最优分配(46299.4615505 .25685 .21571222nSWSWnLhhh8801.885505 .25680 .41131111nSWSWnNeymanLhhh分配)(例3.:调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户分为层,每层按简单随机抽样抽取户,调查数据如下,估计该地区居民奶制品年消费总支出及估计的标准差。表:样本户奶制品年消费支出表:样本户奶制品年消费支出层 居民户总数样本户奶制品年消费支出12345678
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 分层 随机 抽样
限制150内