第三章分层随机抽样.pptx
《第三章分层随机抽样.pptx》由会员分享,可在线阅读,更多相关《第三章分层随机抽样.pptx(148页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2022-4-241第三章分层随机抽样第三章分层随机抽样 3.1 概述概述 3.2简单估计量及其性质简单估计量及其性质 3.3样本量在各层的分配样本量在各层的分配 3.4 回归估计量及其性质回归估计量及其性质 3.5 各层样本量的分配各层样本量的分配 3.6总样本量的确定总样本量的确定2022-4-242 简单随机抽样只适合小型的抽样调查简单随机抽样只适合小型的抽样调查: 1. 抽样框抽样框 2. 代表性代表性 如如:了解中国各民族的情况了解中国各民族的情况:(鄂伦春族鄂伦春族)2022-4-243第一节概述第一节概述 一定义与作用一定义与作用 (一一)分层抽样和分层随机抽样分层抽样和分层随机
2、抽样 先将总体个单元划分成个互不重复的子总体,每个子先将总体个单元划分成个互不重复的子总体,每个子 总体称为层,它们的大小分为别,这个层总体称为层,它们的大小分为别,这个层 合起来就是整个总体()。合起来就是整个总体()。 然后,在每个层中分别然后,在每个层中分别独立独立进行抽样,这种抽样就是分层抽样,进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。如果每层都是简单随机抽样,则所得到的样本称为分层样本。如果每层都是简单随机抽样,则称为分层随机抽样,所得到的样本称为分层随机样本。称为分层随机抽样,所得到的样本称为分层随机样本。LNNN,.,21LhhN1不重不漏2022-4-244 各
3、层中的抽样是独立进行的,因此,在各各层中的抽样是独立进行的,因此,在各层中所采取的抽样手段完全可以不相同,层中所采取的抽样手段完全可以不相同,在一个层进行简单随机抽样,在另一层则在一个层进行简单随机抽样,在另一层则可采用更复杂一些的抽样,完全视各层的可采用更复杂一些的抽样,完全视各层的情况不同而定,这种因地制宜的手段将使情况不同而定,这种因地制宜的手段将使样本尽可能反映总体的特性以及子总体的样本尽可能反映总体的特性以及子总体的特性。特性。 分层抽样有时也称为分层抽样有时也称为类型抽样或分类抽样类型抽样或分类抽样。2022-4-245 分层随机抽样三原则:分层随机抽样三原则:(1)每层都抽样每层
4、都抽样;(2)各层都)各层都独立独立地抽样;地抽样;(3)各层的抽样都是)各层的抽样都是简单随机抽样简单随机抽样。2022-4-246 (二)特点:(二)特点: .分层抽样的抽样效率较高,也就是说分层分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。抽样的估计精度较高。 注意:注意: 分层抽样估计量的方差只和层内方差有关,分层抽样估计量的方差只和层内方差有关,和层间方差无关。和层间方差无关。 .分层抽样不仅能对总体指标进行推算,分层抽样不仅能对总体指标进行推算, 而且能对各层指标进行推算。而且能对各层指标进行推算。 如如:消费物价指数消费物价指数(全国和各省全国和各省) .层内抽样方法可
5、以不同,而且便于抽样层内抽样方法可以不同,而且便于抽样 工作的组织。工作的组织。2022-4-247(三三)作用作用 可以对各层的参数进行估计可以对各层的参数进行估计, 有助于提有助于提高估计精度高估计精度。2022-4-248二使用场合二使用场合 应用条件:应用条件: 适合于适合于各层差异较大各层差异较大,有进行分层的辅助信息有进行分层的辅助信息。 层的划分原则:层的划分原则:层内单元具有相同性质,通常按调查对象的不同类型进层内单元具有相同性质,通常按调查对象的不同类型进 行划分,行划分,这时,分层抽样能够对每一类的目标量进行估这时,分层抽样能够对每一类的目标量进行估 计。计。尽可能使层内单
6、元的标志值相近,层间单元的差异尽可尽可能使层内单元的标志值相近,层间单元的差异尽可 能大,从而达到提高抽样估计精度的目的。能大,从而达到提高抽样估计精度的目的。既按类型又按层内单元标志值相近的原则进行多重分既按类型又按层内单元标志值相近的原则进行多重分 层,同时达到实现估计类值以及提高估计精度的目的。层,同时达到实现估计类值以及提高估计精度的目的。为了抽样组织实施的方便,通常按行政管理机构设置进为了抽样组织实施的方便,通常按行政管理机构设置进 行分层。行分层。2022-4-249如:对全国汽车货运量调查,目的是不仅要如:对全国汽车货运量调查,目的是不仅要了解全国货运量,而且推算不同经济成分了解
7、全国货运量,而且推算不同经济成分货运量。货运量。 首先为组织方便首先为组织方便,按省分层;各省再按按省分层;各省再按经济成分分层;为提高抽样效率经济成分分层;为提高抽样效率,再按吨位再按吨位分层。分层。2022-4-2410三符号说明三符号说明层号:层号:h(h=1,2,L) 第第h层的记号如下层的记号如下: 单元总数:单元总数:样本单位数:第样本单位数:第i个单元标志值为个单元标志值为: 从该层中抽取的样本的单元值为从该层中抽取的样本的单元值为: 层权:层权: 抽样比:抽样比:总体均值:总体均值: 样本均值:样本均值:hNhn),.,2, 1(hhiniyNNWhhhhhNnfhNihihh
8、YNY11hnihihhyny11),.,2 , 1(hhiNiY2022-4-2411 层内方差:层内方差: 样本方差:样本方差:212)(11hNihhihhYYNShnihhihhyyns122)(112022-4-2412第二节简单估计量及其性质第二节简单估计量及其性质 一总体均值的估计一总体均值的估计 (一一)简单估计量的定义简单估计量的定义 对于分层样本,对总体均值对于分层样本,对总体均值 的估计是通过对的估计是通过对各层的各层的 的估计的估计,按层权按层权 加权平均得到的。加权平均得到的。公式为公式为: YhYhWLhhhhLhhstYNNYWY1112022-4-2413 如果
9、得到的是如果得到的是分层随机样本分层随机样本,则总体均值则总体均值 的简单的简单估计为估计为: (二二)估计量的性质估计量的性质 性质性质1 对于对于一般的分层随机抽样一般的分层随机抽样,如果如果 是是 的无偏估计的无偏估计(h=1,2,L),则则 是是 的无偏估计。的无偏估计。即对各层估计是无偏的,则对总体的估计也是无即对各层估计是无偏的,则对总体的估计也是无偏的。偏的。 的方差为的方差为: YLhhhhLhhstyNNyWy111hYhYstYYstY LhhhstYVWYV12由于各层的抽样由于各层的抽样是相互独立的是相互独立的2022-4-2414证明:因各层抽样是相互独立,则证明:因
10、各层抽样是相互独立,则 也相互独立,也相互独立,则有则有 LhhhLhLjhhLhhstYVWWWWVYV121hjjhL1h2h1hY,Ycov2YVWYhY0Y,covjhY2022-4-2415性质性质2 对于对于分层随机抽样分层随机抽样 , 是是 的无偏估计的无偏估计, 的方差为的方差为: styYLhhhLhhhhhLhhhhLhhhhhLhhhstNSWnSWSNnWSnfWyVWyV1212221212212111)()(sty2022-4-2416 性质性质3 对于分层随机抽样对于分层随机抽样, 的一个无偏估的一个无偏估计为:计为:)(styVLhhhLhhhhhLhhhhLh
11、hhstNsWnsWsnfWyvWyv12122212121)()(2022-4-2417 注注: 当当 适当的大,各层样本适当的大,各层样本平均数平均数 均可适用正态近似,因此一般地均可适用正态近似,因此一般地 也适用于正态近似其置信区间。也适用于正态近似其置信区间。hhhhnNnN与,styhy2022-4-2418二总体总量的估计二总体总量的估计 (一)简单估计量的定义(一)简单估计量的定义 总体总量总体总量Y的估计为:的估计为: 分层随机样本分层随机样本: (二)估计量的性质(二)估计量的性质性质对于性质对于一般的分层抽样一般的分层抽样,如果是,如果是 偏估计,则偏估计,则是是Y的无偏
12、估计。的无偏估计。的方差为:的方差为:LhhstYYNY1YYYstYstyNY 2022-4-2419LhhststYVYVNYNVYV12)()()(LhhhLhhhYVNYVWN12122)()(2022-4-2420 性质对于性质对于分层随机抽样分层随机抽样,的方差为:的方差为: 性质对于分层随机抽样性质对于分层随机抽样, 的一个无偏估计为:的一个无偏估计为: Y)(YV212121)()(hLhhhhLhhhSnfNYVNYV212121)()(hLhhhhLhhhsnfNyvNYv2022-4-2421【例例3.1】调查某地区的居民奶制品年调查某地区的居民奶制品年 消费支出,以居民
13、户为抽样单元,根据经消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为层,每层济及收入水平将居民户划分为层,每层按简单随机抽样抽取户,调查获得如按简单随机抽样抽取户,调查获得如下数据(单位:元),估计该地区居民奶下数据(单位:元),估计该地区居民奶制品年消费总支出及估计的标准差。制品年消费总支出及估计的标准差。69P2022-4-2422样本户奶制品年消费支出样本户奶制品年消费支出层层 居民户居民户总数总数样本户奶制品年消费支出样本户奶制品年消费支出2022-4-2423 解: N = 200+400+750+1500=2850 =10( h=1,2,3,4)各层的层权及抽样比为:
14、 hn52632. 02850150026316. 0285075014035. 0285040007018. 0285020044332211NNWNNWNNWNNW0067.01500100133.075010025.04001005.020010444333222111NnfNnfNnfNnf2022-4-2424各层样本均值及样本方差为:各层样本均值及样本方差为:241651055 .39143211111yyyynynii333.193556.8205667.2166722.1624)y(1124232212111211sssynsnii2022-4-2425 该地区居民奶制品年消费
15、总支出该地区居民奶制品年消费总支出: : 估计量方差及标准差的样本估计为估计量方差及标准差的样本估计为: :2096502415001657501054005 .3920041hhhyNY82h41hhh2h41221039. 5snf1N)()(hhhyvWNYv2022-4-2426 在在95%的概率保证下的概率保证下该地区居民该地区居民奶制品年消费总支出区间为奶制品年消费总支出区间为: :)(23208)()(元YvYs元之间即在2551381641622320896. 1209650)(YtsY2022-4-2427 【例例3.2】某市进行家庭收入调查某市进行家庭收入调查, ,分城镇居
16、民分城镇居民和农村居民两部分抽样和农村居民两部分抽样, ,在全部城镇在全部城镇2356023560户户中抽取中抽取300300户户, ,在全部农村在全部农村148420148420户中抽取户中抽取250250户户( (均按简单随机抽样进行均按简单随机抽样进行),),调查结果是城镇调查结果是城镇年平均户收入为年平均户收入为1518015180元元, ,标准差为标准差为29722972元;元;农村年平均收入为农村年平均收入为98569856元元, ,标准差为标准差为25462546元。元。求全市年平均户收入的估计及其求全市年平均户收入的估计及其90%90%的置信区的置信区间。间。2022-4-24
17、28解:)(39.1058573.850566.20799856863. 015180137. 0863. 0171980/148420137. 0171980/23560171980,148420,235602211212121元yWyWyWWNNNNNst2022-4-242920245.5225.5277.2029725.52)72.1931005.987(171980/2546863. 02972137. 0)2502546863. 03002972137. 0(22222212122LhhhLhhhhstNsWnsWyv2022-4-2430 全市年户均收入的置信区间全市年户均收入的
18、置信区间: 10585.39 1.645 142.287,即即 10351.33 10819.45(元元)注注:由于城镇居民与农村居民收入水平,抽样由于城镇居民与农村居民收入水平,抽样比不同比不同(前者大于后者前者大于后者)。如果不分层,计算。如果不分层,计算样本平均数作为全市户均年收入是不合理样本平均数作为全市户均年收入是不合理的的:287.142ststyvys12760550/250985630015180y2022-4-2431三三. . 总体比例的估计总体比例的估计 (一一)简单估计量的定义简单估计量的定义 总体比例总体比例P的估计为的估计为:(二二)估计量的性质估计量的性质 如果定
19、义如果定义 1, 第第i个单元具有所考虑的特征个单元具有所考虑的特征 0, 其他其他 i=1,2N LhhhstpWp1iY2022-4-2432 性质性质7 对于对于一般的分层抽样一般的分层抽样,如果是,如果是 的无偏估计的无偏估计(h=1,2,L),则则 是是P的无偏估的无偏估计计. 的方差为的方差为: 性质性质8 对于对于分层随机抽样分层随机抽样,是是P的一个无偏估的一个无偏估计计, 的方差为的方差为: 因为因为: 及及 hphPstpstpLhhhstpVWpV12)(stphhhhhhhnQPNnNpV1)(hhNN1stp2022-4-2433 LhhhstpVWpV12)(hhh
20、LhhhhhhLhhhhhLhhhhhhhhnQPfWnQPNnNWnQPNnNW121212)1 ()(1)(2022-4-2434 性质性质对于分层随机抽样,对于分层随机抽样, 的一个无偏估计为:的一个无偏估计为:)(stpV1)1 (11)()()(121212hhhLhhhhhhLhhhhhLhhhstnqpfWnqpNnNWpvWpv2022-4-2435【例例3.3】 了解某地区居民户拥有家庭电脑的情况如下,估计该了解某地区居民户拥有家庭电脑的情况如下,估计该地区家庭拥有电脑的比例及估计的标准差。地区家庭拥有电脑的比例及估计的标准差。 样本户拥有家庭电脑情况样本户拥有家庭电脑情况层
21、层居民户居民户总数总数样本户拥有家庭电脑情况样本户拥有家庭电脑情况 2022-4-2436解:, 2 . 01021p2 . 02p, 4 . 0,3p1 . 01014p0099.01)1()(0263.01)1()(0173.01)1()(0169.01)1()(44444333332222211111nqpfpvnqpfpvnqpfpvnqpfpv2022-4-2437 该地区家庭拥有电脑的比例的估计、估计量的方差、该地区家庭拥有电脑的比例的估计、估计量的方差、估计的标准差为估计的标准差为:2 . 0) 1 . 015004 . 07502 . 04002 . 0200(28501141
22、41hhhhhhstpNNpWp005. 0)0099. 015000263. 07500173. 04000169. 0200(28501)(1)(222224122hhhstpvNNpv2022-4-2438(三三) 总体具有所考虑特征单元总数总体具有所考虑特征单元总数A的估计的估计 它的方差 及方差估计 分别是:07. 0)()(ststpvpshLhhststpNNpA1stAVstAvhhLhhhhhstLhhhhhhhhstqpnnNNAvnQPNnNNAV112112022-4-2439 【例例3.4】为调查某个高血压高发病地区青少年与成年人高血为调查某个高血压高发病地区青少年与
23、成年人高血压的患病率压的患病率, ,对对1414岁以上的人分四个年龄组进行岁以上的人分四个年龄组进行分层随机抽样分层随机抽样, ,调查结果如下调查结果如下, ,求总体高血压的患病率求总体高血压的患病率P P的估计及其标准差的的估计及其标准差的估计。估计。 高血压患病率调查数据高血压患病率调查数据年龄组年龄组(岁岁)层权层权层样本量层样本量14-250.2814000.0830.91726-400.3226500.1740.82641-600.2136000.3100.69061以上0.1843500.4640.536hWhnhphq2022-4-2440解: P的估计量为: 为求为求 的方差估
24、计的方差估计,取取%08.232308. 0464. 0184. 0310. 0213. 0174. 0322. 0083. 0281. 01LhhhstpWpstp的近似公式为:则LhhhhhhsthhhnqpfWpvnnf12,111, 11%884. 000884. 000007818. 012ststLhhhhhstpvpsnqpWpv2022-4-24413.3 比率估计及其性质比率估计及其性质 (一一)分别比率估计分别比率估计 条件:条件: 各层的样本量都比较大各层的样本量都比较大的情况下的情况下 方法:各层分别进行比率估计,将各层加权汇总得方法:各层分别进行比率估计,将各层加权汇
25、总得到总体指标的估计。到总体指标的估计。(先比后加权先比后加权)总体均值总体均值 和总体总量和总体总量Y的分别比率估计量的分别比率估计量:LhRhhLhhhRsRshLhhhhLhRhhRsYXxyyNYXxyWyWy1111Y已知已知各层各层的的均值和总量均值和总量2022-4-2442 对分别比估计,若各层样本量都比较大,则有对分别比估计,若各层样本量都比较大,则有:xhyhhhxhhyhLhhhhLhRhhRsRSRSSSRSRSnfWyWVyVyMSEYyE21)(222121h为第为第h层层X与与Y的相关系数的相关系数注:公式中注:公式中S、R、 用样本数据替代用样本数据替代2022
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 分层 随机 抽样
限制150内