不等概率抽样.ppt
《不等概率抽样.ppt》由会员分享,可在线阅读,更多相关《不等概率抽样.ppt(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章 不等概抽样n一、概述一、概述n二、放回不等概抽样二、放回不等概抽样n三、不放回不等概抽样三、不放回不等概抽样第一节 概述n一、引言n简单随机抽样的一个基本特点是总体中的每一个单元的入样概率都相等,因此,它是一种等概抽样。n分层随机抽样中每一层内的抽样也是按照简单随机抽样进行的,因此,层内的抽样仍是等概率的。n如果总体中的每个单元在该总体中的地位(或重要性)相差不多,则等概抽样是理所当然的选择。但是,如果总体单元相差较大,等概率抽样的效果就不一定好。n在实际问题中,我们还需要使用不等概率抽样不等概率抽样(sampling with unequal probablities)。n二、概念及
2、其必要性n不等概抽样不等概抽样:即每个单元入样的概率不相等.n为了提高抽样效率,通常采用两种不等概抽样方法:(1). 将总体单元按规模(大小)分层,对较大单元的层抽样比定高些,而较小单元的层抽样比定得低一些;(2). 赋予每个单元与其规模(或辅助变量)成比例的入样概率,即大单元的入样概率大,小单元入样概率小.问题问题:入样概率不等入样概率不等,是否影响推算结果是否影响推算结果?n使用不等概抽样的必要性:n(1)调查的总体单元与抽样的总体单元可能不一致。 例如:某小学欲对学生的家庭情况进行调查,调查总体是全校学生的家庭。注意:许多家庭只有一个孩子在该校就读,但也有些家庭有两个或两个以上的孩子在该
3、校就读。 从抽样的角度来讲:将学生作为抽样单元是方便的,因为相应的抽样框是现成的。 而从调查的角度而言,对每个(学生)家庭实行等概抽样又是合理的。 这就产生了一个问题:若对学生实行等概抽样,则每个家庭被抽中的概率并不相等。而为了使每个家庭入样概率相等,只能对学生使用不等概抽样不等概抽样。 不等概抽样的方法是:对每个学生登记其家庭在该校就读的学生人数,每个学生的家庭入样概率应与这个数字成反比。n(2)抽样单元在总体中所占的地位不一致。 例如:对船舶运输量进行调查时,以船舶为抽样单元,则有的是从事远洋运输的万吨巨轮,更多的是从事内河河网地区运输的上百吨乃至几十吨小船。显然,大船比小船处于更重要的地
4、位。 类似的例子还有:通过对企业的调查估计某地区某一时期内的总产值,通过对商业网点的调查估计该地区的商品零售总额,等等。 在这些例子中,若对单位(船舶、企业、商店)实行等概抽样,估计效果一般不会很好。 若对单位采用不等概抽样,使大单位入样概率大,小单位入样概率小,就可提高估计的精度。n(3)为了改善估计量的特性。 例如,第五章已经学过,简单随机抽样比率估计量是渐近无偏的,要使它成为无偏估计,只要每个大小为n个样本被抽中的概率与其辅助变量的和成正比的话,则这时的比率估计量就是无偏的。 显然,这个样本并不是简单随机样本,而是一个不等概抽样获得的样本。n(4)其他情况:整群抽样、多阶段抽样中群或初级
5、单元大小相差较大情形。n不等概抽样的优点优点:大大提高估计精度,减小抽样误差。n使用不等概抽样的前提条件前提条件:必须要有说明每个单元规模大小的辅助变量来确定每个单元的入样概率。这在抽样及推算时都是必要的。n三、不等概抽样的种类 n(一)按抽样过程中被抽到的单元是否被放回总体中去而分为放回抽样和不放回抽样放回抽样和不放回抽样。n放回的不等概率抽样:每次在总体中按一定概率放回的不等概率抽样:每次在总体中按一定概率抽取一个单元,抽取后放回总体,再进行下一次抽取一个单元,抽取后放回总体,再进行下一次抽样。抽样。.其好处其好处在于:每次抽样过程都是从同一个总体独立进行的,因此它的数据处理就特别简单。n
6、不放回的不等概率抽样:不放回的不等概率抽样:虽然效率常常更高,但由于丧失了独立生,无论抽样方法还是方差估计都比放回抽样复杂得多。n在某种意义上可以这样说,抽样调查中的放回抽样主要用于不等概率抽样这种特殊情形。n对于不放回抽样,按其样本单元抽取方式的不同又可分为以下几种方法: 1.逐个抽取法 每次从尚未入样的单元中以一定概率抽取一个单元,这个概率通常与已经入样的单元有关。 2.重抽法 以一定概率逐个进行放回抽样,若一旦抽到重复单元,则放弃所有已抽到的单元而重新抽取,直到抽到规定单元数目所有入样单元都不同为止。 3.系统抽取法 将总体单元按某种顺序排列,将规定的入样概率汇总,根据样本量确定抽样间距
7、k,在1k 产生一个随机数,并确定相应的初始入样单元,以后在总体中每隔k 个单元抽出一个作为样本单元. 4.全样本法 对每个可能样本规定一个被抽中的概率,按这个概率一次抽中整个样本。n(二)视每个单元每次被抽中的概率(放回抽样情形)或最终样本中包含某个单元的概率(不放回抽样情形)是否严格地与单元的大小成比例。另外,看最终样本量n是固定的还是随机的。n最重要的情形乃是当n固定,且上述概率与单元大小严格成比例的不等概抽样,这种情形的放回抽样称为PPS抽样抽样,而相应的不放回抽样为PS抽样抽样。n四、区域抽样(area sampling)n适用于:区域或面积本身就是抽样单元,区域或面积本身就是抽样单
8、元,或抽样单元的名单抽样框无法获得,但或抽样单元的名单抽样框无法获得,但每个抽样单元只隶属于某个区域每个抽样单元只隶属于某个区域n例如例如:小麦产量调查:对地块的抽样可小麦产量调查:对地块的抽样可以是简单随机抽样,也可以是按面积进以是简单随机抽样,也可以是按面积进行的不等概抽样。行的不等概抽样。n抽样框的类型抽样框的类型: 名单抽样框名单抽样框:即由抽样单元的名单组成 区域抽样框区域抽样框:即由定义明确的区域组成,而 一个区域是由个体组成对于区域抽样可以采用整群抽样(抽样单元是其本身),也可采用多阶段抽样(抽样单元是区域内的个体)n区域抽样框的优点区域抽样框的优点: 容易定义和识别 比较稳定
9、容易操作,回答率较高第二节 放回不等概抽样n一、PPS抽样n二、汉森赫维茨估计量一、PPS抽样n(一)多项抽样和PPS抽样这就是多项抽样这一术语的由来。nPPS抽样抽样:n如果每个单元有说明其大小或规模的度量Mi,则Zi可取:n此时,每个单元在这次抽样中的入样概率与单元大小成比例,称这种特殊的多项抽样为放回的与大小放回的与大小成比例的概率抽样成比例的概率抽样(Sampling with probability proportional to size),简称PPS抽样抽样。NiiiiiMMMMZ10n注:由于抽样是放回的,因此,某个单元可能在样本中出现多次,出现这种情况时,对这个单元的调查只进
10、行一次,但计算时按抽中几次计算几次的原则。n(二)实施方法n1.代码法(汉森赫维茨法)n在PPS抽样中,赋予每个单元与Mi相等的代码数,将代码数累计得到M0,每次抽样都产生一个1,M0之间的随机数,设为m,则代码m所对应的单元被抽中。注: 如果 Mi 不是整数,则乘以某个倍数.【例例】设某个总体有N=10个单元,相应的单元大小 及其代码数如下页表,现要在其中产生一个 n=3 的样本. i 累计累计 代码代码10.66616214.5145151715131.515166152166413.713730316730357.8783813043816151505313825317101006315
11、3263183.6366676326679660727668727101.111738728738738_10iMiM10iM8 .730M解解: : 在(1-738)产生第一个随机数为345,则5好被抽中; 第二个随机数553,则7号被抽中; 第三个随机数493,则6号被抽中.n2. 拉希里法拉希里法(二次抽样法二次抽样法) 当N相当大时,累计的M0将很大,给代码法的实施带来不方便,此时可用Lahiri1951年提出的方法.令 , 即所有 中最大值, 每次抽样都分别产生一个 之间的随机数i及 之间的随机数m, 如果 ,则第i个单元被抽中; 否则,重抽一组(i,m). 显然,第i个单元的入样与
12、否受到m的影响,只有 时它才入样,因此第 i个 单元入样的可能性与Mi 的大小成正比,此时Zi=Mi / M0.iNimMmax1*iMN, 1mMiiMm *, 1 M i 10.66214.514531.515413.713757.87861515071010083.6369660101.111738iM10iM8 .730M150*MN=10在1,10和1,150中分别产生 (i,m):如 (3,121), M3=15m=121, 舍弃,重抽 如产生(7,77), M7=100 m=77, 第7号单元入样二、汉森赫维茨估计量n对于放回不等概抽样,对总体总量Y的估计是汉森赫维茨(Hanse
13、nHurwitz)估计:niiiniiiHHmynMzynY1011n2. 的方差为的方差为:n3. 的无偏估计为的无偏估计为)(HHYVHHY211YZYZnYViiNiiHHniHHiiniHHiiHHMYmynnMYzynnYv12020211111n汉森赫维茨估计量具有如下性质:n对于所有的 n1. NiZi, 2 , 1, 0YYEHH)(即它是无偏的。【例例】 某部门要了解所属85008500家生产企业当月完成的利润,该部门手头已有一份上年各企业完成产量的报告,将其汇总得到所属企业上年完成的产量为上年完成的产量为36763676万吨万吨. 考虑时间紧,准备采用抽样调查来推算当月完成
14、的利润采用抽样调查来推算当月完成的利润,根据经验,企业的产量和利润相关性比较强企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高,因此采用与上年产量成比例的与上年产量成比例的PPSPPS抽样抽样,从所属企业中抽出一个样本量为样本量为3030的样本的样本,调查的结果如下表:n要求要求: 根据以上调查结果估计该部门所属企业当月完成的利润,并给出95%置信度下估计的相对误差.如果要求在相同条件下相对误差达到20%,所需的样本量应该是多少?i ii1* 38.2310926106.51900191.510213.70102411158642088030.75
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 不等 概率 抽样
限制150内