《第十二章非抽样误差精选PPT.ppt》由会员分享,可在线阅读,更多相关《第十二章非抽样误差精选PPT.ppt(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十二章非抽样误差第1页,此课件共28页哦1一、非抽样误差的来源一、非抽样误差的来源 n非抽样误差是指除抽样误差外,由于其他各种非抽样误差是指除抽样误差外,由于其他各种原因而引起的误差。原因而引起的误差。n非抽样误差存在于各种抽样和调查中,而且通非抽样误差存在于各种抽样和调查中,而且通常不能通过增大样本量而得到控制。常不能通过增大样本量而得到控制。第一节第一节 非抽样误差构成非抽样误差构成第2页,此课件共28页哦2在抽样方案设计阶段,非抽样误差的来源在抽样方案设计阶段,非抽样误差的来源:(1 1)抽样框的编制与准备不够充分完善;)抽样框的编制与准备不够充分完善;(2)问卷设计不够科学合理。问卷
2、设计不够科学合理。在数据收集阶段,非抽样误差的来源在数据收集阶段,非抽样误差的来源:(1 1)调查数据的残缺;)调查数据的残缺;(2)调查数据的错误。调查数据的错误。在数据在数据处处理理阶阶段,非抽段,非抽样误样误差存在于差存在于对调查资对调查资料料的的整理、分整理、分组组、计计算、算、编码编码和和计计算机算机录录入等入等过过程程中中,是一种工作上的差是一种工作上的差错错。第3页,此课件共28页哦3把上述三个阶段的各种非抽样误差加以归纳,可以把上述三个阶段的各种非抽样误差加以归纳,可以概括为三类:概括为三类:其中其中计量误差计量误差包括抽样方案设计阶段有缺陷的问卷设计、包括抽样方案设计阶段有缺
3、陷的问卷设计、数据收集阶段有错误的调查数据和数据处理阶段工作上的差数据收集阶段有错误的调查数据和数据处理阶段工作上的差错所带来的误差,也就是错所带来的误差,也就是调查性误差调查性误差。第4页,此课件共28页哦4 二、非抽样误差的特点二、非抽样误差的特点n非特有性非特有性:并:并非抽样调查所特有;非抽样调查所特有;n非一致性非一致性:使抽样估计结果产生偏差使抽样估计结果产生偏差,并且样本越大产生偏差的可能性越大;并且样本越大产生偏差的可能性越大;n难测定性难测定性:难以对其进行描述和测定,具难以对其进行描述和测定,具有很强的隐蔽性;有很强的隐蔽性;n难评价性难评价性:非抽样误差的存在使得:非抽样
4、误差的存在使得对抽样对抽样效果的评价与衡量复杂化效果的评价与衡量复杂化;n全过程性全过程性:存在于抽样调查的所有阶段。存在于抽样调查的所有阶段。第5页,此课件共28页哦5 第二节第二节 抽样框误差分析抽样框误差分析第6页,此课件共28页哦6一、抽样框误差的成因一、抽样框误差的成因n丢失目标总体中的单位丢失目标总体中的单位:覆盖不足,丢失单位,使总体:覆盖不足,丢失单位,使总体总值的估计值偏低;总值的估计值偏低;n包含非目标总体单位包含非目标总体单位:过涵盖,有:过涵盖,有“空名单空名单”,“异质单异质单位位”;n复合联接复合联接:目标总体中的一个调查单位与抽样框中的多个目标总体中的一个调查单位
5、与抽样框中的多个抽样单位相联接,或抽样框中的一个抽样单位与目标总体抽样单位相联接,或抽样框中的一个抽样单位与目标总体中的多个调查单位相联接;中的多个调查单位相联接;例如通过职工名单,对职工家庭做调查例如通过职工名单,对职工家庭做调查n不够准确或不够完善的辅助信息不够准确或不够完善的辅助信息;n抽样框陈旧,即抽样框老化抽样框陈旧,即抽样框老化;第7页,此课件共28页哦7二、抽样框误差的控制二、抽样框误差的控制 n重在预防重在预防n积极补救积极补救 n心理准备心理准备 第8页,此课件共28页哦8第三节第三节 无回答误差分析无回答误差分析第9页,此课件共28页哦9 一、无回答误差的含义一、无回答误差
6、的含义 无回答无回答(Nonresponse):是指未能取得所要搜集):是指未能取得所要搜集资料的一种现象,它包括两种情况:资料的一种现象,它包括两种情况:单元无回答单元无回答和和项目无回答。项目无回答。单元无回答单元无回答也称全无回答,是指被调查者没有接受也称全无回答,是指被调查者没有接受调查、造成整张问卷出现空白的现象;调查、造成整张问卷出现空白的现象;项目无回答项目无回答也称部分无回答,是指被调查者回答也称部分无回答,是指被调查者回答了问卷中的部分调查项目未能回答其它调查项目的现象。了问卷中的部分调查项目未能回答其它调查项目的现象。各种原因:各种原因:P241P241第10页,此课件共2
7、8页哦10n设总体由回答层与无回答层两部分组成,每层的单元数分设总体由回答层与无回答层两部分组成,每层的单元数分别为别为N1和和N0,则,则二、无回答误差的影响二、无回答误差的影响 称为总体的回答率称为总体的回答率称为总体的无回答率称为总体的无回答率第11页,此课件共28页哦11n假定从总体中简单随机抽取假定从总体中简单随机抽取n个单元,有个单元,有n1个来自回答个来自回答层,有回答的计量值,另有层,有回答的计量值,另有n0个属于无回答层,没有计个属于无回答层,没有计量值,则量值,则n在估计推断总体时,若只根据回答的样本计量值在估计推断总体时,若只根据回答的样本计量值偏倚为:偏倚为:称为样本的
8、回答率,称为样本的回答率,称为样本的无回答率,称为样本的无回答率,第12页,此课件共28页哦12n可以看出:无回答造成的偏倚大小取决于两个方面:无回可以看出:无回答造成的偏倚大小取决于两个方面:无回答率答率R0,回答层与无回答层的均值的差异;,回答层与无回答层的均值的差异;n若果调查项目对回答层和无回答层没有影响,即均值若果调查项目对回答层和无回答层没有影响,即均值相同,这是估计值就不存在偏差;相同,这是估计值就不存在偏差;n现实中,两层的均值通常是不同的;当两层的差别为常数时,现实中,两层的均值通常是不同的;当两层的差别为常数时,无回答率无回答率R0越高,偏差越大;越高,偏差越大;n降低无回
9、答率对减少估计量的偏倚十分重要。降低无回答率对减少估计量的偏倚十分重要。第13页,此课件共28页哦13n例:某市调查市民每月在外就餐的次数,随机抽取了例:某市调查市民每月在外就餐的次数,随机抽取了n=1000人进人进行问卷调查,其中行问卷调查,其中n1=800人作了回答,结果是平均人作了回答,结果是平均2.5次,如果次,如果以此值来估计全市市民平均在外就餐的次数,则其偏倚为以此值来估计全市市民平均在外就餐的次数,则其偏倚为n若对无回答的若对无回答的n0=200人又随即抽取了人又随即抽取了50人进行了面访,结果这人进行了面访,结果这50人平均每月在外就餐次数为人平均每月在外就餐次数为1.2次,则
10、偏倚的估计为次,则偏倚的估计为n实际上是利用二重抽样调整无回答误差。实际上是利用二重抽样调整无回答误差。第14页,此课件共28页哦14三、无回答误差的控制三、无回答误差的控制n1.事前准备充分,争取尽量高的首次回答率;事前准备充分,争取尽量高的首次回答率;n2.搞清无回答的原因,有针对性地进行复调查;搞清无回答的原因,有针对性地进行复调查;n3.必要时,对无回答者进行替;必要时,对无回答者进行替;n4.对于一些敏感性问题,可以采用随机化回答技术对于一些敏感性问题,可以采用随机化回答技术(沃纳模型,西蒙斯模型,格林伯格模型等);(沃纳模型,西蒙斯模型,格林伯格模型等);n5.当无回答不可避免时,
11、可采用一些专门技术来调整当无回答不可避免时,可采用一些专门技术来调整估计结果,以减少估计偏差。估计结果,以减少估计偏差。第15页,此课件共28页哦15 1.二重抽样法二重抽样法;2.估算法;估算法;3.加权调整法。加权调整法。四、对无回答的调整四、对无回答的调整第16页,此课件共28页哦161.二重抽样法二重抽样法 这这种种方方法法是是先先对对抽抽中中的的被被调调查查者者进进行行邮邮寄寄(问问卷卷)调调查查,然然后后从从那那些些无无回回答答者者中中抽抽选选出出一一个个子子样样本本进进行行访访问问调调查查并并尽尽量量取取得得完完整整资资料料,最最后后把把邮邮寄寄调调查查结结果果与与子子样本访问调
12、查结果综合起来得出总体指标的估计值。样本访问调查结果综合起来得出总体指标的估计值。第17页,此课件共28页哦17该估计量的方差为:该估计量的方差为:其中:其中:第18页,此课件共28页哦18二重抽样的最优配置二重抽样的最优配置第一重样本的样本量第一重样本的样本量以及第二重样本的抽样比的确定以及第二重样本的抽样比的确定n可以写成:可以写成:C1:第一重样本每单元的调查费用;:第一重样本每单元的调查费用;C2:收集和处理每个回答样本的单元费用;:收集和处理每个回答样本的单元费用;C0:无回答单元第二重样本的每单元费用;:无回答单元第二重样本的每单元费用;第19页,此课件共28页哦19 当当 C既定
13、时,使估计量方差达到最小的既定时,使估计量方差达到最小的 k和和 为:为:n若估计量方差若估计量方差V给定:给定:第20页,此课件共28页哦20第21页,此课件共28页哦21例n欲进行一次民意测验,欲进行一次民意测验,N很大,按精度要求需要抽很大,按精度要求需要抽取取n=1000人(简单随机抽样)。人(简单随机抽样)。n现拟先采用邮寄问卷调查,预期无回答率为现拟先采用邮寄问卷调查,预期无回答率为40%,然后对所有无回答的再抽一个简单随机子样本进行然后对所有无回答的再抽一个简单随机子样本进行派员访问。派员访问。n设邮寄一份问卷的费用是设邮寄一份问卷的费用是1.0元,对回答的每份问卷元,对回答的每
14、份问卷数据处理费用是数据处理费用是1.2元,派员调查与数据处理费用合元,派员调查与数据处理费用合计每份计每份13.5元。元。n假定无回答层方差与总体方差相等,试求为满足精假定无回答层方差与总体方差相等,试求为满足精度要求应邮寄多少份问卷?对无回答者进行派员调度要求应邮寄多少份问卷?对无回答者进行派员调查的比例是多少?预期费用多少?查的比例是多少?预期费用多少?第22页,此课件共28页哦22 解:按题意,C1=1.0,c2=1.2,c0=13.5,w0=0.4第23页,此课件共28页哦232.估算法估算法 这这种种方方法法是是当当无无回回答答出出现现时时,用用其其它它已已有有的的数数据据来来顶顶
15、替替无无回答的缺失数据,进而对总体作出估计。回答的缺失数据,进而对总体作出估计。n常用于项目无回答。常用于项目无回答。n可用现有回答数据的整体或分类平均数可用现有回答数据的整体或分类平均数/众数众数/回归估回归估计估算缺失项目,或者,用与无回答单元其他特征基计估算缺失项目,或者,用与无回答单元其他特征基本类似的单元的数据直接替代。本类似的单元的数据直接替代。第24页,此课件共28页哦24第25页,此课件共28页哦25样本序号性别年龄婚姻状况收入汽车拥有情况1男青年未婚2100无2男中老年已婚3000有3女青年未婚3000无4男中老年已婚2100有5男青年未婚2700有6女中老年寡900无7男中
16、老年已婚-8女青年离异1500有9男青年未婚-无10女中老年寡600-11男青年未婚2600有12男中老年已婚-4 4样本样本-估算估算7 7样本样本5 5样本样本-估算估算9 9样本样本10 10、12 12样本样本?第26页,此课件共28页哦263.加权调整法加权调整法 通通过过一一定定的的权权数数对对调调查查中中的的回回答答数数据据进进行行加加权权来来达达到到对对数据进行调整、减少因无回答造成的估计偏差的目的。数据进行调整、减少因无回答造成的估计偏差的目的。权权数数由由调调查查中中的的回回答答概概率率来来确确定定,一一般般是是该该概概率率的的倒数。倒数。即即回回答答概概率率大大的的赋赋予
17、予较较小小的的权权,回回答答概概率率小小的的赋赋予予较较大大的权,从而使估计量的偏差得到一些纠正。的权,从而使估计量的偏差得到一些纠正。第27页,此课件共28页哦27 某某调查调查公司欲公司欲对对消消费费者偏好哪种洗衣粉品牌者偏好哪种洗衣粉品牌进进行行调查调查,但,但为为了了节节省省经费经费,采用,采用邮邮寄方式,每个寄方式,每个样样本的本的费费用用为为2元;元;对对于回答于回答样样本本处处理理费费用用为为每份每份5元,然后元,然后对对所有无回答的所有无回答的样样本再抽一个本再抽一个简单简单随机随机样样本,采用面本,采用面访访的的方式方式调查调查,每个,每个单单位平均位平均80元。元。现现已知如果没有不回答已知如果没有不回答问题问题,则满则满足精度要求,采用足精度要求,采用简单简单随机抽随机抽样样的方法抽取,的方法抽取,样样本量本量为为1000(忽略抽(忽略抽样样比)。比)。试试求求为满为满足精度要求足精度要求应邮应邮寄多少份寄多少份问问卷?卷?对对无回答者无回答者进进行行派派员员的比例是多少?假的比例是多少?假设预设预期的回答率期的回答率为为50%,n非抽样误差作业:非抽样误差作业:第28页,此课件共28页哦28
限制150内