非抽样误差抽样调查理论与方法课件.ppt
《非抽样误差抽样调查理论与方法课件.ppt》由会员分享,可在线阅读,更多相关《非抽样误差抽样调查理论与方法课件.ppt(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于非抽样误差抽样调查理论与方法第1页,此课件共27页哦 美国文学摘要对于美国文学摘要对于19361936年美国总统选举进行了预测,年美国总统选举进行了预测,当时大多数观察家认为罗斯福会轻易获胜,而文学摘要根当时大多数观察家认为罗斯福会轻易获胜,而文学摘要根据自己的抽样断定兰登与罗斯福的获胜比率将是据自己的抽样断定兰登与罗斯福的获胜比率将是5757和和4343。然而却是罗斯福以然而却是罗斯福以6262比比3838的绝对优势坐上了总统宝座。与的绝对优势坐上了总统宝座。与事实完全相悖的预测断送了这家原本颇有名气的杂志的前程,事实完全相悖的预测断送了这家原本颇有名气的杂志的前程,不久它只得停刊就此不
2、久它只得停刊就此“关门大吉关门大吉”。美国文学摘要发出了美国文学摘要发出了10001000万张调查表,收回了万张调查表,收回了200200万张,万张,花费了那么大的精力,收集了那么多的数据花费了那么大的精力,收集了那么多的数据 ,怎么会出那么大,怎么会出那么大的错误呢?主要原因就是抽样框的选取。原来它是按照电话簿的错误呢?主要原因就是抽样框的选取。原来它是按照电话簿和俱乐部成员的名单发出调查表的,由此选取的样本明显地排和俱乐部成员的名单发出调查表的,由此选取的样本明显地排斥穷人!因为当时一般穷人很少拥有私人电话或隶属于哪个俱斥穷人!因为当时一般穷人很少拥有私人电话或隶属于哪个俱乐部(乐部(19
3、361936年,美国大约有年,美国大约有11001100万部住宅电话)。众所周知,万部住宅电话)。众所周知,经济地位在很大程度上影响着政治态度:穷人压倒多数地倾向经济地位在很大程度上影响着政治态度:穷人压倒多数地倾向于罗斯福而有钱人则偏向于兰登。文学摘要的样本反映不于罗斯福而有钱人则偏向于兰登。文学摘要的样本反映不出这个社会现实从而犯了致命的错误。出这个社会现实从而犯了致命的错误。第2页,此课件共27页哦 设计带来非抽样误差有很多表现在抽样框出了问题,第设计带来非抽样误差有很多表现在抽样框出了问题,第一章中所述的文学摘要的抽样框明显地偏向于某一部分一章中所述的文学摘要的抽样框明显地偏向于某一部
4、分人而忽略了另一部分人,从中产生的非抽样误差使得抽样结人而忽略了另一部分人,从中产生的非抽样误差使得抽样结果不能反映总体(全体选民)的意见。这种致命的错误来源果不能反映总体(全体选民)的意见。这种致命的错误来源于抽样框于抽样框“丢失丢失”了总体中占有一定比例的单元,如果这一部了总体中占有一定比例的单元,如果这一部分被分被“丢失丢失”的群体在调查关心的参数方面有其独特的一面,的群体在调查关心的参数方面有其独特的一面,那么这种那么这种“丢失丢失”引起的非抽样误差使推断或估计带有明显的引起的非抽样误差使推断或估计带有明显的偏性。偏性。如果我们的抽样方案是分层抽样,分层抽样不太可能按照如果我们的抽样方
5、案是分层抽样,分层抽样不太可能按照关心的总体参数去实施,而常常根据若干辅助信息来进行,当关心的总体参数去实施,而常常根据若干辅助信息来进行,当然这些辅助信息与调查变量应当有较强的相关程度。倘若这些然这些辅助信息与调查变量应当有较强的相关程度。倘若这些辅助变量资料不健全,不准确甚至借用这些辅助变量本身属于辅助变量资料不健全,不准确甚至借用这些辅助变量本身属于判断失误,由此引起的非抽样误差可能会严重威胁到估计的准判断失误,由此引起的非抽样误差可能会严重威胁到估计的准确性。确性。第3页,此课件共27页哦 有时候陈旧的抽样框将带来我们所不希望看到的非抽样有时候陈旧的抽样框将带来我们所不希望看到的非抽样
6、误差,因为陈旧的抽样框会造成总体单元的误差,因为陈旧的抽样框会造成总体单元的“丢失丢失”现象,现象,一般地它还难以反映近期有关变量的一些变化。一般地它还难以反映近期有关变量的一些变化。以上所述的非抽样误差属于在抽样之前的设计方案工作及编制以上所述的非抽样误差属于在抽样之前的设计方案工作及编制抽样框中需要认真对待的。本章就抽样过程中产生的非抽样误差进抽样框中需要认真对待的。本章就抽样过程中产生的非抽样误差进行详尽的讨论。行详尽的讨论。2 2 无回答现象无回答现象 在设计方案相当合理,编制的抽样框令人十分满意的情况,无回在设计方案相当合理,编制的抽样框令人十分满意的情况,无回答现象的发生是非抽样误
7、差表现的主要形式之一。无回答类型通常可答现象的发生是非抽样误差表现的主要形式之一。无回答类型通常可归结为:归结为:(1 1)遗漏。由随机抽样所确定的调查单位出现)遗漏。由随机抽样所确定的调查单位出现“找不到找不到”现现象,或者由于客观存在的一些困难,诸如交通极端不便,气候异常象,或者由于客观存在的一些困难,诸如交通极端不便,气候异常恶劣等而无法找到确定要去访问的对象。恶劣等而无法找到确定要去访问的对象。第4页,此课件共27页哦(2 2)被调查对象不在家。有时候可以请家庭中其他人甚至就近换一家)被调查对象不在家。有时候可以请家庭中其他人甚至就近换一家进行访问,这样的做法虽然方便,但是在一定程度上
8、破坏了随机性。进行访问,这样的做法虽然方便,但是在一定程度上破坏了随机性。有时候为了确保抽样的随机性,有时候为了确保抽样的随机性,“不在家不在家”就造成了就造成了“无回答无回答”。(3 3)不能回答。某些被访问者对于问卷中的若干问题缺乏有)不能回答。某些被访问者对于问卷中的若干问题缺乏有关资料或者出于各种各样的原因而不愿意回答。关资料或者出于各种各样的原因而不愿意回答。(4 4)坚决拒绝调查。这是由于各种原因造成的,尤其是有些)坚决拒绝调查。这是由于各种原因造成的,尤其是有些问题涉及到个人隐私等等,由此产生的偏差一般较难消除。问题涉及到个人隐私等等,由此产生的偏差一般较难消除。造成无回答现象的
9、原因有许许多多,但一般地,由政府部门出面造成无回答现象的原因有许许多多,但一般地,由政府部门出面组织的抽样调查常常能得到被调查者的友好合作,这种情况下无回答组织的抽样调查常常能得到被调查者的友好合作,这种情况下无回答现象的比例相对地较少,然而对于一般的市场信息调查等非政府组织现象的比例相对地较少,然而对于一般的市场信息调查等非政府组织的抽样调查无回答现象比例非常的高。随着我国社会主义市场经济的的抽样调查无回答现象比例非常的高。随着我国社会主义市场经济的发展和完善,这种情况正在逐步得到改善。发展和完善,这种情况正在逐步得到改善。第5页,此课件共27页哦 其实调查人员的素质,调查问题的拟定,被调查
10、人员的其实调查人员的素质,调查问题的拟定,被调查人员的文化素质等等都对无回答率有一定影响。每件抽样调查,我文化素质等等都对无回答率有一定影响。每件抽样调查,我们需要力求低比率的无回答现象,从目前来看,完全避免无们需要力求低比率的无回答现象,从目前来看,完全避免无回答现象是不可能的。对于无回答现象产生的非抽样误差我回答现象是不可能的。对于无回答现象产生的非抽样误差我们关心的是:们关心的是:1 1、问卷的回收率、问卷的回收率 调查报告一般要求列出回收率,尤其是通过邮寄方式进行调查报告一般要求列出回收率,尤其是通过邮寄方式进行的调查,更需如此。因为回收率的高低将有力地论证调查的成的调查,更需如此。因
11、为回收率的高低将有力地论证调查的成功与否。功与否。对回收率的分析将有助于在无回答现象较严重的情况下进行数据对回收率的分析将有助于在无回答现象较严重的情况下进行数据分析,同时也有助于分析出哪些对象是可以再访问从而采取多次访问分析,同时也有助于分析出哪些对象是可以再访问从而采取多次访问的手段尽量减少无回答率。的手段尽量减少无回答率。2 2、如何进行数据分析、如何进行数据分析第6页,此课件共27页哦 设抽样容量为设抽样容量为 n,n,无回答个数为无回答个数为 ,那么我们的实际那么我们的实际调查量为调查量为 。根据。根据 个有效数据分析将比原定的个有效数据分析将比原定的计划少了很多信息。如果这计划少了
12、很多信息。如果这 个访问到的对象是从原定的个访问到的对象是从原定的对象中随机无放回地抽取的,那么推断的结果只是精度上对象中随机无放回地抽取的,那么推断的结果只是精度上的损失,至于估计量的一些良好性质,例如无偏性等仍然的损失,至于估计量的一些良好性质,例如无偏性等仍然保留。保留。然而事情并非这样地如意,无回答者常常拥有某些特然而事情并非这样地如意,无回答者常常拥有某些特征以致对调查的问题持有特定的态度,因此依据征以致对调查的问题持有特定的态度,因此依据 个回答个回答数据所作出的推断往往带有偏性。以总体平均数的估计为数据所作出的推断往往带有偏性。以总体平均数的估计为例,我们面临的情况相当于总体中例
13、,我们面临的情况相当于总体中N N 个单元划分为两部分:个单元划分为两部分:回答者,回答者,无回答者。倘若抽样方式是简单随机无回答者。倘若抽样方式是简单随机的,那么的,那么 与与 的比例理应相当于的比例理应相当于 与与 的比例。这两部的比例。这两部分的平均数分别记为分的平均数分别记为 和和 ,于是总体平均数为:,于是总体平均数为:(12.1)(12.1)第7页,此课件共27页哦根据根据“回答者回答者”部分的平均数部分的平均数 是是 的无偏估计,用的无偏估计,用 估计估计 显然会产生偏倚:显然会产生偏倚:(12.2)(12.2)这个偏倚中,这个偏倚中,与与 是可以利用调查得到的数据进行估计是可以
14、利用调查得到的数据进行估计的,但是由于的,但是由于“无回答无回答”,是根本无法获知其信息的,因此是根本无法获知其信息的,因此要对估计量要对估计量 给于给于“纠偏纠偏”,其难度极大,尤其是在,其难度极大,尤其是在 较大时较大时也就是也就是“无回答者无回答者”占有相当大比例时,连占有相当大比例时,连 的置信限都难于的置信限都难于得到。得到。在有些实例中,人们只能对偏倚作出一些猜测,这些猜测在有些实例中,人们只能对偏倚作出一些猜测,这些猜测有时候可以根据一些历史的资料作出,有一定的参考价值;但有时候可以根据一些历史的资料作出,有一定的参考价值;但是有时候凭主观作出的猜测无法证实其正确性,因此利用它来
15、是有时候凭主观作出的猜测无法证实其正确性,因此利用它来“纠偏纠偏”缺乏依据也缺乏精确度,这显然归因于无回答现象带来缺乏依据也缺乏精确度,这显然归因于无回答现象带来的恶果。的恶果。第8页,此课件共27页哦 (1 1)对某些问题无回答的数据以该问题回答数据的平均数来代替;)对某些问题无回答的数据以该问题回答数据的平均数来代替;(2 2)从对某问题回答的)从对某问题回答的 个数据中作个数据中作 次随机有放回次随机有放回的抽样,以填补的抽样,以填补 个无回答者的数据。个无回答者的数据。然而在用计算机处理抽样数据时,不单单是简单地用然而在用计算机处理抽样数据时,不单单是简单地用 去代替去代替 或者最多给
16、出一定量的纠偏。众所周知,抽样调或者最多给出一定量的纠偏。众所周知,抽样调查一般不止问一个问题,我们的问卷经常围绕调查的目的查一般不止问一个问题,我们的问卷经常围绕调查的目的而设置一系列问题,我们遇到的无回答现象经常表现为:而设置一系列问题,我们遇到的无回答现象经常表现为:全部问题无回答或部分问题无回答。在部分问题无回答者全部问题无回答或部分问题无回答。在部分问题无回答者中,将会呈现回答问题的多少以及哪些问题无回答的复杂中,将会呈现回答问题的多少以及哪些问题无回答的复杂情况,这给计算机处理及整体推断带来一定的困难。有些情况,这给计算机处理及整体推断带来一定的困难。有些学者提出对于这样的学者提出
17、对于这样的“丢失丢失”数据能否人为地补缺,如果数据能否人为地补缺,如果对无回答对象一无所知的情况下,我们可以采取下述措施:对无回答对象一无所知的情况下,我们可以采取下述措施:第9页,此课件共27页哦 上述做法还是相当于从上述做法还是相当于从 个回答者的数据出发对总体个回答者的数据出发对总体作出推断,但是在计算机上整体考虑来说是作为作出推断,但是在计算机上整体考虑来说是作为 个样本个样本来处理的,给整体全面的推断带来某种方便,且也具有一来处理的,给整体全面的推断带来某种方便,且也具有一定合理性,因为我们的抽样调查本身是要求定合理性,因为我们的抽样调查本身是要求 个均有回答个均有回答的。然而这样的
18、处理在精度上如何计算,或者说新构成的的。然而这样的处理在精度上如何计算,或者说新构成的估计量方差如何估计,国外的一些统计学家曾作过研究与估计量方差如何估计,国外的一些统计学家曾作过研究与进一步的探索。进一步的探索。3 3、多次访问、多次访问 为了缩小无回答所引起的偏差,减少无回答的数量,有必要采为了缩小无回答所引起的偏差,减少无回答的数量,有必要采取一些措施,例如对访问者的培训,对敏感问题的适当处理以消除取一些措施,例如对访问者的培训,对敏感问题的适当处理以消除被访问者的疑虑,调查前作好充分的准备工作等等,采用多次访问被访问者的疑虑,调查前作好充分的准备工作等等,采用多次访问是个有效的方法。当
19、然,对于那些是个有效的方法。当然,对于那些“坚决拒绝回答者坚决拒绝回答者”来说,多来说,多次访问很难奏效,但是对于那些次访问很难奏效,但是对于那些“不在家不在家”或或“不能回答不能回答”原因原因的无回答者应当有不小的作用。的无回答者应当有不小的作用。第10页,此课件共27页哦 实际工作表明,多次访问的确能做到减少无回答率,随之而引实际工作表明,多次访问的确能做到减少无回答率,随之而引出的问题是承担的费用问题。一般地,抽样方案设计中会留下一部出的问题是承担的费用问题。一般地,抽样方案设计中会留下一部分经费用于分经费用于“再访问再访问”以便提高回答率。所谓多次访问不可能以便提高回答率。所谓多次访问
20、不可能“许许多次多次”,因为随着访问次数的增加,每次的回收率将随之减少,因此,因为随着访问次数的增加,每次的回收率将随之减少,因此“许多次许多次”是不必要的。另外在再次访问时,最好的办法是换是不必要的。另外在再次访问时,最好的办法是换一个访问员独立地对前一次无回答者进行访问,这样常常可一个访问员独立地对前一次无回答者进行访问,这样常常可以收到很好的效果。以收到很好的效果。4 4、PolizePolizeSimmonsSimmons较正较正 如果由于条件的限制,只能进行一次调查,如何较正由于如果由于条件的限制,只能进行一次调查,如何较正由于无回答而引起的误差呢?无回答而引起的误差呢?Polize
21、PolizeSimmonsSimmons对总体平均数提出的对总体平均数提出的建议对我们有一定的参考价值。建议对我们有一定的参考价值。假定所有访问者均是在除周日以外的假定所有访问者均是在除周日以外的6 6个晚上进行,对于每个晚上进行,对于每一个实际被调查者在答完问卷以后再附带询问一个问题:一个实际被调查者在答完问卷以后再附带询问一个问题:“除除周日之外,您在今晚以前的周日之外,您在今晚以前的5 5个晚上有几天在家?个晚上有几天在家?”这个问题的如这个问题的如实回答实际上告诉了访问员关于他晚上在家实回答实际上告诉了访问员关于他晚上在家第11页,此课件共27页哦的频率的频率 的一个大致估计:的一个大
22、致估计:(其中(其中 是被调是被调查者回答的天数)。查者回答的天数)。根据调查的结果可以将被访问人分为根据调查的结果可以将被访问人分为6 6部分,即部分,即 。设每个部分含有。设每个部分含有 个人。显然,个人。显然,越大,越大,就越大,对就越大,对应此应此 的组入样的可能性就越大,这样该部分的平均数的组入样的可能性就越大,这样该部分的平均数 在估计总体平均数的过程中应当赋予与该组在家频率在估计总体平均数的过程中应当赋予与该组在家频率 相相适应的权。适应的权。这种思想实质上类似于不等概率抽样时的平均数估计。这种思想实质上类似于不等概率抽样时的平均数估计。按照这种加权平均的思想,我们将原先的样本平
23、均数(当按照这种加权平均的思想,我们将原先的样本平均数(当然是基于被调查到的样本)然是基于被调查到的样本)调整为所谓调整为所谓Polize-SimmonsPolize-Simmons估计量估计量:(12.3)(12.3)第12页,此课件共27页哦Polize-SimmonsPolize-Simmons较正在直观上有合理的解释:某些调查指较正在直观上有合理的解释:某些调查指标标诸如生活费用的平均年收入或年支出诸如生活费用的平均年收入或年支出与被调查与被调查者是否容易找到是较强相关的两个因素。如果不采用加权者是否容易找到是较强相关的两个因素。如果不采用加权平均数而采用被调查者的平均数,那么所得到的
24、估计就相平均数而采用被调查者的平均数,那么所得到的估计就相对地突出了那些容易被找到的人的影响,而掩盖了另一部对地突出了那些容易被找到的人的影响,而掩盖了另一部分不容易找到的人的影响。分不容易找到的人的影响。P-S P-S较正采用加权平均对偏差作了一定程度上的较正。较正采用加权平均对偏差作了一定程度上的较正。当然所利用的权当然所利用的权本身是通过抽样调查的数据估算出来的,它将无可质疑地本身是通过抽样调查的数据估算出来的,它将无可质疑地影响到估计量的方差(增大),对估计的精度付出代价,影响到估计量的方差(增大),对估计的精度付出代价,但是我们毕竟不要再花费时间、精力和费用去作多次访问但是我们毕竟不
25、要再花费时间、精力和费用去作多次访问并达到纠偏的作用。并达到纠偏的作用。第13页,此课件共27页哦3 3 计量误差计量误差 计量误差是又一种重要的非抽样误差。由于计量工具的不够精计量误差是又一种重要的非抽样误差。由于计量工具的不够精确,或由于调查人员工作的粗糙失误,或者是数据处理人员的马马确,或由于调查人员工作的粗糙失误,或者是数据处理人员的马马虎虎,都有可能造成调查所得数据与真值之间的不一致。这样的计虎虎,都有可能造成调查所得数据与真值之间的不一致。这样的计量误差(或称调查误差)将严重地威胁到抽样推断。本节还要简略量误差(或称调查误差)将严重地威胁到抽样推断。本节还要简略讨论到另一种调查误差
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样误差 抽样调查 理论 方法 课件
限制150内