5抽样调查ppt课件.ppt
学习项目五 抽抽 样样 调调 查查 抽抽样样使使我我们们能能从从总总体体具具有有代代表表性性的的部部分分样样本本中中获获取取数数据据,从从而而可可以以得到关于整个总体的有效结论。得到关于整个总体的有效结论。英英 托尼托尼普罗科特普罗科特5 抽样调查抽样调查的意义抽样调查的意义一一般所讲的抽样调查,即指狭义的抽样调查般所讲的抽样调查,即指狭义的抽样调查(随随机抽样机抽样):按照随机原则从总体中抽取一部分:按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。总体作出数量上的推断分析。任务一 抽样调查概述5 抽样调查v抽样调查的适用范围抽样调查的适用范围 抽抽样调查方法是市场经济国家在调查方法样调查方法是市场经济国家在调查方法上的必然选择,和普查相比,它具有准确度高、上的必然选择,和普查相比,它具有准确度高、成本低、速度快、应用面广等优点。成本低、速度快、应用面广等优点。5 抽样调查1.1.实实际工作不可能进行全面调查观察,而又需要了解际工作不可能进行全面调查观察,而又需要了解其全面资料的事物;其全面资料的事物;2.2.虽虽可进行全面调查观察,但比较困难或并不必要;可进行全面调查观察,但比较困难或并不必要;3.3.对对普查或全面调查统计资料的质量进行检查和修正;普查或全面调查统计资料的质量进行检查和修正;4.4.抽抽样方法适用于对大量现象的观察,即组成事物样方法适用于对大量现象的观察,即组成事物总体的单位数量较多的情况;总体的单位数量较多的情况;5.5.利利用抽样推断的方法,可以对于某种总体的假设用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍。进行检验,判断这种假设的真伪,以决定取舍。一般适用于以下范围:一般适用于以下范围:5 抽样调查v一 抽样调查的概念抽样框 抽样指标 总体方差和均方差 总体指标与样本指标 总体和抽样总体 抽样调查抽样调查 5 抽样调查(1)总体和抽样总体v总体是指所要调查对象的全体,有有限和无限之分。有限总体的数量可以确定,无限总体的具体数值则无法准确确定。v抽样总体是指从总体中抽取出来所要直接观察的全部单位。又被称为样本量或样本。每一个被抽到的个体或单位就是一个样本。5 抽样调查(2)总体指标与样本指标v根据总体各个单位标志值计算出来的综合指标称为总体指标,用X表示。它是我们想知道的对象特征的数量反映。v常用的指标主要用平均数(X)和成数(P)来表示。5 抽样调查v ,或 ,为成数,并且v v 、分别为两种表现的总体单位数。并且 5 抽样调查v(3)总体方差和均方差v总体方差和均方差是用来说明总体指标变异程度的指标。方差与均方差的关系是平方和开平方的关系,可分别计算平均数与成数的方差和标准差。v总体平均数方差和均方差的计算公式为:或 5 抽样调查抽样指标抽样指标是指根据样本总体各个指标值计算的综合指标。是指根据样本总体各个指标值计算的综合指标。抽样指标抽样平均数抽样成数抽样方差均方差5 抽样调查抽样框v抽样框就是所有总体单位的集合,是总体的数据目录或全部总体单位的名单。v理想的完整抽样框相近的抽样框,应具备以下几个条件:1.包含尽可能多的样本单位,而且总体是清晰的,易确定的。2.所有样本单位出现在这一集合中的概率相等。3.有时可以按照一定原则方法进行人为的假定。5 抽样调查文学摘要的破产文学摘要的破产v很久以前一家很权威的美国杂志。v年,美国著名的文学摘要杂志社为了预测总统候选人罗斯福与兰登两人谁能当选,他们以电话簿上的地址和俱乐部成员名单上的地址发出 万封调查信,回收万封在统计史上,这是少有的样本容量花费了大量的人力、物力,文学摘要深信自己的统计结果,即兰登将以对的比例获胜,并且进行了大张旗鼓的宣传但最后选举的结果却是罗斯福以对的巨大优势获胜!这次调查断送了这家原本颇有名气的杂志社的前程,不久只得关门停刊5 抽样调查错误是如何产生的?v该杂志社是以电话薄和汽车登记薄为抽样框,从中选出大批选民做抽样调查。不幸的是,当时的美国正处于经济萧条时期,绝大多数人没有电话更没有。这份抽样框(电话薄和汽车主等级表中)选择的选民并不能代表1936年整个美国所有的选民,从中选择的样本自然也就缺乏代表性。它忽视了人口占大多数的低收入选民。5 抽样调查2.抽样调查的特点抽样调查的特点 特点特点优点 缺点 费用低,易广泛应用 质量可控,可信度高 时间短,收效快 方案设计比较复杂 对设计人员的要求较高 5 抽样调查3.抽样调查的类型抽样调查的类型随机抽样调查非随机抽样调查简单随机抽样调查分层随机抽样调查整群随机抽样调查判断抽样方便抽样配额抽样系统抽样调查滚雪球抽样5 抽样调查v三三 抽样调查的程序抽样调查的程序定义总体及样本单位选择抽样框选择抽样方法确定样本容量 制订抽取样本操作程序 进入调查阶段 抽 样 调 查 程 序5 抽样调查(1)界定调查总体及样本单位v详细说明和描述提供信息或与所需信息有关的个体或实体所具有的特征,确定调查范围及总体单位。v调查总体是指市场调查对象的全体。它可以是一群人、一个企业、一个组织、一种情形或一项活动等。v样本单位是对总体划分成的互不相交的各个部分。5 抽样调查(2)确定抽样框v两种处理方法:v1.根据抽样框重新界定总体。如抽样框是电话簿,则家庭成员总体可以被重新界定为列入电话簿中的那部分家庭的成员。v2.筛选个体。可以依据人口统计特征、产品的使用习惯特征等筛选回答者,剔除抽样框中不适当的个体。5 抽样调查(3)选择抽样方法选择抽样方法返回抽样不返回抽样非随机抽样随机抽样5 抽样调查重复抽样和不重复抽样重复抽样和不重复抽样 重复抽样:重复抽样:又称有放回抽样。又称有放回抽样。不重复抽样:不重复抽样:又称不放回抽样。又称不放回抽样。例例例例5 抽样调查4 4、选择抽样方法选择抽样方法v取取决决于于研研究究目目的的、经经济济实实力力、时时间间限限制制、欲调查问题的性质。欲调查问题的性质。v概率抽样概率抽样 总体中每个单位被抽中的概率相等。总体中每个单位被抽中的概率相等。v非概率抽样非概率抽样v从总体中非随机地选择特定要素从总体中非随机地选择特定要素(单位单位)。5 抽样调查5 5、确定样本量、确定样本量v考考虑虑预预算算、抽抽选选规规则则、子子集集量量的的分分析析和和传传统统的统计样本量的计算。的统计样本量的计算。v非非概概率率抽抽样样,依依预预算算、抽抽选选规规则则(凭凭经经验验确定)、子集量分析而定。确定)、子集量分析而定。v对对概概率率抽抽样样,考考虑虑允允许许误误差差的的目目标标水水平平和和置信水平计算样本量。置信水平计算样本量。v其其他他因因素素:个个体体差差异异大大小小;调调查查项项目目多多少少;控制质量情况;抽样组织方式控制质量情况;抽样组织方式5 抽样调查6 6、制定选择样本单位的操作程序、制定选择样本单位的操作程序v示示例例:以以下下指指南南是是有有关关你你在在某某个个街街区区访访问问时时应应走走的的路路径径。在在城城市市中中,这这可可能能是是一一个个城城市市街街区区;在在农农村村,街街区区可可能能是是一一块块被道路包围的土地。被道路包围的土地。v1 1、若若在在你你的的路路线线当当中中遇遇到到死死胡胡同同,继继续续沿沿这这条条路路或或街街道道的的另另一一面面向向反反方方向向走走。在在可可能能的的地地方方右右拐拐,每每隔隔两两户户住住家家访访问问一户。一户。v2 2、如如果果你你沿沿街街区区走走了了一一圈圈,又又回回到到了了出出发发点点而而没没有有完完成成列列出出的的电电话话簿簿上上家家庭庭的的四四个个访访问问,那那么么可可以以试试着着访访问问起起点点的的那那一家。一家。v3 3、如如果果你你调调查查了了整整个个街街区区,还还是是没没有有完完成成所所要要求求的的访访问问,则则继继续续从从街街区区(或或乡乡间间小小路路)对对面面附附近近的的第第一一个个住住户户开开始始。只只要要这这个个地地址址在在你你的的纸纸上上的的一一个个“*”旁旁出出现现就就把把它它当当作作你你所所在在区区域域的的接接到到中中的的另另一一个个地地址址,并并访访问问这这一一家家。如如果果不不是是,就访问左边的一家。永远遵守右手法则就访问左边的一家。永远遵守右手法则5 抽样调查v讨论:抽样调查给我们的生活带来什么样的便捷,列举你知道的一些事例。5 抽样调查任务二任务二 抽样调查的样本抽样调查的样本v一 抽样调查样本量的确定v样本容量又称样本规模,是指样本内所包含的单位数。v根据调查的目的和要求,可在一定的概率保证下,确定样本的容量,使抽样误差被限制在允许的范围内 5 抽样调查1.抽样的组织形式 抽样的方法 概率度的大小 极限抽样误差值的大小 标志值的变异程度 影响样本容量影响样本容量确定的因素确定的因素 5 抽样调查简单随机抽样样本容量的确定简单随机抽样样本容量的确定 v(1)重复抽样条件下,计算公式为:v其中,为极限抽样误差,t为概率度。5 抽样调查v(2)不重复抽样条件下的计算公式为:v其中,为极限抽样误差,t为概率度。v在实际调查中,一般很小,故在不重复抽样条件下,也可采用重复抽样条件下简单随机抽样样本容量计算公式。5 抽样调查建筑工地打土方工人4000人,需测定平均每人工作量,要求误差范围不超过0.2M3,并需有99.73%保证程度。根据过去资料=1.5,求样本数应是多少?例例1 1注:置信度99.73所对应的t值为35 抽样调查v(3)当要估计的是总体成数时,公式为:v重复抽样条件下:v不重复抽样条件下:5 抽样调查 某金笔厂月产10000支金笔,以前多次抽样调查一等品率为90%,现在要求误差范围在2%之内,可靠程度达95.45%,问必须抽取多少单位数?例例2 25 抽样调查v其中,极限抽样误差 或 是对抽样精确度的人为规定,因而是已知的;表示抽样精度,值取决于所要求的置信度,可以正态分布概率表中查出。因此,在确定 时,只有 或 是未知的。v当 时,取最大值,而事先由于对 一无所知,故可采取保险的办法,取 。这样公式变为:5 抽样调查6.2.2抽样调查的实施v1.分层抽样系统抽样简单随机抽样整群抽样随机抽样随机抽样5 抽样调查1)简单随机抽样方法v简单随机抽样就是总体中的第一个单位在抽取时都有相同的被抽中机会。其概率公式为:v抽样概率=样本单位数 /总体单位数v一般应用于调查总体中各个体之间差异程度较小,或者调查总体数量不太多的情况。5 抽样调查v简单随机抽样方法常用的有:v 1.抽签法:先将调查总体的每个个体编上号码,然后将号码写在卡片上搅拌均匀,任意从中选取,抽到一个号码,就对上一个个体,直到抽足预先规定的样本数目为止。v此方法适用于调查总体中的个体数目较少的情况。v2.随机数表法:随机数表法也称为乱数表法,是指含有一系列级别的随机数字的表格,一般利用特制的摇码设备摇出随机数字,也可以用电子设备自动产生随机数字。5 抽样调查v对对1000010000中抽中抽400400,若有抽样框,步骤为:,若有抽样框,步骤为:v(1)(1)对对总总体体的的每每个个单单位位进进行行编编号号,总总体体单单位位数数为为1000010000的总体可编号为的总体可编号为1 11000010000。v(2)(2)在在随随机机数数表表中中从从任任意意的的一一个个编编号号数数开开始始向向上上数数或或向向下下数数或或跳跳跃跃数数选选编编号号,在在0000100001和和1000010000之间选出之间选出400400个个(样本单位数样本单位数)。v(3)(3)在在有有明明确确总总体体单单位位的的数数字字表表中中选选出出的的数数字字将包括在样本中。将包括在样本中。5 抽样调查简单随机抽样的局限性1)一般必须对总体中的各个个体加以编号,但在实际中所需调查的总体往往是十分庞大的,个体非常多,逐一编号几乎是不可能的2)当调查的总体标志变异程度较大时,简单随机抽样的代表性就不如经过分组后再抽的代表性强3)由于抽出的样本较为分散,所以调查的人力物力财力消耗较大,它适用于总体的个数不太庞大以及总体分布较为均匀的情况。5 抽样调查2 2)等距抽样(也称系统抽样法)等距抽样(也称系统抽样法)v确定一个间隔,根据此间隔从总体中选择样本确定一个间隔,根据此间隔从总体中选择样本v公式:样本距离总体单位数公式:样本距离总体单位数/样本单位数样本单位数v假假设设使使用用本本地地电电话话本本并并确确定定样样本本距距离离为为100100,那那么么100100个个中中取取1 1个个组组成成样样本本。具具体体是是随随意意用用一一个个起起点点,例例如如,用用一一本本电电话话本本,必必须须随随意意取取出出一一个个号号码码决决定定从从该该页页开开始始翻翻阅阅。假假设设从从第第5353页页开开始始,在在该该页页上上再再另另选选一一个个数数决决定定从从该该行行开开始始。假假定定选选择择从从第第3 3行行开开始始,最最后后该该行行任任选选一一个个数数,这这就就决决定定了了实实际际开开始始的的位位置置。假假定定从从第第1717个个数数开开始始,那那么么以以此此为为起起点点,样样本本距距离离就就确确定定了。了。v 注意:避免总体单位的排列顺序与间隔一致注意:避免总体单位的排列顺序与间隔一致5 抽样调查v系统抽样法的突出特点是操作简便,因为它只需要一个起始单位,整个样本就自然确定了,而不像其他抽样方式那样需要抽取多个单位。对抽样框的要求也比较简单,只要求总体单位按一定顺序排列;另外于简单随机抽样相比,系统抽样可以使选中的个体比较均匀的分布在调查总体中,尤其是当被研究现象的标志变异程度较大,在实际工作中又不可能抽选更多的样本个体时,这种方式更有效。5 抽样调查v缺点:运用系统抽样的前提是要有调查总体每个个体的有关资料;当抽选间隔与被调查对象本身的节奏性相重合时,就会影响调查的精度。如:对某商场的商品销售量情况进行系统抽样,若抽取的第一个样本是周末5 抽样调查v(3)分层抽样 将总体按期属性不同划分为若干层次(或类型),然后在个层次(或类型)中随机抽取样本的技术。例如,常见分析标志为年龄、收入、职业等,其实质是科学分组与抽样原理的结合。分层抽样的方式一般有等比例抽样与非等比例抽样两种。5 抽样调查分层抽样v等比例分层抽样:v等比例分层抽样是按各层(或各类型)中的个体数量占总体数量的比例分配各层的样本数量。其表达式为:v 或v非等比例分层抽样是根据其它因素,如各层平均数或成数均方差的大小,抽取样本的工作量和费用大小5 抽样调查 层每层中的潜在用户N 样本标准差S乘积N S1(高收入)20001002000002(中等收入)60001509000003(低收入)2000200400000N=1000015000005 抽样调查(4)整群抽样方法v整群抽样技术也称为分群抽样技术,它是指当总体所在基本单位自然组合为或被划分为若干个群后,从中随机抽取部分群的方法。v分群抽样的特点:v(1)以群为单位进行抽取,对样本的均匀性有较大影响;v(2)与其他随机抽样技术相比,抽样误差较大,代表性较低,常通过多抽取样本来弥补不足。5 抽样调查v示例:示例:v(1)(1)选选取取这这个个州州内内的的县县以以表表明明不不同同区区域域都都有有代代表表性性,县县也也许许是是通通过过与与县县中中家家庭庭数数成成正正比比的的方方式式抽抽出出,家家庭庭数数目目较较多多的的县县比比家家庭庭数数目目较较少少的的县抽中的机会要大一点。县抽中的机会要大一点。v(2)(2)在样本县中抽住宅区域。在样本县中抽住宅区域。v(3)(3)在中选住宅区域中抽家庭。在中选住宅区域中抽家庭。5 抽样调查几种概率抽样方法的选择及比较v1.对抽样误差大小的要求在简单随机抽样的条件下,抽样误差的大小主要受总体方差的影响;在分层抽样的条件下,按某个标志值进行分类再抽样,抽样误差受各组内方差大小的影响。因此在一定的情况下,分层抽样的抽样误差小于简单随机抽样;整群抽样是对群中所有个体都一一加以调查,因此其抽样误差的大小不受各群内方差的影响,而主要取决于群间方差的大小。根据经验,通常按有关标志排队的系统抽样方式的抽样误差最小,其次是分层抽样、按无关标志值排队的系统抽样、简单随机抽样和、整群抽样5 抽样调查v2.调查对象本身的特点v3.人力、物力、经费和时间等各种调查条件5 抽样调查2.非随机抽样非随机抽样v采用非随机抽样的条件:v受客观条件的限制,无法进行严格的随机抽样;v为了快速得到调查的结果;v调查对象不确定或其总体规模无法确定;v调查人员比较熟悉调查对象,且有较丰富的经验,据此快速推断,做到快、准、省。5 抽样调查(1)方便抽样v方便抽样又称为任意抽样或偶遇抽样,是根据调查者的方便与否来抽取样本的一种抽样方法。v任意抽样的优点是:对于调查条件要求低,难度小,简便易行;接受访问的成功率较高,容易得到受访者的配合;省时省力,且对访问的进度容易控制;v任意抽样的不足之处:没有概率论作为理论基础,所以无法推断总体,且代表性差,偶然性强。5 抽样调查v购物中心拦截访谈公司通常使用便利抽样方法进行访谈。例如:对在大型商场偶遇的购物者,调查人员可以很快提出问题。向那些符合条件者发放问卷。但事实上大量的总体不在那里并且没有机会参加调查5 抽样调查(2)判断抽样v判断抽样也称为目的抽样,主要凭借调查者的主观意愿、经验和知识,从总体中选取具有代表性的个体样本作为调查对象的抽样方法。v要求调查者对总体的有关特征有相当程度的了解。v典型调查:选择最能代表普遍情况的调查对象,常以“平均型”和“多数型”为标准。如了解一国的民风,应该入乡随俗,和当地最普通的人生活一段时间。v重点调查:对那些占被调查总体内较重要的个体进行抽取调查,如调查消费者满意度时,对大客户或在贵宾进行调查。5 抽样调查(3)配额抽样v所谓配额就是指对划分出来的各种类型的子总体分配一定数量的样本,从而组成调查样本。v独立控制配额抽样:根据调查总体的特性对某个特性调查样本单独分配额;v交叉控制配额抽样:任何一个配额者会受到两个以上的控制属性的影响。5 抽样调查独立控制配额分配表收入水平高50中50低50总计 150年龄2029岁403044岁404564岁4065岁及以上 30总计150 性别男75女75总计 1505 抽样调查 收入水平 总计 高 中 低性别男 女 男 女 男 女年龄2029 4 4 6 610 10403044 6 6 8 812125245643 35 511113865及以上2 23 35 520总计15 15 22 22 38 381505 抽样调查配额抽样的工作程序v第一步:选定控制特性v第二步:根据控制特征对总体分层,计算各层占总体的比例v第三步:决定各层的样本数。5 抽样调查(4)滚雪球抽样v滚雪球抽样也称推荐抽样,是一种在总体单位数不多且分布分散的总体中抽样的方法,例如在参加某次会的成员中抽样。5 抽样调查简单随机抽样 总 体 抽 样 方 法 抽 样 结 果总体通过数字唯一确定 随机数抽取总体中每个人都有相等的机会被选为样本5 抽样调查 系统抽样 总体 抽样方法 抽样结果 随机选择起始点,然后以相同间隔抽取总体中每个人都有相等的机会被选为样本5 抽样调查 整群抽样总体 抽样方法 抽样结果将总体分为小组(群)随机抽取两个群,再从这些 群中随机抽取(两步)每个群都有相等的机会被抽取,每个群中的成员有相等的机会从这个群中被选为样本5 抽样调查 分层随机抽样 总体 抽样方法 抽样结果总体被分为(比如)两层随机从每个层中抽取一定的比例,然后再从每个层中随机抽取每个层中每个成员都有相等的机会被选为样本5 抽样调查便利抽样在一些交通流量大的地点随机抽取“过路人”总 体 抽 样 方 法 抽 样 结 果 总体只有那些途径这个地方的人有机会被选为样本,这导致误差5 抽样调查判断抽样 总 体 抽 样 方 法 抽 样 结 果 总体 选取典型的和便利的样本只有那些被判断为典型的和便利的样本有机会被选中,这导致误差5 抽样调查推荐抽样通过随机选取的被调查人员的推荐来选取样本 总 体 抽 样 方 法 抽 样 结 果 总体只有那些在朋友圈内的人有机会入选,这导致误差5 抽样调查 定额抽样 总体 抽样方法 抽样结果依据人口统计特征或消费 者行为变量将总体分类依据与总体分布保持一致的定额系统抽样,但要选择便利的地方,如购物中心只有经过特定地点的人有机会入选,这引起误差5 抽样调查任务三任务三 影响样本准确性的因素影响样本准确性的因素抽样误差抽样误差 在市场调查中,无论是普查还是抽样调查都可能发生在市场调查中,无论是普查还是抽样调查都可能发生误差。误差。1调查误差调查误差v 调查误差是指调查的结果和客观实际情况之间的偏差,调查误差是指调查的结果和客观实际情况之间的偏差,一般以工作性误差和代表性误差两种形式存在。一般以工作性误差和代表性误差两种形式存在。5 抽样调查v登记性误差又称为工作性误差v代表性误差只存在抽样调查中5 抽样调查v2抽样误差抽样误差v抽样误差就是按照随机原则抽样时,抽得的抽样误差就是按照随机原则抽样时,抽得的样本指标与总体指标的实际差数,如:样本样本指标与总体指标的实际差数,如:样本平均值与总体平均值之差平均值与总体平均值之差 或样本或样本成数与总体成数之差成数与总体成数之差 。抽样误差越大,。抽样误差越大,样本代表性越低,因此,应该尽量降低抽样样本代表性越低,因此,应该尽量降低抽样误差。误差。5 抽样调查课堂讨论课堂讨论v非随机抽样有哪些优缺点?v确定样本容量时要考虑哪些因素?5 抽样调查