抽样调查意义与应用(08tongji).ppt
抽样调查(Survey Sampling)第一章 概论1.社会生活中的调查2.抽样调查3.基本概念4.抽样调查的误差来源5.抽样方法6.实施抽样调查的一般步骤内容提要一、社会生活中的调查l现代社会对于统计信息的需求非常广泛。l调查(survey)是收集数据、获取统计信息的基本手段。是统计研究的起点。l调查:针对特定的人、事件,或特定的群体、系统等进行的收集资料、证据,获取信息的活动。l我们主要关心:为了解某特定群体的某些整体整体的数值特征的数值特征所进行的调查(survey),而不是其他调查。关心整体的信息,而不是个别个体的情况。例如:例1.政府部门需要了解青岛市居民的家庭年收入情况政府部门需要了解青岛市居民的家庭年收入情况。关心的整体(总体):青岛关心的整体(总体):青岛市全部的家庭。待收集的数据:待收集的数据:某年各个家庭的年收入。欲了解的总体数值特征:欲了解的总体数值特征:家庭平均年收入、各收入段中家庭的比例(低收入家庭的比例、高收入家庭的比例)、贫富的差距,等等。例2.预测某一届美国总统选举结果的民意调查预测某一届美国总统选举结果的民意调查。关心的整体:关心的整体:选举当年全体合法选民。待收集的数据:待收集的数据:各个选民准备投哪个候选人的票。欲了解的总体数值特征:欲了解的总体数值特征:各候选人在全体选民中的得票率。调查与抽样l面对某个庞大、复杂的总体,往往不可能全面调查其中的每一个个体来获得总体信息。只能从中抽选部分个体(样本样本)作调查,然后再由部分个体的数据推断总体的信息。l抽样调查是社会调查中最常用的手段。l特点:“以偏概全”、归纳、有一定误差。调查举例:1.政府部门的调查l大规模的社会调查最早大概就是出于政府的统治需要进行的。人类历史上很早就有关于人口、土地面积、税收等方面的调查。l一个较完整的早期抽样调查的例子:数学家Laplace受法国政府的委托作的对法国人口的推算。首先按不同的自然条件抽选30个行政区,在抽中的行政区中再抽一些小区。最后利用各小区中人口总数与出生人口数之间的比率来推断法国总人口。他调查的时点是1802年9月22日,那时各小区的总人口数为2037615人,出生人口用前三年的总数215599除以3来算,算得出生率为35.27。由此推算当时全法国的人口总数。(p6)调查举例:2.民间和大众媒体的调查民间和大众媒体的调查l市场调查某些商品的市场调查,例如化妆品、家用电器、汽车等保险业需求调查(“关于分红保险的调查研究”)一些商场、超市做的顾客调查境外游客的调查广告投放效果的评估,例如:广告效果的调查调查举例:2.民间和大众媒体的调查l民意测验(poll)美国的Literary Digest 杂志在1912-1932年间数次针对总统选举结果预测进行民意测验获得成功。但在1936年遭遇了失败。美国Gallup民意调查所于1935年成立,起初专门从事民意测验,在1936年预测总统选举结果取得成功。1990年与1992年全国科协组织的公众对科学技术态度的调查调查举例:2.民间和大众媒体的调查l电视收视率调查l城市交通状况调查l产品质量状况调查目前,全世界已有众多诸如Gallup公司这样的专业从事各类调查的企业、咨询机构,已经形成“调查行业”。调查举例:3.其他方面的调查l学术研究心理学:儿童智商测验的量表、股民投资心理的研究、成功的关键因素等等社会学:1987与1992年中国儿童情况调查,1990年全国妇联组织的中国妇女社会地位调查经济学教育学:教育质量评估、不同教育方式的比较自然科学的研究等等。调查举例:3.其他方面的调查l企业管理资产评估财务审计产品质量抽样检验新产品的市场调查等等调查方式l问卷式(questionnaire)把要调查的内容转换成若干个问题,集中在一份调查表中,让被调查对象回答。是用得较多的一种调查方式。问题的形式主要有:封闭性的选择题、填写少量的数据的问题、开放性的问题。问卷可以:由专门的调查员直接发放收集、用信函邮寄、通过电话询问、在网上调查等问卷设计至关重要调查方式l报表登记形式例如,我国的工业报表制度l仪器测量工业生产中产品质量的自动化检验交通流量的自动检测空气、水质量的检测l查阅资料例如,财务审计l实验、观察对调查的一般要求l充分性:能否获得所需的各项信息l及时性:每项调查都有一定的时效性,故调查周期不可太长。l经济性:省时、省力、便于组织实施l准确性:误差应控制在可接受的范围内任何实际的调查,都只能在有限的人力、物力、财力和时间下,追求尽可能多且精确、有效的信息。二、二、抽样调查的意义与应用抽样调查的意义与应用(一)什么是抽样调查(一)什么是抽样调查(Survey Sampling)抽样调查是按一定程序从所研究对象的(总体)中抽取一部分(样本)进行调查,获取数据,并以此对总体的一定目标量作出推断。普查与抽样调查普查与抽样调查 在在普普查查中中,我我们们从从总总体体的的所所有有单单元元中中收收集集信信息息;而而在在抽抽样样调调查查中中我我们们仅仅仅仅从从总总体体中中的的一一部部分分(通通常常是是很很小小的的一一部部分分)单单元元中中收收集集信息。信息。抽样调查的必要性l有些调查不可能全面调查。比如:空气、水质污染状况,破坏性的产品质量试验等l节约人力、物力、财力,大大降低调查费用。l缩短调查、数据整理分析的时间,时效性强。l能够提高调查质量,所获信息精确程度往往高于全面调查。l适用于大规模的社会调查。抽样调查优点抽样调查优点l能能在在充充分分满满足足客客户户所所需需信信息息质质量量的的前前提提下,提供一种更快、更节省的方法。下,提供一种更快、更节省的方法。l相相对对于于普普查查来来说说,抽抽样样调调查查规规模模小小,因因而而更更容容易易进进行行监监控控,对对被被调调查查者者的的心心理理压力也小。压力也小。l一一项项经经科科学学设设计计并并严严格格实实施施的的抽抽样样调调查查完完全全有有可可能能获获得得比比全全面面调调查查(普普查查)更更为准确、更为可靠的结果。为准确、更为可靠的结果。抽样调查的主要技术问题1.如何抽?只有当抽出的样本能够代表总体时,才能用样本的信息正确地推断总体的信息。2.抽多大的样本合适?3.如何作推断、下结论?4.结论的误差多大?可信度多大?对这四个问题的讨论是本课程核心内容。(二)(二)抽样调查发展简史抽样调查发展简史 发端于1895年,第五届国际统计学会(ISI)挪威第一任统计局长凯尔提出建议:用代表性样本调查方法来代替全面调查。凯尔的观点凯尔的观点一个良好的,也即对总体有代表性的样本应该是总体的一个缩影。样本各种平均性的指标应该与总体相应的指标十分接近。“代表性抽样代表性抽样”(或称目的抽样目的抽样)奈曼的理论奈曼的理论 采用概率采用概率(随机随机)抽样而不是代表性抽样。抽样而不是代表性抽样。在对总体有所了解的情况下,使用分层抽使用分层抽样样可以提高精度。因为根据概率抽样,得到的样本通常可以获得总体目标量的无偏估计,而且估计量的方差也可从样本进行估计。非概率抽样非概率抽样(non-probability sampling)用一种主观的方法从总体中抽选单元用一种主观的方法从总体中抽选单元。随意抽样;志愿者抽样;判断抽样;配额抽样;非概率抽样的缺点非概率抽样的缺点l为了对总体进行推断,需要对样本的代表性做很强的假定。l不可能得到可靠的估计值以及抽样误差估计值。概率抽样概率抽样(probability sampling)两条基本准则:两条基本准则:l单元是随机抽取的;单元是随机抽取的;l调查总体中的每个单元都有调查总体中的每个单元都有一个非零的入样概率,并且一个非零的入样概率,并且能计算出这些概率。能计算出这些概率。概率抽样的优点概率抽样的优点l能得到总体的可靠估计值l能计算估计值的抽样误差能对总体进行推断能对总体进行推断 如何抽到一个如何抽到一个“好好”样本样本l用好的抽样方法l用好的估计方法 好的抽样策略好的抽样策略辅助信息(变量)的充分利用辅助信息(变量)的充分利用抽样设计的类型抽样设计的类型l放回抽样与不放回抽样l等概率抽样与不等概率抽样l一次性抽样与重复性抽样(连续抽样)简单随机抽样简单随机抽样系统抽样系统抽样分层抽样分层抽样整群抽样整群抽样多阶抽样多阶抽样多重(相)抽样多重(相)抽样PPSPPS抽样抽样抽样方法抽样方法估计方法(等概率抽样)估计方法(等概率抽样)l简单估计 (用样本均值估计总体均值)l比(率)估计l回归估计 (利用与调查指标相关的 辅助变量)估计方法(估计方法(PPS抽样)抽样)l汉森赫维茨估计l霍维茨汤普森估计抽样调查的误差来源误差可分两大类:1.抽样误差(sampling error)用样本(局部)信息推断总体信息总难免的误差。若采用概率抽样(随机抽样),则可根据概率论原理定量地描述这部分误差;或根据误差控制要求设计合适的抽样方案。2.非抽样误差(non-sampling errors)并非样本与总体间固有差异造成的误差,主要有两个方面原因造成:样本选择偏差(selection bias)测量偏差(measurement bias)样本选择偏差l根本原因:抽样总体不同于目标总体l可能来源:取样方式与关心的目标量有关由调查员的主观判断、经验取样按方便程度取样样本全由自愿回答者构成目标总体的确定有误抽样框不完善对于样本中无回答单元的处理样本选择偏差的典型案例(Freedman,D.等著,魏宗舒等译(1997),统计学,中国统计出版社,第19章)对1936年美国总统选举结果的预测l当时最大的民意测验机构 Literary Digest 杂志花了50万美元,按全国各地的电话号码簿发出一千万张问卷,回收二百多万张,预测共和党人Landon当选。预测得票率57%,而实际得票率38%。预测失败。lGallup领导的三家民意测验机构只调查了50000选民,准确预测民主党人Roosevelt当选。样本选择偏差的典型案例对1936年美国总统选举的预测Roosevelt的得票率Gallup预言Literary Digest 的预测结果(随机抽选了3000人)44%Literary Digest预测的选举结果43%Gallup预测的选举结果(抽选了50000人)56%实际选举结果62%样本选择偏差的典型案例l问卷是邮寄给一千万人的,这些人的名字、地址摘自电话簿或俱乐部会员名册。包括的主要是富人。而当时,富人与穷人的政治倾向差异很大。l有严重的不回答现象。回答者(主要市中等收入者)与不回答者(低收入与高收入者)差异很大。Literary Digest预测失败的原因测量偏差l不论抽样调查还是普查,都存在测量偏差。l主要原因:测量仪器的精度问卷设计的原因:问题有歧义、有导向性、用词不准确、难以精确回答等调查员的素质:对调查项目的理解、责任性、专业水平等被调查者的原因:遗漏、虚报、瞒报、随意报数据收集、整理过程中的错、漏l测量偏差一般随被调查对象数量增加而增加。故抽样调查结果常比普查更精确。对误差的研究、控制l尽量精心、充分地准备、设计抽样调查方案,减小非抽样误差l采用科学、有效的方法抽样,减小样本选择偏差、抽样误差二、我国抽样调查应用概况二、我国抽样调查应用概况l统计部门(国家及地方统计局)l其他政府部门与学术机构l专业调查与咨询机构(公司)统计局承担的抽样调查统计局承担的抽样调查项目列举项目列举l人口变动情况调查;l城市与农村住户调查;l农产量调查;l规模以下工业调查;l限额以下批发零售业餐饮业调查政府其他部门与学术机构政府其他部门与学术机构组织与承担的部分项目(组织与承担的部分项目(1)l卫生部 流行病学调查(高血压,结核病)5岁以下儿童死亡情况调查 国家卫生服务总调查 政府其他部门与学术机构政府其他部门与学术机构组织与承担的部分项目(组织与承担的部分项目(2)l交通部 公路、水路交通运输量调查l环境保护总局 粮食农药污染调查l全国科协 公众科学素养调查 政府其他部门与学术机构政府其他部门与学术机构组织与承担的部分项目(组织与承担的部分项目(3)l全国妇联 妇女社会地位调查l教育部与国家语委 语言与文字使用情况调查 政府其他部门与学术机组织政府其他部门与学术机组织特点特点l目的明确,了解总体基本情况l通常是一次性的或周期较长l设计较有特色l样本量较大,精度要求较高专业调查咨询机构(公司)专业调查咨询机构(公司)l电视收视率调查l观众行为调查l报刊阅读调查l市场(消费行为)调查l社会热点调查专业调查咨询机构组织项目专业调查咨询机构组织项目特点特点l目的明确,基本了解总体情况l讲究时效与成本,样本量多有限制l设计要求不甚严格,质量相差悬殊l回答率较低,拒访率较高三、我国抽样调查应用中三、我国抽样调查应用中的主要问题的主要问题 l尽可能提高抽样效率(费用与精度),同时具有可操作性;l满足多层次需要问题;l非抽样误差的控制与调整。如何满足多层次需要如何满足多层次需要l中国国情中国国情 各级政府都要管经济l解决途径解决途径 分层(事先分层与抽样后分层)样本追加策略l冯士雍,施锡辁.抽样调查理论、方法与实践.上海科学技术出版社,1996.l冯士雍,倪加勋,邹国华.抽样调查理论与方法,中国统计出版,1998.l加拿大统计局调查技能项目组编,中国国家统计局调查技能项目组译,冯士雍(审校).调查技能教程,中国统计出版社,2002.l赵民德,谢邦昌.探索真相,中国统计出版,2001.l胡健颖,孙山泽,抽样调查的理论和方法,北京大学出版社,2000.l柯惠新,丁立宏,市场调查与分析,中国统计出版社,2000.l梁小筠,祝大平.抽样调查的方法和原理,华东师范大学出版社,1994.