抽样刁鹏飞-社会调查研究方法课10-27.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《抽样刁鹏飞-社会调查研究方法课10-27.pptx》由会员分享,可在线阅读,更多相关《抽样刁鹏飞-社会调查研究方法课10-27.pptx(111页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中国社会科学院社会学研究所刁鹏飞(博士、副研究员)社科院研究生院良乡校区,2011-10-27n 抽样与抽样调查n 抽样的概念、术语与程序n 概率抽样n 非概率抽样n 样本量计算第三讲第三讲 抽样抽样便利抽样因其简便易行而被广泛采用便利抽样因其简便易行而被广泛采用n特点:根据调查者认为便利的访问条件来进行抽样。通常用在街头、商场等公共场所进行的拦截调查n适用条件:调查对象占人群比例较高;问题较简单n优点: 简易、快速、易于控制n缺点:样本选择偏差较大;难以避免访问员的主观选择n应用:便利抽样在市场调研中应用十分普遍。在公共场所对调查对象甄别、抽样、访问都几乎不发生费用,被访人也易于合作。但要注
2、意的是,这种抽样方式往往无法包括未出现在该调查场合的人群;另外,如果调查对象在人群中的比例过低,甄选出他们难度相当大。4 4、非概率抽样、非概率抽样 判断抽样常用来研究有重要意义的典型人群判断抽样常用来研究有重要意义的典型人群n特点:根据调查者的主观判断来选择认为有代表性的样本n适用条件:对典型人群进行研究n优点: 易于快速地发现问题和寻求答案n缺点:典型人群的答案可能重要但不具普遍性n应用:判断抽样主要用以研究那些典型类型的被访人,在群组座谈会中经常用到此类的方法。比如保险行业研究潜在用户购买寿险的动机类型,就将被访人分为储蓄、增值、保障、救急若干动机类型,分别选各类动机突出者用群组座谈会的
3、方式做研究,就是采用判断抽样的方法。n当无法接触到所有研究对象的时候也往往用判断抽样的方法。比如研究劳动关系冲突中的工人,很难做严格的抽样,就可以用判断抽样的方法来用劳动调解、仲裁或诉讼案例中的工人替代之。4 4、非概率抽样、非概率抽样 配额抽样是非随机抽样方法中代表性相对最好的配额抽样是非随机抽样方法中代表性相对最好的n特点:根据已知的总体人群的特征比例,配置出样本人群的比例结构,进行抽样。n适用条件:对总体的主要特征有足够的信息,并且易于操作n优点:在最大程度上克服了非概率抽样代表性不足的缺陷n缺点:只能用少数几个指标进行配额n应用:大部分的非概率抽样都会或多或少采用配额的方法,这样可以对
4、样本构成有所控制,使之与总体接近。比如在街头拦截调查时,总是男性被访人的比例过高,就可以采用配额的方式,让回答者性别为1:1。n有时为了对不同类型的群体进行比较,也需要用配额抽样以达到可供分析的样本量。4 4、非概率抽样、非概率抽样 滚雪球的方法多用来调查难以接触的被访人滚雪球的方法多用来调查难以接触的被访人n特点:利用被访人的人际关系来邀约更多的被访人n适用条件:问题敏感、被访人难以接触的调查n优点:被访人合作程度高n缺点:样本可能会比较类似n应用:由于人际关系的介入,滚雪球的抽样方式往往能在调查者和被访人之间建立较好的合作关系,特别适宜于隐密性话题的访问。如研究吸毒者群体,就可以先从一两个
5、相熟的吸毒者着手,而后通过他们介绍,结识更多的访问对象。4 4、非概率抽样、非概率抽样n 抽样与抽样调查n 抽样的概念、术语与程序n 概率抽样n 非概率抽样n 样本量计算第三讲第三讲 抽样抽样并非样本量越大,代表并非样本量越大,代表性就越好;也并非大的性就越好;也并非大的总体就应该有大的样本总体就应该有大的样本样本量的大小和总体的规模有关系吗?常会有这样的误判:“全国的样本量应该比只做一个城市调查的样本量大得多”。其实并非如此。从样本代表性的角度看,当样本量达到一定规模时,代表性就几乎到了极点,再加大样本量就没有意义了无论总体的规模多么大。当然,全国调查的样本量会比单一城市的样本量大一些,但这
6、不是全国人口多的缘故,只是因为要考虑地域差异加大了样本量大到一定程度,代表性的样本量大到一定程度,代表性的提高就微乎其微了提高就微乎其微了5 5、样本量计算、样本量计算 样本量的设计要权衡研究目的、时间和预算三类因素样本量的设计要权衡研究目的、时间和预算三类因素n研究目的:研究目的:代表性代表性:只侧重总体代表性,只侧重总体代表性,10001000出头的样本量就相当不错出头的样本量就相当不错了;若侧重子总体的代表性,则样本量一定会增大了;若侧重子总体的代表性,则样本量一定会增大群体比较:群体比较:要进行比较的群体越多,样本量就越大。一般而要进行比较的群体越多,样本量就越大。一般而言每一个比较群
7、体的样本量不低于言每一个比较群体的样本量不低于30-5030-50发生率:发生率:发生率较低的群体,随机样本量要大,否则要采用发生率较低的群体,随机样本量要大,否则要采用分层或配额的方法分层或配额的方法分析方法:分析方法:进行多元统计分析,往往要更大的样本量进行多元统计分析,往往要更大的样本量n调查时间:周期短则样本量不宜过大,否则完不成现场工作调查时间:周期短则样本量不宜过大,否则完不成现场工作n调查预算:样本量与预算呈正比调查预算:样本量与预算呈正比5 5、样本量计算、样本量计算仅从技术的调度而言,样本量的计算取决于:仅从技术的调度而言,样本量的计算取决于:1.1.调查对象的差异程度。调查
8、对象的差异程度。差异越大,样本量应该越大。在统计学中,差异越大,样本量应该越大。在统计学中,“差异差异”是用是用总体方差总体方差2 2 来表示的。如果是比例型的差异,通常来表示的。如果是比例型的差异,通常用用P(1-P)P(1-P)代替。代替。2.2.所期望的误差范围,或样本代表性的精度。所期望的误差范围,或样本代表性的精度。样本推断总体的误差样本推断总体的误差越小,样本量应该越大。越小,样本量应该越大。“误差误差”在统计学中用在统计学中用表示表示标准误标准误。3.3.由样本推断总体的把握程度。由样本推断总体的把握程度。把握程度越高,样本量应该越大。把握程度越高,样本量应该越大。 Z Z代表了
9、置信度的大小。代表了置信度的大小。n=2Z22n=2Z2p(1-p)计算:北京市社会阶层调查样本量。计算:北京市社会阶层调查样本量。设抽样误差为设抽样误差为3%3%,置信度为,置信度为95%95%(Z=1.96Z=1.96), ,总体最大方差为总体最大方差为50%50%* *50%50%(即(即0.250.25),样本量),样本量N=1067,N=1067,取近似值取近似值11001100。5 5、样本量计算、样本量计算练习:练习:1.1.为了研究收入对娱乐消费的影响,研究者以某城市为了研究收入对娱乐消费的影响,研究者以某城市1616岁以上居民岁以上居民为总体进行抽样调查。根据为总体进行抽样调
10、查。根据20062006年人口统计资料得知,该城市的年人口统计资料得知,该城市的月人均收入为月人均收入为13581358元,标准差为元,标准差为800800元。请设计在元。请设计在95%95%的置信度和的置信度和允许误差不超过允许误差不超过2020元的条件下的样本量。元的条件下的样本量。1-1 1-1 在上例中,若收入的标准差为在上例中,若收入的标准差为500500元,样本量又该是多少?元,样本量又该是多少?1-2 1-2 在在1 1中,若把允许误差扩大到中,若把允许误差扩大到5050元,样本量又该是多少?元,样本量又该是多少?2. 2. 市政府打算对个税起征点上调至市政府打算对个税起征点上调
11、至20002000元的政策进行民意调查,关注元的政策进行民意调查,关注点为有多大比例的支持度。请设计一个在置信度为点为有多大比例的支持度。请设计一个在置信度为95%95%,允许误差,允许误差不超过不超过3%3%的最保险的样本量。的最保险的样本量。5 5、样本量计算、样本量计算界 定 总 体界 定 总 体抽 样 设 计抽 样 设 计产 生 抽 样 框产 生 抽 样 框实 施 抽实 施 抽样和访问样和访问数 据 分 析数 据 分 析研究对象类研究对象类型型界定研究总界定研究总体体抽样方式抽样方式访问方式访问方式样本量样本量* *不同访问方不同访问方式的抽样框式的抽样框多级抽样多级抽样的抽样技术的抽
12、样技术数据录入数据录入数据加权合数据加权合并并* *数据统计数据统计在具体调研中,抽样通常遵循如下的流程:在具体调研中,抽样通常遵循如下的流程:推断总体推断总体来源、时效、来源、时效、范围范围界定调查总界定调查总体体抽样步骤示例抽样步骤示例n 研究对象的类型个人个人居民居民学生学生用户用户组织组织/ /机构机构家庭家庭学校学校公司公司事物事物票据票据广告广告档案档案调查的对象并不限于人口,可以是机构,甚至是物品。调查涉及的对象类型越多,调查就越复杂。抽样步骤示例抽样步骤示例具体研究中经常采用多阶段、多类型的综合抽样方法具体研究中经常采用多阶段、多类型的综合抽样方法抽样阶段抽样阶段抽样单位抽样单
13、位抽样方法抽样方法抽样指标抽样指标/ /工具工具第第1 1级级城市城市分层抽样分层抽样HDIHDI指数分层指数分层第第2 2级级拥有电话的家庭户拥有电话的家庭户简单随机抽样简单随机抽样RDDRDD第第3 3级级被访人被访人简单随机抽样简单随机抽样最近生日法最近生日法全国城市居民环境意识调查(电话访问)全国城市居民环境意识调查(电话访问)3 3阶段混合抽样阶段混合抽样抽样步骤示例抽样步骤示例具体研究中经常采用多阶段、多类型的综合抽样方法具体研究中经常采用多阶段、多类型的综合抽样方法抽样阶段抽样阶段抽样单位抽样单位抽样方法抽样方法抽样指标抽样指标/ /工具工具第第1 1级级县县/ /市市/ /区区
14、分层抽样分层抽样HDIHDI指数分层指数分层第第2 2级级乡乡/ /镇镇/ /街道街道整群抽样整群抽样等概率抽样等概率抽样PPSPPS第第3 3级级居居/ /村委会村委会整群抽样整群抽样等概率抽样等概率抽样PPSPPS第第4 4级级被访家庭被访家庭等距抽样等距抽样第第5 5级级被访人被访人简单随机抽样简单随机抽样KISHKISH表表全国社会综合状况调查全国社会综合状况调查CSSCSS(入户访问)(入户访问)5 5阶段混合抽样阶段混合抽样抽样步骤示例抽样步骤示例CSSCSS全国社会状况综合调查全国社会状况综合调查 以以20002000年全国第年全国第5 5次人口普查的区市县统计资料为基础进行抽样
15、框次人口普查的区市县统计资料为基础进行抽样框设计。设计。 采用分层多阶段抽样方式,逐级抽取区市县、乡镇街道、村采用分层多阶段抽样方式,逐级抽取区市县、乡镇街道、村/ /居委居委会作为调查点。会作为调查点。 以调查点内的家庭及人口资料汇聚成数以百万人计的抽样框。以调查点内的家庭及人口资料汇聚成数以百万人计的抽样框。采用分层多阶段抽样的方式抽取调查点采用分层多阶段抽样的方式抽取调查点 步骤1:采用城镇人口比例、居民年龄、教育程度、产业比例4大类指标7个变量,对东中西部的2797个区市县进行聚类分层,在划分好的37个层中,采用PPS方法抽取130个区市县 步骤3:在抽中的每一区市县中,采用PPS方法
16、抽取2个乡/镇/街道,共抽取了260个 步骤4:在抽中的每一乡/镇/街道中,采用PPS方法抽取2个村/居委会,共抽取520个 步骤5:收集抽中村/居委会中所有居民个人或家庭的名单资料,共覆盖160余万人,近50万户居民这些调查点内上百万居民构成了长期追踪调查的样本库这些调查点内上百万居民构成了长期追踪调查的样本库县/市/区乡/镇/街道乡/镇/街道村/居委会村/居委会居民居民居民居民居民居民居民居民1305201620000260居民居民丰台丰台海淀海淀密云密云西青西青南开南开滦县滦县沧县沧县南皮南皮桃桃城城区区新华区新华区南和南和沙沙河河武安武安成安成安万荣万荣昆都昆都伦区伦区托克托托克托玉泉
17、区玉泉区西丰西丰开原开原中山区中山区金州区金州区瓦房店瓦房店长岭长岭南关区南关区宽城区宽城区丰满区丰满区勃利勃利阿城阿城铁锋区铁锋区明水明水闸北区闸北区灌南灌南泗阳泗阳宝应宝应兴化兴化姜堰姜堰镇江镇江溧阳溧阳江北区江北区乐清乐清苍南苍南江山江山鹿城区鹿城区嵊州嵊州东阳东阳西湖区西湖区余杭余杭东至东至和县和县无为无为五河五河固镇固镇埇桥区埇桥区淮上区淮上区涵江区涵江区永泰永泰秀屿区秀屿区晋江晋江南安南安平和平和高安高安单县单县东昌东昌府区府区郯城郯城莒南莒南岱岳区岱岳区惠民惠民临朐临朐殷都区殷都区龙安区龙安区汤阴汤阴博爱博爱延津延津开封开封新密新密上蔡上蔡南召南召邓州邓州利川利川通城通城洪湖洪湖
18、江岸区江岸区浠水浠水孝昌孝昌房县房县南漳南漳东宝区东宝区靖州靖州耒阳耒阳开福区开福区浏阳浏阳西洞庭西洞庭鼎城区鼎城区永定区永定区揭东揭东丰顺丰顺源城区源城区开平开平东莞东莞顺德顺德萝岗区萝岗区黄黄埔埔区区番禺区番禺区龙州龙州藤县藤县横县横县威宁威宁毕节毕节织金织金瓮安瓮安陇川陇川隆阳区隆阳区云县云县晋宁晋宁鲁甸鲁甸子长子长临潼区临潼区高陵高陵未央区未央区湟中湟中固原固原伊宁伊宁九龙坡区九龙坡区綦江綦江红原红原旺苍旺苍广广元元剑阁剑阁华蓥华蓥营山营山大竹大竹安岳安岳东兴区东兴区仁寿仁寿金牛区金牛区全国抽样框全国抽样框130130个区市县分布图个区市县分布图此调查系统的抽样设计对全国居民总体信息有
19、可推断的代表性在地理区域上可进行东中西部地区的比较但不具有具体某一省、市、县区域人口的代表性,因此不能直接用于省、市、县级别的比较若要满足此类研究要求,必须补抽相应的调查点调查点的居民住户资料需要周期性的更新,一般3年左右更新一次为了保证初级抽样单位的代表性,通常不直接采用简单随为了保证初级抽样单位的代表性,通常不直接采用简单随机抽样的方法,而是利用各种统计指标,用聚类技术,将机抽样的方法,而是利用各种统计指标,用聚类技术,将初级抽样单位划分为不同的类型(层)。然后在每一类型初级抽样单位划分为不同的类型(层)。然后在每一类型(层)中抽取相应的市县(层)中抽取相应的市县。抽样步骤示例抽样步骤示例
20、用随机方法寻找一个起点抽样间距=100%/2=50%33.15%+50%=83.15%,抽取的第2个居委会居委会人数百分比累积百分比 等距抽样粉丝胡同粉丝胡同3393390 016.98 16.98 16.98 16.98 禄米仓胡同禄米仓胡同3113112 216.17 16.17 33.15 33.15 33.15 红星胡同红星胡同1881887 715.54 15.54 48.69 48.69 外交部街外交部街1881881 113.38 13.38 62.06 62.06 干面胡同干面胡同1071072 210.58 10.58 72.65 72.65 南小街第二南小街第二98980
21、010.08 10.08 82.72 82.72 南小街第三南小街第三48488 89.43 9.43 92.16 92.16 83.15南小街第一南小街第一45459 97.84 7.84 100.00 100.00 总计100.00 制作抽样框制作抽样框将名单按用户数降序排列将名单按用户数降序排列计算累计百分比计算累计百分比按累计百分比等距抽样按累计百分比等距抽样计算抽样间距计算抽样间距示例:根据一个居委会抽样框用示例:根据一个居委会抽样框用PPSPPS的方法抽取的方法抽取2 2个居委会个居委会抽样步骤示例抽样步骤示例居居/ /村委会的家庭抽样,首先要制作详细的家庭名册作为村委会的家庭抽样
22、,首先要制作详细的家庭名册作为抽样框,如果无法得到有效的名册,则要进行实地的地抽样框,如果无法得到有效的名册,则要进行实地的地址登记,或绘制街区图。然后对抽样框进行等距抽样。址登记,或绘制街区图。然后对抽样框进行等距抽样。抽样步骤示例抽样步骤示例入户后的抽样随机选样技术大致有:入户后的抽样随机选样技术大致有:n 最近生日法最近生日法n 性别年龄平衡表性别年龄平衡表n KISHKISH选样表选样表 抽样步骤示例抽样步骤示例在调查数据汇总阶段,往往还需要对抽样结果进行加权在调查数据汇总阶段,往往还需要对抽样结果进行加权在下列的情况下,样本数据一定要进行事后的加权:在下列的情况下,样本数据一定要进行
23、事后的加权:n 在抽样设计时,人为地设定了不同群体入选概率不相等在抽样设计时,人为地设定了不同群体入选概率不相等(如分层抽样)(如分层抽样)n 在调查中由于操作原因,导致选样概率的不同,因而产在调查中由于操作原因,导致选样概率的不同,因而产生了较大的样本偏差(如访问周期、入户时间、样本更换)生了较大的样本偏差(如访问周期、入户时间、样本更换)n 对样本加权的权重,应为样本入选概率的倒数对样本加权的权重,应为样本入选概率的倒数抽样步骤示例抽样步骤示例事后加权就是依据已有的总体统计数据来校正样本事后加权就是依据已有的总体统计数据来校正样本A A样本分布样本分布B B总体指标总体指标C=B/AC=B
24、/A权重值权重值加权后分布加权后分布和总体相比和总体相比性别性别男男52.4 52.4 50.9 50.9 0.971710.9717151.551.50.6 0.6 女女47.6 47.6 49.1 49.1 1.031121.0311248.548.5-0.6 -0.6 年龄年龄16-2016-205.4 5.4 11.1 11.1 2.070552.0705510.5 10.5 -0.6 -0.6 21-3021-3014.1 14.1 21.9 21.9 1.550021.5500223.5 23.5 1.6 1.6 31-4031-4025.1 25.1 26.3 26.3 1.04
25、8111.0481128.4 28.4 2.1 2.1 41-5041-5023.8 23.8 19.0 19.0 0.79720.797219.2 19.2 0.2 0.2 51-6051-6017.6 17.6 12.8 12.8 0.726580.7265811.8 11.8 -1.0 -1.0 61-7061-7014.0 14.0 8.9 8.9 0.63720.63726.5 6.5 -2.4 -2.4 抽样步骤示例抽样步骤示例定性定性/定量定量15-30人人无法估计无法估计从少数被访者从少数被访者处可以得到有处可以得到有指导性的信息指导性的信息时时结果解释太随意结果解释太随意快速
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 刁鹏飞 社会调查 研究 方法 10 27
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内