(02)第2章数据的搜集77476.ppt
《(02)第2章数据的搜集77476.ppt》由会员分享,可在线阅读,更多相关《(02)第2章数据的搜集77476.ppt(89页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2-1统计学统计学(第三版第三版)第第 2 章章 数据的搜集数据的搜集统计学2-2统计学统计学(第三版第三版)第第 2 章章 数据的搜集数据的搜集2.1 数据的来源数据的来源2.2 调查数据调查数据2.3 实验数据实验数据2.4 数据的误差数据的误差2.5 数据文件数据文件2-3统计学统计学(第三版第三版)学习目标学习目标l l了解数据的两种来源;了解数据的两种来源;了解数据的两种来源;了解数据的两种来源;l l了解搜集数据的抽样方法;了解搜集数据的抽样方法;了解搜集数据的抽样方法;了解搜集数据的抽样方法;l l理解搜集数据的调查方法;理解搜集数据的调查方法;理解搜集数据的调查方法;理解搜集数
2、据的调查方法;l l理解搜集数据的实验方法;理解搜集数据的实验方法;理解搜集数据的实验方法;理解搜集数据的实验方法;l l了解误差的种类及控制;了解误差的种类及控制;了解误差的种类及控制;了解误差的种类及控制;l l了解数据文件的一般格式了解数据文件的一般格式了解数据文件的一般格式了解数据文件的一般格式2-4统计学统计学(第三版第三版)2.1 数据的来源数据的来源一一.数据的间接来源数据的间接来源二二.数据的直接来源数据的直接来源2-5统计学统计学(第三版第三版)2.1.1 数据的间接来源数据的间接来源(二手数据)(二手数据)2-6统计学统计学(第三版第三版)系统外部的数据系统外部的数据Int
3、ernetInternet中国统计年中国统计年中国统计年中国统计年鉴鉴鉴鉴20012001中中中中国国国国人人人人口口口口统统统统计计计计年年年年鉴鉴鉴鉴中中中中国国国国市市市市场场场场统统统统计计计计年年年年鉴鉴鉴鉴世世世世界界界界发发发发展展展展报报报报告告告告世世世世界界界界经经经经济济济济年年年年检检检检工工工工业业业业普普普普查查查查数数数数据据据据中国统计出版社1.统统计计部部门门和和政政府府部部门门公公布布的的有有关关资资料料,如如各各类类统统计计年年鉴鉴,包包括括金金融融年年鉴鉴,中中国国市市场场统统计计年年鉴鉴,中中国国人人口口统统计计年年鉴鉴,海海关关年年鉴鉴,农农业年鉴。
4、业年鉴。2.各各类类经经济济信信息息中中心心、信信息息咨咨询询机机构、专业调查机构等提供的数据构、专业调查机构等提供的数据3.各各类类专专业业期期刊刊、报报纸纸、书书籍籍所所提提供的资料供的资料2-7统计学统计学(第三版第三版)系统外部的数据系统外部的数据4.各各种种会会议议,如如博博览览会会、展展销销会会、交交易易会会及及专专业业性性、学学术术性性研研讨讨会会上上交交流流的的有有关关资料资料5.从互联网或图书馆查阅到的相关资料从互联网或图书馆查阅到的相关资料 中中 国国 人人 民民 共共 和和 国国 国国 家家 统统 计计 局局:http:/ n分析所要研究的问题分析所要研究的问题分析所要研
5、究的问题分析所要研究的问题n n提供研究问题的背景提供研究问题的背景提供研究问题的背景提供研究问题的背景n n帮助研究者更好地定义问题帮助研究者更好地定义问题帮助研究者更好地定义问题帮助研究者更好地定义问题n n检验和回答某些疑问和假设检验和回答某些疑问和假设检验和回答某些疑问和假设检验和回答某些疑问和假设n n寻找研究问题的思路和途径寻找研究问题的思路和途径寻找研究问题的思路和途径寻找研究问题的思路和途径3.搜集二手资料在研究中应优先考虑搜集二手资料在研究中应优先考虑2-10统计学统计学(第三版第三版)1.资料的相关性不够资料的相关性不够 如:期评成绩和期末成绩如:期评成绩和期末成绩2.口径
6、可能不一致口径可能不一致 如:如:2000年邵阳师专和年邵阳师专和2008年邵阳学院年邵阳学院的学生人数的学生人数3.数据也许不准确数据也许不准确4.也许过时了也许过时了二手资料的局限性二手资料的局限性2-11统计学统计学(第三版第三版)二手数据的评估二手数据的评估(1)数据是谁搜集的?)数据是谁搜集的?n n可信度评估可信度评估可信度评估可信度评估(2)为什么目的而搜集的?)为什么目的而搜集的?(3)数据是怎样搜集的?)数据是怎样搜集的?(4)什么时候搜集的?)什么时候搜集的?2-12统计学统计学(第三版第三版)2.1.2 数据的直接来源数据的直接来源(一手数据)(一手数据)2-13统计学统
7、计学(第三版第三版)数据的直接来源数据的直接来源(原始数据原始数据)1.调查数据调查数据n n通过调查方法获得的数据通过调查方法获得的数据通过调查方法获得的数据通过调查方法获得的数据n n通常是对社会现象而言通常是对社会现象而言通常是对社会现象而言通常是对社会现象而言n n通常取自有限总体通常取自有限总体通常取自有限总体通常取自有限总体 2.实验数据实验数据n n通过实验方法得到的数据通过实验方法得到的数据通过实验方法得到的数据通过实验方法得到的数据n n通常是对自然现象而言通常是对自然现象而言通常是对自然现象而言通常是对自然现象而言 n n也被广泛运用到社会科学中也被广泛运用到社会科学中也被
8、广泛运用到社会科学中也被广泛运用到社会科学中l l如心理学、教育学、社会学、经济学、管理学等如心理学、教育学、社会学、经济学、管理学等如心理学、教育学、社会学、经济学、管理学等如心理学、教育学、社会学、经济学、管理学等 总体单位总体单位调查单位调查单位普普 查查数据的直接来源数据的直接来源对全部单位对全部单位进行调查进行调查2-15统计学统计学(第三版第三版)2.2 调查数据一一.概率抽样与非概率抽样概率抽样与非概率抽样二二.搜集数据的基本方法搜集数据的基本方法2-16统计学统计学(第三版第三版)2.2.1 概率抽样和非概率抽样概率抽样和非概率抽样2-17统计学统计学(第三版第三版)抽样方法抽
9、样方法2-18统计学统计学(第三版第三版)概率抽样概率抽样(probability sampling)1.也称随机抽样也称随机抽样2.特点特点n n按一定的概率以随机原则抽取样本按一定的概率以随机原则抽取样本按一定的概率以随机原则抽取样本按一定的概率以随机原则抽取样本l l抽抽抽抽取取取取样样样样本本本本时时时时使使使使每每每每个个个个单单单单位位位位都都都都有有有有一一一一定定定定的的的的机机机机会被抽中会被抽中会被抽中会被抽中n n每每每每个个个个单单单单位位位位被被被被抽抽抽抽中中中中的的的的概概概概率率率率是是是是已已已已知知知知的的的的,或是可以计算出来的或是可以计算出来的或是可以计
10、算出来的或是可以计算出来的 n n当当当当用用用用样样样样本本本本对对对对总总总总体体体体目目目目标标标标量量量量进进进进行行行行估估估估计计计计时时时时,要要要要考考考考虑虑虑虑到到到到每每每每个个个个样样样样本本本本单单单单位位位位被被被被抽抽抽抽中中中中的的的的概概概概率率率率2-19统计学统计学(第三版第三版)简单随机抽样简单随机抽样(simple random sampling)1.从从从从总总总总体体体体N N个个个个单单单单位位位位中中中中随随随随机机机机地地地地抽抽抽抽取取取取n n个个个个单单单单位位位位作作作作为为为为样样样样本本本本,每个单位入抽样本的概率是相等的每个单位
11、入抽样本的概率是相等的每个单位入抽样本的概率是相等的每个单位入抽样本的概率是相等的2.最基本的抽样方法,是其它抽样方法的基础最基本的抽样方法,是其它抽样方法的基础最基本的抽样方法,是其它抽样方法的基础最基本的抽样方法,是其它抽样方法的基础3.特点特点特点特点n n简简简简单单单单、直直直直观观观观,在在在在抽抽抽抽样样样样框框框框(包包包包括括括括所所所所有有有有总总总总体体体体单单单单位位位位的的的的信信信信息息息息)完整时,可直接从中抽取样本完整时,可直接从中抽取样本完整时,可直接从中抽取样本完整时,可直接从中抽取样本n n用样本统计量对目标量进行估计比较方便用样本统计量对目标量进行估计比
12、较方便用样本统计量对目标量进行估计比较方便用样本统计量对目标量进行估计比较方便4.局限性局限性局限性局限性n n当当当当N N很大时,不易构造抽样框很大时,不易构造抽样框很大时,不易构造抽样框很大时,不易构造抽样框n n抽出的单位很分散,给实施调查增加了困难抽出的单位很分散,给实施调查增加了困难抽出的单位很分散,给实施调查增加了困难抽出的单位很分散,给实施调查增加了困难n n没有利用其它辅助信息以提高估计的效率没有利用其它辅助信息以提高估计的效率没有利用其它辅助信息以提高估计的效率没有利用其它辅助信息以提高估计的效率2-20统计学统计学(第三版第三版)分层抽样分层抽样(stratified s
13、ampling)1.将将抽抽样样单单位位按按某某种种特特征征或或某某种种规规则则划划分分为为不不同同的的层层,然然后后从从不不同同的的层层中中独独立立、随随机机地抽取样本地抽取样本2.优点优点n n保保保保证证证证样样样样本本本本的的的的结结结结构构构构与与与与总总总总体体体体的的的的结结结结构构构构比比比比较较较较相相相相近近近近,从从从从而提高估计的精度而提高估计的精度而提高估计的精度而提高估计的精度n n组织实施调查方便组织实施调查方便组织实施调查方便组织实施调查方便n n既既既既可可可可以以以以对对对对总总总总体体体体参参参参数数数数进进进进行行行行估估估估计计计计,也也也也可可可可以
14、以以以对对对对各各各各层层层层的目标量进行估计的目标量进行估计的目标量进行估计的目标量进行估计2-21统计学统计学(第三版第三版)分层抽样分层抽样 假设某地区有高中生假设某地区有高中生2400人,初中生人,初中生10900人,小学生人,小学生11000人,此地区教人,此地区教育部门为了了解本地区中小学生的近视育部门为了了解本地区中小学生的近视情况及形成原因,要从本地区的中小学情况及形成原因,要从本地区的中小学生中抽取生中抽取1的学生进行调查,你认为的学生进行调查,你认为应当怎样抽取样本?应当怎样抽取样本?2-22统计学统计学(第三版第三版)分层抽样分层抽样 我们知道,影响学生视力的因素是非常我
15、们知道,影响学生视力的因素是非常复杂的复杂的.例如不同年龄阶段的学生的近例如不同年龄阶段的学生的近视情况可能存在明显差异。因此宜将全视情况可能存在明显差异。因此宜将全体学生分成高中、初中和小学三部分分体学生分成高中、初中和小学三部分分别抽样。另外,三部分的学生人数相差别抽样。另外,三部分的学生人数相差较大,因此,为了提高样本的代表性,较大,因此,为了提高样本的代表性,还应考虑他们在样本中所占比例的大小还应考虑他们在样本中所占比例的大小.2-23统计学统计学(第三版第三版)分层抽样分层抽样 由于样本容量与总体中的个体数的比为由于样本容量与总体中的个体数的比为1:100,因此样本中包含的各部分的个
16、体数应因此样本中包含的各部分的个体数应是是:2400/100,10900/100,11000/100,即抽取即抽取24名高中生,名高中生,109名初中生和名初中生和110名名小学生作为样本。小学生作为样本。2-24统计学统计学(第三版第三版)分层抽样分层抽样 一个地区共有一个地区共有5个乡镇,人口个乡镇,人口3万人,其万人,其中人口比例为中人口比例为3:2:5:2:3,从,从3万人万人中抽取一个中抽取一个300人的样本,分析某种疾人的样本,分析某种疾病的发病率,已知这种疾病与不同的地病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的理位置及水土有关,问应采取什么样的方法?方法
17、?2-25统计学统计学(第三版第三版)分层抽样分层抽样解:因为疾病与地理位置和水土均有关系,解:因为疾病与地理位置和水土均有关系,所以不同乡镇的发病情况差异明显,因所以不同乡镇的发病情况差异明显,因而采用分层抽样的方法,具体过程如下:而采用分层抽样的方法,具体过程如下:(1)将)将3万人分为万人分为5层,其中一个乡镇为一层,其中一个乡镇为一层。层。(2)按照样本容量的比例随机抽取各乡镇)按照样本容量的比例随机抽取各乡镇应抽取的样本。应抽取的样本。2-26统计学统计学(第三版第三版)分层抽样分层抽样3003/15=60(人),3002/15=100(人),3002/15=40(人),3002/1
18、5=60(人),因此各乡镇抽取人数分别为60人、40人、100人、40人、60 人。(3)将300人组到一起,即得到一个样本。2-27统计学统计学(第三版第三版)整群抽样整群抽样(cluster sampling)1.将将总总体体中中若若干干个个单单位位合合并并为为组组(群群),抽抽样样时时直直接接抽抽取取群群,然然后后对对中中选选群群中中的的所所有有单单位全部实施调查位全部实施调查2.特点特点n n抽样时只需群的抽样框,可简化工作量抽样时只需群的抽样框,可简化工作量抽样时只需群的抽样框,可简化工作量抽样时只需群的抽样框,可简化工作量n n调调调调查查查查的的的的地地地地点点点点相相相相对对对
19、对集集集集中中中中,节节节节省省省省调调调调查查查查费费费费用用用用,方方方方便便便便调查的实施调查的实施调查的实施调查的实施n n缺点是估计的精度较差缺点是估计的精度较差缺点是估计的精度较差缺点是估计的精度较差2-28统计学统计学(第三版第三版)系统抽样系统抽样(systematic sampling)1.将将总总体体中中的的所所有有单单位位(抽抽样样单单位位)按按一一定定顺顺序序排排列列,在在规规定定的的范范围围内内随随机机地地抽抽取取一一个个单单位位作作为为初初始始单单位位,然然后后按按事事先先规规定定好好的的规则确定其它样本单位规则确定其它样本单位n n先先先先从从从从数数数数字字字字
20、1 1到到到到k k之之之之间间间间随随随随机机机机抽抽抽抽取取取取一一一一个个个个数数数数字字字字r r作作作作为为为为初始单位,以后依次取初始单位,以后依次取初始单位,以后依次取初始单位,以后依次取r+kr+k,r+2kr+2k等单位等单位等单位等单位2.优点:操作简便,可提高估计的精度优点:操作简便,可提高估计的精度3.缺点:对估计量方差的估计比较困难缺点:对估计量方差的估计比较困难2-29统计学统计学(第三版第三版)多阶段抽样多阶段抽样(multi-stage sampling)1.1.先先先先抽抽抽抽取取取取群群群群,但但但但并并并并不不不不是是是是调调调调查查查查群群群群内内内内的
21、的的的所所所所有有有有单单单单位位位位,而而而而是是是是再再再再进进进进行行行行一一一一步步步步抽抽抽抽样样样样,从从从从选选选选中中中中的的的的群群群群中中中中抽抽抽抽取取取取出出出出若若若若干干干干个个个个单单单单位位位位进进进进行调查行调查行调查行调查n n群群群群是是是是初初初初级级级级抽抽抽抽样样样样单单单单位位位位,第第第第二二二二阶阶阶阶段段段段抽抽抽抽取取取取的的的的是是是是最最最最终终终终抽抽抽抽样样样样单单单单位位位位。将该方法推广,使抽样的段数增多,就称为多阶段抽样将该方法推广,使抽样的段数增多,就称为多阶段抽样将该方法推广,使抽样的段数增多,就称为多阶段抽样将该方法推广
22、,使抽样的段数增多,就称为多阶段抽样2.2.具具具具有有有有整整整整群群群群抽抽抽抽样样样样的的的的优优优优点点点点,保保保保证证证证样样样样本本本本相相相相对对对对集集集集中中中中,节节节节约约约约调调调调查费用查费用查费用查费用3.3.需需需需要要要要包包包包含含含含所所所所有有有有低低低低阶阶阶阶段段段段抽抽抽抽样样样样单单单单位位位位的的的的抽抽抽抽样样样样框框框框;同同同同时时时时由由由由于于于于实行了再抽样,使调查单位在更广泛的范围内展开实行了再抽样,使调查单位在更广泛的范围内展开实行了再抽样,使调查单位在更广泛的范围内展开实行了再抽样,使调查单位在更广泛的范围内展开4.4.在大规
23、模的抽样调查中,经常被采用的方法在大规模的抽样调查中,经常被采用的方法在大规模的抽样调查中,经常被采用的方法在大规模的抽样调查中,经常被采用的方法 2-30统计学统计学(第三版第三版)非概率抽样非概率抽样(non-probability sampling)1.相对于概率抽样而言相对于概率抽样而言2.抽抽取取样样本本时时不不是是依依据据随随机机原原则则,而而是是根根据据研研究究目目的的对对数数据据的的要要求求,采采用用某某种种方方式式从从总总体体中抽出部分单位对其实施调查中抽出部分单位对其实施调查3.有有方方便便抽抽样样、判判断断抽抽样样、自自愿愿样样本本、滚滚雪雪球球抽样、配额抽样等方式抽样、
24、配额抽样等方式 2-31统计学统计学(第三版第三版)方便抽样方便抽样1.调调查查过过程程中中由由调调查查员员依依据据方方便便的的原原则则,自自行行确定入抽样本的单位确定入抽样本的单位n n调调调调查查查查员员员员在在在在街街街街头头头头、公公公公园园园园、商商商商店店店店等等等等公公公公共共共共场场场场所所所所进进进进行行行行拦拦拦拦截调查截调查截调查截调查n n厂家在出售产品柜台前对路过顾客进行的调查厂家在出售产品柜台前对路过顾客进行的调查厂家在出售产品柜台前对路过顾客进行的调查厂家在出售产品柜台前对路过顾客进行的调查2.优点:优点:容易实施,调查的成本低容易实施,调查的成本低3.缺缺点点:
25、样样本本单单位位的的确确定定带带有有随随意意性性,样样本本无无法法代代表表有有明明确确定定义义的的总总体体,调调查查结结果果不不宜宜推推断总体断总体2-32统计学统计学(第三版第三版)自愿样本自愿样本1.被被调调查查者者自自愿愿参参加加,成成为为样样本本中中的的一一分分子子,向调查人员提供有关信息向调查人员提供有关信息n n例例例例如如如如,参参参参与与与与报报报报刊刊刊刊上上上上和和和和互互互互联联联联网网网网上上上上刊刊刊刊登登登登的的的的调调调调查查查查问问问问卷卷卷卷活活活活动动动动,向向向向某某某某类类类类节节节节目目目目拨拨拨拨打打打打热热热热线线线线电电电电话话话话等等等等,都都
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 02第2章 数据的搜集77476 02 数据 搜集 77476
限制150内