统计学-数据的收集与整理-文档资料.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《统计学-数据的收集与整理-文档资料.ppt》由会员分享,可在线阅读,更多相关《统计学-数据的收集与整理-文档资料.ppt(100页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据的收集、整理11.理解数据的来源,理解五种统计调查方式,掌握五种概率抽样方法的定义,理解五种统计调查方法.理解抽样误差的定义,了解非抽样误差.会撰写统计调查方案。2.了解统计整理的概念;了解统计分组的定义、作用,理解统计分组的原则、种类;掌握组距数列的编制步骤;掌握洛伦兹曲线和基尼系数的含义与用途.3.准确应用统计图和统计表显示统计数据的数量特征.学习目标2内容安排一、数据的收集二、数据的整理三、统计表与统计图3数据的收集数据的收集 统计资料收集是根据统计研究的目统计资料收集是根据统计研究的目的要求,采用一定组织形式与科学方法,的要求,采用一定组织形式与科学方法,进行采集与研究问题有关的各
2、类信息资进行采集与研究问题有关的各类信息资料的工作过程。料的工作过程。41.数据的来源(1)第一手数据 (2)第二手数据5第一手数据第一手数据是反映被调查对象原始状况的资料,如原始记录、统计台账、调查问卷答案、实验结果等.统计调查或进行实验是数据的直接来源.原始数据是统计数据的最基本的来源.第二手数据第二手数据是已经存在的经他人整理分析过的资料.数据的间接来源常用的有以下一些:公开出版的统计数据,主要来自官方的统计部门和政府、组织、学校和科研机构.尚未公开发表的数据,如各企业的经营报表数据.6使用第二手数据需要注意的问题 应注意数据的含义、计算口径和计算方法,避免误用或滥用;注意第二手数据的时
3、间性,不能用过时的数据;应充分搞清这些数据的来源和可靠程度;应注明数据的出处,以尊重他人的劳动成果.7 2.统计调查(1)统计调查方案设计 (2)统计调查方法 (3)统计调查的组织方式8确定调查目的与任务确定调查对象和调查单位确定调查项目和调查表确定调查时间和调查期限制定调查工作的组织实施计划统计调查方案统计调查方案9统计调查方法1.现场观察法2.报告法3.问卷法4.访谈法5.实验采集法10统计调查组织方式1.统计报表2.普查3.抽样调查4.重点调查5.典型调查11统计报表统计报表 统计报表(Statistical Report Forms)是指依照国家统计局或国家各行政管理部门的规定,自上而
4、下地统一布置,以一定的原始记录为依据,按照统一的表式,统一的指标项目,统一的报送时间与报送程序,自下而上地逐级定期提供基本统计资料的一种调查方式。12普查普查 普查(Census)是对调查对象的全部调查单位逐一进行的调查。其特点:是一次性调查,是专门组织的全面调查,即普查主要用来调查属于一定时点上的现象总量。关键词:全面调查、一次性、时点资料 美国普查局 http:/www.census.gov/13美国普查局14抽样调查抽样调查 抽样调查(Sampling Survey)是一种非全面调查,它是在全部调查单位中抽取一部分单位作为样本进行调查,再根据调查结果推断总体的一种调查方法。15概率抽样和
5、非概率抽样概率抽样和非概率抽样 根据抽选样本的方法,抽样调查可以分为:概率抽样概率抽样:也称随机抽样,是按照随机原则抽选样本的抽样方式,抽样时每个样本单位被选中的概率是已知.概率抽样中可以对抽样误差进行控制.在我国,习惯上将概率抽样称为抽样调查.不满足概率抽样要求的抽样都被归为非概率抽样非概率抽样.非概率抽样单个单位被选中的概率是不可知的,不能从概率意义上控制抽样误差.16随机原则:在抽选样本时排除主观因素的影响(不是有意识的抽选某些单位),使每个单位都有一定的机会被抽中.等概率抽样等概率抽样:抽样时每个单位被选中的概率都相等.不等概率抽样不等概率抽样:抽样时不是每个单位被选中的概率都相等.抽
6、样调查抽样调查非概率抽样非概率抽样概率抽样概率抽样不等概率抽样不等概率抽样等概率抽样等概率抽样概率抽样中的随机原则概率抽样中的随机原则17是实际中应用最广泛的一种调查方式.1992年我国的国家调查系统将抽样调查列为统计调查的主体.与全面调查相比,它具有以下明显的特点:经济性.普查需要花费大量人力、财力,而采用抽样调查则可取得事半功倍的效果.时效性强.可以迅速及时地获得信息.适应面广.对于某些不可能进行普查的现象,只能通过抽样调查获取这些现象的部分数据.有可能获得比普查更高的数据质量.普查中工作量大、环节多,登记性误差往往很大.抽样调查的特点抽样调查的特点18抽样调查方法的分类19在抽样调查中可
7、以把总体分成若干个互不重叠又穷尽的有限个部分,每个部分称为一个抽样单位抽样单位(抽样单元抽样单元,Sampling unit).抽样单位可以是一个总体单位,也可以包含多个个体.所有抽样单位的名单称为抽样框抽样框(Sampling Frame).抽样框应尽可能与目标总体相一致.抽样框有以下形式:名单抽样框,即以名册或清单形式列出总体所有单位例如,学生名册、企业名录、职工名单、住户名单、村庄名单、社区名单等等.抽样单元和抽样框20区域抽样框,按自然地域划分并排列出总体所有单位.例如,一片土地划分为若干地块并编号、一片森林划分为若干林区并编号等.时间表抽样框,按时间顺序排列总体单位.例如,流水线生产
8、的产品质量检验,把一天划分为若干时段并按顺序排列.抽样框的编制是抽样调查的前提条件,要求不重不漏不重不漏来保证样本对总体的代表性.21概率抽样调查的方式主要有以下五种:()()简单随机抽样简单随机抽样(Simple Random Sampling)(Simple Random Sampling)也称纯随机抽样.直接从总体单位中抽选样本单位,每个个体被选入样本的概率都相等.可分为有放回和无放回两种方式.是最基本的抽样方法,许多抽样方法都是在它的基础上发展起来的.其数学性质简单,理论也最为成熟.22有放回抽样和无放回抽样有放回抽样和无放回抽样有放回抽样有放回抽样:也称为重复抽样,在一个单位被选入样
9、本后,记录其编号,然后又将其放回总体中继续参与随后的抽样过程.无放回抽样无放回抽样:也称为不重复抽样,在一个单位被选入样本后,不再放回总体参与随后的抽样过程.重复抽样的误差也比不重复抽样略大.实际应用中一般采用不重复抽样.23从N个总体单位中抽选n个单位组成样本,可以先将N个单位编号,若抽到某个号则对应的单位入样.通常有抽签法和随机数法两种抽选方法.抽签法:用均匀同质的材料制作N个签并充分混合,然后一次抽取n个签,或一次抽取一个签但不放回,直至抽满n个签为止.随机数法:随机数表随机数骰子计算机产生的伪随机数抽选样本单位的方法抽选样本单位的方法2439 65 76 45 45 19 90 69
10、64 61 20 26 36 31 62 73 71 23 70 90 65 97 60 12 11 98 40 07 17 66 72 20 47 33 84 51 67 47 97 19 98 40 07 17 66 75 17 25 69 17 17 95 21 78 58 24 33 45 77 48 37 48 79 88 74 63 52 06 34 30 01 31 60 10 27 02 89 08 16 94 85 53 83 29 95 56 27 09 24 43 随机数表举例25当总体内样本单位不多,且有完备名册,可用于编号时对研究的目的而言,总体内样本单位间的差异不大
11、时.无法充分获得总体信息时由于编制抽样框及抽取的样本可能过于分散等原因在实际实施中有一定困难,加之没有利用其他辅助信息提高估计的效率,所以大规模调查中很少直接采用.简单随机抽样简单随机抽样最适用的场合最适用的场合26系统抽样(也称机械抽样):将总体N个单位按某种顺序排列,在规定的范围内随机抽取起始单元,然后按一套规则确定其他样本单元的一种抽样方法.最简单的系统抽样是等距抽样.下面介绍直线等距抽样:将总体分成n个组,每组有 k=N/n个单位.在第一组随机选择一个单位,之后每隔k个选择一个.N=64n=8k=8第一组第一组()()系统抽样系统抽样 (Systematic Sampling)(Sys
12、tematic Sampling)27总体单位的顺序可能影响抽样结果:各单元的排队顺序与所研究的内容无关;各单元的排队顺序与所研究的内容有内在联系.优点:抽取样本简便易行,易于监控.主要适用场合:总体内的样本单位,对有兴趣的指标而言是随机的或按大小排列的.总体内单位数过多,而抽取的样本又较多时.总体内的单位数不能确定时(例如抽取学号最后一位为8的学生进行调查).系统抽样的特点系统抽样的特点28也称类型抽样.即先将总体所有单位按某种标志划分为若干层,然后从各层中随机抽取一定数目的单位构成样本,根据各层样本汇总对总体指标作出估计的一种抽样方式.男生男生女生女生样本样本()()分层抽样分层抽样 (S
13、tratified Sampling)29可以提高样本的代表性,提高估计的精度.抽样误差只受层内方差的影响,分层时应使层间方差大、层内方差小.最适用的场合:当总体内样本单位的差异较大时;分层后能达到层间差异大,层内差异小的原则时.分层抽样的特点分层抽样的特点30按比例分层抽样:按各层单元数占总体单元数的比例进行分配.在有些情况下为了降低抽样误差或者对各层的参数进行较好的估计,需要采用不按比例分层抽样.在不按比例的分层抽样中如果要用样本资料推断总体,需要对各层的数据资料进行加权处理.按比例分层抽样和不按比例分层抽样按比例分层抽样和不按比例分层抽样31 假设要从1000亩农田中抽取100亩调查小麦
14、的平均亩产.1000亩耕地中有600亩为平原,400亩为丘陵;平原地区的亩产量相差不大(方差很小),而丘陵地区亩产量的差别很大(方差大).按比例抽样:平原和丘陵各抽60亩和40亩.不按比例抽样:为了更准确地估计丘陵地区的平均亩产,在丘陵地区多抽一些农田(例如70亩),从平原地区抽取30亩.这时总体平均亩产的估计值为不按比例分层抽样不按比例分层抽样(不等概率抽样不等概率抽样)的例子的例子32先将总体分为R个群(即次级单位或子总体),每个群包含若干总体单位.按某种方式从中随机抽取r个群,然后对抽中的群的所有单位都进行调查的抽样方式.总体分成总体分成4个群个群随机选择随机选择2个个群构成样本群构成样
15、本()()整群抽样整群抽样 (Cluster Sampling)(Cluster Sampling)33不需要所有总体单位的抽样框.由于样本单位不能均匀的分布在总体中,所以样本的代表性要差一些(对策:增大样本容量).抽样误差受群间方差的影响,不受群内方差的影响.分群时应使群间方差小.最适用的场合:总体名单不易获得时为节省调查成本时群内差异大,而群间的变异小时整群抽样的特点整群抽样的特点34先从总体中随机地抽取若干初级单位,再从初级单位中抽取若干二级单位,如此下去直至抽取所要调查的基本单位的抽样方法.例如:统计年鉴2004指出 2003年人口变动情况抽样调查是以全国为总体,各省、自治区、直辖市为
16、次总体,采用分层、等距、整群概率比例抽样方法,在全国31个省、自治区、直辖市抽取了990个县(市、区)、3734个乡(镇、街道)、6544个调查小区的126万人.()多阶段抽样多阶段抽样(muti-stage Sampling)(muti-stage Sampling)35适用于总体分布很广,不可能从总体中直接抽取样本单位的情况.不需要全部低级单位的抽样框,节省了调查费用.方法灵活多样.抽样调查的组织方式完全取决于调查研究的目的要求、调查对象的特点和客观的条件.凡是能够最经济、最省时而又能够满足预期精确度和可靠性的组织方式,便是一种好的组织方式,这也是抽样设计的最根本的原则.多阶段抽样的特点多
17、阶段抽样的特点36非概率抽样方便抽样判断抽样配额抽样雪球抽样 不满足概率抽样要求的抽样都被归为非概率抽样.非概率抽样中单个单位被选中的概率是不可知的,无法根据样本计算抽样误差.非概率抽样非概率抽样37纯粹以方便为基本着眼点的抽样方法,事先不预定样本,碰到即问或被调查者主动回答问题.也译为便利抽样、偶遇抽样.例如:在街头的拦截式访问.登在报刊、网上的问卷.方便抽样方便抽样(Convenience sampling)(Convenience sampling)38调查者根据主观经验和判断从总体中选取有代表性的单位构成样本.精度取决于抽样者的经验.不能获得估计值的精度.适用于总体单位极不相同而样本容
18、量又很小的情况 判断抽样判断抽样 (Judgment Sampling)(Judgment Sampling)39是非随机抽样方法中最常用的一种抽样方法.分为两个步骤:根据研究人员认为较重要的一些变量把总体单位分类,指定每一类中的定额;然后在每一类中使用方便抽样或判断抽样的方法抽选指定数量的样本单位.配额抽样配额抽样 (Quota sampling)(Quota sampling)40也译为滚雪球抽样.其原理是先找到最初的样本单位,然后根据他们提供的信息去获得新的样本单位;这种过程不断继续,直到完成规定的样本容量为止.主要用于对稀少群体的调查.例如某研究部门在调查保姆问题时,先访问了7名保姆,
19、然后再请她们提供其他保姆名单,逐步扩大到近百人.雪球抽样雪球抽样(Snowball Sampling)41重点调查 重点调查(Key-point Survey)是指在调查对象中,选择一部分重点调查单位收集统计资料的一种非全面调查。关键词:重点调查单位,是指这些被调查的总体单位中数目不多,所占比重不大,但其调查的标志值却在总量中占有很大比重,在总体中具有举足轻重的作用。42典型调查 典型调查(Model Survey)是指根据调查目的,在对所研究现象全面分析的基础上,有意识地选择有代表性的典型单位进行深入细致地调查,以便认识事物的本质与发展变化规律的一种非全面调查方法。关键词:典型单位,是指那些
20、能充分、集中地体现调查对象总体某些方面共性特征的最有代表性的单位。43抽样调查中的误差抽样误差抽样框误差无回答误差计量误差非抽样误差抽样调查中的误差数据的质量数据的质量44误差与抽样误差误差是指估计值与真实值之间的差异.抽样误差(Sampling error):由于抽选样本的随机性造成的误差,也称为代表性误差.样本只是总体的一部分,它对总体的代表性存在局限性,从而会造成误差.在抽样调查中,抽样误差就不可避免.在概率抽样中抽样误差是能够计量且可以得到控制的.影响抽样误差的主要因素包括:总体内部的差异程度;样本容量的大小;抽样的方式方法等.45非抽样误差:除抽样误差以外的所有误差.通常认为是由于调
21、查程序执行中的错误与不足引起的.主要包括抽样框误差、无回答误差和计量误差.国内也称为“工作误差”或“调查误差”.非抽样误差(Nonsampling error)46数据的整理(统计整理)统计整理是统计工作的中间环节,学习本部分内容的目的在于掌握统计分组的方法,认识分布数列是统计整理的重要表现形式,会编制变量数列,并且会用统计表表现统计资料。47数据的整理统计整理的基本概念与步骤统计分组分布数列统计图表48 数据的整理,是根据统计研究的目的,将统计调查所得到的原始资料进行加工,为统计分析准备系统化、调理化的综合资料的工作过程。1、数据的整理例如,某班50名学生,调查其考分资料如下:77 65 8
22、3 56 68 70 99 65 73 72 88 66 74 63 71 84 62 52 80 78 84 79 81 64 58 82 76 62 73 75 89 79 61 65 54 92 86 73 68 51 69 64 78 63 76 68 72 77 81 7649.按考分分组按考分分组(分)(分)学生人数学生人数(人)(人)60 60以下以下60 60 707070 70 808080 80 909090 90 100100 5 5 15 15 18 18 10 10 2 2合合 计计 50 50 由表2-1可见,整理后的学生考分资料,较整理前的考分资料明显要条理、系统
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 数据 收集 整理 文档 资料
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内