统计数据搜集与整理.ppt
《统计数据搜集与整理.ppt》由会员分享,可在线阅读,更多相关《统计数据搜集与整理.ppt(94页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1第二章第二章 统计数据收集、统计数据收集、整理与显示整理与显示2主要内容2.1 统计数据的收集2.2 统计数据的整理2.3 统计数据的显示统计表和统计图32.1 统计数据的收集一、数据的收集统计数据收集统计数据收集是根据统计研究的目的要求,采用科学的形式和方法,有计划、有组织地获取所研究变量数据的过程。在社会经济统计中,统计数据收集也称为统计调查统计调查。它是进行统计数据整理和分析的必要前提。对统计数据收集的基本要求基本要求:准确性、及时性。4统计数据的分类按照获取途径不同,统计数据可以分为直接来源的直接来源的原始数据和间接来源的次级数据。原始数据和间接来源的次级数据。原始数据是直接对各调查
2、单位进行观察登记或通过实验来收集的数据。次级数据亦称二手数据,是从统计年鉴、报刊、互联网或有关部门业务资料中获取经过加工整理的数据。51统计调查的组织形式6就范围不同划分而言全面调查:对调查对象中的所有单位无一例外地进行调查。直接获得总体数据。优点:资料齐全、能够满足各种需要。缺点:耗费大,易产生登记性误差。应用:搜集重要的、基础性数据。非全面调查:对调查对象中的一部分进行调查。获得样本数据。优点:耗费小(人财物时间),不易产生登记性误差。缺点:易产生代表性误差。应用:广泛。7(1 1)统计报表)统计报表统计报表是以基层单位的原始记录为依据,按有关法规的规统计报表是以基层单位的原始记录为依据,
3、按有关法规的规定和标准,自上而下地统一布置任务,按统一的表式、统一定和标准,自上而下地统一布置任务,按统一的表式、统一的项目、保守时间和程序,自下而上地定期提供基本统计资的项目、保守时间和程序,自下而上地定期提供基本统计资料的一种调查方式。料的一种调查方式。特点特点是国家或行业重要的定期统计报告制度;是国家或行业重要的定期统计报告制度;自上而下统一布置,自下而上定期提供;自上而下统一布置,自下而上定期提供;费时、费力。费时、费力。优点和缺点优点和缺点优点:全面性、稳定性、连续性、可比性优点:全面性、稳定性、连续性、可比性 曾经是我国数据收集的主要方式曾经是我国数据收集的主要方式缺点:耗费大、数
4、据质量差、基层负担重缺点:耗费大、数据质量差、基层负担重8(2)普查)普查指指一一个个国国家家或或者者一一个个地地区区为为详详细细调调查查某某项项重重要要的的国国情情、国国力力,专专门门组组织织的的一一次次性性大大规规模模的的全全面调查。面调查。n目前,我国政府开展的普查主要有人口普查、第三产业普查、农业普查,这些普查都是每10年进行一次,分别在逢0、3、7的年份实施;经济普查、基本单位普查每5年进行一次,在逢3、8的年份实施。9普查应该注意:n统一规定普查的标准时间和统一的普查期限,以避免由于时间变动使资料重复和遗漏。n统一规定普查内容和指标解释,不得任意改变或增减项目。同类普查,各次调查的
5、项目应尽可能一致,以便于历史资料的对比研究。n同类普查应尽可能按周期进行,以便观察现象发展变化的过程和规律。10(3)抽样调查)抽样调查抽样调查是总体中随机抽取一部分单位作为样本抽样调查是总体中随机抽取一部分单位作为样本进行调查,并根据样本资料来推断总体数量特征进行调查,并根据样本资料来推断总体数量特征的一种非全面调查方法。的一种非全面调查方法。广义的抽样包括概率抽样和非概率抽样。概率抽样也称随机抽样,是指按照随机原则从总体中抽取部分单位构成样本。非概率抽样也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。非概率抽样常用的方式主要有方便抽样和判断
6、抽样。11概率抽样和非概率抽样是性质不同的两种抽样类型,在调查中采用何种抽样类型,取决于研究问题的性质、使用数据要说明的问题、调查对象的特征、调查费用、调查时间等多方面的因素。统计上所说的抽统计上所说的抽样一般都是指概率抽样,即指随机抽样调样一般都是指概率抽样,即指随机抽样调查。查。本教材若无特别说明,抽样均指概率若无特别说明,抽样均指概率抽样,抽样调查也即对随机样本的调查。抽样,抽样调查也即对随机样本的调查。12常用的概率抽样方式常用的概率抽样方式(了解)(了解)简单随机抽样简单随机抽样,也称为纯随机抽样,是一,也称为纯随机抽样,是一种最基本的抽样形式。这种抽样方式无须种最基本的抽样形式。这
7、种抽样方式无须对总体单位进行任何划分或排队,只需对对总体单位进行任何划分或排队,只需对总体单位进行编号,利用总体单位进行编号,利用抽签法、随机数抽签法、随机数表或计算机随机取数法表或计算机随机取数法等完全随机地直接等完全随机地直接从总体中抽取样本单位,每个总体单位入从总体中抽取样本单位,每个总体单位入样的概率是相等的。样的概率是相等的。系统抽样(等距抽样)系统抽样(等距抽样)它是首先将总体中各单位按一定它是首先将总体中各单位按一定顺序排列,根据样本容量要求确顺序排列,根据样本容量要求确定抽选间隔,然后随机确定起点,定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的每隔一定的间隔抽取一个
8、单位的一种抽样方式。一种抽样方式。优点:操作简便。但不能实施于优点:操作简便。但不能实施于总体发生周期性变化的场合。总体发生周期性变化的场合。14分层抽样(类型抽样)分层抽样(类型抽样)(了解)(了解)概念概念首先将总体单位按某一标志分层(分类、分组);首先将总体单位按某一标志分层(分类、分组);然后在各层按随机抽样的方法分别抽出各层的样本。然后在各层按随机抽样的方法分别抽出各层的样本。特点特点:分层抽样保证了样本中包含有各种特征的抽样单位,分层抽样保证了样本中包含有各种特征的抽样单位,适用于各层间差异比较大的情况;适用于各层间差异比较大的情况;不仅能够用样本推断总体,还可以用各子样本推断不仅
9、能够用样本推断总体,还可以用各子样本推断相应子总体的特征,深化对总体的认识。相应子总体的特征,深化对总体的认识。例例A,B,C三个工人一日产量分别为三个工人一日产量分别为800,1200,2000件,那么批量件,那么批量N=4000件,若抽件,若抽取样本量取样本量n=80,那么分层抽取件数为:,那么分层抽取件数为:A层:层:80(800/4000)=16件件B层:层:80(1200/4000)=24件件C层:层:80(2000/4000)=40件件16整群抽样(集团抽样)(了解)(了解)概念:概念:首先将总体单位划分为首先将总体单位划分为R个群;然后按随个群;然后按随机的原则抽出机的原则抽出r
10、个群构成样本,在抽中群中进行全个群构成样本,在抽中群中进行全面调查。面调查。特点:特点:简化了抽样组织工作,便于实施调查和组简化了抽样组织工作,便于实施调查和组织管理。织管理。适用:适用:群间差异不大,而群内差异较大的情况。群间差异不大,而群内差异较大的情况。举例说明以上4种抽样方法的应用 假设有某种成品零件分别装在10个零件箱中,每箱各装100个,总共1000个。如果想从中抽取100个零件作为样本进行测试研究,那么应该怎样运用上述4种抽样方法。(1)简单随机抽样 将10箱零件混合在一起,并将零件从1-1000进行编号,然后用查随机数表或抽签的方法从中抽出编号毫无规律的100个零件组成样本。(
11、2)系统随机抽样 将10箱零件混合在一起,并将零件从1-1000进行编号,然后用查随机数表或抽签的方法先决定起始编号(假设为16),那么后面入选的样本的零件编号依次为26,36,996,06.于是就由这样100个零件组成样本。(3)分层抽样 对所有10箱零件,每箱都随机抽出10个零件,共100个零件组成样本。(4)整群抽样 先从10箱零件随机抽出1箱,然后对这1箱进行全数检查,即由这一箱看成“整群”,由它们组成样本。19(4)重点调查)重点调查概念概念 重点调查重点调查是指在调查对象中选择一部是指在调查对象中选择一部分重点单位进行调查,用以反映总体基本情分重点单位进行调查,用以反映总体基本情况
12、的非全面调查方法。况的非全面调查方法。重点单位重点单位是指就所要调查的标志而言,标志是指就所要调查的标志而言,标志值所占比重较大的少数总体单位。值所占比重较大的少数总体单位。20适用范围适用范围(1 1)适用于现象总量在各总体单位之间的分布)适用于现象总量在各总体单位之间的分布极不均衡,客观上存在重点单位的情况;极不均衡,客观上存在重点单位的情况;(2 2)既可以用于一次性调查,也可用于经常性)既可以用于一次性调查,也可用于经常性调查。调查。21(5)典型调查(了解)典型调查(了解)典型调查的概念典型调查的概念典型调查典型调查是在对调查对象有一定了解基础上,有意识地是在对调查对象有一定了解基础
13、上,有意识地选择少数典型单位进行的非全面调查方法。选择少数典型单位进行的非全面调查方法。典型调查的特点典型调查的特点调查目的是为了深入研究某一问题;调查目的是为了深入研究某一问题;调查单位是根据调查目的有意识地选取的。调查单位是根据调查目的有意识地选取的。调查结果不能用于推断总体调查结果不能用于推断总体作用作用弥补全面调查的不足;弥补全面调查的不足;用于研究新生事物;用于研究新生事物;222.统计数据收集的基本方法(1)直接观察法)直接观察法直接观察法是调查人员深入现场对调查单位进行直接观察、记录和计量。(2)报告法)报告法报告法是指被调查者按照调查者的要求,根据自己的实际情况如实填报调查内容
14、,以信函、传真、计算机网络等方式向调查者报送数据的方法。(3)访问法)访问法访问法也称采访法、询问法,是由调查人员提问、被调查者回答来获取数据的方法。访问方式也是多样的,可以集团座谈,也可以个别访问;可以街头访问,入户访问;也可以面谈访问、电话访问等。除了以上几种传统的调查方法以外,随着计算机网络技术的普及,电子邮件调查法、WED站点调查法、计算机电话辅助调查等以互联网络为平台进行调查的方法应运而生,其应用范围日益广泛。23二、统计调查方案(一)确定调查目的 为什么调查,解决什么问题(二)确定调查对象、调查单位和报告单位 调查对象是所要调查事物的全体,由许多个别单位构成,即统计总体。调查单位是
15、所要调查的具体单位,即总体单位。前者确定调查范围,后者明确具体向谁调查。调查单位要与调查的报告单位相区别。(三)确定调查项目 调查项目是具体的调查内容,是调查单位具有的特征,由一系列品质标志和数量标志构成。24(四)设计(四)设计调查表(问卷)调查表(问卷)为为了了便便于于调调查查和和汇汇总总,应应该该把把调调查查项项目目按按一一定定顺顺序序排排列列在在表表格格中中,这这就就是是调调查查表表。一一个个调调查查单单位位填填写写一一份份的的调调查查表表称称为为单单一一表表,若若干干个个调调查查单单位位填填写写一一份份的的调调查查表表称称为为一一揽表。揽表。(五)(五)确定调查组织形式和方法确定调查
16、组织形式和方法明确调查的组织形式和收集数据的具体方法。明确调查的组织形式和收集数据的具体方法。(六)确定调查时间(六)确定调查时间确确定定调调查查时时间间一一是是指指确确定定调调查查的的标标准准时时间间,即即调调查查资资料料所所属属的的时时间间,二二是是指指调调查查期期限限,即即整整个个调调查查工工作作从从开开始始到到结结束束的的时时间间,包包括括调调查查登登记记的的时时间间、数数据据处处理理的的时时间间、数数据分析的时间。据分析的时间。(七(七)确定其它事项确定其它事项包包括括确确定定调调查查机机构构、培培训训计计划划、是是否否需需要要试试点点、经经费费预预算、资料报送程序和方法、数据公布时
17、间等。算、资料报送程序和方法、数据公布时间等。252.2统计数据的整理统统计计整整理理是指根据统计研究的需要,将统计调查阶段所搜集到的大量个体资料进行科学的分类汇总、加工处理,或对已经经过加工的次级资料再加工,使之系统化、条理化,以符合统计分析的需要,成为能够反映事物总体特征的综合资料的过程。内容 数据处理:分类、汇总、表现(制表)数据管理:输入、贮存、更新、输出步骤 审核原始资料、数据的分类汇总 数据的表现、数据保管和发布 原始数据的整理一般是分类和汇总性的整理,次级原始数据的整理一般是分类和汇总性的整理,次级资料的整理主要是分组。资料的整理主要是分组。26一、统计分组1、概念 统计分组就是
18、根据统计研究的需要,将总体中的所有单位按照一定的标志分为若干部分或组别的方法。对总体分;对个体合。突出组与组之间的差异2、作用 划分总体类型、反映现象内部结构和比例关系、揭示现象间的相互依存关系3、原则 科学性、完备性、互斥性 274、统计分组的种类 按标志的性质分为品质标志分组和数量标志分按标志的性质分为品质标志分组和数量标志分组。组。品质标志分组是从属性上区分各种类型组,其关键是界定各类型的性质差异。数量标志分组是从某个变量的数量差异上区分各种类型组,其关键是正确划分各组界限。按分组标志多少分为简单分组和复合分组。按分组标志多少分为简单分组和复合分组。简单分组按一个标志对总体单位进行分组,
19、它只反映总体某一方面的类型和结构特征。复合分组按两个或以上标志对总体单位进行重叠分组,复合分组还可以显示结构的层次,说明总体内部类型的主从关系。28二、分布数列-统计分组整理的基本结果 1.分布数列的概念将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组单位数在总体单位数中所占的比重,这样形成的数列称为分布数列分布数列。它表明总体单位在各组的分布状况。次数(次数(频数)是分布在各组的单位数。频率频率是各组单位数在总体单位数中所占的比重。292.分布数列的种类(1)品质数列是按品质标志分组形成的分布数列是按品质标志分组形成的分布数列 30表表2-1 某公司职工文化程度状况某公司职工文化
20、程度状况文化程度文化程度 工人数工人数 比重(比重(%)小学小学 400 8初中初中 1500 30高中高中 2600 52大学大学 500 10合计合计 5000 100品质品质标志标志31性别是品质标志性别人数(万人(比重()男6362950.98女6118149.02合计124810100.00表表2-2 某年中国人口状况某年中国人口状况32 2、变量数列 是按数量标志分组而形成的分是按数量标志分组而形成的分布数列,定量数据。布数列,定量数据。3334(1)单项式变量数列以一个变量值作为一组的变量序列是单项式变量数列。适合于离散变量 取值可以一一列举适合于变量值较少,变动幅度不大的情况3
21、5表24 某企业日产量 日产量 工人数 10 70 11 100 12 380 13 150 14 100 合计 80036将变量值的一个区间作为一组的变量数列是组距式变量数列每一组两端的值称为组限,各组最小值称为下限,最大值称为上限。适合于连续变量,也适合于变量值较多、变化幅度大的情况(离散变量)相邻两组间的上下组限可以重叠也可以不重叠。一般来说,离散变量采用不重叠组形式,连续变量采用重叠组形式。区间的长度称为组距开口组、开口数列等距数列、异距数列(2)组距式变量数列)组距式变量数列37 表表25 某班学生考试成绩次数表某班学生考试成绩次数表成绩(分)成绩(分)学生人数学生人数向上累计向上累
22、计向下累计向下累计60以下以下 2 25460-7015175270-8019363780-9015511890-100 354 3合合 计计54组限重叠组限重叠38等距数列表表2-6某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105110110115115120120125125130130135135140358141064610162820128合计合计50100组限重叠组限重叠39表表2-7 某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频
23、率(%)105109110114115119120124125129130134135139358141064610162820128合计合计50100组限间断组限间断40开口数列表表2-12 某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)109以下以下110114115119120124125129130134135以上以上358141064610162820128合计合计50100适合数据集有极端值的情况适合数据集有极端值的情况41组距的计算组限重叠组距=本组上限-本组下限组限间断组距=本组上限-上组上限 =下组
24、下限-本组下限据此可以判断等距与不等距数列42开口数列?开口数列?组中值:组中值:各组上下限的中点值。当组内变量值均匀分布或各组上下限的中点值。当组内变量值均匀分布或对称分别时,组中值可作为组变量值的代表值。对称分别时,组中值可作为组变量值的代表值。组中值的计算43确定确定分组分组形式形式3.3.编制变量数列编制变量数列的步骤的步骤确确定定组组数数确确定定组组距距确确定定组组限限排排序序计计算算频频数数表现现象的度、规定的界限表现现象的度、规定的界限体现分布的集中趋势体现分布的集中趋势考虑到习惯、便于对比考虑到习惯、便于对比44某月啤酒公司60个销售点的销量48 71 52 53 36 41
25、69 58 47 60 53 29 41 72 81 37 43 58 68 42 73 62 59 4451 53 47 66 59 52 34 49 73 29 47 1639 58 43 29 46 52 38 46 80 58 51 67 54 57 58 63 49 40 54 61 58 66 47 50 单位:桶 excel45啤酒销售量的分布数列(表啤酒销售量的分布数列(表2-3)销售桶数销售桶数 销售点数销售点数 频率频率(%)19以下以下 1 1.72029 3 5.03039 5 8.34049 16 26.75059 20 33.36069 9 15.07079 4 6
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计数据 搜集 整理
限制150内