第2章 统计数据的收集.doc
统计学原理课程教案首页21章节第二章 第1节 统计数据的收集第2节 统计数据的整理学时2班级会计10级时间教学目标与要求1、理解统计数据收集的含义与要求;2、掌握统计数据收集方案设计;3、熟悉统计数据收集的各种方式、方法,并能加以应用;4、掌握调查问卷设计技能;5、理解统计数据整理的含义与要求与步骤;6、理解统计分组的意义,正确掌握统计分组方法;7、掌握分布数列,尤其是变量数列的编制方法。教学内容设计2.1统计数据的收集1、统计数据收集的含义和要求;2、统计数据收集方案设计;3、统计数据收集方式;4、统计数据收集方法;5、问卷设计;2.2 统计数据的整理1、统计数据整理的含义和要求;2、数据整理的步骤;3、统计分组;4、分布数列教学方法与手段设计 多媒体课件与案例综述相结合课程改革与创新课程设计:统计调查实践与设计思考训练与作业教材P55-56 一、1、2、3、4、5 二、1、2、3三、1、2、3、4、5、6、7、8、9注:1每次课(2或4学时)填写一页;2教案正文附后,手书打第二章 统计数据的收集、整理与显示 第一节 统计数据的收集 一、统计数据收集的含义和要求 统计数据收集,就是按照统计研究的目的和任务,运用各种科学有效的方式和方法,有针对地收集反映客观现实的统计数据的活动过程。 统计数据收集是整个统计活动的基础阶段,通常也称为统计调查阶段。 统计数据收集的基本要求:准确性、及时性和完整性。准确性是统计数据收集的核心,及时性是统计数据信息价值的体现,完整性则是统计指标计算和统计分析的需要。二、统计数据收集方案设计 (一)统计数据收集的四环节:1、确定数据收集目的;2、设计数据收集方案;3、开展数据收集活动;4、评估数据收集质量。 (二)统计数据收集方案内容 1、数据收集目的数据收集目的是指所收集的数据用以研究和解决什么问题,对所研究现象需要达到什么样的认识。 2、数据及其类型 数据类型:定性数据、定量数据、观测数据、实验数据、原始数据。 3、数据收集对象和观测单位数据收集对象就是所研究的现象总体。观测单位则是指观测标志的承担者。 4、观测标志和调查表。(1)观测标志就是根据数据收集目的所确定的调查项目。(2)调查表就是把所要观测的标志按逻辑顺序列在一定形式的表格内。调查表又分单一调查表和一览表两种。 5、数据收集方式与方法 6、数据所属时间和数据收集期限数据收集期限是指完成数据收集活动的起止时间。 7、数据收集地点 8、数据收集组织三、统计数据收集方式 (一)统计调查方式 1、普查 普查是根据特定的统计研究目的而专门组织的一次性的全面调查,用以收集所研究现象总体的全面资料(即总体中的所有个体都是观测单位)。 普查的组织方式一般有两种:一是建立专门的普查机构,配备一定数量的普查人员,对观测单位直接进行登记。如我国历次的人口普查等。二是利用观测单位的原始记录和核算资料,颁发调查表,由观测单位按要求填报。如物资库存普查等。 2、抽样调查 抽样调查是一种非全面调查,就是从总体中抽取样本,以样本推断总体。根据抽取样本的方式不同,抽样调查可分为概率抽样和非概率抽样两类。 概率抽样是按照随机原则抽取样本,即总体中的每个个体都有已知的、非零的概率被抽取到样本中来。概率抽样从抽样方法上看,可以分为重复抽样和不重复抽样的两种。概率抽样从抽样组织形式上看,可分为简单随机抽样,分层抽样,等距抽样,整群抽样和多阶段抽样五种。 非概率抽样是凭人们的主观判断或根据便利性原则来抽取样本,这时,总体中每个个体被抽取的可能性是难以用概率来表示和计算的。非随机抽样调查又有任意抽样、典型抽样、定额抽样和流动总体抽样等几种 3、重点调查 重点调查也是一种非全面调查,是对数据收集对象总体中的部分重点个体进行观测的统计调查方式。所谓重点个体,是就调查标志而言,那些在总体标志总量中占有绝大比重的少数个体。这些重点个体,虽然只是总体全部个体中的一小部分,但就调查标志而言却有举足轻重的作用。 重点调查有两个特点:一是以客观原则来确定观测单位;二是属于范围较小的全面调查,即对所有重点个体都要进行观测。 重点个体的确定方法有两种:一是确定一个最低标志值,凡是标志值达到或超过最低标志值的个体就是重点个体;二是确定一个最低的累计标志比重。 4、统计推算统计推算是以已掌握的各种统计数据为基础,根据事物之间的内在联系或发展规律,对被研究现象数量特征作出估算或测算的一种统计调查方法。统计推算有较强的假定性,统计推算过程实质是统计分析过程。统计推算的主要方法有:前提推算法、进度推算法、比例推算法、因素推算法、平衡推算法、插值推算法和回归推算法(二)实验方式所谓实验方式,就是运用自然科学的试验法,通过观测人为安排条件下试验产生的各种结果并加以记录的方式来获取数据,或通过人为安排条件下的试验来探求某个或某些因素对所研究事物的数量影响程度和作用方式,凭借实验结果来揭示所考察因素与所研究事物之间的数量因果关系。 1、实验的原则运用实验方式需要遵循下列两个原则:均衡分散性原则和整齐可比性原则。(1)均衡分散性原则是指所进行的试验应能把所观测的因素及其状态均衡地分散在因素与状态的所有各种可能的配合之中,以保证试验结果具有较强的代表性。(2)整齐可比性原则是指试验考察某个因素的各个状态对所研究事物影响的效应时,其他因素应保持不变的状态,以便保证在该因素各个状态的效应之中能最大限度地排除其他因素的干扰,从而能对所考察因素不同状态的效应进行比较。 2、常用的实验设计(1)完全随机试验。即采用纯随机抽样方式,将各试验观测个体随机地安排到所要试验的因素状态配合之中。 (2)随机区组试验。即当各试验观测个体之间存在较大差异而将影响到试验结果时,先将试验观测个体进行分类,一个类作为一个区组,使类内个体之间的差异充分小,然后将区组中的各试验观测个体随机地分配到各个所要试验的因素状态配合之中。 (3)拉丁方试验。所谓拉丁方就是将一组元素编排成行与列相等且每个元素在各行各列都出现一次且只出现一次的正方形方格。 (4)正交试验。正交试验是利用正交表来安排试验。所谓正交表就是由1、2、3、4等字码元素构成的、任意两列的同行元素对都形成出现次数相同的完全对的矩阵表。 (三)数据收集误差在统计数据收集过程中,可能存在两种误差:观测性误差和代表性误差。观测性误差也叫登记性误差或调查性误差,它是在调查观测的各个环节因工作粗心或被观测者不愿很好配合而造成的所收集数据与实际情况不符的误差,包括计量错误、记录错误、计算错误、抄写错误、汇总错误、计算机输入误差等工作误差,以及被调查者不愿或难以提供真实情况的误差,有时还存在调查人员弄虚作假的误差和各种人为因素干扰的误差。 代表性误差是指在抽样调查中,因样本不能完全代表总体而产生的估计结果与总体真实数量特征不符的误差。根据样本不能完全代表总体的原因不同,代表性误差又分为系统性代表性误差和偶然性代表性误差两种。系统性代表性误差,是由于抽样框(用以抽取样本的名录)不完善、抽样时违反随机原则、被调查者无回答等因素引起的误差。偶然性代表性误差,也叫抽样误差或偶然性误差,是由于抽样的随机性引起的样本结构与总体结构不完全相符而产生的估计结果与总体真值不一致的误差,这种误差在随机抽样中不可避免,但可以计算和控制。四、统计数据收集方法 统计数据收集方法,是指获取被调查对象数据的渠道或途径,常用的方法有直接观察法、通讯法、采访法、登记法等几种。 直接观察法是由调查人员到现场对被调查对象进行计量、点数和登记,或对实验结果进行观察和记录,直接取得第一手数据的方法。 通讯法是调查组织者(例如政府统计部门)把调查表(例如统计报表或调查问卷)邮寄或电子传送给被调查者,被调查者按要求填写后返回给调查组织者的一种数据收集方法。 采访法是由调查人员对被调查者进行采访,根据被调查者的答复来收集数据的方法。 登记法是指当事人根据有关法制法规规定,在开展某些活动或发生某事时,主动到有关机构进行登记,填写有关表格,提供有关统计信息。 五、问卷设计(一)问卷的概念与结构 问卷是依据统计研究目的和要求,按照一定的理论假设设计出来的、由一系列问题、项目、备选答案及说明所组成的、向被调查者收集资料的一种工具。 问卷按是否由被调查者自己填写可分为自填式问卷和代填式问卷两种。自填式问卷由被调查者自己填答,代填式问卷是由调查人员根据被调查者的口头回答来填写。 问卷一般由引言、被调查者基本情况、问题和答案、结语四个部分组成。 (二)问题的设计 1.问题的种类 根据调查内容不同,问题可分为事实性问题、意见性问题和解释性问题。事实性问题要求被调查者依据现有事实来做出回答,不必提出主观看法。如“您使用什么品牌的牙膏?解释性问题用于了解被调查者行为、意见、看法等产生的原因,了解个人内心深层的动机。如“你为什么要购买××牌的牙膏?”根据回答方式不同,问题可分为开放式问题和封闭问题。开放式问题也称为自由回答式问题,是指不提供备选答案而需要被调查者自由做出回答的问题。封闭式问题,是指已列出所有可能答案以供选择的问题。 2.问题设计的原则(1)所列问题必须符合客观实际情况。 (2)问题不能太多。在满足需求的情况下,问题要尽量精简,最大限度减轻被调查者的负担。(3)问题必须是被调查者有能力回答的。凡是不太可能或不太容易被理解和回答的问题,应该避免出现,尤其是要避免出现理论性或专业性很强的问题。 (4)不要直接提社会上禁忌的和敏感性的问题。 (5)问题不能带有诱导性和倾向性,要保持客观中立。即问题不能流露出调查者或问卷设计者自己的倾向或暗示,以免左右被调查者的回答。 (6)问题的内容要单一。一个问题只能包含一个询问内容,否则就会使被调查者难以回答。 (7)问题的语言要简单易懂、标准规范。每一个问题对每个被调查者而言都只能有一种解释,问题中用语的定义必须清楚明确。 (8)问题的排列要讲究逻辑性。一般地,问题的排列应该是先比较容易回答的问题,再比较难回答的问题;先事实性问题,再意见性问题和解释性问题;先封闭式问题,再开放式问题。在调查内容的时间上,则应该先过去,再现在,后未来。 (三)问题答案的设计 1.问题答案的设计形式(1)是非式。也称两分式、是否式等,即问题只有两个相对立的答案可供选择,被调查者只须从中选择其一即可。 (2)多项式。即问题有三个及三个以上的答案可供选择,由被调查者从中选择一个或几个作为回答。 (3)顺位式。即要求被调查者对问题的备选答案,按照重要性程度或喜爱程度定出先后顺序,做出比较性的回答。 (4)程度评价式。这是一种观念计量的方法,所得结果即为定类数据。 (5)比较式。即把若干可比较的事物整理成两两对比的形式,由应答者进行比较。 2.问题答案的设计原则(1)所列答案应包括所有可能的回答。(2)不同答案之间不能相互包含。 (3)答案的表达必须简单易懂、标准规范。 (4)每一项答案都应有明显的填答标记,答案与答案之间要留下足够的空格。 第二节 统计数据的整理 一、统计数据整理的含义与要求 所谓统计数据整理,简称统计整理,是指根据统计研究的目的,对统计收集到的数据进行科学的加工处理,使之系统化、条理化和综合化,成为能反映研究对象总体数量特征和满足统计分析需要的统计数据的过程。 在整个统计研究过程中,统计数据整理起着承上启下的作用,既是数据收集的继续,又是数据分析的开始,因此要十分强调其科学性、条理性和充分性。所谓科学性,就是数据整理的分组和汇总必须科学合理,注意质的界限,符合客观事实;所谓条理性,就是数据整理的过程要层次分明,条理清楚,逻辑关系严密;所谓充分性,就是运用各种数据整理方法和技术,通过多角度、多方位的加工处理,使整理的结果尽量充分地体现出数据中包含的有用信息,最大程度地满足统计分析的需要。二、统计数据整理的步骤统计数据整理的步骤:整理方案的设计;数据预处理;统计分组和汇总;整理数据的显示;整理数据的显示。1、整理方案的设计主要是以数据收集方案为基础,围绕统计分析目的,确定需要的统计分组,需要汇总计算的统计指标,数据处理的方法与工具(例如采用什么数据处理软件),以及数据显示的形式等内容。2、数据预处理是统计整理的先前步骤,是在统计分组、汇总前对原始数据所做的必要工作,包括数据审核、数据筛选和数据排序等。3、统计分组和汇总是统计整理的关键步骤,就是要根据统计研究的目的和研究对象的特点,通过科学选择分组标志和科学确定分组界限,将观测的个体及其原始数据进行归类,借助必要的数据处理方法和工具,汇总计算出有关统计指标。 4、整理数据的显示是表现统计整理结果的步骤,就是要将统计分组和汇总后的数据,用适当的统计表、统计图显示出来,直观、准确、清楚地表达出研究对象总体的有关数量特征,便于开展统计分析。5、整理数据的显示是表现统计整理结果的步骤,就是要将统计分组和汇总后的数据,用适当的统计表、统计图显示出来,直观、准确、清楚地表达出研究对象总体的有关数量特征,便于开展统计分析。三、统计分组(一)统计分组的含义与性质 统计分组就是根据统计研究的目的和事物本身的特点,选择一定的标志(一个或多个),将研究现象总体划分为若干性质不同的组或类的一种统计研究方法。 统计分组具有以下一些重要的性质:首先,统计分组兼有分与合的双重功能,是分与合的对立统一。其次,统计分组必须遵循“穷尽原则”和“互斥原则”,即现象总体中的任何一个个体都必须而且只能归属于某一个组,不能出现遗漏或重复出现的情况。第三,统计分组的目的是要在同质性的基础上研究总体的内在差异性,即尽量体现出分组标志的组间差异而缩小其组内差异。 (二)统计分组的种类 1.统计分组按照分组标志的多少不同,可以分为简单分组与复合分组。(1)简单分组是指对总体只按一个标志进行分组,只反映总体某一方面的分布状况和内在结构。表21 ××班学生的性别构成统计表 单位:人 按性别分组 绝对人数 比重(%) 男 30 75 女 10 25 合计 40 100 简单分组的特点是:只能反映现象在某一标志特征方面的差异情况,而不能反映现象在其它标志特征方面的差异。(2)复合分组则是指对总体同时按两个或两个以上的标志进行层叠式的分组。【案例2-2】复合分组表2-2 2005年某地区工业增加值和职工人数 项目 增加值(万元) 职工人数(人)内资 大型 9 750 13 800 中型 8 600 45 000企业 小型 4 200 10 050 外商 大型 7 300 7 500投资 中型 5 200 10 400企业 小型 4 400 4 500 (2)复合分组的特点是:对同一总体选择两个或两个以上标志层叠分组,从不同角度了解总体内部的差异和关系;复合分组的组数随着分组标志的增加而成倍增加。2.统计分组按分组标志的性质不同,可以分为品质分组和数量分组。(1)品质分组也叫属性分组,是指总体按某一个或某几个品质标志进行分组,并在品质标志变异的范围内,划定各组的性质界限,根据每个个体的标志表现把他们分别归入不同的组中。【案例2-3】按品质分组 表2-4 2009年年底某高校在职教师职称分布数列 教师按职称分组 人数(人) 比重(%) 教授 151 14.38 副教授 382 36.38 讲师 297 28.29 助教 203 19.33 其他教师 17 1.62 合计 1050 100 (2)数量分组也叫变量分组,是指总体按某一个或某几个数量标志进行分组,并在数量标志变异的范围内,划定各组的数量界限,根据每个个体的标志表现(标志值或变量值)把他们分别归入不同的组中。 数量分组的难点是合理确定组间数量界限和分组数,在组距式分组中还要合理确定组距。数量标志分组的结果形成变量数列。【案例2-4】按数量分组表25 ×厂第二季度工人平均日产量 工人平均日产量 工人数 (件) 绝对数(人) 比重(%) 2 10 8.7 3 15 13.0 4 30 26.1 5 40 34.8 6 20 17.4 合 计 115 100.0 变量 次数 频率四、分布数列(一)分布数列的概念与种类在统计分组的基础上,将总体中的所有个体按组归类排列,并计算出各组的个体数,就形成为频数分布。分配在各组的个体数,称为频数或次数,各组频数或次数之和称为总频数或总次数,各组频数与总频数之比称为频率。将各组的频数或频率按分组的一定顺序加以排列,就形成为分布数列。 分布数列按分组标志的性质不同可以分为两种:即按品质标志分组的品质分布数列和按数量标志分组的变量分布数列。1、按品质标志分组的品质分布数列表26 ××班学生的性别构成统计表 单位:人 按性别分组 绝对人数 比重(%) 男 30 75 女 10 25 合计 40 100 各组名称 次数或频数 比率或频率2、按数量标志分组的变量分布数列【案例2-5】按数量标志分组表2-4 2009年年底某高校在职教师年龄分布数列 按教师年龄分组 人数(人) 比重(%) 20-30 201 19.14 30-40 317 30.19 40-50 366 34.86 50-60 151 14.38 60-70 15 1.43 合计 1050 100 (二)变量数列的编制1.单项式数列的编制【练习2-1】某城市育龄妇女总体按生育子女数分组。其变量值值为X = 0,1,2,3,4,5共6种。编制单项式数列统计表练习。 表2-5 某城市育龄妇女总体按生育子女数分布 单位:万人 生育子女数 育龄妇女数 育龄妇女占总体数比重(%) 育龄妇女总体数 0 10 1 80 2 5 3 3 4 2 5 1 合计 100 250 2.组距式数列的编制组距数列的编制要正确处理如下问题:(1)组距和组数1)组上限(Max x):每个组变量的最大值。2)组下限(Min x):每个组变量的最小值。3)组距(r):每个组上限与下限的距离称为组距。( r =Max x - Min x)4)全距(R):组距数列中全部变量的最大值和最小值的距离。 (R =Max x - Min x)5)组数=全距/组距n=R/r组距数列分为等距数列与异距数列(2)组限与组中值1)组限:两端的数值称为组限。闭口组:组距的上限、下限都齐全组。开口组:组距的上限或下限不齐全的组。确定组限的原则:按连续变量分组,上组限不在内,即把达上限值的单位数计入下一组内;按离散变量分组,相邻两组的上、下限可以不重合。2)组中值为了反映分在各组中的个体单位变量值的一般水平,统计工作中用组中值来代表。组中值是各组变量范围的中间数值。组中值=(上限+下限)/2缺上限的开口组组中值=下限+邻组组距缺下限的开口组组中值=上限-邻组组距/2【练习2-2】等距数列的编制。某班40位学生统计学考试成绩分别如下: 89 88 76 99 74 60 82 60 89 8693 99 94 82 77 79 97 78 95 9287 84 79 65 98 67 59 72 84 8556 81 77 73 65 66 83 63 79 70要求:编制等距数列某班学生统计学考试成绩表。解:将上述资料,按数值大小排列如下:56 59 60 60 63 65 65 66 67 7072 73 74 76 77 77 78 79 79 7981 82 82 83 84 84 85 86 87 8889 89 92 93 94 95 97 98 99 99计算全距R。R =Max x - Min x=99-56=43计算组数:n=R/r , 令r=10。n=R/r= 43/r= 43/10 =5编制某班学生统计学考试成绩等距数列表表2-6 某班学生统计学考试成绩表 考分 人数(人) 比重(%) 5060 2 5.0 6070 7 17.5 7080 11 27.5 8090 12 30.0 90100 8 20.0 合计 40 100.0 【案例2-6】异距数列。每组组距不相等。表2-7 某地区人口分布状况表 人口按年龄分组 人口数(万人) 1岁以下(婴儿组) 1 17岁(幼儿组) 6 717岁(学龄儿组) 12 1755岁(劳动力组) 24.6 55岁以上(老年组) 8.1 合计 51.7 (三)频率分布1.按顺序列出各组的组别及相应的频率,就构成频率分布。频率分布可以比频数分布更好地体现出总体分布特征。2.在频数分布的基础上,将各组频数依次累计,就形成累计形成累计频率分布。【案例2-7】2009年年底某高校在职教师年龄累计分布数列。表2-4 2009年年底某高校在职教师年龄分布数列 教师按年龄 人数 比重 向上累计 向下累计 分组 (人) (%) 频数(人) 频率(%) 频数(人)频率(%) 20-30 201 19.14 201 19.14 1050 100.00 30-40 317 30.19 518 49.33 849 80.86 40-50 366 34.86 884 84.19 532 50.67 50-60 151 14.38 1035 98.57 166 15.81 60-70 15 1.43 1050 100.00 15 1.43 合计 1050 100 - - - -统计学原理课程教案首页22章节第二章 第3节 统计数据的显示学时2班级会计10级时间教学目标与要求1、理解统计表的概念;2、掌握统计表的结构、种类;3、熟悉统计表的设计;4、掌握各种统计图的绘制与应用。教学内容设计2.3统计数据的显示1、统计表2、统计图;教学方法与手段设计 多媒体课件与案例综述相结合课程改革创新课程设计:统计调查实践与设计实验报告思考训练与作业教材P55-56 一、6、7、8 二、4、5三、10四、计算题:(1)(3) 箱型图暂时不作。 (4)第三节 统计数据的显示 一、统计表(一)统计表的概念 经过汇总整理的统计数据,按一定的顺序排列在相应的表格内,就形成为统计表。广义的统计表还包括统计调查表和统计分析表。(二)统计表的结构 从表式上看,统计表是由纵横交错的线条所构成的一种表格,包括总标题、横行标题、纵栏标题和指标数值四个部分。从内容上看,统计表由两部分组成:主词和宾词。此外,有些统计表还有补充资料、资料来源、注释、填表单位、填表人和填表日期等内容。(三)统计表的种类 统计表按照主词是否分组,以及分组标志多少,可以分为未分组表、简单分组表和复合分组表三种。(四)统计表的设计二、统计图(一)直方图:用直方形的宽度和高度来表示频数分布的图形,即在直角坐标系上,以横轴表示变量,以纵轴表示频数或频率,以各个宽度为组距、高度为频数或频率的直方块矩形所构成的图形。(二)折线图:在直方图的基础上,将各组直方形顶边线的中点(即由组中值与频数或频率确定的坐标点)用直线连接起来,就形成为折线图。(三)曲线图:当变量数列的分组数较多、组距较小时,折线图就变成了平滑的曲线图。(四)累计曲线图:根据累计频数或累计频率分布数列,可以绘制累计分布图。它以分组变量为横轴,以累计频数或累计频率为纵轴,以各组的上限(下限)与累计频数或累计频率为坐标点,平滑连接各点即成向上(向下)累计曲线。(五)茎叶图:茎叶图是一种用以表现原始数据分布状况的图形,由“树茎”与“树叶”两部分构成,并且都是以数字来表示的。(六)箱形图:箱形图是由变量的5个特征值绘制而成的图形,由一个箱子和两条线段组成。5个特征值是变量的最大值、最小值、中位数、第一四分位数和第三四位数(中位数和分位数在下一章介绍)。连接两个分位数画出一个箱子,箱子用中位数分割,把两个极点值与箱子用线条连接,即成相形图。