统计学第三章统计整理新.ppt
《统计学第三章统计整理新.ppt》由会员分享,可在线阅读,更多相关《统计学第三章统计整理新.ppt(89页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主要内容主要内容2.2数据整理和显示数据整理和显示原始资料杂乱无章,需加整理,才能为人所用。统计资料原始资料杂乱无章,需加整理,才能为人所用。统计资料的整理,其基础是统计分组。通过统计分组以便为在统计分的整理,其基础是统计分组。通过统计分组以便为在统计分析中提炼各种有用信息打下基础。析中提炼各种有用信息打下基础。统计表统计表变量数列的编制变量数列的编制统计图统计图统计分组统计分组一、统计整理的概念一、统计整理的概念1、统计整理:、统计整理:是指根据统计研究目的,对统计所收集是指根据统计研究目的,对统计所收集到的数据进行科学的加工处理,使之条理化、系统化到的数据进行科学的加工处理,使之条理化、系
2、统化成为能反映总体数量特征的统计数据的过程。成为能反映总体数量特征的统计数据的过程。2、统计整理的任务、统计整理的任务(目的目的):一是对原始数据的整理,将反映个体的原始资料进行科一是对原始数据的整理,将反映个体的原始资料进行科学的分类、加工和汇总,转化为说明总体数量特征学的分类、加工和汇总,转化为说明总体数量特征的数据。的数据。二是对次级数据的再整理,使之满足新要求。二是对次级数据的再整理,使之满足新要求。二、统计整理的作用和要求二、统计整理的作用和要求n作用作用n1 1、是统计工作的中间环节起着承上启下的作、是统计工作的中间环节起着承上启下的作用用n2 2、是认识的飞跃。感性认识上升到理性
3、认识。、是认识的飞跃。感性认识上升到理性认识。n要求要求n科学性(质的界限)、充分性(方法和技术)科学性(质的界限)、充分性(方法和技术)和条理性(逻辑关系)和条理性(逻辑关系)n三、统计整理的步骤三、统计整理的步骤n1 1、整理方案设计、整理方案设计n2 2、数据预处理、数据预处理n审核数据(对原始数据从准确性和完整性检查,次级审核数据(对原始数据从准确性和完整性检查,次级资料主要是适用性和时效性检查)资料主要是适用性和时效性检查)n数据筛选(剔除不符合要求的数据或筛选出符合要求数据筛选(剔除不符合要求的数据或筛选出符合要求的数据)的数据)n数据排序(发现数据的特征和趋势)数据排序(发现数据
4、的特征和趋势)n3 3、统计分组和汇总(关键)、统计分组和汇总(关键)n4 4、统计数据的显示。编制统计表、图(表现形式)、统计数据的显示。编制统计表、图(表现形式)n5 5、统计数据的保存和公布。、统计数据的保存和公布。2.2.3 2.2.3 统计分组统计分组一、统计分组的定义与性质一、统计分组的定义与性质 1 1、定义、定义 根据统计研究目的和现象总体的内在特点,把统计总体按照根据统计研究目的和现象总体的内在特点,把统计总体按照一定标志划分为若干性质不同而又有联系的一定标志划分为若干性质不同而又有联系的几个部分几个部分的统计方的统计方法,称为统计分组。法,称为统计分组。2 2、目的:、目的
5、:组内同质,组间异质组内同质,组间异质 3 3、方向:、方向:对于总体而言,是对于总体而言,是“分分”,对于总体单位而言,是,对于总体单位而言,是“合合”。故分组可以有两个方向:识(判)别与聚类。故分组可以有两个方向:识(判)别与聚类。4 4、关键:、关键:选择分组标志和划分各组界限选择分组标志和划分各组界限 5 5、原则:、原则:n穷尽原则穷尽原则,使总体中的每一个单位都应有组可归,或者说,使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。各分组的空间足以容纳总体所有的单位。n互斥原则互斥原则,在特定的分组标志下,总体中的任何一个单位,在特定的分组标志下,总体中的任
6、何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。的只能归属于某一组,而不能同时或可能归属于几个组。统计分组的性质统计分组的性质n1 1、统计分组兼有分和合的功能、统计分组兼有分和合的功能n2 2、统计分组必须遵循互斥原则和穷尽原则、统计分组必须遵循互斥原则和穷尽原则n3 3、统计分组目的是要使、统计分组目的是要使组内同质,组间异质组内同质,组间异质n4 4、统计分组在某一标志的统计分组在某一标志的组间异质的同时却组间异质的同时却可能掩盖其他标志的组间差异可能掩盖其他标志的组间差异n5 5、统计分组关键选择分组标志划分各组界限、统计分组关键选择分组标志划分各组界限非运动员非运动员运动
7、员运动员属于哪一组?(待识别)属于哪一组?(待识别)性别分组性别分组运动与否分组运动与否分组把总把总体按体按两个两个标志标志切成切成四块四块n正确选择分组标志的原则:正确选择分组标志的原则:n1 1、根据研究目的选择、根据研究目的选择n2 2、选择反映本质特征的标志、选择反映本质特征的标志(研究人们生活水研究人们生活水平的高低用工资水平还是家庭成员平均收入水平的高低用工资水平还是家庭成员平均收入水平为标志呢平为标志呢)n3 3、根据历史和经济条件的变化选择、根据历史和经济条件的变化选择二、统计分组的作用二、统计分组的作用 1 1、划分现象总体的类型、划分现象总体的类型、划分现象总体的类型、划分
8、现象总体的类型 例如,对经济活动单位按产业进行分类,例如,对经济活动单位按产业进行分类,例如,对经济活动单位按产业进行分类,例如,对经济活动单位按产业进行分类,有第一次产业(大农有第一次产业(大农有第一次产业(大农有第一次产业(大农业)业)业)业)、第二次产业(工业与建筑业)第二次产业(工业与建筑业)第二次产业(工业与建筑业)第二次产业(工业与建筑业)、第三次产业(流通与服务第三次产业(流通与服务第三次产业(流通与服务第三次产业(流通与服务部门)部门)部门)部门)。对经济活动单位按所有制性质进行分类对经济活动单位按所有制性质进行分类对经济活动单位按所有制性质进行分类对经济活动单位按所有制性质进
9、行分类 2 2 2 2、反映总体内部的构成及其变化、反映总体内部的构成及其变化、反映总体内部的构成及其变化、反映总体内部的构成及其变化例如,产业结构、消费结构、人口结构(年龄结构、性别结构、例如,产业结构、消费结构、人口结构(年龄结构、性别结构、例如,产业结构、消费结构、人口结构(年龄结构、性别结构、例如,产业结构、消费结构、人口结构(年龄结构、性别结构、民族结构)。恩格尔定律民族结构)。恩格尔定律民族结构)。恩格尔定律民族结构)。恩格尔定律例:某市按例:某市按GDP计算的三次产业结构(计算的三次产业结构(%)2006年年 2007年年2008年年 2009年年GDP100100100100第
10、一产业第一产业3.24.32.52.3第二产业第二产业75.763.854.552.2第三产业第三产业21.131.943.045.5n某省城镇居民人均消费性支出构成表n城镇居民n2007%2008%n消费性支出100.0100.0n食品51.336.3n衣着12.98.4n家庭设备用品及支出9.611.7n医疗保健2.66.7n交通和通讯3.38.7n娱乐教育文化9.113.4n居住6.09.1n杂项商品和服务5.25.7n从表中可明显看出,某省城镇居民消费支出中,食品消费、衣着消费支出所占比重下降,而交通和通讯、娱乐教育文化、医疗保健等方面的支出上升,消费结构不断优化。3研究现象之间的依存
11、关系研究现象之间的依存关系例:某年中国农民家庭按收入分组的恩格尔系数例:某年中国农民家庭按收入分组的恩格尔系数按收入分组(元)按收入分组(元)2003004005006008001000恩格尔系数(恩格尔系数(%)64.960.256.754.450.549.943.6三、统计分组的种类三、统计分组的种类按分组目的或按分组目的或者作用划分者作用划分类型分组类型分组结构分组结构分组分析分组分析分组按分组标志按分组标志性质划分性质划分品质标志分组品质标志分组数量标志分组数量标志分组按分组标志按分组标志多少划分多少划分简单分组简单分组复合分组复合分组品品质质标标志志分分组组:人人口口按按性性别别、职
12、职业业、地地区区、职职称称分分类等。类等。数数量量标标志志分分组组:按按收收入入、成成绩绩的的多多少少等等等等,通通过过这这种种分分组组,可可以以反反映映各各组组间间的的数数量量差差异异及及其其质质方方面的变化。面的变化。教师按职称分组教师按职称分组人数人数年人均科研分值年人均科研分值正高正高副高副高中级中级初级初级1253204105538.512.38.82.1合计合计910教师按开课门数分组教师按开课门数分组人数人数比重比重%123456190450160722810合计合计910XXXX大学教师按职称分组的科研统计大学教师按职称分组的科研统计XXXX大学教师按开课门数分组情况大学教师按
13、开课门数分组情况 简简单单分分组组是是指指按按一一个个标标志志进进行行的的分分组组,只只说说明明社社会会现现象象在在某某一一方方面面的的特特征征。如如人人口口按按性性别别分组,居民按消费支出分组等。分组,居民按消费支出分组等。复复合合分分组组是是社社会会现现象象按按两两个个或或两两个个以以上上的的标标志志层层叠叠进进行行分分组组。如如企企业业职职工工在在按按性性别别分分组组的同时又按文化程度分组。的同时又按文化程度分组。复复合合分分组组适适合合于于被被研研究究的的社社会会现现象象所所包包含含的的单位数较多的情况。单位数较多的情况。2.2.42.2.4分分(配配)布数列布数列一、分配数列的概念、
14、组成要素及分类一、分配数列的概念、组成要素及分类1、概念、概念在统计分组的基础上,把总体的所有单位按组归类,并计算在统计分组的基础上,把总体的所有单位按组归类,并计算各组的个体数,就形成分配数列,也称为统计分布。各组的个体数,就形成分配数列,也称为统计分布。2、要素、要素分配数列包括两个要素:分配数列包括两个要素:(1)统计分组所形成的各组统计分组所形成的各组(2)各组次数(频数)或者频率各组次数(频数)或者频率n所谓频数所谓频数f f(次数):分配在各组的个体数称为频数,次数):分配在各组的个体数称为频数,分别以分别以f f1 1f f2 2表示。各组频数之和等于总频数。表示。各组频数之和等
15、于总频数。n所谓频率,就是指各组频数在总频数(总次数)中所谓频率,就是指各组频数在总频数(总次数)中所占的比重,以所占的比重,以 表示。表示。3 3、种类、种类n根据统计分组标志的性质不同,分布数列有:根据统计分组标志的性质不同,分布数列有:n品质数列品质数列:按品质标志分组所形成的分布数列。:按品质标志分组所形成的分布数列。体现现象质上的差别且较稳定。体现现象质上的差别且较稳定。变量数列变量数列:按数量标志分组所形成的分布数列。:按数量标志分组所形成的分布数列。体现现象量上的差别且有多种编制方法。体现现象量上的差别且有多种编制方法。变量数列单项数列 组距数列等距数列 异距数列(1 1)组限(
16、上限,)组限(上限,下限)下限)(2 2)组距)组距=上限上限-下限下限 =U-L=D=U-L=D二、编制步骤二、编制步骤 计算全距计算全距1 1、分析资料、分析资料变量的性质变量的性质 变量值的分布是否均匀变量值的分布是否均匀n单项数列单项数列na)概念概念单一变量值为一组的变量数列;单一变量值为一组的变量数列;nb)适适用用范范围围:变变动动范范围围不不大大的的离离散散变变量量和和取取整整数的连续变量。数的连续变量。nc)特点:保持资料真实性,特点:保持资料真实性,nd)编编制制步步骤骤:确确定定组组数数,把把总总体体单单位位分分配配在在相相应各组。应各组。n组距数列的编制组距数列的编制:
17、na.)概念概念以区间表示一个组的变量数列以区间表示一个组的变量数列;nb.)适适用用范范围围:连连续续变变量量、变变动动范范围围大大的的离离散散变量变量;nc.)特点:掩盖资料真实性,特点:掩盖资料真实性,nd.)步步骤骤:确确定定组组距距、组组数数;确确定定等等距距或或异异距距;确定组限确定组限;计;计算组中值。算组中值。居民按家庭储蓄居民按家庭储蓄存款额分组存款额分组居民户数居民户数(户)(户)平均每户年总平均每户年总收入(万元)收入(万元)5万元以下万元以下510万元万元1020万元万元2050万元万元50100万元万元100万元以上万元以上12035056028090201.522.
18、854.9512.6025.8648.60合计合计1420某地区不同存款规模家庭的年收入情况某地区不同存款规模家庭的年收入情况职工按年龄分组职工按年龄分组人数人数2030304040505060120280300210合计合计910企业职工按年龄分组企业职工按年龄分组数量标志分组数量标志分组(不等距分不等距分组组).适用于现象性质变化适用于现象性质变化不均匀的连续型变量及取不均匀的连续型变量及取值范围很大的离散型变量值范围很大的离散型变量数量标志分组数量标志分组(等距分组等距分组).适用于现象性质变化均匀适用于现象性质变化均匀的连续型变量及取值范围的连续型变量及取值范围很大的离散型变量很大的离
19、散型变量2 2、确定组距和组数、确定组距和组数 原则:能清晰反映数据的分布特征原则:能清晰反映数据的分布特征。注意的问题n(1 1)一般情况下应采用等距数列)一般情况下应采用等距数列 便便于于进进行行统统计计分分析析时时不不受受组组距距不不等等的的影影响,也便于制图、计算。响,也便于制图、计算。n(2 2)经经验验表表明明,对对于于任任一一个个特特征征来来说说,分组组数不应多于分组组数不应多于2020个。个。(3 3)为为了了选选择择组组距距长长度度的的最最佳佳值值,既既不不使使变变量量数数列列很很庞庞大大,又又不不使使现现象象的的特特征征被被掩掩盖盖,通通常常采采用用下下列公式计算:列公式计
20、算:式式中中x xmaxmax和和x xminmin分分别别表表示示总总体体中中的的最最大大值值和和最最小小值值,N N表示总体单位的总数,表示总体单位的总数,1gN1gN表示数表示数N N的十进位对数。的十进位对数。例如,在所研究的总体里例如,在所研究的总体里(N=1000)(N=1000),年龄如果在年龄如果在2020岁至岁至6060岁之间变化,那么:岁之间变化,那么:即区间(组距)长度应等于即区间(组距)长度应等于4 4岁岁此外对于等距数列来说,其组数的确定还此外对于等距数列来说,其组数的确定还可参考如下两个公式:可参考如下两个公式:n=R/d n=1+3.322 (N为总体单位数)(4
21、 4)根据标志值性质编制异距数列,根据标志值性质编制异距数列,异距异距数列在分析时,为消除组距的影响需计算频数列在分析时,为消除组距的影响需计算频数(率)密度。数(率)密度。频数(率)密度频数(率)密度=频数(率)频数(率)/组距组距n例如,按例如,按“家庭藏书的数目家庭藏书的数目”这一特征对家庭这一特征对家庭分组时,根据已经了解到的情况,多数家庭的分组时,根据已经了解到的情况,多数家庭的藏书在藏书在500500册以下,很少有藏书一万册的家庭,册以下,很少有藏书一万册的家庭,这时应采用长度不等的组距:这时应采用长度不等的组距:n150150,5110051100,101200101200,20
22、1300201300,301500301500,501700501700,70110007011000,1001100120002000,2001500020015000,500110000500110000。小孩按年龄分组小孩按年龄分组人数(人)人数(人)比重比重%次数密度次数密度%1岁以下(新生儿)岁以下(新生儿)8881-3(婴儿)(婴儿)17178.54-6(幼儿)(幼儿)272713.57-14(儿童)(儿童)48486.86合计合计100100n3 3、组距数列的界限和组中值的确定、组距数列的界限和组中值的确定。n对对于于离离散散型型特特征征来来说说,区区间间界界限限的的确确定定是
23、上限和下限不重叠。是上限和下限不重叠。n对对于于连连续续型型特特征征来来说说,上上限限和和下下限限重重叠叠并遵循并遵循“上限不在内上限不在内”原则。原则。n此此外外如如资资料料中中出出现现极极大大值值或或极极小小值值还还可可编制开口组即编制开口组即xxxx以下或以下或xxxx以上以上n组距数列组中值的计算。假定各组次数组距数列组中值的计算。假定各组次数分布是均匀的条件下分布是均匀的条件下n组中值组中值=(上限(上限+下限)下限)/2/2n意义意义:近似代表一组变量值的平均水平近似代表一组变量值的平均水平n开口组的组中值计算:按邻组组距推算开口组的组中值计算:按邻组组距推算4 4、各单位依组归类
24、就形成变量数列、各单位依组归类就形成变量数列我们下面举例说明变量数列的编制。例如假定某研究所30位研究人员的月工资资料如下:n106、84、110、91、109、91、111、107、121、105、99、94、119、88、118、97、103、106、95、106、85、106、101、105、96、105、107、128、111、101。n从资料看可知最大值为128元,最小值为84元。可选择10为组距,编制等距区间数列如表所示:某研究所研究人员月工资分配表月工资分组(元)月工资分组(元)人人 数数80-9080-90390-1007100-11013110-1205120-1302合计合
25、计30n编制变量数列的目的是从数据中提取对编制变量数列的目的是从数据中提取对我们探索内在数量规律有用的信息。我们探索内在数量规律有用的信息。n经整理后,我们大致可以看出该所研究经整理后,我们大致可以看出该所研究人员月工资的分布规律,人员月工资的分布规律,即大多数人的即大多数人的工资在工资在100-110100-110元间,形成两头小中间大元间,形成两头小中间大的规律的规律。但。但80-10080-100元低收入的两组人数元低收入的两组人数比比110-130110-130元之间的高收入两组人数多,元之间的高收入两组人数多,因而是不对称分布。因而是不对称分布。n但但是是经经整整理理编编制制分分布布
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 第三 统计 整理
限制150内