(精品)第三章统计整理.ppt
第三章 统计整理【案例导入】上一章的调查案例共发放调查表格上一章的调查案例共发放调查表格300份,回收份,回收292份,其中有效表格份,其中有效表格265份,现份,现将各年级男女回收有效表格具体情况整理如下:将各年级男女回收有效表格具体情况整理如下:年级年级男生男生女生女生大一大一4744大二大二4248大三大三3846合计合计127138这就是统计整理,他将统计调查得到的零星分散的个体资料变为了一目了这就是统计整理,他将统计调查得到的零星分散的个体资料变为了一目了然的说明总体资料。然的说明总体资料。案例一家评估机构为调查不同品牌饮料的市场一家评估机构为调查不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。占有率,对随机抽取的一家超市进行了调查。调查员在某天对照调查员在某天对照5050名顾客购买饮料的品牌名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。饮料,就将这一饮料的品牌名字记录一次。下面的表下面的表4141是记录的原始数据是记录的原始数据。顾客购买饮料的品牌名称 统一统一露露露露统一统一可口可乐可口可乐百事可乐百事可乐可口可乐可口可乐汇源果汁汇源果汁可口可乐可口可乐露露露露可口可乐可口可乐 可口可乐可口可乐统一统一可口可乐可口可乐百事可乐百事可乐露露露露统一统一统一统一百事可乐百事可乐可口可乐可口可乐统一统一 统一统一可口可乐可口可乐可口可乐可口可乐统一统一露露露露统一统一可口可乐可口可乐露露露露百事可乐百事可乐百事可乐百事可乐 汇源果汁汇源果汁露露露露百事可乐百事可乐可口可乐可口可乐百事可乐百事可乐汇源果汁汇源果汁可口可乐可口可乐汇源果汁汇源果汁可口可乐可口可乐汇源果汁汇源果汁 露露露露可口可乐可口可乐统一统一百事可乐百事可乐露露露露汇源果汁汇源果汁可口可乐可口可乐百事可乐百事可乐露露露露统一统一 表42购买饮料的频数分布饮料名称饮料名称频数频数可口可乐可口可乐统一统一百事可乐百事可乐露露 露露汇源果汁汇源果汁其其 他他合合 计计1511996050购买饮料的频数分布图第三章 统计整理 第一节第一节 统计整理的概念和内容统计整理的概念和内容 第二节第二节 统计分组统计分组 第三节第三节 分配数列分配数列 第四节第四节 统计表统计表学习目的和要求学习目的和要求通过本章的学习,要求学生了解统计整理的基本程序,掌握统计分组的原则和方法以及会会掌握分配数列的编掌握分配数列的编制制和和统计表、图的基本知识。第一节第一节 统计整理的概念和内容统计整理的概念和内容一、统计整理的概念二、统计资料整理的主要内容和步骤一、统计整理的概念 统计整理的定义:是根据统计研究的任务,对统计调查所搜集到的大量原始资料进行加工汇总,使其系统化、条理化、科学化,以得出反映事物总体综合特征的资料的工作过程。统计整理的意义统计整理的意义统计整理是统计工作的统计整理是统计工作的中间环节中间环节,它是在统,它是在统计调查的基础上进行的,计调查的基础上进行的,是统计调查的继是统计调查的继续续,同时,同时又是统计分析的前提又是统计分析的前提,在统计工,在统计工作中起着作中起着承前启后承前启后的重要作用。的重要作用。二、统计整理的步骤二、统计整理的步骤1设计和编制统计整理方案设计和编制统计整理方案2对原始资料进行审核对原始资料进行审核前提前提基础基础中心环节中心环节结果结果3对原始资料进行分组对原始资料进行分组 汇总汇总4编制统计表或绘制统计图编制统计表或绘制统计图13 原始资料的检查及时性准确性检查就是对调查误差调查误差的检查登记性误差代表性误差由于错误判断事实或错误登记事实而发生的误差。这种误差可以避免。根据样本单位的数量特征推断总体数量特征时产生的误差。这种误差不可避免。逻辑检查:内容是否合理,有无矛盾,是否符合实际;检查方法计算检查:数字有无差错,指标计算方法是否恰当,计算单位是否正确,指标之间平衡关系是否保持。准确性准确性完整性第二节 统计分组一、统计分组的概念二、统计分组的作用三、分组标志的选择四、统计分组的方法五、统计分组体系就是根据统计研究的需要,将统计总就是根据统计研究的需要,将统计总体按照一定的标志区分成若干组成部体按照一定的标志区分成若干组成部分的一种统计方法分的一种统计方法。qq对总体而言,是对总体而言,是“分分”,即将总体区分为性质,即将总体区分为性质相异的若干部分。相异的若干部分。qq对总体单位而言,是对总体单位而言,是“合合”,即将性质相同的,即将性质相同的个体组合起来,在同一组内则保持着相同的性个体组合起来,在同一组内则保持着相同的性质。质。1.统计分组统计分组一、统计分组的概念分组分组分组前分组前分组前分组前分组后分组后分组后分组后253342(一一)区分社会经济现象的性质区分社会经济现象的性质运用统计分组的方法将所要研究的现象总体划分为不同类型的组来进行研究。例例1:按所有制性质划分,我国现有:按所有制性质划分,我国现有8种经济类型:国有经种经济类型:国有经济;集体经济;私营经济;个体经济联营经济;股份制济;集体经济;私营经济;个体经济联营经济;股份制经济;外商投资经济;港澳台投资经济经济;外商投资经济;港澳台投资经济例:某校新生按民族分组表按民族分组学生人数比率(%)汉族90081.82少数民族20018.18合计1100100.00(二二)反映总体的内部结构(三)三)分析现象之间的依存关系分析现象之间的依存关系例如例如例如例如:某地区某地区某地区某地区6565个百货商店流通费用率资料个百货商店流通费用率资料个百货商店流通费用率资料个百货商店流通费用率资料按商品按商品按商品按商品销销销销售售售售额额额额分分分分组组组组/万元万元万元万元商店数商店数商店数商店数/个个个个流通流通流通流通费费费费用率用率用率用率/%/%/%/%50505050以下以下以下以下50100501005010050100100150100150100150100150150200150200150200150200200250200250200250200250250250250250以上以上以上以上5 5 5 5101010102525252512121212101010103 3 3 312.112.112.112.111.411.411.411.410.910.910.910.99.89.89.89.89.09.09.09.08.28.28.28.2分组的关键是分组的关键是分组标志的选择和组限的划分分组标志的选择和组限的划分。正确正确选择分组标志选择分组标志是是做好统计分组的前提。做好统计分组的前提。三、分组标志的选择(一一)正确地选择分组标志是进行统计分组的关键正确地选择分组标志是进行统计分组的关键如何选择分组标志的问题是统计分组的核心问题。.根据研究目的选择分组标志。如研究某企业职工的素质情况,应选择文化程度为分组标志。.选择反映现象本质特征的分组标志。如研究居民家庭生活水平,可按每户月收入和每户人均月收入分组,但后者剔除了家庭人口多少的影响因素,反映了每个家庭的真正收入水平和生活状况。3根据经济发展变化及历史条件选择分组标志。如在生产力水平较低的情况下,研究企业规模,一般以职工人数作为分组标志;而在生产力水平较高的情况下,一般使用企业生产能力和固定资产价值作为分组标志。按按品质标志分组品质标志分组按按数量标志分组数量标志分组品质分组就是按品质(或属性)品质分组就是按品质(或属性)标志的分组。标志的分组。例如工业企业按经济类型、部门、人口按性别、职业地区等标志分组。数量分组就是按数量标志的分组,数量标志的变异数量分组就是按数量标志的分组,数量标志的变异性体现在它不断变动自身的数量上,故也称为变量性体现在它不断变动自身的数量上,故也称为变量分组。分组。例如工业企业按职工人数、资产总额分组;人口按年龄、收入等标志分组。四、统计分组的方法品质标志:统计分类;数量标志:量的界限品质标志:统计分类;数量标志:量的界限按按数量标志分组的形式数量标志分组的形式(补充补充)单项式分组单项式分组指用单一的数值作为分组标志的分指用单一的数值作为分组标志的分组。每个数值作为一个组。组。每个数值作为一个组。适用条件:适用条件:离散型变量,且变动幅度较小。离散型变量,且变动幅度较小。如某班如某班学生按年龄分组:学生按年龄分组:17岁,岁,18岁,岁,19岁,岁,20岁,岁,21岁,岁,22岁。岁。组距式分组组距式分组将作为分组依据的数量标志的整个取值将作为分组依据的数量标志的整个取值范围依次划分为若干个满足互斥性和范围依次划分为若干个满足互斥性和包包容性的区间,用这些数值区间作为组的容性的区间,用这些数值区间作为组的名称。名称。适用条件:连续变量;离散变量,若适用条件:连续变量;离散变量,若变动幅度大,也适宜采用组距分组。变动幅度大,也适宜采用组距分组。某班某班学生统计学生统计学成绩分组学成绩分组60分以下分以下6070分分7080分分8090分分90分以上分以上简单分组简单分组 复合分组复合分组 即总体按一个即总体按一个标志进行分组。标志进行分组。它只能从某一方它只能从某一方面说明总体的分面说明总体的分布状况和内部结布状况和内部结构。构。复合分组是指对复合分组是指对所研究的总体按两个所研究的总体按两个或两个以上的标志层或两个以上的标志层叠或交叉起来分组。叠或交叉起来分组。可用于对事物多方面、可用于对事物多方面、多层次的分析研究。多层次的分析研究。(三)按分组标志的多少分为简单分组和复(三)按分组标志的多少分为简单分组和复合分组合分组性别男女人数文化程度人数大学及以上专科高中及以下男女男女男女简单分组复合分组举例为了治国治水的需要,进行了初步的国势调查,将全国分为九州,并按土质的优劣将九州的田、赋分成上中下三等,每等又分为上中下三级,形成了“三等九级”的复复合分组合分组。这被欧洲统计学者称为国势统计学最早的萌芽。统计分组的原则穷尽原则与互斥原则比如将顾客按男、女、老、少分为四组,分析其需求,这种分组方法是否合适?请说明理由。答:这种分组方法不合适。(1分)分组应遵循“互斥原则”,即总体任何一个单位只能归属于某一组,而不能同时归属于几个组。(2分)这种分组方法违背“互斥原则”,例如,某一顾客是少女,她可以分在“女”组,又可以分在“少”组。(2分)五、统计分组体系统计分组体系有两种:1、平行分组体系 平行分组体系,是对同一总体选择两个或两个以上的标志分别进行简单分组。例如对高校教师按年龄、职称、性别等标志分别进行简单分组,可得到一个平行的分组体系,如图所示。中年按年龄分组 老年 男教师按性别分组 女教师 副教授按职称分组 教授 讲师 是对同一总体同时选择两个或两个以上标志层叠起来进行分组。例如,为了了解我国高等学校在校学生的基本状况,可同时选择学科、学历、性别等三个标志进行复合分组,得到的复合分组体系如图3-3所示。2、复合分组体系 男生 研究生 女生 男生 本科生 女生 男生 理科 专科生 女生高校在校学生 男生 研究生 女生 男生 文科 本科生 女生 男生 专科生 女生 图 3-3某校教师按性别、职称复合分组表 组别人数(人)比重()男性教授副教授讲师助教女性教授副教授讲师助教 92 4 18 40 30126 3 22 56 4542.2 1.8 8.318.313.857.8 1.410.125.720.6合计218100.0第三节 分配数列一、分配数列的概念与种类二、累计次数分布三、次数分布的主要类型四、统计图一、分配数列的概念与种类(一)分配数列的概念 在资料整理中,对原始资料按某一标志进行分组,并按一定顺序排列,同时,列出各组的总体单位数的称为分配数列(次数分布数列)。分布在各组的总体单位数叫做次数或频数。分布在各组的总体单位数叫做次数或频数。分布数列由两个要素构成,即:分布数列由两个要素构成,即:总体按某标志的分总体按某标志的分组;各组次数或频率组;各组次数或频率。某车间工人按日产量分组表日产量(件)工人数(人)人数比重(%)2021222324251020305040305.5611.1116.6727.7722.2216.67合计180100.00 组别 次数(频数)比率(频率)变量数列变量数列品质数列品质数列分分类类异距数列异距数列等距数列等距数列组距数列组距数列单项数列单项数列二、变量数列的二、变量数列的种类种类品质品质分布数列分布数列单项变量数列单项变量数列 单项变量数列是按数量标志分组后单项变量数列是按数量标志分组后,用一个变量值代表一个组形成的数列用一个变量值代表一个组形成的数列(见表见表3-53-5)。下一个查看Excel表3-5组距组距变量数列变量数列日产量(件)日产量(件)日产量(件)日产量(件)X X工人数(人工人数(人工人数(人工人数(人)f20202121222223232424252526263 35 56 64 43 32 21 1合计合计合计合计2424某车间工人按日产量分组如下:某车间工人按日产量分组如下:单项数列组距数列某班按考试成绩按分组如下某班按考试成绩按分组如下 按考试成绩分组(分)按考试成绩分组(分)学生人数(人)学生人数(人)60以下以下60707080809090以上以上38897合计合计35组距式分组中的一些概念组距式分组中的一些概念组限组限上限上限下限下限区间数值的最大值区间数值的最大值区间数值的最小值区间数值的最小值组距组距每一组的每一组的区间长度区间长度组距组距=上限上限-下限下限 组组中值中值每每一组一组中点位置的数值中点位置的数值组组中值中值=(上限(上限+下限)下限)2开口组开口组缺少上限数值或下限数值的组缺少上限数值或下限数值的组注意注意开口组以相邻组的组距作为该组的组距,开口组以相邻组的组距作为该组的组距,确定其下限或上限,再计算组中值。确定其下限或上限,再计算组中值。销售额销售额(万元)(万元)商店数商店数(个)(个)每百元每百元商品销商品销售额中支付的售额中支付的流通费(元)流通费(元)50以下以下50100100200200300300以上以上102030251514.211.410.19.28.5上组限上组限U下组限下组限L如:组距如:组距d=U-L=100-50=50(万元万元)如:组中值如:组中值x=(U+L)/2 =(100+200)/2=150(万元)(万元)组距式分组中的一些概念组距式分组中的一些概念间断式分组间断式分组凡是组限不相连,以整数位断开凡是组限不相连,以整数位断开的分组,称为间断组距式分组的分组,称为间断组距式分组。连续式分组连续式分组凡是组限相连,即相邻组上、下凡是组限相连,即相邻组上、下限重叠,称为连续式分组限重叠,称为连续式分组。60分以下分以下6070分分7080分分8090分分90分以上分以上300以下以下301400人人401500人人501600人人601人以上人以上间断式分组间断式分组连续式分组连续式分组组距式分组中的一些概念组距式分组中的一些概念等距分组等距分组异距分组异距分组各组组距相等的分组称为等距分组各组组距相等的分组称为等距分组。各组组距不全相等的分组称为异距各组组距不全相等的分组称为异距分组分组。例如例如60分以下分以下6070分分7080分分8090分分90分以上分以上组组中值为中值为(60+50)2=55组组中值为中值为(90+100)2=95上限不在内原则上限不在内原则单项数列单项数列指每个组值只用一个具体的指每个组值只用一个具体的变量值表现的数列变量值表现的数列同时同时同时同时具备具备具备具备变量是离散变量变量是离散变量变量的不同取值个数较少变量的不同取值个数较少编制条件编制条件:【例例例例】己知某车间有己知某车间有24名工人,他们的日产量(件)名工人,他们的日产量(件)分别是:分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。要求根据以上资料编制变量数列。二、变量数列的编制(补充)二、变量数列的编制(补充)1.单项式变量数列的编制单项式变量数列的编制单项式变量数列单项式变量数列编制步聚:编制步聚:第一,将变量值的原始资料按第一,将变量值的原始资料按顺序排列顺序排列,一般是由小到大排列。一般是由小到大排列。第二,确定各组的第二,确定各组的变量值和组数变量值和组数。一个变。一个变量值为一组,重复出现的变量值只取一个。量值为一组,重复出现的变量值只取一个。第三,整理出变量值出现的第三,整理出变量值出现的次数次数,编制单,编制单项式变量数列。项式变量数列。日产量(件)日产量(件)日产量(件)日产量(件)X X工人数(人工人数(人工人数(人工人数(人)f20202121222223232424252526263 35 56 64 43 32 21 1合计合计合计合计2424编制结果如下:编制结果如下:组距数列组距数列指每个组的变量值用指每个组的变量值用一个区一个区间间来表现的变量数列来表现的变量数列变量是变量是连续变量连续变量;总体单位数较多、变量取值个数也较总体单位数较多、变量取值个数也较多的多的离散变量离散变量。编制条件编制条件:2.组距式变量数列的编制组距式变量数列的编制变量值变动区间的长度相等。变量值变动区间的长度相等。变量值变动区间的长度不完全相等变量值变动区间的长度不完全相等等距数列等距数列异距数列异距数列原始数据原始数据排序排序确定组限确定组限计算变异全距计算变异全距确定组数、组距确定组数、组距汇总各组单位数汇总各组单位数制作组距数列统计表制作组距数列统计表 编制步骤或内容编制步骤或内容某生产车间某生产车间50名工人日加工零件数如下名工人日加工零件数如下(单位单位:个个)117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121例例2:首先首先,对上面的数据进行排序对上面的数据进行排序107 108 108 110 112 113 114 115 117 117 117 118 118 118 119 120 120 121 122 122 122 122 123 123 123 123 124 124 124 125 125 125 126 126 127 127 127 128 128 129 130 131 133 133 134 134 135 137 139 139编制步骤:编制步骤:求变异全距求变异全距确定组距及组数确定组距及组数确定组距的原则:确定组距的原则:q要能要能区分各组的性质差异区分各组的性质差异q要能反映总体资料的分布特征要能反映总体资料的分布特征q为方便计算,尽可能为为方便计算,尽可能为5 5或或1010的整数倍的整数倍R组距组距(d)组数组数(n)编制等距数列编制等距数列(1)计算组数(组数不宜过多,也不宜太少)计算组数(组数不宜过多,也不宜太少)n=1+3.3logN (斯特杰斯经验公式)斯特杰斯经验公式)式中:式中:n为组数,为组数,N为总体单位数为总体单位数(2)计算组距)计算组距 d=R/n=R/(1+3.3logN)式中:式中:d为组距,为组距,R为全距为全距确定组限确定组限q对于离散变量,相邻组组限可以间断,也对于离散变量,相邻组组限可以间断,也可重叠;可重叠;q对于连续变量,相邻组组限必须重叠;对于连续变量,相邻组组限必须重叠;q符合符合“上组限不计入上组限不计入”原则;原则;q首末两组可使用首末两组可使用“以下以下”及及“以以上上”的开口组。的开口组。组限的表示方法组限的表示方法某车间某车间50名工人日加工零件分组表名工人日加工零件分组表按按零件数分组零件数分组频数(人)频数(人)频率(频率(%)105110110115115120120125125130130135135140358141064610162820128合计合计50100组距组距变量数列编制的关键是组限的划分组限的确定应考虑以下几点:第一、组限的确定应有利于表现总体分配的规律性组限的确定应有利于表现总体分配的规律性,组限应是决定事物性质的数量界限。例如,按学生考试成绩分组,60分必须作为组限,因为它是及格与不及格的界限。按计划完成程度分组100%必须作为组限,因为它是完成还是未完成计划的界限。第二、最低组下限应低于总体中最小变量值最低组下限应低于总体中最小变量值,最高组上最高组上限应高于总体中最大变量值限应高于总体中最大变量值,但不应过于悬殊。第三、总体中如果出现特大或特小变量值时,最低组和最高组可采用开口式(即只有上限或只有下限)。第四、组限一般采用整数值整数值。第五、如果变量是连续型变量,相邻组的组限必须重叠。在计算各组单位数或标志值时,应按“上组限不在内(不上组限不在内(不含上限)含上限)”的原则的原则。如果变量是离散型变量,并且以自然单位作为计量单位,相邻组的组限可以断开。组距分组时要注意的问题组距分组时要注意的问题:一定要遵循“不重不漏不重不漏”的原则。1.“不重不重”指一项数据只能分在其中的某一组,指一项数据只能分在其中的某一组,不能在其他组中重复出现。习惯上规定不能在其他组中重复出现。习惯上规定“上限不在内上限不在内”。2.“不漏不漏”即所有数据都能分在其中的某一组,即所有数据都能分在其中的某一组,不能遗漏。因此,如果数据中的最大值和不能遗漏。因此,如果数据中的最大值和最小值与其他数据相差悬殊,可采用最小值与其他数据相差悬殊,可采用“*以下以下”及及“*以上以上”。三、累计次数分布 累计次数分布,是指将变量数列各组的次数或比率逐组累计相加而成的次数分布,它表明总体在某一标志值的某一水平上下总共包含的总体次数或比率,累计次数有向上累计、向下累计两种计算方法。(一)向上累计 向上累计,又称以下累计,是将各组次数和比率,由变量值低的组向变量值高的组逐组累计。组距数列中的向上累计,表明各组上限以下总共所包含的总体次数和比率有多少。见表所示。表表3-4 523-4 52名学生统计学成绩向上累计次数分布表名学生统计学成绩向上累计次数分布表成绩(分)成绩(分)频数频数向上累计向上累计人数(人)人数(人)比率(比率(%)人数(人)人数(人)比率(比率(%)5050以下以下505060606070707080808090909010011111010151510105 51 121.1521.1519.2319.2328.8528.8519.2319.239.629.621.921.9211112121363646465151525221.1521.1540.3840.3869.2369.2388.4688.4698.0898.08100.00100.00合计合计5252100.00100.00(二)向下累计 向下累计,又称以上累计,是将各组次数和比率,由变量值高的组向变量值低的组逐组累计,组距数列中的向下累计,表明各组下限及以上总共所包含的总体次数和比率有多少。见表3-5所示。表表3-5 523-5 52名学生统计学成绩向下累计次数分布表名学生统计学成绩向下累计次数分布表成绩(分)成绩(分)频数频数向下累计向下累计人数(人)人数(人)比率(比率(%)人数(人)人数(人)比率(比率(%)5050以下以下505060606070707080808090909010011111010151510105 51 121.1521.1519.2319.2328.8528.8519.2319.239.629.621.921.9252524141313116166 61 1100.00100.0078.8578.8559.6259.6230.7730.7711.5411.541.921.92合计合计5252100.00100.00四、次数分布的主要类型(一)钟型分布(一)钟型分布钟型分布的特征是:钟型分布的特征是:“两头小,中间大两头小,中间大”,即靠近中间的变即靠近中间的变量值分布的次数多,靠近两端的变量值分布的次数少。钟型分量值分布的次数多,靠近两端的变量值分布的次数少。钟型分布可以分为以下两种(如图布可以分为以下两种(如图3-43-4所示):所示):1.1.对称分布对称分布对称分布的特征是:中间变量值分布的次数最多,两侧变量值对称分布的特征是:中间变量值分布的次数最多,两侧变量值分布的次数随着与中间变量值距离的增大而渐次减少,并且围分布的次数随着与中间变量值距离的增大而渐次减少,并且围绕中心变量值两侧呈对称分布。绕中心变量值两侧呈对称分布。2.2.偏态分布偏态分布偏态分布的特征是:中间变量值分布的次数最多,两侧变量值偏态分布的特征是:中间变量值分布的次数最多,两侧变量值分布的次数逐渐减少,但两侧减少速度快慢不同,致使分布曲分布的次数逐渐减少,但两侧减少速度快慢不同,致使分布曲线向某一方向偏斜。分布曲线偏斜分为右偏分布和左偏分布两线向某一方向偏斜。分布曲线偏斜分为右偏分布和左偏分布两种情况种情况。U型分布的形状与钟型分布相反,其特征是:型分布的形状与钟型分布相反,其特征是:“两头大,中间小两头大,中间小”,即靠近中间的,即靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,其分布曲线图形像英文字变量值分布的次数少,靠近两端的变量值分布的次数多,其分布曲线图形像英文字母母“U”。(二)(二)U型分布型分布J型分布的特征是:“一边小,一边大”,即大部分变量值集中在某一端分布,分布曲线图形像英文字母“J”。J型分布有两种类型,一种是次数随着变量的增大而增多的,称为正J型分布;另一种是次数随着变量增大而减少的,称为反J型分布。(三)J型分布五、统计图统计图的概念统计图的概念统计图是指利用统计图是指利用点、线、面点、线、面或或立体图像立体图像等等形式来反映统计资料的图形。形式来反映统计资料的图形。统计图包括:标题、坐标轴和网格线、统计图包括:标题、坐标轴和网格线、图例图例统计图的种类:直方图、折线图、曲线图统计图的种类:直方图、折线图、曲线图、散点图、柱形图、饼图等。散点图、柱形图、饼图等。某市三次产业增加值柱形图2000年2005年增加值(亿元)一产一产二产二产三产三产图形图形图例图例图目图目尺度线尺度线尺度数尺度数图目图目图题图题(一)分类数据的图示条形图(bar Chart)1.用宽度相同的条形的高度或长短来表示各类别数据的图形2.有单式条形图、复式条形图等形式3.主要用于反映分类数据的频数分布4.绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图分类数据的图示条形图(例题分析)条形图某企业某企业2010年在不同地区的销售情况如表年在不同地区的销售情况如表36所示:所示:第一季度第一季度第二季度第二季度第三季度第三季度第四季度第四季度东部东部20.427.49020.4西部西部30.638.634.631.6北部北部45.946.94543.9表表36分类数据的图示饼图(pie Chart)1.也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形2.主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用3.绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的分类数据的图示饼图(例题分析)数值型数据的图示Excel分组数据分组数据直方图和折线图直方图和折线图直方图直方图是用直方形的宽度和高度来表示次数分布的图形,在平面坐标上以横轴表示各组组距,对于等距数列,纵轴表示各组的频数,对于异距数列,纵轴表示各组的频数密度。分组数据的图示(直方图的绘制)140140 150150210210直方图下的面直方图下的面积之和等于积之和等于11某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图我我一一眼眼就就看看出出来来了了,销销售售量量在在170170180180之之间间的的天天数数最最多多!190190 200200180180160160 170170频频频频频频数数数数数数(天天天天天天)25252020151510105 53030220220 230230 240240折线图是在直方图的基础上,用折线将各组次数高度的坐标连接而成,也可以通过组中值与频数(频数密度)求坐标点连接而成。以表36中的资料为例:分组数据折线图(frequency polygon)折线图的划法1.折线图也称频数多边形图2.是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉3.折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的分组数据的图示(折线图的绘制)折线图与直方图折线图与直方图下的面积相等!下的面积相等!140140 150150210210某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图某电脑公司销售量分布的折线图190190 200200180180160160 170170220220 230230240240频频频频频频数数数数数数(天天天天天天)25252020151510105 53030分组数据直方图(直方图与条形图的区别)1.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义3.直方图的各矩形通常是连续排列,条形图则是分开排列4.条形图主要用于展示分类数据,直方图则主要用于展示数值型数据己知某班己知某班己知某班己知某班3535个学生统计学期末考试成绩如下,单位个学生统计学期末考试成绩如下,单位个学生统计学期末考试成绩如下,单位个学生统计学期末考试成绩如下,单位(分分分分)44 50 56 60 62 63 65 44 50 56 60 62 63 65 6565 69 69 6969 6969 70 7073 74 76 77 78 78 79 80 83 84 85 74 76 77 78 78 79 80 83 84 85 85857486 87 88 89 90 91 86 87 88 89 90 91 9191 92 93 94 92 93 94 9494要求编制组距数列。要求编制组距数列。Excel 按考试成绩按考试成绩分组(分)分组(分)学生人数学生人数(人)(人)60以下以下60707080809090以上以上38897合计合计35某班统计学考试成绩表某班统计学考试成绩表(三)饼图 饼图主要是用于反映现象在某一方面特征的内部结构,通过饼图可以显示出统计数据中各项的大小和各项总和比例。如表36中的资料为例:(四)曲线图(四)曲线图当资料较多,组数无限增多时,折线便近似地表现当资料较多,组数无限增多时,折线便近似地表现为一条平滑的曲线,一般曲线图有钟型分布图、为一条平滑的曲线,一般曲线图有钟型分布图、U型分布图和型分布图和J型分布图。型分布图。第四节 统计表一、统计表的作用二、统计表的结构三、统计表的种类四、编制统计表应注意的问题一、统计表的概念和作用(一)意义统计调查所得来的原始资料,经过整理,得到说明社会现象及其发展过程的数据,将这些数据按一定的顺序排列在表格上,就形成了统计表。广义的统计表包括统计工作各个阶段中所用的一切表格。(二)统计表的作用(1)能使大量的统计资料系统化、条理化,因而能更清晰地表述统计资料的内容。(2)利用统计表便于比较各项目之间的关系,而且也便于计算。(3)采用统计表格表述统计资料比用叙述的方法表述统计资料显得紧凑、简明、醒目,使人一目了然。(4)利用统计表易于检查数字的完整性和正确性。二、统计表的结构统计表的结构,可以从表式和内容两个方面来认识。1.从表式上看,统计表包括总标题、横行标题、纵栏标题和指标数值四个部分。总标题是统计表的名称,它扼要地说明表的基本内容,并指明时间和范围。它置于统计表格的正上方。横行标题是横行的名称,一般放在表格的左方;纵栏标题是纵行的名称,一般放在表格的上方。横行标题和纵行标题共同说明填入表格中的统计数字所指的内容。指标数值是列在横行和纵栏的交叉处,即表格中的数字就是指标数值,用来说明总体及其组成部分的数量特征,它是填写在统计表格的核心部分。总标总标题题横横行行标标题题指指标标数数值值纵栏标题纵栏标题我国2000年国内生产总值第一产业第二产业第三产业合计组别 增加值 比重 (亿元)()14628 14628 16.316.344935 50.344935 50.329879 33.429879 33.489442 100.089442 100.02.从内容上来看,从内容上来看,统计表是由主词栏和宾词栏两个部分组成。主词栏是统计表所要说明的总体及其组成部分,一般都列在表的左半部分;宾词栏是统计表用来说明总体数量特征的各个统计指标及其数值,一般都列在统计表的右半部分。此外,统计表还有补充资料、注解、资料来源、填表单位、填表人等附加内容。我国2000年国内生产总值 主词宾词组别第一产业第二产业第三产业合计 增加值增加值增加值增加值 比重比重比重比重(亿元)(亿元)(亿元)(亿元)()()()()1462814628 16.316.3 44935 50.3 44935 50.3 29879 29879 33.4 33.4 89442 100.0 89442 100.0三、统计表的种类统计表按主词是否分组及分组的程度,分为:简单表 分组表 复合表l 简单表 主词未经任何分组的统计表简单表即主词未经任何分组的统计表,主词仅罗列总体各单位的名称或各个时期。见教材p51页 我国20052010年GDP情况表年份200520062007200820092010总产量(万吨)182321 209407 246619300670 335353 397983李集镇2005年镇办企业生产经营情况统计表企业名称职工人数 (人)增加值(万元)总收入(万元)利税额(万元)磷肥厂150 800 840150面粉厂76 140 16028修配厂24 72 7512运输站48 275 28056农机站32 63 6510建筑站62022502300380合计95036003720636l 分组表主词只按某一个标志一个标志进行分组的统计表组别增加值(亿元)比重()第一产业第二产业第三产业40497186481171005104743合计397983100.0 我国2010年国内生产总值某班学生考试成绩分布成绩(分)人数(人)比重()60以下60707080809090100 4 715 8 610.017.537.520.015.0合计40 100.0l 复合表复合表主词按两个或两个以上的标志进行主词按两个或两个以上的标志进行层叠层叠分组的统计表。分组的统计表。组别人数(人)比重()男性教授副教授讲师助教女性教授副教授讲师助教 92 4 18 40 30126 3 22 56 45 42.2 1.8 8.318.313.857.8 1.410.125.720.6 合计218100.0四、统计表的编制规则为了使统计表能够简明扼要、准确地说明问题,在编制时应遵守以下规则:1、统计表的各种标题,特别是总标题应简明、确切地概括反映表中的基本内容,以及资料所属的时间和空间。2、如果统计表的栏数较多,应