统计学第三章 统计整理.ppt
《统计学第三章 统计整理.ppt》由会员分享,可在线阅读,更多相关《统计学第三章 统计整理.ppt(51页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章第三章 统计整理统计整理一、统计数据的预处理一、统计数据的预处理二、数据分组与频数分布二、数据分组与频数分布三、统计表和统计图三、统计表和统计图 统计数据的整理(统计数据的整理(summarizing data)是指是指对所搜集的数据进行加工整理、使之系统化、对所搜集的数据进行加工整理、使之系统化、条理化,以符合分析的需要。条理化,以符合分析的需要。统计数据的整理统计数据的整理通常包括:数据的预处理数据的预处理 分类分类或或分组分组 汇总汇总一、数据的预处理一、数据的预处理数据的审核、筛选与排序1.数据的审核发现数据中的错误2.数据的筛选找出符合条件的数据3.数据排序发现数据的基本特征升
2、序和降序数据的审核 审核的内容审核的内容1.完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全2.准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等如:如:文化程度:小学 职业:大学教师数据的审核(原始数据)审核数据准确性的方法审核数据准确性的方法1.逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对定类数据和定序数据的审核2.计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对定距和定比数据的审核数据的审核(第二手数据)1.适用性审核弄清楚数据的来源、数据的
3、口径以及有关的背景材料确定这些数据是否符合自己分析研究的需要2.时效性审核应尽可能使用最新的统计数据3.确认是否必要做进一步的加工整理数据的筛选1.对审核过程中发现的错误应尽可能予以纠正2.当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选3.数据筛选的内容包括:将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出数据的排序(要点)1.按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索2.排序有助于对数据检查纠错,以及为重新归类或分组等提供依据3.在某些场合,排序本身就是分
4、析的目的之一4.排序可借助于计算机完成数据的排序(方法)1.定类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分2.定距和定比数据的排序递增排序:设一组数据为X1,X2,XN,递增排序后可表示为:X(1)X(2)X(2)X(N)统计分组统计分组是将预处理过的数据按照某种特征或标是将预处理过的数据按照某种特征或标准分成不同的组别。准分成不同的组别。统计分组标志统计分组标志:分组时所依据的特征或标准,有品质标志品质标志和数量标志数量标志。频数分布表频数分布表:对分组后的数据,计算各组中数对分组后的数据,计
5、算各组中数据出现的次数或频数所形成的汇总表。据出现的次数或频数所形成的汇总表。预处理数据分组计算频数描述统计 二、数据分组与频数分布二、数据分组与频数分布 频数分布频数分布或次数分布次数分布(Frequency distribution):全部数据按其分组标志在各组内的分布状况。全部数据按其分组标志在各组内的分布状况。分布在各组内的数据个数称为频数频数或次数次数。A frequency distribution is a tabular summary of a set of data showing the frequency(or number)of items in each of se
6、veral nonoverlapping classes.相对频数相对频数(Relative frequency)/频率频率/比重比重:各组频数与全部频数之和的比重。The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n)百分数频数百分数频数(Percentage frequency):is the relative frequency multiplied by 100.概念:概
7、念:频数频数/次数分布;相对频数;百分数频数次数分布;相对频数;百分数频数 (一)品质数据的分组与频数分布一)品质数据的分组与频数分布 例例6:50个计算机购买者所购买的不同品牌的机型数据个计算机购买者所购买的不同品牌的机型数据 Table,Frequency Distribution/Relative and Percentage Frequency of Computer Purchases Company Frequency Relative Frequency Percentage Frequency Apple 13 0.26 26 Compaq 12 0.24 24 Gatewy2
8、000 5 0.10 10 IBM 9 0.18 18 Packard Bell 11 0.22 22 Total 50 1.00 100分组与求频数分组与求频数:The objective in developing a frequency distribution is to provide insights about the data that cannot be quickly obtained by looking only at the original data.分组计频分组计频基本步骤基本步骤:确定组数确定组数 确定组距确定组距(按组)整理成分布频数表整理成分布频数表 例:例
9、:一会计事务所对其20家客户(clients)年底帐目辑核(audits)时间(天)统计如下表:(二)数值数据的分组与频数分布(二)数值数据的分组与频数分布 可先先将数据进行排序排序,然后后根据需要分组分组;对较少的数据也可不排序直接根据需要分组。Table Year-End Audit Times(in days)12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28 14 18 16 13 第一步第一步,确定组数确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定。经验上经验上以520之间为好,尤其注意不要确
10、定太多的组数,使得每组包含的数据太少。实际分组实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:其中N为数据的个数(总体单位数或样本数),一般对结果取整数。上例中:上例中:K=1+lg20/lg2=1+4.32=5.32 5 第二步第二步,确定组距确定组距(Width of classes):组距组距是是一个组的上限与下限之差一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定:组距组距=(最大值(最大值-最小值)最小值)/组数组数 上例中,组距上例中,组距=(33-12)/5=4.2,可取整数,可取整数5为最为最后选定的组距。后选定的组距。第三步第三步,
11、确定各组组限确定各组组限(Class limits)并据此整并据此整理频数分布表理频数分布表。1、分组所遵循的主要原则主要原则是“不重不漏不重不漏”(each data value belongs to one class and only one class)。因此,最低组限最低组限(The lower class limit)数据的最小值,最大组限最大组限(The upper class limit)数据的最大值;另外另外,数据在每组中的归属习惯上采用“上组限上组限不在内不在内”。注意:注意:2、对离散型数据离散型数据,可采用相邻两组组限间断的办可采用相邻两组组限间断的办法解决法解决“不重
12、不重”的问题的问题(如610,1115,1620等);对连续型数据连续型数据,往往采用相邻两组组限重叠,往往采用相邻两组组限重叠,根据根据“上限不在内原则上限不在内原则”解决解决“不重不重”问题问题(如5,10),10,15),15,20)等)。上例是离散型数据(天),采用组限间断方法,因此可得频数分布表如下:Table,Frequency distribution,relative frequency and percent frequency distribution for the audit-time data Audit Frequency Relative Percent Time
13、(days)Frequency Frequency 1014 4 0.20 20 1519 8 0.40 40 2024 5 0.25 25 2529 2 0.10 10 3034 1 0.05 5 Total 20 1.00 100 品质数据品质数据往往使用柱状图柱状图(Bar graphs)和饼状图饼状图(Pie Charts);数值数据数值数据往往使用直方图直方图(Histograms)、折线图折线图(Polygon)、茎茎 叶图叶图(Stem-and-leaf display)。Fig1,Bar Graph of Computer Purchases三、频数三、频数/次数分配的图示次数
14、分配的图示柱状图是一种图形方法,用于描述已经被汇总为频数分布、相对频数分布或百分比频数分布的数据。在图的横轴上,规定对数据分组(类)的标记。在纵轴上标有频数、相对频数分布或百分比频数的刻度。饼状图是另一种表示相对频数和百分比频数分布的图形方法。饼状图中的每一部分所显示的数值可以是频数、相对频数、或者百分比频数。直方图直方图是用距形的是用距形的宽度和高度来表示宽度和高度来表示频数分布的图形频数分布的图形(以横轴表示数据(以横轴表示数据分组,纵轴表示频分组,纵轴表示频数或频率)。其特数或频率)。其特点是用各组条形的点是用各组条形的面积表示各组频数。面积表示各组频数。(一)直方图和折线图(一)直方图
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学第三章 统计整理 统计学 第三 统计 整理
限制150内