经济应用统计学-第四章统计整理.ppt
《经济应用统计学-第四章统计整理.ppt》由会员分享,可在线阅读,更多相关《经济应用统计学-第四章统计整理.ppt(69页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、河北大学统计学系第四章统计整理河北大学统计学系河北大学统计学系学习目标l明确统计资料整理的涵义和作用l了解统计整理的内容和程序l掌握分布数列的编制方法 河北大学统计学系河北大学统计学系本章主要内容第一节统计整理的一般问题第二节统计汇总技术第三节统计汇总的质量控制第四节分布数列的编制河北大学统计学系第一节统计整理的一般问题河北大学统计学系河北大学统计学系第一节统计整理的一般问题一、统计整理的概念二、统计整理的内容三、统计整理的程序河北大学统计学系河北大学统计学系一、统计整理的概念统计整理统计整理将统计调查得到的原始资料进行科学的分组和汇总,使其系统化、条理化,成为能够反映总体特征及其发展变化情况
2、的综合统计资料的工作过程统计整理是统计调查的继续,统计分析的前提和基础河北大学统计学系河北大学统计学系二、统计整理的内容统计整理统计汇总统计分组就是在统计分组设计的基础上,根据各单位的标志归属,把总体各单位归纳到各组中,计算出各组和总体的单位数和标志值。逐级汇总集中汇总优点:满足各层次的需要;便于审核更正缺点:费时费力;易出错优点:速度快层次少缺点:有错不易查找;不能及时满足中间层次需要河北大学统计学系河北大学统计学系三、统计整理的程序1、设计和编制统计资料的汇总方案2、对原始资料进行审核3、对调查数据进行编码及录入4、分组汇总原始资料5、编制统计表和绘制统计图河北大学统计学系第二节统计汇总技
3、术河北大学统计学系河北大学统计学系第二节统计汇总技术利用计算机进行统计汇总主要包括:审核、编码、录入、数据净化编码、录入、数据净化、逻辑检查运算以及编制和打印汇总表、统计图等。河北大学统计学系河北大学统计学系一、编 码将调查表或调查问卷中的各个项目转化为数字符号的过程。编码事前编码事后编码适用封闭性问题适用开放性问题河北大学统计学系河北大学统计学系(一)编码的常用方法又称系列编码法。只用一个标准对数据进行分类,并按照一定的顺序用连续数字或字母进行编码的方式。例如:根据某项对家庭月度消费支出的调查,对家庭月度消费支出分为四个档次:小于500元500元1000元1000元1500元1500元以上1
4、、顺序编码法操作简便,但不便于进行分组处理河北大学统计学系河北大学统计学系(一)编码的常用方法又称区间编码法,是根据调查数据的属性特点和处理要求,将具有一定位数的代码单元分成若干个组,每个组的数字均代表一定的意义。例如:在某项关于社会公众保险意识调查中,对被调查者个人的基本情况进行了调查,运用分组编码法对有关信息编码如下:2、分组编码法 性 别 居 住 地 家庭人口数 月收入水平回答编码编码编码编码回答回答回答男女12大城市中小城市县乡镇农村1234单身两人三口之家四人以上1234200以下200-300300-400 1000-110001020310若某个被调查者为女性若某个被调查者为女性
5、,居住于中等城市居住于中等城市,家中有三口人家中有三口人,月收入为月收入为1000-1100则其则其回答信息为回答信息为22310河北大学统计学系河北大学统计学系(一)编码的常用方法把调查数据分成不同的组,给以一定的组码(数字区间)来进行编码的方法.例如:对某地市场上99种商品的价格变动进行调查,在运用信息组码编码法对调查的信息进行编码时,首先对99种商品分组,再给每个组分配一个组码:3、信息组码编码法组别组别百货组百货组食品组食品组家电组家电组服装组服装组其他组其他组名称码名称码01-3031-5051-6566-8081-99河北大学统计学系河北大学统计学系(一)编码的常用方法又称助忆编码
6、法,它用数字符号等表明编码对象的属性,并依此方式对调查数据进行编码的方法.例如:用180BXJ表示容量为180升的进口电冰箱.其中180为冰箱的容量,BX表示冰箱.J表示进口.4、表义式文字编码法河北大学统计学系河北大学统计学系(二)编码手册的编制 也称编码表,是用来进行数据编码的工作手册,包括四个项目:问题顺序号,每个调查项目的预置代码位置,项目名称,内容说明.河北大学统计学系河北大学统计学系1.您的职务?(1)正高级 (2)副高级 (3)中级 (4)其他2.您的年龄_3.您从事的专业_4.您对自己工作情况的评价?(1)已充分发挥积极性(2)基本发挥了积极性(3)积极性有所发挥(4)完全没有
7、发挥积极性5.目前,您是否有离开学校的想法?(1)是 (2)否6.请您按投入精力的多少,将下列三项活动排序?(1)校内工作 (2)校外兼职 (3)生活琐事 第一位_ 第二位_第三位_案例:对某高等学校教师的工作,生活状况的调查,一共有32个问题,我们摘录6个问题,来说明编码手册的编制.河北大学统计学系河北大学统计学系问题序号项目名称编码位置编码意义1职务11.正高2.副高3.中级4.其他2年龄2-3答卷人回答年龄3从事专业4-6专业编码见附表4工作评价71.已充分发挥积极性2.基本发挥了积极性3.积极性有所发挥4.完全没有发挥积极性5是否打算离开学校81.是2.否6按投入精力排列9-111.校
8、内工作2.校外兼职3.生活琐事若某份问卷的若某份问卷的回答信息在答回答信息在答录卡上的前录卡上的前11为数字为为数字为:23300112132则表示为则表示为?河北大学统计学系河北大学统计学系二、录入 数据录入就是将问卷或编码表中的每一个项目对应的代码读到磁盘中,或通过键盘直接敲入计算机中的工作过程。方式:程序录入光电扫描录入河北大学统计学系河北大学统计学系三、数据净化 数据净化指通过计算机处理错误的或不合理的数据以及进行一致性检验。方式:统计软件:SPSS、SAS河北大学统计学系第三节统计汇总的质量控制河北大学统计学系河北大学统计学系全面性审核一、资料审核汇总前对统计资料进行审核是统计汇总质
9、量控制的关键。准确性审核 审核调查单位的全面性、审核调查项目的全面性逻辑审核、计算技术审核河北大学统计学系河北大学统计学系二、编码和录入的质量控制l编码工作的质量控制l录入工作的质量控制河北大学统计学系河北大学统计学系三、统计预处理l缺省数据的处理l加权处理l原始数据或变量的转换河北大学统计学系河北大学统计学系统计预处理1、缺省数据的处理以样本统计量代替缺省值 一般为平均值一般为平均值以统计模型计算的估计值代替缺省值 回归模回归模型等型等缺省值样本删除缺省值样本保留,仅在相应的分析中作必要删除河北大学统计学系河北大学统计学系 通过对调查数据进行加权,使样本更具代表性,或为了强调某些被访群体的重
10、要性。(例如:P91)统计预处理2、加权处理河北大学统计学系河北大学统计学系l变量类型的转化l数学意义上的变量代换统计预处理3、原始数据或变量的转换河北大学统计学系第四节分布数列的编制河北大学统计学系河北大学统计学系第四节分布数列的编制一、次数分布与分布数列的概念二、分布数列的种类三、累计分布数列四、次数分布图五、次数分布的类型河北大学统计学系河北大学统计学系一、次数分布与分布数列的概念1、次数分布:在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各单位在各组间的分布,就叫做次数分布。表示各组标志值对总体标志值所起作用的强度频数(次数):各组单位数。频率:各组单位
11、数占总体单位数的比率。性别人数比例男4040%女6060%合计100100%河北大学统计学系河北大学统计学系l反映统计总体内所有总体单位在各组间的分布。同类总体不同的分布状况差异反映了它们的性质差异。如各班成绩分布。l对某随机现象的重复观察,频率分布可以渐近反映其统计规律。次数分布的作用河北大学统计学系河北大学统计学系2、分布数列 分布数列:将各组组别的名称与相应的频数和频率,依次排列起来形成的数列称为次数分布数列,简称分布数列。也称分配数列或次数分配数列。分布数列的意义:分布数列是统计整理结果的一种表现形式,也是统计分析的一种方法。不仅可以表明总体单位的分布特征和结构状况,而且可用以进一步研
12、究总体单位某一标志的构成、平均水平及其变异程度。作用:反映总体中所有单位在各组的分布状态和分布特征。河北大学统计学系河北大学统计学系 各组名称(常用x 表示)两个构成要素 各组次数 分布数列的构成要素绝对数,称频数,用 f 表示。相对数,称频率,用f/f表示。总体所分各组的分组标志的具体体现各组对应的总体单位数或频率。河北大学统计学系河北大学统计学系某地人口的性别分布按性别分组次数人数(人)比重(%)男女154349271461329751.3748.63合计30048224100.00学生的成绩分布按成绩分组次数学生数(人)比重(%)60以下60-7070-8080-9090以上282015
13、5416403010合计50100f/ff/fff河北大学统计学系河北大学统计学系次数分布品质分布数列变量分布数列单项式分布数列组距式分布数列等距分布数列异距分布数列 由于分组是次数分布的基础,因此有怎样的分组就形成怎样的次数分布。综合上述各种分组类型,次数分布的类型,可归纳为:二、分布数列的种类 按品质标志分组形成的分布数列称为品质分布数列,简称品质数列。按数量标志分组形成的分布数列称为变量分布数列,简称变量数列。二、河北大学统计学系河北大学统计学系某地人口的性别分布按性别分组次数人数(人)比重(%)男女154349271461329751.3748.63合计30048224100.00学生
14、的成绩分布按成绩分组次数学生数(人)比重(%)60以下60-7070-8080-9090以上2820155416403010合计50100变量数列品质数列河北大学统计学系河北大学统计学系每个组值只用一个具体的变量值表现的数列同时具备变量是离散变量变量的不同取值个数较少编制条件:分布数列的种类单项式分布数列河北大学统计学系河北大学统计学系【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。分布数列的种类单项式分布数列案例
15、日产量(件)X工人数(人)f202122232425263564321合计24河北大学统计学系河北大学统计学系每个组的变量值用一个区间来表现的变量数列或者变量是连续变量编制条件:分布数列的种类组距式分布数列总体单位数较多,变量不同取值个数也较多的离散变量河北大学统计学系河北大学统计学系指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限组限组限每组变量值变动区间的长度,为上下限之差组距组距每组变量取值范围的中点数值 组中值组中值分布数列的种类组距式分布数列相关概念河北大学统计学系河北大学统计学系某地区100个百货商店月销售额与流通费用情况销售额(万元)商店数(个)每百元商品销售额中
16、支付的流通费(元)50以下50100100200200300300以上102030251514.211.410.19.28.5上组限上组限U下组限下组限L组距组距d=U-L=100-50=50(万元)(万元)组中值组中值x=(U+L)/2 =(100+200)/2=150(万元)(万元)分布数列的种类组距式分布数列河北大学统计学系河北大学统计学系变量值变动区间的长度相等变量值变动区间的长度不完全相等变量值变动区间的长度不完全相等等距分布数列等距分布数列异距分布数列异距分布数列分布数列的种类变量式分布数列河北大学统计学系河北大学统计学系等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 经济 应用 统计学 第四 统计 整理
限制150内