第十章资料处理.ppt
第十章資料处理 我们在运用各种方法收集到一批调查资料后,接下来的任务就是要对这些原始资料进行某种特定方式的处理,使成为进行统计分析的基本数据.第一节.资料的审核与复查 一审核的概念 1.资料的审核是在着手整理调查资料之前,对原始资料进行审查与核实的工作过程,目的在于保证资料哦的客观性,准确性和完整性,为资料的整理打下坚实的基础.2.审核的方法 实地审核:指审核工作和收集工作同步进行,边收集边审核,也叫收集审核.系统审核:指在收集资料后集中时间审核.多次审核:指对重要资料进行的反复的各种形式的审核.二.资料的复查n n 资料的复查n n 指研究者 在调查资料收回后,又由其他人对所调查的样本中的一部分个案进行第二次调查,以检查和核实第一次调查的质量.n n 在市场调查中复查工作是必不可少的.n n 不是所有的调查都能十分方便地进行复查.n n 审核与复查的意义 n n 通过审核和复查研究者可以发现并纠正原始资料中所存在的一些错误,可以剔除一些无法进行再调查,但又有明显错误的问卷,可以普遍了解整个资料收集工作的质量.第二节.资料的整理一.资料整理的概念和原则 1.资料的整理 资料的整理是根据研究目的将经过审核的资料进行分类汇总,使资料更加条理化和系统化,为进一步深入分析提供条件.它是从调查阶段过渡到研究阶段,从感性认识上升到理性认识的一个必经的中间环节.2.资料整理的原则 条理化条理化 即对资料进行分类即对资料进行分类.从而为进一步的分析从而为进一步的分析创造条件创造条件.分类可一使大量的资料条理化分类可一使大量的资料条理化,分分类系统实际上是资料的存取系统类系统实际上是资料的存取系统,便于资料的便于资料的存取利用存取利用.系统化系统化 即从整体上考察现有资料满足研究目的即从整体上考察现有资料满足研究目的的程度的程度.有无必要吸收补充其他资料有无必要吸收补充其他资料,以及对以及对调查中出现的新问题如何处理调查中出现的新问题如何处理.条理化原则是从对事物分类归纳着手条理化原则是从对事物分类归纳着手,系系统化是从整体综合的角度考虑问题统化是从整体综合的角度考虑问题,统计汇总统计汇总二二.分类与分组分类与分组 分类和分组都是一种定性分类方法,即根据研究对象的某些特征将其区分为不同种类,分类适用于全部调查资料,分组只限于统计资料,习惯上将他们称为统计分组或称为统计分类.就调查过程而言,调查资料的分类还可分为前分类和后分类.1.分类的类型及意义 分类的方法有两种:现象分类方法是根据事物外部特征或外在联系进行分类的方法.本质分类方法是根据事物的本质特征或内部联系进行分类的方法.本质分类不仅是资料的存取,检索系统,而且是调查者对客观事物和规律认识的总结系统,她不是一个单纯技术性问题,而是理论问题,反映出研究者的理论观点,并需要具体学科理论的指导2.选择和确定分类标志的原则n n 分类的关键在于选择和确定分类标志.分类标志一经选定,必然突出在此标志下的性质差异,而将其他标志下的差异掩盖起来.分类标志选择的恰当与否,直接影响资料分析的科学性.n n 分类标志的种类 作为分类标志的事物特征很多,但总体上说可分为两类,即按品质分类和按数量标志分类.按品质标志分类n n 即选择反映事物属性差异的品质标志为分类标志.如按性别分类,企业按所有制分类.按数量标志分类 即选择反映事物数量差异的数量标志为分类标志.如居民家庭按人口数分类.数量标志有按单值分类和按组距分类两种表现形式 在组距分类中,将组距中的起点数值(最小数值)称为下限,将终点数值(最大数值)成为上限,如某一数值正好与某一组距中上限一致,应遵循统计学中的“上限不在内”原则,将其划归下一组.正确选择分类标志的四原则n n 从研究目的出发选择标志 研究目的不同选择的标志也不同研究目的不同选择的标志也不同.n n 从反映现象本质的需要去选择标志 社会现象众多特征中有本质和非本质特征社会现象众多特征中有本质和非本质特征n n 根据具体的历史条件去选择标志 社会现象的特征是随时间社会现象的特征是随时间,地点和条件而起地点和条件而起变化的变化的.n n 必须坚持穷尽性和互斥性的原则第三节资料汇总的技术 分类既是一个分析过程又是一个归纳过程,分类和分组标志制定以后,就是资料归类的过程,即资料汇总.汇总的技术有手工和计算机汇总两种.一.计算机汇总的步骤 计算机汇总的步骤分为 编码,登录,录入和程序编制.二.资料整理实例 有些调查要对无回答和不知道的答案进行编码.对无回答的编码常用的是0.对不知道的编码常为9.或99,或999.但是少数问题可能很麻烦如家庭子女数.所以对无回答和不知道的编码必须是在经验上决不会出现的数字.这样编码往往要多一列,如 无回答为99,不知道为98.三个孩子要填03.三.数 据 清 理 1.有效范围清理 对于问卷中的任何一个变量它的有效的编码值往往都有某种范围.当数举重的数字超出了这一范围时,这个数字一定是错误的.这种错误可以发生在资料处理的每一个阶段.比如:错误回答,编码员错写,录入人员错误输入.在电脑上检查有效范围的编码值.2.逻辑一致性的清理逻辑一致性的清理 逻辑一致性的清理是从另一角度来查找数据中所存在的问题.其基本思路是依据问卷中的问题的相互之间所存在的内在逻辑联系来检查前后数据之间的合理性.3.数据质量抽查数据质量抽查 是指用随机抽样的方法抽取一部分个案,来估计和评价全部数据的质量.根据样本中的个案数目的多少,以及每分文卷中变量数和总字符数的多少,研究者往往抽取2%5%,的各按进行质量抽查.比如:n n 一项调查样本规模为一项调查样本规模为1,0001,000个个案个个案,以分文以分文卷的字符数卷的字符数(数据的个数数据的个数)为为200200个个,研究者从中研究者从中随机抽取随机抽取3%3%的个案的个案,即即3030份进行对照检查份进行对照检查,结果结果发现由发现由2 2个字符输入错误个字符输入错误,这样这样 2(20030)=0.03%2(20030)=0.03%可知可知,数据差错率在数据差错率在0.03%0.03%左右左右.这也就是说这也就是说在总共在总共2020万个数据中万个数据中,大约有大约有6060个左右的差错个左右的差错.我们虽无法查出他们我们虽无法查出他们,但却知道他们占多大的但却知道他们占多大的比例比例,对我们的调查结果有多大程度的影响对我们的调查结果有多大程度的影响.四.统计表与统计图n n1.统计表的构成 构成:总标题,横行标题,纵栏标题,指标数值资料来源,五个部分构成.简单分组表:2.统计表的制作n n 统计表的制作原则是科学统计表的制作原则是科学,规范规范,简明简明,实用实用,美观美观.统计表制作时应注意的问题统计表制作时应注意的问题:首先首先 标题要简短明了标题要简短明了.确切说明表中数据的内容确切说明表中数据的内容,使人一目了然使人一目了然.其次其次 表的纵栏标题与横行标题要准确反映变量取表的纵栏标题与横行标题要准确反映变量取 值的含义值的含义,排序也应具有一定的逻辑结构排序也应具有一定的逻辑结构.第三第三 表中的数据资料必须注明计量单位表中的数据资料必须注明计量单位.第四第四 对于一般频数分布表则应列出合计栏对于一般频数分布表则应列出合计栏,以便获以便获 得整体情况的资料得整体情况的资料.最后最后 各种表格应以横线为主能够不用竖线则尽量各种表格应以横线为主能够不用竖线则尽量 不用不用