数据处理与分析精选PPT.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据处理与分析精选PPT.ppt》由会员分享,可在线阅读,更多相关《数据处理与分析精选PPT.ppt(51页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于数据处理与分析第1页,讲稿共51张,创作于星期二1.编码编码编编码码是是给给问问题题的的每每项项答答案案赋赋予予一一个个数数值值代代码码,以以便便于于数数据据录录入入和和作作进进一一步步处处理理的过程。的过程。编码具体方法很多,包括:n问卷中已预先编码;n在数据收集完毕之后进行手工编码;n通过文本识别软件进行自动编码(即借助软件给一串字符赋予一个代码)。第2页,讲稿共51张,创作于星期二2)数据录入)数据录入数据录入是将回答转化成可机读的形式数据录入是将回答转化成可机读的形式。采采用用纸纸张张式式收收集集数数据据的的方方法法时时,数数据据录录入入是是在在数数据据收收集集完完毕毕之之后后(通
2、通常常是是在在对对问问卷卷进进行行一一些些“梳梳理理”和和初初步步审审核核之之后后)进行。进行。采采用用计计算算机机辅辅助助数数据据收收集集方方法法时时,数数据据录入是在数据收集的同时完成的。录入是在数据收集的同时完成的。第3页,讲稿共51张,创作于星期二下面几种方法可以提高数据录入的效率:下面几种方法可以提高数据录入的效率:n采用计算机辅助数据收集方法;采用计算机辅助数据收集方法;n对纸张式问卷进行光电扫描;对纸张式问卷进行光电扫描;n对纸张式问卷进行预先编码。对纸张式问卷进行预先编码。第4页,讲稿共51张,创作于星期二3.审核审核审审核核是是应应用用各各种种检检查查规规则则来来辨辨别别缺缺
3、失失、无无效效或或不不一一致致的的录录入入,这这些些会会导导致致数数据据记记录录的的潜潜在在错错误误。审核的目的就是要保证调查最后所得的数据的完整性、一致性和有效性(包括逻辑性)。审核主要可分为三类:即有效性审核、一致性审核与分布审核。有效性审核和一致性审核是对单张问卷进行的审核;分布审核则是对全部问卷或部分问卷的数据一起进行审核。第5页,讲稿共51张,创作于星期二通常,审核规则的确定基于以下几个方面:通常,审核规则的确定基于以下几个方面:关于调查主题的专业知识;问卷和问题的结构;其它相关的调查或数据;统计理论(如离群值的检测方法)。第6页,讲稿共51张,创作于星期二数据收集完毕后,对审核失效
4、,通常按下列方法进行处理:n将其剔除;n进行插补;n设立特殊代码。第7页,讲稿共51张,创作于星期二有些时候,一条记录(或整份问卷)不符合多条审核规则的要求,或者不符合少数几条关键审核规则的要求,从而使得后续的处理失去意义。在这种情况下,通常可以将这些记录剔除,作为无回答处理,同时将赋予各被调查单元的权数进行调整。第8页,讲稿共51张,创作于星期二对大多数审核失效都应该加以标示,留待作插补处理。对于有些项目,我们可以用特殊代码标示的方法,对确认为审核失效而不可接受的值或无效的空白加以保留。第9页,讲稿共51张,创作于星期二选择性审核选择性审核选择性审核基于这样一种思想:即只有那些“关键”的审核
5、失效,而不是所有的审核失效,才需要采取相应的处理措施。选择性审核一般适于定量数据。对审核失效进行选择性审核时,可能需要对被调查者进行再访,但对于那些需要进一步处理和插补的记录的审核失效除外。第10页,讲稿共51张,创作于星期二审核的指导方针审核的指导方针审核的目标是:-更好地理解数据和数据处理过程;-检查问卷;-回访被调查者;-检出错填或漏填的数据;-删除无效记录;-分离需要插补的记录。第11页,讲稿共51张,创作于星期二审核的准则审核的准则:审核不仅对整理数据有用,而且审核失效发生率不论是对当前调查的质量度量,还是对将来调查的改进都很有用,它能提供调查中有关数据处理的信息;不论什么时候,开始
6、一项调查时,总是要对数据做一些假定,审核时可以检验这些假定的合理性。例如,可能很明显,有些领域的审核规则太严,或者有些类型的审核失效太频繁,这些情况表明审核规则可能不太合适(或问卷可能存在问题);第12页,讲稿共51张,创作于星期二审核应该分阶段进行;审核工作应由对本次调查的主题、问卷的设计和数据分析有专业知识、并且有类似调查经验的人员来进行;各阶段所进行的审核不应与其它阶段的审核相抵触;应该将审核的信息和审核工作对调查数据的影响通知数据的用户。第13页,讲稿共51张,创作于星期二4.插补插补插补就是解决在审核过程中辨别出来的数据缺失、无效与不一致等问题的过程。插补是对审核过程中发现的所有缺失
7、信息的记录进行补充或用合适的数值进行替代,确保得出内在一致的记录。第14页,讲稿共51张,创作于星期二插补方法可以归为两类随机插补和确定性插补。确定性插补,对于特定的被调查的数据,可能的插补值只有一个。随机插补则含有随机因素因此,每次得出的插补值可能会不一样。第15页,讲稿共51张,创作于星期二几种确定性插补方法如下:几种确定性插补方法如下:-推理插补;-均值插补;-比(率)/回归插补;-序贯热平台插补;-序贯冷平台插补;-最近邻值插补。每一种确定性的插补方法都对应着一种随机插补方法。插补定量数据时,用确定性的方法得出一个插补值,加上从某个适宜的分布或模型产出的一个残差作为最后的插补值,就成为
8、随机插补。第16页,讲稿共51张,创作于星期二随机插补能更好地保持数据集的频数结构,保持比确定性插补方法更真实的变异性。除供者插补方法外,下面介绍的方法可逐项进行插补。所谓的供者插补方法,就是用一个供者来插补一个受者的所有缺失的或不一致的数据。第17页,讲稿共51张,创作于星期二4.1推理插补推理插补推理插补:缺失的或不一致的数据能通过推断确定。通常,这种推理是根据问卷上其它回答项的模式来进行的。下面简述一些常用的插补方法。对所有这些插补方法,最好是把类似的记录归为一组,就象进行无回答权数调整时一样,这些组称为插补类。第18页,讲稿共51张,创作于星期二4.2均值插补均值插补用均值插补,缺失或
9、不一致的值可用插补类的均值来代替。对缺失数据,用均值插补相当于对同一插补类中的所有被调查者使用相同的无回答权数进行调整。均值插补会得到较好的点估计,但由于在插补类均值这一点形成一个人为的“峰值”,从而破坏了分布状态和变量之间的关系。因此,如果用常规的抽样方差公式进行计算,就会低估最终的方差。均值插补通常在没有辅助信息可用或只有少量记录需要作插补处理时,才被采用。第19页,讲稿共51张,创作于星期二4.3比(率)或回归插补比(率)或回归插补比率或回归插补是使用辅助信息及其它记录中的有效回答建立一个比率或回归模型,该模型表明了两个或多个变量之间的关系。例如,比率插补所使用的模型为:其中:yi是变量
10、y的第i个单元值;xi是与变量y相关的变量x的第i个单元值;R是直线的斜率(即每变动一个单位,平均变动的数值);是模型的随机误差项,均值为0、方差为。第20页,讲稿共51张,创作于星期二这时,的插补值按如下公式计算:式中:是变量y第i个记录的插补值;是插补类中记录的x值的均值;是插补类中记录的y值的均值。这里我们假定,拟合一个插补类中有效数据(即通过了所有的审核)的比率或回归模型,同样适用于该插补类中审核失效的数据。第21页,讲稿共51张,创作于星期二比率和回归估计产生的插补值比简单均值法产生的插补值更加稳定。这种方法常用于的商业调查中的定量变量,在这种调查中常可用前期数据来预测现期数据。利用
11、前期的数据进行插补,也称前向插补,是比率或回归插补的一个特例,只是直接用前期调查的数据来作为当前调查的缺失数据的插补值。第22页,讲稿共51张,创作于星期二4.4热平台插补热平台插补热平台插补是使用同一插补类中的供者记录的信息来代替一个相似的受者记录中缺失的或不一致数据。为了找到一个与受者记录相似的供者记录,必须先确定与需要进行插补处理的变量相关的变量,建立插补类。然后,插补类中通过所有审核的记录集就是供者记录的集合,这些记录用来插补受者中缺失的数据。热平台插补可以用来插补定量数据,也可以用来插补定性数据,但通常只用定性变量建立插补类。第23页,讲稿共51张,创作于星期二样本序号样本序号性别性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 分析 精选 PPT
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内