《资料整理.学习资料.ppt》由会员分享,可在线阅读,更多相关《资料整理.学习资料.ppt(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、资料整理.9.1资料的确认资料的确认9.1.1目的目的:确认问卷为有效问卷:确认问卷为有效问卷指得是确定访谈已经按照适当的方式进行,目的指得是确定访谈已经按照适当的方式进行,目的是查明访问员有没有造假,和在访谈时是否遵循了特是查明访问员有没有造假,和在访谈时是否遵循了特定的关键程序。定的关键程序。9.1.2方法和内容方法和内容通常采用电话确认方法:复查比例一般为通常采用电话确认方法:复查比例一般为10-20,内,内容包括:容包括:确认此人是否真的接受了调查确认此人是否真的接受了调查被调查者是否符合条件:如收入是否达到规定标准被调查者是否符合条件:如收入是否达到规定标准确认调查是否按要求的方式进
2、行如是否按照规定是在购确认调查是否按要求的方式进行如是否按照规定是在购物中心接受的调查物中心接受的调查确认调查是否完整确认调查是否完整其他:访问员是否彬彬有礼,是否明确介绍了委托人的其他:访问员是否彬彬有礼,是否明确介绍了委托人的身份和调查目的,是否衣冠整齐,被访问者对访问有什身份和调查目的,是否衣冠整齐,被访问者对访问有什么意见等么意见等9.2编编辑辑所谓编辑是检查访问员谬误的过程,在数据录入之前,至所谓编辑是检查访问员谬误的过程,在数据录入之前,至少应该经过两次编辑处理。一次是执行调查的公司进行编少应该经过两次编辑处理。一次是执行调查的公司进行编辑,然后再由雇佣这些实地服务企业的调研公司编
3、辑整理。辑,然后再由雇佣这些实地服务企业的调研公司编辑整理。编辑由人工操作,内容:编辑由人工操作,内容:确定访问员是否没有问某些问题。如在一份收集调查中,确定访问员是否没有问某些问题。如在一份收集调查中,所有的人都应该回答性别,但问卷没有表明,可以通过电所有的人都应该回答性别,但问卷没有表明,可以通过电话联系,但很多情况下,时间不允许,因此很有可能问卷话联系,但很多情况下,时间不允许,因此很有可能问卷要被放弃。要被放弃。核实问卷,以保证能够遵循了规定的跳答模式核实问卷,以保证能够遵循了规定的跳答模式检查开放式问题的答案。开放式问题要求逐字记录答案,检查开放式问题的答案。开放式问题要求逐字记录答
4、案,不以任何形式的访问员工作重新解释、表达和插入自己的不以任何形式的访问员工作重新解释、表达和插入自己的语言,同时也要求对回答进行进一步的语言,同时也要求对回答进行进一步的“探查探查”。l例如:记录不当的例子:例如:记录不当的例子:为什么在众多的快捷和方便的餐馆中经常选择去汉堡王?为什么在众多的快捷和方便的餐馆中经常选择去汉堡王?回答:顾客似乎觉得汉堡王有更加美味的事务和一流的服回答:顾客似乎觉得汉堡王有更加美味的事务和一流的服务环境务环境l没有进一步探查没有进一步探查例如问题同上例如问题同上记录:因为我喜欢记录:因为我喜欢l正确的记录和探查正确的记录和探查问题同上问题同上l答案:因为我喜欢它
5、答案:因为我喜欢它我喜欢并经常去那里,我喜欢并经常去那里,探探查:因为那是离我工作的地方最近的餐馆,还有其他原查:因为那是离我工作的地方最近的餐馆,还有其他原因吗?没有了因吗?没有了9.3编码编码1、封闭式问题编码、封闭式问题编码2、开放式问题编码、开放式问题编码见教材见教材P3209.4数据整理数据整理见:见:03营销各组整理资料营销各组整理资料9.5数据预处理数据预处理9.5.1缺失值处理缺失值处理缺失值是指在数据采集与整理过程中丢失的内容。缺失值是指在数据采集与整理过程中丢失的内容。一般情况下,数据都是以关系型表的方式采集的,如下表是某次调查一般情况下,数据都是以关系型表的方式采集的,如
6、下表是某次调查中一些受访者的基本情况:中一些受访者的基本情况:姓名姓名年年龄龄性性别别职业职业收入收入张张三三20护护士士1500李四李四30女女医生医生2000王五王五35男男医生医生3000赵赵六六女女护护士士1000如果在表格中,某一个数据采集时无法获得,就会出现缺如果在表格中,某一个数据采集时无法获得,就会出现缺失值,例如在上表中失值,例如在上表中“张三张三”的性别和的性别和“赵六赵六”的年龄就的年龄就出现了缺失。出现了缺失。缺失值的处理一般有两种方式:缺失值的处理一般有两种方式:一是删除对应的记录一是删除对应的记录。如在上例中,如果张三的性别没有。如在上例中,如果张三的性别没有记录,
7、出现缺失,则将张三的所有信息全部从数据库中删记录,出现缺失,则将张三的所有信息全部从数据库中删掉。这种方式在数据缺失非常少的情况下是可行的,但如掉。这种方式在数据缺失非常少的情况下是可行的,但如果各个项目中都有少数的数据缺失存在,对所有缺失的记果各个项目中都有少数的数据缺失存在,对所有缺失的记录都进行删除可能就会使总样本量变得非常小,从而损失录都进行删除可能就会使总样本量变得非常小,从而损失许多有用信息许多有用信息缺失值处理的第二种方式是进行插值处理,所谓插值,缺失值处理的第二种方式是进行插值处理,所谓插值,是指人为地用一个数值去替代缺失的数值。是指人为地用一个数值去替代缺失的数值。插值处理根
8、据插值的不同,有如下一些方法:插值处理根据插值的不同,有如下一些方法:1随机插值随机插值根据缺失值的各种可能情况,等概率地进行插值。根据缺失值的各种可能情况,等概率地进行插值。例如在上例中,例如在上例中,“张三张三”的性别有两种可能性,一的性别有两种可能性,一是是“男男”,二是,二是“女女”,可以简单地掷一枚硬币,如果,可以简单地掷一枚硬币,如果正面朝上,则赋值为正面朝上,则赋值为“男男”,如果反面朝上,则赋值为,如果反面朝上,则赋值为“女女”。2、依概率插值、依概率插值随机插值是假定各种一个变量取各种值的可能性随机插值是假定各种一个变量取各种值的可能性是相等的,但有些情况下,我们可以事先知道
9、一个变是相等的,但有些情况下,我们可以事先知道一个变量取各种值的概率,例如,我们知道在上述的单位中,量取各种值的概率,例如,我们知道在上述的单位中,女性占的比例是女性占的比例是75,男性的比例是,男性的比例是25,则在对,则在对“张三张三”的性别进行赋值时,不是按的性别进行赋值时,不是按50概率赋为概率赋为“女女”,而是按,而是按75概率赋为概率赋为“女女”。3就近插值就近插值就近插值是指根据缺失记录附近的其他记录的情就近插值是指根据缺失记录附近的其他记录的情况对缺失值进行插值,例如在上例中,况对缺失值进行插值,例如在上例中,“张三张三”的性的性别出现缺失,此时可以用其邻近的别出现缺失,此时可
10、以用其邻近的“李四李四”的性别数的性别数据替代据替代“张三张三”的性别数据,由于的性别数据,由于“李四李四”的性别为的性别为“女女”,所以将,所以将“张三张三”的性别也赋为的性别也赋为“女女”。就近插值是依概率插值的一种简化处理,设想在就近插值是依概率插值的一种简化处理,设想在整个单位的职工中,女性占的比例是整个单位的职工中,女性占的比例是75,则在一般,则在一般情况下,与张三邻近的记录性别为情况下,与张三邻近的记录性别为“女女”的概率也应的概率也应当为当为75,就近插值实际上就是依概率插值。,就近插值实际上就是依概率插值。4分类插值分类插值依概率插值是将记录置于总体的背景上进行插值,依概率插
11、值是将记录置于总体的背景上进行插值,没有充分利用记录的其他信息。如果在记录的其他信没有充分利用记录的其他信息。如果在记录的其他信息中有某些项目与缺失项目存在相关性,则可以根据息中有某些项目与缺失项目存在相关性,则可以根据这些辅助信息对总体进行分类,在每一类内部进行插这些辅助信息对总体进行分类,在每一类内部进行插值处理。值处理。例如在上例中,例如在上例中,“张三张三”的职业是的职业是“护士护士”,假,假定该单位中定该单位中95的的“护士护士”性别为性别为“女女”,则在进行,则在进行插值是,就不是使用全单位的女性比例插值是,就不是使用全单位的女性比例75,而是使,而是使用用“护士护士”中的女性比例中的女性比例95对对“张三张三”的性别进行的性别进行赋值。赋值。本章小结本章小结此课件下载可自行编辑修改,仅供参考!此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢感谢您的支持,我们努力做得更好!谢谢
限制150内