第四章数据的预处理副精选文档.ppt
《第四章数据的预处理副精选文档.ppt》由会员分享,可在线阅读,更多相关《第四章数据的预处理副精选文档.ppt(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章数据的预处理第四章数据的预处理副副本讲稿第一页,共四十八页为什么要进行数据的预处理n在数据文件建立之后,通常还需要对分析的数据进行必要的预加工处理,这是数据分析过程中必不可少的一个关键步骤。n数据的预加工处理服务于数据分析和建模,主要包括以下几个问题:本讲稿第二页,共四十八页 数据的排序数据的排序 变量计算变量计算 数据选取数据选取 数据分组数据分组 数据预处理的其他功能:转置、加权、数据拆分等。数据预处理的其他功能:转置、加权、数据拆分等。预处理的内容本讲稿第三页,共四十八页3.1 数据的排序nSPSS的数据排序是将数据编辑窗口中的数据按照某个或多个指定变量的变量值升序或降序重新排列。
2、这里的变量也称为排序变量排序变量。排序变量只有一个时,排序称为单值排序单值排序。排序变量有多个时,排序称为多重排序多重排序。多重排序中,第一个指定的排序变量称为主排序变量主排序变量,其他依次指定的变量分别称为第二排序变第二排序变量量、第三排序变量第三排序变量等。本讲稿第四页,共四十八页n数据排序便于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等;n通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度;n通过数据排序能够快捷地发现数据的异常值,为进一步明确它们是否会对分析产生重要影响提供帮助。3.1.1数据排序的作用数据排序的作用本讲稿
3、第五页,共四十八页 SPSS数据排序的基本操作步骤 (1)选择菜单DataSort Cases (2)将主排序变量从左边的列表中选到Sort by框中,并在Sort Order框中选择按该变量的升序还是降序排序。(3)如果是多重排序,还要一次指定第二、第三排序变量及相应的排序规则。3.1.2 数据排序的基本操作数据排序的基本操作本讲稿第六页,共四十八页在左边的源变量框源变量框中选择排序变量进入Sort by框。如果选择2个以上的变量,观测量的排序结果与排序变量在Sort by框中的顺序有关。列于首位的为第一排序变量。在Sort Order 栏栏内选择排序方式升序与降序本讲稿第七页,共四十八页
4、1、数据排序是整行数据排序,而不是只对某列变量排序;2、多重排序中指定排序变量的次序很关键。先指定的变量优先于后指定的变量。多重排序可以在按某个变量值升序(或降序)排序的同时再按其他变量值降序(或升序)排序;3、数据排序后,原有数据的排序次序必然被打乱。说明说明本讲稿第八页,共四十八页数据排序应用举例数据排序应用举例n利用数据1,通过数据排序功能分别找到总分1和总分2的最大值和最小值本讲稿第九页,共四十八页3.2 变量计算变量计算n数据的转换处理是在原有数据的基础上,计算产生一些含有更丰富信息的新数据。例如根据职工的基本工资、失业保险、奖金等数据,计算实际月收入,这些新变量具有更直观更有效的特
5、点。本讲稿第十页,共四十八页3.2.1 变量计算的目的变量计算的目的nSPSS变量计算是在原有数据的基础上,根据用户给出的SPSS算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生一系列新变量。(1)变量计算是针对所有个案(或指定的部分个案)的,每个个案都有自己的计算结果。(2)变量计算的结果应保存到一个指定变量中,该变量的数据类型应与计算结果的数据类型相一致。在变量计算过程中涉及到几个概念:SPSS算数表达式、SPSS条件表达式和SPSS函数。本讲稿第十一页,共四十八页n指出按照什么方法计算变量;nSPSS算术表达式(Numeric Expression)是由常量、变量、算术运算符
6、、圆括号、函数等组成的式子。字符型常量应当用引号括起来变量是指那些已存在于数据编辑窗口中的原有变量算术运算符主要包括、*、/、*(乘方)在同一算术表达式中的常量及变量,数据类型应该一致,否则无法计算 3.2.2 SPSS算术表达式算术表达式本讲稿第十二页,共四十八页n在变量计算中通常要求对不同的个案分别按照不同的方法进行计算,于是就需要通过一定的方式来指定个案;nSPSS条件表达式是一个对条件进行判断的式子。其结果有两种取值:如果判断条件成立,则结果为真;如果判断条件不成立,则结果为假。条件表达式包括简单条件表达式简单条件表达式和复合条件表达式复合条件表达式。3.2.3 SPSS条件表达式条件
7、表达式本讲稿第十三页,共四十八页(1)简单条件表达式 由关系运算符、常量、变量以及算术表达式等组成的式子。其中关系运算符包括、。(nl35)(2)复合条件表达式 又称逻辑表达式,是由逻辑运算符号、圆括号和简单条件表达式等组成的式子。其中,逻辑运算符号包括&或或AND(并且)、(并且)、|或或OR(或者)、或(或者)、或NOT(非)(非)。NOT的运算优先级最高,其次是AND,最低是OR。可以通过圆括号改变运算的优先级。(nl=35)and not(zc3)本讲稿第十四页,共四十八页nSPSS函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。这些程序都有各自的名字称
8、为函数名函数名。执行这些程序段得到的计算结果称为函数值函数值。函数书写的具体形式为:函数名(参数)函数名(参数)3.2.4 SPSS函数函数本讲稿第十五页,共四十八页 其中,函数名是SPSS已经规定好的,参数可以是常量(字符型常量应用引号括起来),也可以是变量或算术表达式。参数可能是一个,也可能是多个,各参数之间用逗号逗号分隔。SPSS函数大致可以分成八大类:算术函数、统算术函数、统计函数、分布函数、逻辑函数、字符串函数、缺失计函数、分布函数、逻辑函数、字符串函数、缺失值函数、日期函数和其他函数值函数、日期函数和其他函数。本讲稿第十六页,共四十八页n(1)选择菜单TransformComput
9、e,弹出Compute Variable对话框如下:3.2.5 变量计算的基本操作变量计算的基本操作本讲稿第十七页,共四十八页(2)在Target框中输入存放计算结果的变量名。该变量可以是一个新变量,也可以是已经存在的变量。如果指定存放计算结果的变量为新变量,SPSS会自动创建它;如果指定产生的变量已经存在,SPSS会提问是否以计算结果覆盖原有值。新的变量默认为数值型,用户可以根据需要单击Type&Label按钮修改,还可以对新变量加变量名标签。(3)在Numeric Expression框给出SPSS算术表达式。可以手工输入,也可以按窗口的按钮以及函数下拉菜单输入。本讲稿第十八页,共四十八页
10、(4)如果希望对符合一定条件的个案进行变量计算,则单击If按钮,出现下面的窗口,选择Include if case satisfies condition选项,然后输入条件表达式。对不满足条件的个案,将不进行变量值计算,对新变量取值为系统缺失值。本讲稿第十九页,共四十八页 利用数据1,计算当数据为男生数据时,新变量总分3为总分1和2的和。3.2.6 变量计算的应用举例变量计算的应用举例本讲稿第二十页,共四十八页3.3 数据选取数据选取n数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为抽样抽样。SPSS可根据指定的抽样方法从
11、数据编辑窗口中选出部分样本以实现数据选取,这样后面的分析操作就只针对选出的数据,直到用户取消这种选取为止。本讲稿第二十一页,共四十八页(1)选取全部数据(All cases)(2)按指定条件选取(If condition is satisfied)SPSS要求用户以条件表达式给出数据选取的条件,SPSS将自动对数据编辑窗口中的所有个案进行条件判断。那些满足条件的个案,即条件判断为真的个案将被自动选取出来,而那些条件判断为假的个案则不被选中。3.3.1 数据选取的基本方式数据选取的基本方式本讲稿第二十二页,共四十八页(3)随机抽样(Random sample of cases),即对数据编辑窗口
12、中的所有个案进行随机筛选,包括如下两种方式:第一,近似抽样(Approximately)近似抽样要求用户给出一个百分比数值,SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案。注:由于SPSS在样本抽样方面的技术特点,抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目,会有小的偏差,因而称为近似抽样。本讲稿第二十三页,共四十八页 第二,精确抽样(Exactly)精确抽样要求用户给出两个参数。第一个参数是希望选取的个案数,第二个参数是指定在前几个个案中选取。SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来。本讲稿第二十四页,共四十八页(4)选取某
13、一区域内的样本(Based on time or case range),即选取数据编辑窗口中样本号在指定范围内的所有个案,要求给出这个范围的上、下界个案号码。这种抽样方法适用于时间序列数据。这种抽样方法适用于时间序列数据。(5)通过过滤变量选取样本(Use filter variable),即依据过滤变量的取值进行样本选取。要求指定一个变量作为过滤变量,变量值为非0或非系统缺失值的个案将被选中。这种方这种方法通常用于排除包含系统缺失值的个案。法通常用于排除包含系统缺失值的个案。本讲稿第二十五页,共四十八页说明:说明:(1)完成数据选取后,以后的SPSS分析操作仅针对那些被选中的个案直到用户再
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 数据 预处理 精选 文档
限制150内