spss数据输入.ppt
SPSS统计软件Lecture 2 数据输入第二章 数据管理 本章主要介绍了SPSS的数据输入、数据编辑整理以及数据保存。数据输入 主要内容:数据文件建立、变量定义和数据录入;数据文件直接读入;数据库查询导入;文本向导导入。方法一:进入SPSS系统后,单击Ok或Cancel;方法二:选择菜单”File New Data”.数据文件建立、变量定义和数据录入单击标签栏中的”Variable Viewer”,即切换到变量定义窗口。说明:说明:Name:变量名称,总长度不超过64个字符(32个汉字)。Type:变量类型,主要有以下几种类型:Numeric:数值型 Comma:加逗号的数值型 Dot:三位加点的数值型 Scientific Notation:科学记数型 Date:日期型 String:字符型 Dollar:货币型 Custom Currency:用户自定义型1、Numeric:数值型,同时定义数值的宽度(Width),即整数部分+小数点+小数部分的位数,默认为8位;定义小数位数(Decimal Places),默认为2位。2、Comma:加显逗号的数值型,即整数部分每3位数加一逗号,其余定义方式同数值型。3、Dot:3位加点数值型,无论数值大小,均以整数形式显示,每3位加一小点(但不是小数点),可定义小数位置,但都显示0,且小数点用逗号表示。如1.2345显示为12.345,00(实际是12345E-4).4、Scientific notation:科学记数型,同时定义数值宽度(Width)和小数位数(Decimal Places),在数据管理窗口中以指数形式显示。如 定义数值宽度为9,小数位数为2,则345.678 显示为3.46E+02。5、Date:日期型,用户可从系统提供的日期显示形式中选择自己需要的。如选择mm/dd/yy形式,则1995年6月25日显示为06/25/95。6、Dollar:货币型,用户可从系统提供的日期显示形式中选择自己需要的,并定义数值宽度和小数位数,显示形式为数值前有。7、Custom currency:常用型,显示为整数部分每3位加一逗号,用户可定义数值宽度和小数位数。如12345.678显示为12,345.678。8、String:字符型,用户可定义字符长度(Characters)以便输入字符。1、No missing values:没有缺失值;2、Discrete missing values:表示对不连续缺失值,可定义1-3个。如测量身高(厘米)的资料,可定义999为缺失值;性别的资料(男为1、女为2),可定义1为缺失值;3、Range of missing values:可定义缺失值的范围。如脉搏资料,可定义09为缺失值;4、Range plus one discrete missing value:可定义缺失值的范围,同时定义另外1个不是这一范围的缺失值。如定义09为脉搏的缺失值,同时定义999也为脉搏的缺失值。关于缺失值作 业 建立如下的数据文件:建立如下的数据文件:某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L)如下,问该地急性克山病患者与健康人的血磷值是否不同?患者group1:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 健康人group2:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87提示(Tips)在数据视窗的变量名栏双击即可回到变量视窗,且焦点在该变量上;在各种向导里面右击相应项,可显示相应的帮助。数据输入数据直接输入;数据直接拷贝;使用Copy和Paste命令。数据文件直接读入 直接读入;数据库查询导入;文本向导导入。数据文件直接读入数据库查询读入数据库查询导入1.选择菜单”File-Open Database-New Query”,则数据库查询向导弹出如下窗口:2.单击“下一步”,弹出如下所示窗口,要求输入数据库文件,可直接输入,也可单击”Browse”按钮选择。3.单击”OK”按钮,数据库弹出如下窗口,要求从输入的数据库文件中选择数据表。从数据表中选择需要检索的字段。4.单击“下一步”,向导弹出如下窗口,用于设置检索条件。单击”Prompt for Value”弹出的对话框5.单击“下一步”,向导弹出如下窗口,用于进行变量的重新定义。6.单击“下一步”,向导弹出如下窗口,显示前述过程对应的查询SQL语句。可在下面的编辑框内输入该查询的保存地址。7.单击“完成”,即完成了数据库的导入操作,其数据将显示在SPSS的表格内容区。文本向导导入 SPSS12.0版本已经打开文本格式数据文件功能整合到菜单”File-Open-Data”中,但为了和老版本的使用上保持兼容,设置了专门的文本格式文件打开菜单”File-Read Text Data”.但二者并没有任何使用上的不同。下面简要说明其操作过程。1.选择菜单”File-Read Text Data”or“File-Open-Data”,弹出如下窗口。设置文本文件和预定义格式2.单击“下一步”,弹出如下窗口。设置变量3.单击“下一步”,弹出如下窗口。导入和存储记录4.单击“下一步”,弹出如下窗口。选择分隔符5.单击“下一步”,弹出如下窗口。更改变量名和类型6.单击“下一步”,弹出如下窗口。保存文件设置完成的最终结果7.单击“完成”按钮完成设置,得到结果如下。连续多个相同值的输入如group变量有连续多个1,如果直接输入,可以在第一格内输入1并回车,然后回到刚才的单元格并单击右键,选择copy,最后用拖放方式选中所有应输入1的单元格,单击右键并选择paste,所有选中的单元格就会都被刚才拷贝的1填充。将EXCEL数据直接引入SPSSExcel已经打开原数据,并且数据量较少的时候,可以直接用拷贝粘贴的方法将数据引入SPSS:先在EXCEL中选中所有的数据(不包括变量名),然后选择拷贝命令;然后切换到SPSS,最好使行1列1单元格成为当前单元格,然后执行粘贴命令,数据就会全部转入SPSS,再定义相应的变量即可。数据录入技巧数据录入技巧End of the Lecture 2End of the Lecture 2SPSS统计软件Lecture 3 数据编辑整理数据的增删 增加一个新变量(列);增加一个新变量(列);增加一行数据;增加一行数据;增加新的单元格;增加新的单元格;删除一个变量(列);删除一个变量(列);删除一行数据;删除一行数据;删除一个单元格。删除一个单元格。主要有:主要有:增加一个新的变量(列)增加一个新的变量(列)例如要在第2列前增加一个新的列,使原来的第2列右移变成第3列,则有如下的两种方法:方法一、先激活第2列的任一单元格,然后选Data菜单的Insert Variable命令项;方法二、右击第2栏的变量名,则会弹出一个菜单(见下页图),选择Insert Variable即可。系统自动为用户在第2列前插入一个新的变量列,其名称是缺省的如Var00001,原第2列自动向右移一列成为第3列。右击变量名栏弹出的菜单增加一行增加一行 例如要在第6行前增加一行,使原来的第6行下移成为第7行,则有如下两种方法:方法一、先激活第6行的任一单元格,然后选Data菜单的Insert Cases命令项;方法二、在第6行行头右击(见下页图),在弹出的菜单中选择Insert Cases。系统自动为用户在第6行前插入一个新的行,原第6行列自动向下移一行成为第7行。右击行头弹出的菜单右击行头弹出的菜单增加一个新的单元格(观察值)增加一个新的单元格(观察值)例如由于输入错误,造成第7个观察单位的第4个变量值漏输,结果第8个观察单位的第4个变量值误为第7个观察单位的第4个变量值,这样的情形使得数据管理器中的第4个变量值从第7行起全部上移,而合计例数少一个。于是希望在第7行的第4列处插入1个单元格,原有数据依次下移恢复正常。可先将鼠标指向在第7行第4列交叉处的单元格,然后按住鼠标左键向下拖动鼠标直至第4列从第7行起的所有数据被选中(黑底白字),选Edit菜单的Cut命令项,选中的数据被剪切入剪贴板,再激活第8行第4列交叉处的单元格,选Edit菜单的Paste命令项,可将剪贴板中的原第7行起的所有数据下移自第8行开始,并空出第7行第4列的单元格以便补入漏输的数值。删除一个行 例如要删除第9行,则可先点击第9行的行头,这时整个第9行被选中(呈黑底白字状),然后按Delete键或选Edit菜单的Clear命令项,或者在右击行头后弹出的菜单中选择Clear,该行即被删除。删除一个变量(列)例如要删除第4个变量列,则可先点击第4列的列头,这时整个第4列被选中,然后按Delete键或选Edit菜单的Clear命令项,或在右击变量名栏弹出的菜单中选择Clear,该列即被删除。删除一个单元格(观察值)删除一个单元格(观察值)例如由于输入错误,造成第6个观察单位的第2个变量值重复输入,结果第7个观察单位的第2个变量值误为第6个观察单位的第2个变量值,第8个观察单位的第2个变量值误为第7个观察单位的第2个变量值,这样的情形使得数据管理器中的第2个变量值从第7行起全部下移,而合计例数多一个。于是希望将第7行第2列的单元格删除,原有数据依次上移恢复正常。可先将鼠标指向在第8行第2列交叉处的单元格,然后按住鼠标左键向下拖动鼠标直至第2列从第8行起的所有数据被选中(黑底白字),选Edit菜单的Cut命令项,选中的数据被剪切入剪贴板,再激活第7行第2列交叉处的单元格,按Del键删除该单元格的数值,选Edit菜单的Paste命令项,可将剪贴板中的原第8行起的所有数据上移自第7行开始,既填补第7行第2列的单元格,又恢复原有下移的数值。变量重新赋值在数据编辑窗口中,用户可对各单元的数值重新赋值,但这种操作适用于数值型和字符型变量。同时,变量赋值需在同类型变量之间进行,不能将字符型变量数据赋值给数值型变量。选择菜单”Transform-Recode”,此时有两种选择:1.对变量自身重新赋值(Into Same Variables);2.对其他变量或新生成的变量赋值(Into Different Variables);对变量自身重新赋值对变量自身重新赋值1.1.选择菜单选择菜单”Transform-Recode-Into Same Variables”,Transform-Recode-Into Same Variables”,则弹出则弹出如下的对话框。如下的对话框。2.在对话框变量名列表框中选一个或多个变量,单击按钮 使之进入”Numeric Variables”框;3.点击”Old and New Values.”按钮弹出“Recode into Same Variables:Old and New Value”对话框,用户根据实际情况确定旧值和新值,点击Continue钮返回,再点击OK钮即可。4.在“Recode Into Same Variables”对话框中,单击“If”按钮,则弹出一个对变量自身赋值的条件对话框如图。单击“Continue”按钮返回。5.5.单击单击“OK”OK”按钮,即完成对变量自身赋值。按钮,即完成对变量自身赋值。对其他变量或新生成的变量赋值1.选择菜单”Transform-Recode-Into Different Variables”,则弹出如下的对话框。在左侧变量名列表框中选择一个或多个进入“Numeric Variable-Output Variable”框。2.在“Output Variable”框确定一赋值变量(可以是数据编辑窗口已有的变量,也可以是新变量),单击“Change”按钮,本例将生成一个新变量“hello”.3.点击”Old and New Values.”按钮弹出“Recode into Different Variables:Old and New Value”对话框,用户根据实际情况确定旧值和新值,点击Continue钮返回。4.4.若需设置条件,点击若需设置条件,点击”If”If”即可,则弹出如下窗口,设即可,则弹出如下窗口,设定后单击定后单击“Continue”Continue”返回。返回。5.5.点击点击OKOK钮即完成了对其他变量或新变量的赋值。钮即完成了对其他变量或新变量的赋值。数据的运算与新变量的生成当数据文件建立后,往往需要根据某种条件从原有变量计算新变量。选择菜单“Transform-Compute”,弹出如下的对话框,可对选定的变量进行运算操作,也可生成新变量,但这种操作仅仅适用于数值型和字符型。在在“Target Variable”Target Variable”中指定一个变量(可以是已有变量,中指定一个变量(可以是已有变量,也可以是新变量),本例输入也可以是新变量),本例输入“hello2”.hello2”.在在”Numeric Numeric Expression”Expression”中输入表达式。中输入表达式。单击“Type&Label”按钮可设置变量的标签,弹出的窗口如下。设置完毕单击“Continue”返回。3.在“Recode Into Same Variables”对话框中,单击“If”按钮,则弹出一个对变量自身赋值的条件对话框如图。单击“Continue”按钮返回。.完成所有设置后单击完成所有设置后单击“OK”OK”按钮,即完成对变量自身赋值。按钮,即完成对变量自身赋值。变量的加权变换适用范围:数值变量 大于0的数值按变量的实际值加权,0、负数或缺失值的加权被排除在加权为0。数据排序 选Data菜单的Sort Cases.命令项,弹出Sort Cases.对话框,在变量名列框中选1个需要按其数值大小排序的变量(用户也可选多个变量,系统将按变量选择的先后逐级依次排序),点击钮使之进入Sort by框,然后在Sort Order框中确定是按升序(Ascending)或降序(Descending),点击OK钮即可。数据的行列互换选Data菜单的Transpose.命令项,弹出Transpose.对话框,在变量名列框中选1个或多个需要转换的变量,点击钮使之进入Variable(s)框,再选择某个变量到”Name Variable”编辑框中,作为给新的列变量命名的依据。再点击OK钮即可。产生的新数据会在第1列出现一个case_lbl新变量,用于放置原来数值的变量名,同时产生一个结果输出窗口,说明行列互换操作菜单的有关设置以及有关结果输出的说明。若要将数据再转换回原来的排列方式,方法与上述过程相同。注意事项:1、在行列互换的对话框中,如果没有选择所有变量,则单击“ok”会弹出一个窗口,提示原数据文件会损失信息。2、“Name Variable”编辑框输入的变量,如果该变量是字符型,则其变量值作为新的变量名;若是数值型,则新变量名以开始,后面是该变量数值。变量组段划分 适用范围:数值变量 功能:对变量值的组段划分,即选定一个或多个变量,对每个变量的取值分别按某种方式分成一定数目的组段,最后结果是针对每一个参加组段划分的变量生成一个新变量,记录该变量每一个取值所在的组段。这是12.0版本的新功能。实现方法:1、选择菜单“Transform Visual Bander”,会弹出一个选择变量参与组段划分的对话框,如下页。2、选择变量进入“Variables to Band”列表框,下面的复选框设定参与分析的记录数目,本例略。3、单击“continue”,探出一个新的“Visual Band”对话框。4、在“Scanned Variable List:”列表框中选中变量,右侧的很多编辑框被激活,在编辑框“Banded”中输入某个新变量的名称,记录对应变量进行组段划分的结果。5、单击右下侧的“Make Cutpoints”,弹出一个组段划分方法对话框,如图。6、从对话框中可以看出有三种划分方法:方法一:等间距划分(Equal Width Inter)First Cutpoint:第一组段的上限Width:组段宽度Number:组段数目方法二:等样品数划分(Equal Percentiles Based on Scanned Cases)Number of cutpoints:断点数目Width:每一个组段样品数占总样品的百分数方法三:基于变量的均值和标准差来划分 有三个复选框,全选则产生8个组段,全不选则只有两个组段,任选一个则产生4个组段,任选两个则产生6个组段。数据文件的合并(Merge Files)1.从外部数据文件中增加记录到当前数据文件中,称为纵向合并,用Add Cases对话框完成,相互合并的数据文件中应该有相同的变量。选择菜单Data=Merge Files=Add Cases,系统首先弹出打开数据文件对话框,选中需要添加的数据文件并按OK,系统才弹出Add Cases对话框,左侧显示的是新、老数据文件中不匹配的变量名,右侧显示的是已经匹配的变量名。可以用Rename按钮对不匹配变量改名(先选中)或用鼠标强行匹配(即先按Ctrl键选中匹配的两个变量再单击Pair钮)。右下方的Indicate case source as variable复选框用于定义一个新变量以区分哪些记录是后来添加的。选择停当后单击OK,该操作就完成了。数据文件的合并(续)2.从外部数据文件增加变量到当前数据文件,称为横向合并,用Add Variable对话框完成,相互合并的数据文件中应包含同样的记录。选择菜单Data=Merge Files=Add Variable对话框,系统同样先弹出打开数据文件对话框,单击OK后弹出和前面相似的Add Variable对话框。按需选择即可。分类汇总(Aggregate)所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量值求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。Break Variables框:用于选择分组变量;Aggregate Variables框:用于选择被汇总的变量;Name&Label钮:用于定义新产生的汇总变量的名称和标签;Function钮:用于定义汇总函数;Save Number of cases in break group as variable复选框:用于定义一个新变量以存储同组的记录数;Create new data file单选钮:定义一个新文件以存储汇总的结果,右侧的File钮用于具体文件名的定义,默认文件名为AGGR.sav;Replace working data file单选钮:用汇总的结果替换原来的数据。Split File对话框用于将数据文件分组进行处理,该对话框我们在第一章时已经使用过了,这里再介绍一下各个对话框元素的用途:Analyze all cases单选框:和下面的两个单选框为一组,选中本框不拆分文件;Compare groups单选框:按所选变量拆分文件,各组分析结果紧挨在一起便于相互比较;Organize output by groups单选框:按所选变量拆分文件,各组分析结果单独放置;Groups based on框:用于选择拆分数据文件的变量;Sort the file by grouping variables单选框:将数据按所用的拆分变量排序;File is already sorted单选框:数据保持原状,不按所用的拆分变量排序。Select Cases对话框很多时候我们不需要分析全部的数据,而是按某种要求分析其中的一部分(比如只分析男性的身高、只对前200个数据进行分析以了解大概情况),这时使用Select Cases对话框可以大大简化工作。该对话框界面如下所示:其中主要的对话框元素为:其中主要的对话框元素为:All cases单选钮:和下面的4个单选钮为一组,选中它则分析所有的记录;If condition is satisfied单选钮:只分析满足条件的记录;If按钮:和If单选钮一起使用,单击后弹出If对话框;Random sample of cases单选钮:从原数据中按某种条件抽样;Sample按钮:和Random单选钮一起使用,可以设定按百分比抽取记录,或者精确设定从前若干个记录中抽取多少个记录;Based on time or case range单选钮:基于记录序号来选择记录;Range按钮:和Based单选钮一起使用,用于输入记录序号范围;Use filter variable单选钮:使用筛选指示变量来选择记录,必需在下面选入一个筛选指示变量,该变量取值为非0的记录将被选中,进入以后的分析;Filtered单选钮:和下面的Deleted单选钮为一组,表示未被选中的记录只是被隔离,这些记录的记录号会被加上斜杠以示区别;Deleted单选钮:未被选中的记录将被删除,一般不要使用。当对数据集做出筛选后,所做的筛选将在以后的分析中一直有效,直到再次改变选择条件为止。同时在多数情况下,系统会自动产生一个名为filter_$的筛选指示变量,被选中的记录该变量取值为1,反之则为0。Weight Cases对话框在默认情况下,每一行就是一条记录,这在多数情况下没有什么问题,但有时却非常麻烦,想想看如果你需要计算一个四格表卡方,有100例,如果每一行就是一条记录,你就需要输入100条记录!如果希望在计算过程中利用不同的变量对数据进行加权处理,就需要用到Weight Cases对话框。该对话框的使用极为简单,界面上有两个单选钮,分别是不权重记录和用某变量权重记录,如果选择后者,则需要选中一个权重变量。Data菜单中的其余对话框Define dates对话框:可以自动生成时间变量。Insert Variable命令:在当前列插入新变量。Insert cases命令:在当前行插入新记录。Goto cases对话框:到达指定记录号的记录,该命令在记录数极多时(1000条以上)非常有用。