SPSS统计分析数据文件的建立和管理.pptx
2023/2/211本章主要内容本章主要内容第一节 SPSS数据文件第二节 SPSS数据的结构和定义方法第三节 SPSS数据的录入和编辑第四节 SPSS数据的保存第五节 读取其他格式的数据文件第六节 SPSS数据文件的合并第1页/共210页2023/2/212第一节第一节 SPSSSPSS数据文件数据文件1、SPSS数据文件的特点:SPSS数据文件有别于其他文件,是一个有特殊格式的文件,它是一种有结构的数据文件,它由数据结构和内容两部分组成,其中,数据结构记录数据变量的名称、类型、变量宽度、小数位数、变量名标签、变量值标签、缺失值、显示宽度、对齐方式和度量尺度等必要信息,内容才是那些待分析的具体数据。基于上述特点,建立SPSS数据文件时应完成两项任务,即描述数据的结构和录入编辑数据。第2页/共210页2023/2/213数据编辑窗口中的一行称为一个个案或记录(Case),所有个案组成SPSS数据文件的内容。数据编辑窗口的一列称为一个变量(Variable),每个变量都有一个名字,称为变量名,它是访问和分析SPSS每个变量的唯一标志。SPSS数据文件的结构就是对每个变量及相关特征的描述。2、SPSS数据的组织方式(1)原始数据的组织方式第3页/共210页2023/2/214(2)频数数据的组织方式 例:职职 称称年龄段年龄段35岁以下岁以下(1)3649岁岁(2)50岁以上岁以上(3)教授(教授(1)0158副教授副教授(2)10202讲师(讲师(3)20101助教(助教(4)3520第4页/共210页2023/2/215频数数据的组织方式职称年龄段人数110121513821102220232312032103314135422430第5页/共210页2023/2/216第二节第二节 SPSSSPSS数据的结构和定义方数据的结构和定义方法法 SPSS数据的结构是对SPSS每列变量及其相关属性的描述,主要包括变量名、数据类型、变量宽度、小数位数、变量名标签、变量值标签、显示宽度、缺失值、对齐方式、度量尺度等信息。第6页/共210页2023/2/217变量名(变量名(Variable nameVariable name)变量名是变量访问和分析的唯一标志。在定义SPSS数据结构时应首先给出每列变量的变量名。变量的命名规则如下:1.应以英文字母或汉字开头,后面可跟除了!、?、*之外的字母或数字,下划线、圆点不能作为变量名的最后一个字符。SPSS允许用汉字作为变量名。2.变量名的字符个数最好不多于8个;变量名不区分大小写字母。3.SPSS有默认的变量名,以字母“VAR”开头,后面补足5位数字,如VAR00001,VAR00002等。变量名不能与SPSS内部特有的具有特定含义的保留字同名,如ALL,BY,AND,NOT,OR等。4.变量名最好与其代表的数据含义相对应,每个变量名必须具有唯一性。第7页/共210页2023/2/218数据类型(数据类型(TypeType)数据类型是指每个变量取值的类型。SPSS中有三种基本数据类型:数值型、字符型和日期型。数值型 (1)标准型(Numeric)(2)科学记数法型(Scientific Notation)(3)逗号型(Comma)(4)圆点型(Dot)(5)美元符号型(Dollar)(6)用户自定义型(Custom Currency)字符型(String)日期型(Date)第8页/共210页数据类型表SPSS变量变量类型类型系统默系统默认长度认长度小数小数位数位数输入方式输入方式显示方式显示方式范例范例输入输入显示显示Numeric82标准格式或科学标准格式或科学记数法记数法标准格式数值变量圆标准格式数值变量圆点表示小数点的数值点表示小数点的数值38.4238.42Comma82带逗点的数值或带逗点的数值或科学记数法科学记数法圆点做小数点,逗点圆点做小数点,逗点做三位分割符的数值做三位分割符的数值1,343,438.11,343,438.1Dot82带圆点的数值或带圆点的数值或科学记数法科学记数法逗点做小数点,圆点逗点做小数点,圆点做三位分割符的数值做三位分割符的数值34,3434E23.434,34Scietific notation82科学记数法科学记数法或标准格式或标准格式科学记数法科学记数法457.8E4457.8E4Date日期格式非常多日期格式非常多显示格式非常多显示格式非常多Dollar82可带可带$或不带或不带$输输入或科学记数法入或科学记数法有效数值前带有效数值前带$以逗以逗点为分割符点为分割符$12343$12343Custom CurrencyString8无无一串字符串一串字符串一串字符串一串字符串BelieveBelieve 第9页/共210页2023/2/2110数值型数值型是SPSS最常用的数据类型,通常由阿拉伯数字和其它特殊符号等组成。其中的标准型(numeric)是SPSS默认的数据类型,默认的显示宽度为8位,包括正负符号位、小数点和小数位在内,小数位默认为2位。如果数据的实际宽度大于8位,spss将自动按照科学计数法显示,数据的显示并不影响数据的存储,也不影响数据的计算。第10页/共210页2023/2/2111字符型 字符型也是SPSS较常用的数据类型,由一个字符串组成。如职工号码、姓名、地址等变量都可以定义为字符型数据。字符型数据的默认显示宽度为8个字符,不能够进行算术运算,并区分大小写字母。字符型数据在SPSS命令处理过程中应用一对双引号括起来,但在输入数据时不应输入双引号,否则双引号将会作为字符型数据的一部分。第11页/共210页2023/2/2112日期型 日期型数据用来表示日期或者时间,如生日、成立日期等变量可以定义为日期型数据。显示格式:dd-mmm-yyyy;mm/dd/yyyy等等。第12页/共210页2023/2/2113变量宽度(变量宽度(WidthWidth)、列宽度()、列宽度(ColumnsColumns)每种类型的变量都有自己的变量宽度、小数位和显示宽度,其中变量宽度是变量允许的最大字符位数,列宽度是数据编辑窗口中显示每列的字符位数。通常这两个宽度是一致的。第13页/共210页2023/2/2114变量名标签(变量名标签(Variable labelVariable label)变量名标签是对变量名含义的进一步解释说明,它可以增强变量名的可视性和统计分析结果的可读性。变量名标签可用中文,总长度可达120个字符,但在统计分析结果的显示中一般不能显示如此长的变量名标签信息。第14页/共210页2023/2/2115变量值标签(变量值标签(Value labelValue label)变量值标签是对变量取值含义的解释说明信息,对于品质型数据尤为重要,比如1代表男性,2代表女性,它不但明确了数据的含义,也增强了最后统计分析结果的可读性,变量值标签可以用中文。第15页/共210页2023/2/2116缺失数据(缺失数据(Missing valuesMissing values)数据中存在明显错误或明显不合理的数据或漏填数据项时统计学上称为不完全数据或缺失数据。数据中如果存在缺失数据,分析时通常不能直接采用,要进行说明。SPSS中说明缺失数据的方法是指定用户缺失值。这样,spss在分析时,就能够将这些缺失值与正常的数据区分开来,并依据用户指定的缺失值处理策略对其进行处理或分析。Spss还有一类默认的缺失值,称为系统缺失值,数值及日期型变量用圆点表示,字符型变量用空表示。第16页/共210页2023/2/2117 SPSS中说明缺失数据的基本方法是指定用户缺失值。用户缺失值可以是:G对字符型或数值型变量,用户缺失值可以是1至3个特定的离散值(Discrete missing values);G对一个数值型变量,用户缺失值可以在一个连续的闭区间内并同时再附加一个区间以外的离散值(Range plus one optional discrete)。第17页/共210页2023/2/2118SPSS用户缺失值定义窗口第18页/共210页2023/2/2119变量对齐格式变量对齐格式(Align)(Align)定义显示对齐方式,对齐方式分为右对齐、左对齐和中间对齐。系统中,数值型变量默认为右对齐,字符型变量默认为左对齐。第19页/共210页2023/2/2120计量尺度(计量尺度(MeasureMeasure)统计学依据数据的计量尺度将数据划分为三大类,即数值型数据(Scale),如身高、体重;顺序型数据(Ordinal),如职称、职务、对某事物的赞同程度;分类型数据(Nominal),如民族、宗教信仰、性别、党派。数值型数据通常用数字表示;顺序型数据具有内在固有大小或高低顺序,但它又不同于数值型数据,一般用非数字表示;分类型数据没有内在固有大小或高低顺序,一般用非数字表示。第20页/共210页2023/2/2121SPSSSPSS中变量定义的操作中变量定义的操作单击Variable View 进入:单击,定义变量名单击,定义变量类型定义变量标签变量值标签定义计量尺度定义变量宽度定义对齐方式 定义变量类型对话框 定义变量值标签对话框定义变量缺省值对话框第21页/共210页2023/2/2122通常建立SPSS数据文件时应首先定义数据的结构部分,然后再输入数据,但实际应用中,边录入、边分析、边修改数据结构的情况也是常见的。数据的结构定义完成之后,可以在Variable View卡片中浏览,也可以通过菜单选项Utilities/Variable来实现。第22页/共210页2023/2/212302-1 SPSS数据文件的建立举例根据居民储蓄调查数据,建立SPSS格式的数据文件。第23页/共210页2023/2/2124 第三节第三节 SPSSSPSS数据的录入与编辑数据的录入与编辑1.1.录入录入 定义好SPSS数据结构后,可将具体的数据输入到SPSS中,最终形成SPSS数据文件。SPSS数据的录入操作在数据编辑窗口中的Data View卡片中实现。其操作方法与Excel基本类似,也是以电子表格的方式进行录入。录入带有变量值标签的数据时,可以在下拉按钮中的值标签列表中选择一个输入。第24页/共210页2023/2/2125数据的编辑数据的编辑 数据必须输入正确才能保证正确的分析结果。但很难一次输入正确,所以就需要进行修改,一般包括数据的定位、插入、删除、修改、复制等。第25页/共210页2023/2/2126(1)SPSS(1)SPSS数据的定位数据的定位 数据的定位目的是将当前数据单元定位到某个特定的单元中。有两种定位方式:1)按个案号码定位:EditGo to Case 将当前单元格定位在任何单元格中,选择菜单EditGo to Case,出现如下对话框,输入欲定位的个案号码并确认。输入要寻找观测量序号第26页/共210页2023/2/2127 2)按变量值定位:EditFind将当前单元定位在某变量列的任何一个个案上 选择菜单 EditFind,出现如下对话框 输入定位变量值并确认 于是,SPSS自动对指定的变量进行搜索,并将当前单元定位于定位变量值相等的第一个个案上。第27页/共210页2023/2/2128(2)(2)插入和删除一个个案插入和删除一个个案 插入一个个案,即在数据编辑窗口的某个个案前插入一个新个案:将当前数据单元确定在一个个案上,选择菜单 Edit Insert Case(或工具栏插入个案图标按钮)删除一个个案,在欲删除的个案号码上单击鼠标左键,于是待删除的个案数据全部反向显示;单击鼠标右键,从弹出菜单中选择cut选项。第28页/共210页2023/2/2129(3)(3)插入和删除一个变量插入和删除一个变量 插入一个变量,即在数据编辑窗口的某个变量前插入一个新变量:将当前数据单元确定在一个变量上,选择菜单 Edit Insert Variable 删除一个变量,在欲删除的变量名上单击鼠标左键,于是待删除的数据全部反向显示;单击鼠标右键,从弹出菜单中选择cut选项。第29页/共210页2023/2/2130(4)(4)数据的移动、复制和删除数据的移动、复制和删除 数据的移动、复制和删除:与一般的应用程序相同选择操作对象(变量、个案、若干连续单元等)剪切:Edit Cut(Ctrl+X)复制:Edit Copy(Ctrl+C)粘贴:Edit Paste(Ctrl+V)恢复删除或修改前数据Edit Undo(或工具栏Undo图标按钮)第30页/共210页2023/2/2131 插入变量与删除变量插入个案与删除个案数据的剪切、粘贴与复制 1.插入变量在添加处单击Var,单击右鼠标键出现右侧对话框,单击Insert Variables2.删除变量1.插入个案在添加处单击观测量,单击右鼠标键出现右侧对话框,单击Insert Case2.删除个案剪切复制粘贴若想恢复,打开EditUndo第31页/共210页2023/2/2132SPSS支持的数据格式 1、SPSS文件格式,扩展名为.sav 2、Excel格式文件,扩展名为.xls 3、dbf格式文件,扩展名为.dbf 4、文本格式文件,扩展名为.dat第四节第四节 SPSSSPSS数据的保存数据的保存第32页/共210页2023/2/2133 将数据保存为SPSS数据文件或其他格式的数据文件的基本操作是:nFileSave,对于新的:提示文件名和类型;对于旧的,覆盖原来的,不再提问;nFileSave As,另存一个数据文件,也有格式(类型)问题;nVariable按钮允许用户指定保存哪些变量,不保存哪些变量,变量名前画叉的变量将被保存到磁盘中。n将数据保存为Excel文件格式时,Write variables names to spreadsheet选项呈可用状态,它的作用是指定是否将SPSS变量名写入Excel工作表的第一行上。第33页/共210页2023/2/2134第五节第五节 读取其他格式的数据文件读取其他格式的数据文件 SPSS能够直接读取其他格式的数据文件,并将其保存为SPSS格式的数据。1.直接读取其他格式的数据文件:(1)选择菜单File Open Data;(2)选择数据文件的类型,并输入数据文件名。2.使用数据库查询打开 利用通用数据库ODBC接口读取数据文件 在及以前版本中非常重要3.使用文本向导读入文本文件:选择菜单 File Read Text Data第34页/共210页2023/2/2135 直接打开SPSS可以直接读入许多格式的数据文件,其中就包括EXCEL各个版本的数据文件。选择菜单FileOpenData或直接单击快捷工具栏上的Open File按钮,系统就会弹出Open File对话框,单击“文件类型”列表框,在里面能看到直接打开的数据文件格式,分别是:第35页/共210页2023/2/2136 注:读入Excel文件时,SPSS默认将Excel工作表中的全部数据读到SPSS数据编辑窗口,但也可以指定仅读取工作表中某个区域内的数据(如A5:B10)。工作表上的一行数据为SPSS中的一个个案。如果Excel工作表文件第一行或指定读取区域内的第一行存储了变量名信息,则应选择Read variable names项,即以第一行的文字信息作为SPSS的变量名,否则不选。第36页/共210页2023/2/2137 使用数据库查询打开 SPSS可以直接打开许多类型的数据文件,但这并不是说它可以打开所有类型的数据文件,比如以上版本的*.dbf文件就不能直接打开。为此,SPSS还提供了另一个适用范围更广、较为专业的数据接口数据库查询。实际上,SPSS在这里使用的是一种叫ODBC(Open Database Capture)的数据接口,该接口被大多数数据库软件和办公软件(如MS Office)支持,通过它,应用程序可以直接访问以结构化查询语言(SQL)做为数据访问标准的数据库管理系统。选择菜单File Open Database New Query,系统会弹出数据库向导的第一个窗口,其中会列出你使用的机器上已安装的所有数据库驱动程序,选中所需的数据源,然后单击下一步,向导会一步一步的提示你如何做,直至将数据读入SPSS。第37页/共210页2023/2/2138 使用文本导入向导读入文本文件选择菜单FileRead Text Data,系统就会弹出Open File对话框,和前面的情况完全一样,只是文件类型自动跳到了Text(*.txt)。实际上,该功能在SPSS中已被整合到了Open File对话框中之所以在菜单上保留该条目的原因是读入纯文本的情况非常普遍,放在这里更加醒目。02-2举例:创建一个以纯文本的形式保存的数据文件,且第一行为变量名,请将其读入SPSS。在 File Read Text Data对话框选中相应的文件名并单击“确定”,系统会自动启动文本导入向导对话框如下:第38页/共210页2023/2/2139Spss是否已经正确的识别和分割了数据项第39页/共210页2023/2/2140数据间如何分割数据文件的第一行上是否有变量名第40页/共210页2023/2/2141数据部分从文本文件的第几行开始个案数据在文本文件中是如何安排的第41页/共210页2023/2/2142指定文本文件的分割符号字符型数据表示方法第42页/共210页2023/2/2143第43页/共210页2023/2/2144第44页/共210页2023/2/2145第六节第六节 SPSSSPSS数据文件的合并数据文件的合并 当数据量较多时经常会把一份大的数据分成几个小的部分,有几个录入员分别录入,以期加快数据录入速度,但一份完整的数据被分别存储在几个数据文件中,如果要分析这份数据就必须首先将若干个小的数据文件合并起来。要实现两个或多个SPSS数据文件的合并,应首先将其中的某个数据文件读入数据编辑窗口中,然后依次与其他数据文件合并。合并方式有两种:纵向合并和横向合并。第45页/共210页2023/2/21461.1.纵向合并数据文件纵向合并数据文件从外部数据文件中增加个案到当前数据文件中,称为纵向合并,相互合并的数据文件应该有相同的变量。步骤:n打开一个数据文件;n菜单:DataMerge FilesAdd Casesn注意:有变量的Pair(配对)问题,Variables In new working data file框中显示的变量名是两个数据文件中都有的变量名,Unpaired Variables框中的变量名是两个文件中的不同变量名,其中变量名后面的*表示该变量是当前数据编辑窗口中的变量,+表示该变量是待合并文件中的变量。n如果希望在合并后的数据文件中看出个案的来源,可以选择Indicate case source as variable 项将自动生成一个变量名为source01,取值0或1的变量。第46页/共210页2023/2/2147同名变量不同名变量第47页/共210页2023/2/21482.2.横向合并数据文件横向合并数据文件从外部数据文件增加变量到当前数据文件,称为横向合并,横向合并文件时要注意以下三个问题:1)相互合并的数据文件必须至少有一个名称相同的变量,该变量是两文件横向合作的依据,称为关键变量;2)两个数据文件都必须先按关键变量进行升序排列;3)不同数据文件中数据含义不相同的数据项变量名不应相同。第48页/共210页2023/2/2149步骤:n打开一个数据文件;n菜单:DataMerge FilesAdd Variables第49页/共210页2023/2/215002-3 纵向、横向合并数据举例。第50页/共210页2023/2/2151上上 机机 作作 业业1、根据公司年终考核表,建立SPSS格式的数据文件,录入数据并进行各种编辑操作。2、请分别创建以Excel和纯文本形式保存的数据文件,且第一行为变量名,分别将其读入SPSS。3、分别进行纵向、横向合并数据操作。第51页/共210页2023/2/2152第三章第三章 数据变换与整理数据变换与整理第52页/共210页2023/2/2153本章主要内容第一节第一节 数据的排序数据的排序第二节第二节 变量计算变量计算第三节第三节 数据选取数据选取第四节第四节 计数计数第五节第五节 分类汇总分类汇总第六节第六节 数据分组数据分组第七节第七节 数据处理的其他功能数据处理的其他功能第八节第八节 统计图统计图第53页/共210页2023/2/2154第一节 数据的排序SPSS的数据排序是将数据编辑窗口中的数据按照某个或多个指定变量的变量值升序或降序重新排列。这里的变量也称为排序变量。排序变量只有一个时,排序称为单值排序。排序变量有多个时,排序称为多重排序。多重排序中,第一个指定的排序变量称为主排序变量,其他依次指定的变量分别称为第二排序变量、第三排序变量等。第54页/共210页2023/2/2155(1)数据排序便于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等;(2)通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度;(3)通过数据排序能够快捷地发现数据的异常值,为进一步明确它们是否会对分析产生重要影响提供帮助。1.数据排序的作用第55页/共210页2023/2/2156 SPSS数据排序的基本操作步骤 (1)选择菜单DataSort Cases (2)将主排序变量从左边的列表中选到Sort by框中,并在Sort Order框中选择按该变量的升序还是降序排序。(3)如果是多重排序,还要一次指定第二、第三排序变量及相应的排序规则。2.数据排序的基本操作第56页/共210页2023/2/2157在左边的源变量框中选择排序变量进入Sort by框。如果选择2个以上的变量,观测量的排序结果与排序变量在Sort by框中的顺序有关。列于首位的为第一排序变量。在Sort Order 栏内选择排序方式升序与降序第57页/共210页2023/2/2158 1、数据排序是整行数据排序,而不是只对某列变量排序;2、多重排序中指定排序变量的次序很关键。先指定的变量优先于后指定的变量。多重排序可以在按某个变量值升序(或降序)排序的同时再按其他变量值降序(或升序)排序;3、数据排序后,原有数据的排序次序必然被打乱。说明第58页/共210页2023/2/2159031 数据排序应用举例利用居民存款调查数据,通过数据排序功能分别找到城镇户口和农村户口储户一次存款金额的最大值和最小值。第59页/共210页2023/2/2160第二节 变量计算数据的转换处理是在原有数据的基础上,计算产生一些含有更丰富信息的新数据。例如根据职工的基本工资、失业保险、奖金等数据,计算实际月收入,这些新变量具有更直观更有效的特点。第60页/共210页2023/2/21611.变量计算的目的SPSS变量计算是在原有数据的基础上,根据用户给出的SPSS算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生一系列新变量。(1)变量计算是针对所有个案或指定的部分个案的,每个个案都有自己的计算结果。(2)变量计算的结果应保存到一个指定变量中,该变量的数据类型应与计算结果的数据类型相一致。在变量计算过程中涉及到几个概念:SPSS算术表达式、SPSS条件表达式和SPSS函数。第61页/共210页2023/2/2162指出按照什么方法计算变量;SPSS算术表达式(Numeric Expression)是由常量、变量、算术运算符、圆括号、函数等组成的式子。字符型常量应当用引号括起来变量是指那些已存在于数据编辑窗口中的原有变量算术运算符主要包括、*、/、*(乘方)在同一算术表达式中的常量及变量,数据类型应该一致,否则无法计算 算术表达式第62页/共210页2023/2/2163在变量计算中通常要求对不同的个案分别按照不同的方法进行计算,于是就需要通过一定的方式来指定个案;SPSS条件表达式是一个对条件进行判断的式子。其结果有两种取值:如果判断条件成立,则结果为真;如果判断条件不成立,则结果为假。条件表达式包括简单条件表达式和复合条件表达式。条件表达式第63页/共210页2023/2/2164(1)简单条件表达式 由关系运算符、常量、变量以及算术表达式等组成的式子。其中关系运算符包括、。(nl35)(2)复合条件表达式 又称逻辑表达式,是由逻辑运算符号、圆括号和简单条件表达式等组成的式子。其中,逻辑运算符号包括&或AND(并且)、|或OR(或者)、或NOT(非)。NOT的运算优先级最高,其次是AND,最低是OR。可以通过圆括号改变运算的优先级。(nl=35)and not(zc3)第64页/共210页2023/2/2165SPSS函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。这些程序都有各自的名字称为函数名。执行这些程序段得到的计算结果称为函数值。函数书写的具体形式为:函数名(参数)函数第65页/共210页2023/2/2166 其中,函数名是SPSS已经规定好的,参数可以是常量(字符型常量应用引号括起来),也可以是变量或算术表达式。参数可能是一个,也可能是多个,各参数之间用逗号分隔。SPSS函数大致可以分成八大类:算术函数、统计函数、分布函数、逻辑函数、字符串函数、缺失值函数、日期函数和其他函数。第66页/共210页2023/2/2167(1)选择菜单TransformCompute,弹出Compute Variable对话框如下:5.变量计算的基本操作第67页/共210页2023/2/2168(2)在Target框中输入存放计算结果的变量名。该变量可以是一个新变量,也可以是已经存在的变量。如果指定存放计算结果的变量为新变量,SPSS会自动创建它;如果指定产生的变量已经存在,SPSS会提问是否以计算结果覆盖原有值。新的变量默认为数值型,用户可以根据需要单击Type&Label按钮修改,还可以对新变量加变量名标签。(3)在Numeric Expression框给出SPSS算术表达式。可以手工输入,也可以按窗口的按钮以及函数下拉菜单输入。第68页/共210页2023/2/2169(4)如果希望对符合一定条件的个案进行变量计算,则单击If按钮,出现下面的窗口,选择Include if case satisfies condition选项,然后输入条件表达式。对不满足条件的个案,将不进行变量值计算,对新变量取值为系统缺失值。第69页/共210页2023/2/2170 利用职工基本情况数据,依据职称级别计算实发工资,再按职称1至4将实发工资分别上调50,30,20,10。03-2 变量计算的应用举例第70页/共210页2023/2/2171第三节 数据选取数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为抽样。SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取,这样后面的分析操作就只针对选出的数据,直到用户取消这种选取为止。第71页/共210页2023/2/2172(1)选取全部数据(All cases)(2)按指定条件选取(If condition is satisfied)SPSS要求用户以条件表达式给出数据选取的条件,SPSS将自动对数据编辑窗口中的所有个案进行条件判断。那些满足条件的个案,即条件判断为真的个案将被自动选取出来,而那些条件判断为假的个案则不被选中。1.数据选取的基本方式第72页/共210页2023/2/2173(3)随机抽样(Random sample of cases),即对数据编辑窗口中的所有个案进行随机筛选,包括如下两种方式:第一,近似抽样(Approximately)近似抽样要求用户给出一个百分比数值,SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案。注:由于SPSS在样本抽样方面的技术特点,抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目,会有小的偏差,因而称为近似抽样。第73页/共210页2023/2/2174 第二,精确抽样(Exactly)精确抽样要求用户给出两个参数。第一个参数是希望选取的个案数,第二个参数是指定在前几个个案中选取。SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来。第74页/共210页2023/2/2175(4)选取某一区域内的样本(Based on time or case range),即选取数据编辑窗口中样本号在指定范围内的所有个案,要求给出这个范围的上、下界个案号码。这种抽样方法适用于时间序列数据。(5)通过过滤变量选取样本(Use filter variable),即依据过滤变量的取值进行样本选取。要求指定一个变量作为过滤变量,变量值为非0或非系统缺失值的个案将被选中。这种方法通常用于排除包含系统缺失值的个案。第75页/共210页2023/2/2176说明:(1)完成数据选取后,SPSS以后的分析操作仅针对那些被选中的个案,直到用户再次改变数据的选取为止。(2)采用指定条件选取和随机抽样方法进行数据选取后,SPSS将在数据编辑窗口中自动生成一个名为filter_$的新变量,取值为1或0。1表示本个案被选中,0表示未被选中。该变量是SPSS产生的中间变量,如果删除它则自动取消样本抽样。第76页/共210页2023/2/2177(1)选择菜单DataSelect cases(2)根据分析需要选择数据选取方法(3)Unselected cases are指定对未选中个案的处理方式Filtered表示在未被选中的个案号码上打一个“/”标记;Deleted表示将未被选中的个案从数据编辑窗口中删除。2.数据选取的基本操作第77页/共210页2023/2/2178Select Cases对话框第78页/共210页2023/2/2179 利用021居民储蓄调查数据,根据不同的分析要求采用不同的数据选取方法抽样:(1)如果只希望分析城镇储户的情况,可以通过数据选择功能采用指定条件的抽样方法进行抽样;(2)如果只希望对其中的70的数据进行分析,可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样。数据选取的应用举例第79页/共210页2023/2/2180第四节 计数1.计数目的 SPSS实现的计数是对所有个案或满足某条件的部分个案,计算若干变量中有几个变量的值落在指定的区间内,并将计数结果存入一个新变量中的过程。例如对大学毕业班学生的成绩进行综合测评时,可以依次计算每个学生的若干门课程中有几门课程得了优,有几门课程得了良,有几门课程不及格。SPSS实现计数的关键步骤是:指定哪些变量参与计数,计数的结果存入哪个新变量中指定计数区间(尤为关键)第80页/共210页2023/2/2181 SPSS中的计数区间可以有以下几种描述形式:v单个变量值(Value)v系统缺失值(System-missing)v系统缺失值或用户缺失值(System or user-missing)v给定最大值和最小值的区间(n through m)v小于等于某指定值的区间(Lowest through n)v大于等于某指定值的区间(n through highest)2.计数区间第81页/共210页2023/2/2182 上述后三个计数区间很容易理解。例如评价学生成绩,成绩为优的计数区间可以指定为90 through highest,成绩为良的计数区间指定为80 through 89,不及格的计数区间指定为Lowest through 59。前三个计数区间实际上是一些离散的数据点,严格讲并不是区间,但SPSS仍将其归在广义区间的范畴内,目的是方便一些其他的应用。第82页/共210页2023/2/2183(1)选择菜单TransformCount,出现如下窗口:3.计数的基本操作第83页/共210页2023/2/2184(2)将参与计数的变量选到Variables框中(3)在Target Variable 框中输入存放计数结果的变量名,并在Target Label框中输入相应的变量名标签(4)单击Define Values按钮定义计数区间,出现如下图窗口:第84页/共210页2023/2/2185 通过单击Add、Change、Remove按钮完成计数区间的增加、修改和删除。第85页/共210页2023/2/2186(5)如果仅希望对满足某条件的个案进行计数,则单击If按钮并输入相应的SPSS条件表达式。否则,本步可略去。第86页/共210页2023/2/2187利用02-1居民储蓄调查数据分析储户收入的总体状况。我们认为如果储户收入今年比去年增加了,且认为今后收入仍会增加,则认为收入状况较好。试分析有多少个储户的收入状况较好。计数的应用举例第87页/共210页2023/2/2188第五节 分类汇总1.分类汇总的目的 分类汇总是按照某分类变量进行分类汇总计算。例如:某企业希望了解本企业不同学历职工的基本工资上是否存在较大差距。最简单的做法就是分类汇总,即将职工按学历进行分类,分别计算不同学历职工的平均工资,然后可对平均工资进行比较。第88页/共210页2023/2/2189 再例如,某商厦希望分析假日周内不同职业和不同年龄段的顾客对某商品的“打折促销”反应是否存在较大差异,用以分析不同消费群体的消费心理。最初步的分析可以是分别计算不同职业中不同年龄段顾客的平均消费金额和平均消费金额差异程度(标准差),并对它们进行比较。这个过程也可以通过分类汇总过程完成。第89页/共210页2023/2/2190 SPSS实现分类汇总涉及两个主要方面:v按照哪个变量(如上例中的学历、职业和年龄段)进行分类v对哪个变量(如上例中的基本工资、消费金额)进行汇总,并指定对汇总变量计算哪些统计量(如上例中的平均工资、平均消费金额和标准差)第90页/共210页2023/2/2191(1)选择菜单DataAggregate,出现如下所示的窗口:2.分类汇总的基本操作第91页/共210页2023/2/2192(2)将分类变量选到Break Variable(s)框中(3)将汇总变量选到Summaries of Variable(s)框中(4)单击Function按钮,指定对汇总变量计算哪些统计量。SPSS默认计算均值。第92页/共210页2023/2/2193(5)指定将分类汇总结果保存到何处。有三种选择:第一,Add Aggregated Variables to working data file,表示将结果存放到当前数据编辑窗口中。第二,Create new data file,表示将结果存放到一个新建立的SPSS数据文件中,可以单击File按钮,重新指定文件名;第三,Replace working data file,表示用分类汇总结果覆盖数据编辑窗口中的数据。一般选择第二种方式,结果比较清晰。第93页/共210页2023/2/2194(6)单击Name&Label按钮,重新指定结果文件中的变量名或添加变量名标签。SPSS默认的变量名为原变量名后加_统计量名称(如a_mean)。(7)如果希望在结果文件中保存各分类组的个案数,则选择Number of case选项。于是,SPSS会在结果文件中自动生成一个默认名为N_Break的变量,可以修改该变量名。第94页/共210页2023/2/2195说明:分类汇总中的分类变量可以是多个,此时的分类汇总称为多重分类汇总。如上述不同职业和不同年龄段顾客消费的例子即是多重分类汇总的应用。类似于数据的排序,在多重分类汇总中,指定多个分类变量的前后次序是很关键的。第一个指定的分类变量为主分类变量(如职业),其他的依次为第二(如年龄段)、第三分类变量等,它们决定了分类汇总的先后次序。第95页/共210页2023/2/2196 例:利用02-1居民储蓄调查数据,分析城镇储户和农村储户的一次平均存(取)款金额是否有显著的差异。