数据统计与分析.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据统计与分析.doc》由会员分享,可在线阅读,更多相关《数据统计与分析.doc(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流数据统计与分析.精品文档.附录1: 利用EpiData附加软件输入数据 本章的数据输入法是任选的,本着“萝卜白菜各有所爱”,不妨也一起介绍出来。不过第3章介绍的(以DATA LIST命令为首的)数据输入法,无需去另找附加的输入软件。EpiData是丹麦的一个非盈利组织编写的用以数据输入的免费软件,要获得该软件,需要通过Internet网登录http:/www.epidata.dk主页,根据相应的提示才可下载。 EpiData最早的版本Version 1.01发布于2000年10月,目前运用得较多的是EpiData version 3.0版,发
2、布于2003年8月。下面简单介绍如何用EpiData3.0输入数据,并转换成SPSS能够分析的数据。打开EpiData程序文件,可以见到其最基本的窗口(见图18-1)。图18-1 EpiData 基本窗口 从EpiData的基本窗口来看,数据输入主要有6个步骤。(1)制作数据描述文件(Define Data);(2)建立数据文件(Make Data);(3)检查数据(Checks);(4)数据输入(Enter Data);(5)浏览数据文件资料(Document);(6)输出数据(Export Data)。 下面逐一加以介绍。1.制作数据描述文件(Define Data)(1)打开一个空白的数
3、据描述文件 单击Define datanew .QES file,自动建立一个名字为untitled1的空的数据描述文件(见图18-2),数据描述文件的扩展名为QES,QES是questionaire的缩写。 图18-2 一个空白的数据描述文件窗口(2)把空白的untitled1文件存储成想要的文件名(如first.qes)方法是:单击filesave as命令,弹出一个对话框后,把untitled1改成 first.qes,然后保存。(3)输入数据描述信息在空白的数据描述文件里,编辑需要制作的数据描述文件,主要编写的信息包括变量名、变量标签、变量值的界定等,图18-3给出了关于“礼物赠送”调
4、查中的数据描述文件。 图18-3 输入数据描述信息后的EpiData窗口输入的基本原则是:第一必须有一个变量的名字,如id,v1等;第二要对变量进行描述,如id “个案号”,v1 “您的性别”等;第三要用Shift + #号键定义输入的变量。变量有几个码,就打几个#键,如id #; V1 性别 # 。(4)输入完毕要存盘。方法:单击FileSave as first.qes命令存盘,或用Ctrl+S键也一样可以存盘。(5)预览输入变量的格式 寻找Preview Data Form(预览输入变量的格式)命令 ,方法是用Ctrl + T键,或者打开Make Data File工具条,见图18-4。
5、 图18-4 打开一个预览数据窗口Preview Data Form功能的最大优点是:在不必建立数据文件的情况下,提前对数据输入格式进行检查,可以输入数据,看是否有问题,一旦发现问题,可以及时修正。 图18-5 预览一个数据描述文件信息的窗口 图18-6 建立数据文件步骤12.建立数据文件数据文件的扩展名是rec(recoder的缩写),建立的方法如下。 单击“2 Make Data File”Make Data File命令,弹出Create data file from .QES file)对话框,其中有两个选项,一个是Enter name of .QES file(说明数据描述文件的路径
6、与名字),另一个是Enter name of data file(说明数据文件的路径与名字),然后单击OK键,生成first.rec文件。见图18-6和图18-7。 图18-7 建立数据文件步骤23.检查数据如果需要对输入数据的方式进行某种专门的规定,则可在Checks功能下进行,如果没有可修改的,则可直接输入数据,而不必经过这一步骤。单击图18-6中的Checks选项,即出现图18-8的对话框。图18-8 检查数据对话框 图18-9 数据输入对话框在上述对话框中,可以对变量标签、范围、是否跳答等进行界定。对话框中某些选择项的意义如下。Value label赋值(如sex income等)Ra
7、nge/legal规定变量值的范围(如10-80,99)Jumps跳答1write 如果回答1 ,则跳到职业(S2):输入1S2Must enter一定要输入某个值(如yes)RepeatNo 一般选择NO,对以前输入的某个值在出现类似情况时进行复制。修改完成之后或逻辑校验完成以后的数据存成fiest.chk。经常出现Checks无法进入,碰到这种情况,单击FileClose all命令,把所有打开的文档关闭即可。4数据输入方法:单击图18-6中的 Enter Data命令,出现对话框后选择first.rec名。若出现如图18-9所示的数据输入对话框,则输入数据,输入完毕单击Fileclose
8、 form命令即可。 5.浏览数据文件的信息单击图18-10中的Document,可以对数据文件资料的相关信息进行浏览,这些信息包括了数据文件的相关信息、数据输入注意事项、数据文件标记、数据清单、编码表、逻辑检查等。6.输出数据单击图18-10中的Export dataSPSS命令,打开对话框,在图18-11中寻找first.rec文件,然后单击“打开”按钮,出现Export Data对话框(见图18-12)后单击OK按钮,出现Information对话框(图18-13)后单击OK按钮,输出的数据以first.sps为名,见图18-14。 图18-10 数据输出步骤1 图18-11 数据输出步
9、骤2图18-12 数据输出步骤3 图18-13 数据输出步骤4图18-14 数据输出结果图 图18-15 将EpiData数据转换为SPSS数据步骤1打开SPSS,单击FileOpenSyntaxfirst.spsSelect all命令,选定信息(见图18-15和图18-16),然后单击Run(运行),则可以在SPSS变量浏览界面看到已经转换好的数据,最后单击FileSave As命令,存储成用户自己可识别的*.sav文件(图18-17),便可进行各种统计分析。图18-16 将EpiData数据转换为SPSS数据步骤2 图18-17 由EpiData转换过来的SPSS数据界面附录2:数据统计
10、与分析SPSS应用教程习题答案 本“习题答案”也适用于统计分析应用教程SPSS,LISREL & SAS实例精选书中的习题。 习题1答案1(1)答:有错误, 犯了水平互相嵌套的错误; 如“每周去 2次或 2次以上”把第1组的编码嵌套进去了。又比如:“每周去 3次或 3次以上”又把第2组的编码嵌套进去了。 (2)答:正确的编码方案如下: 1=每周去1次 2=每周去2次 3=每周去3次 4=每周去4次或4次以上 2答:该编码问题严重。 (1)80岁不能是缺失值, 缺失值可用00岁。 (2)职业不编码不行, 而必须编码为:1=工人 2=农民 等等。 (3)职业变量用全称(Occupation)超出8
11、个字符。 (4)而且栏目位置占1列即可。 (5)颜色的第1个字母作为变量值会引起重复,应该用单词的前3-4个字符。 (6)Color 变量的栏目位置10被嵌套在“4-14”之内,这是严重的错误。 更正后的编码方案见图1-19:VariableCode栏目位置Age00岁是Missing Value1-2Occupation职业应编码为:1=工人 2=农民3=教师 4=干部5=医生 6=其它职业变量要缩写,如Occu,然后用变量标签注解Occu为“职业”3Color颜色用前三个字母作为变量值,比如: blu=蓝色(blue)bla=黑色(black)4图1-19 纠错后的编码方案3(1) 答:错
12、。错在变量名超过8个字符。 (2) 答:错。错在变量名的首字符是数字领头。 (3) 答:错。错在变量名中间冒出一个空格。 (4) 答:对,#号可以作为变量名。但不提倡。习题2答案1答:合并后的大目标数据文件“BIGab.sav” 中仍然有30个Cases、但每个Cases各有(50+30)=80个变量,即v1、v2、v3、v4v50、x1、x2、x3、x4x30。2答:合并后的大目标数据文件“BIGab2.sav”中仍然是50个变量,即v1、v2、v3、v4v50。但是Cases数目增加为(20+30)=50个Cases。3答:请读者照着书中的方法去使用对话框。排序的命令如下:SORT CAS
13、ES BY xh (D)sex. LIST xh sex score。4答:对话框的解法请按照书中介绍的去举一反三。命令解法如下:GET File=9293.sav.SELECT IF (location=2 AND sex=2). SORT Cases BY xh (D) sex.LIST xh sex score.5答:对话框的解法请按照书中介绍的去举一反三。命令解法如下:SAMPLE 0.20.LIST xh.6答:对话框的解法请按照书中介绍的去举一反三。命令解法如下: N 50. LIST xh.7答:对话框的解法请按照书中介绍的去举一反三。命令解法如下: WEIGHT BY loca
14、tion.8答案略。9答案略。 习题3答案1(1) 答:DATA LIST 命令本身应有终止符“.”。 (2) 答:在DATA LIST 命令中,File所调用的数据文件名必须用一对左撇号括住。 正确的写法是:DATA LIST File=Myf1.Dat/v1 1-2 v2 3. (3) 答:栏目位置不够变量数目整除。 正确的写法是:DATA LIST/v1 To v12 10-33. (4) 答:数值标签要用一对左撇号括住,而且要加上命令的终止符“.”。 正确的写法是: VALUE LABEL Vf 1 工人 2 农民 3 教师 4 医生. (5) 答:命令后面应有终止符“.”。 正确的写
15、法是: VALUE LABEL Vf 1 工人 2 农民 3 教师 4 医生 5 干部. (6) 答:定义缺失值时只能根据变量的栏目位置赋予一个唯一的值。 正确的写法是:MISSING VALUE v1 To v100 (-1). 或是:MISSING VALUE v1 To v100 (0). (7) 答:变量标签是唯一的;一个变量应该对应唯一的一个标签。 正确的写法是: VARIABLE LABEL Score1 第一次考试的成绩 /Score2 第二次考试的成绩/Score3 第三次考试的成绩2(1)答:此文件的前5个cases见表1-4。表1-4 文件的前5个casesCASESIda
16、geHeight101231.65202221.70306211.75408211.76512211.68(2)答:学号为01的学生有最多的Score1(高考得分)。 (3)答:学号为12的学生家住农村。 (4)答:在Vm变量中,有4个Cases 的数据有效。 3答:至少有8处错误。 (1)A应改为(A) (2)Haircolor超过8个字符,应改为Haircolr (3)Weigh应改为WEIGHT (4)VALUE LABEL中的 Eyecolr应改为 Eyecolor (5)VALUE LABEL中的 Haircolor应改为8个字符以内,如Haircolr (6)MISSING VAL
17、UE 中的age(-1)应去掉,因为Data List 中尚未定义age。(7)正确的MISSING VALUE语句应改为:MISSING VALUE Height Weight(000). (8)List Variable语句应改为:List Variable=Height To Eyecolor.4答:“05 F Ll”中的Ll为字母(型),犯了类型不匹配的错误。 正确的写法是:05 F 005答:总体(population)是样本测量值的集合。对于感兴趣的整个组中,每个成员都对应一个这样的值。具体说来是某省的人口(总体)或工业产值(总体)中的某个指标测量值的集合,而不是那些人或物的集合。
18、样本(sample)虽然也是一些值的集合,但不代表整个感兴趣的组。比如,一个样本可以是某省中某县的人口的集合或某县工业产值的集合。6答:由于总体与样本的不同,由此派生出参数与统计量的差别。(1)参数:参数(parameters)是总体的测量值,用希腊字母表示。(2)统计量:统计量(statistics)则是样本的测量值,用一般的英文字母表示(见本章内容)。7答:(1)均值:用以描述数据(值)分布的中心位置。定距以上的数据计算均值才有意义。比如,对于一个总体(某省)的人口,其平均值被称为总体均值(populationg mean),记为。对于某样本(某县)的人口,其平均人口则被称为样本均值(sa
19、mple average)。总体均值和样本均值的计算公式是相同的。但是其他测量值不一定相同。此外,还有方差、标准偏差等概念。(2)标准偏差:也被称为标准差。表示某人的身高或收入等测量值偏离均值多少。比如甲班语文成绩的标准偏差为20,乙班语文成绩的标准偏差为30,那么,乙班语文成绩比甲班的语文成绩变化(波动)大。(3)方差:标准偏差的平方则是方差。方差表示数据内部的变异性。8答:统计学上,一般都是假设被统计的样本是来自正态分布(Normal distribution)的总体。正态分布是关于总体的一种理论分布,是有严格的数学定义的。从正态分布的总体中抽取的样本一般是服从正态分布的。正态分布的重要特
20、征如下:(1)均值:均值是观察值的平均值(Mean value)。区间(Interval)型以上变量值的均值才有意义。 (2)众数:众数是最经常发生的频次。众数是对定类变量(Nominal)而言的。比如某班有男生25名、女生15名,那么,该班男生的人数是众数。(3)中位数:中位数是对次序(Ordinal)变量值而言的。中位数是比取值的一半大、同时又比取值的一半小的值。或者说,中位数的一半落在均值之上,同时,另一半则落在均值之下。中位数的取值方法有两种:单数情况下的观察值的中位数;双数情况下的观察值的中位数。(4)正态分布的均值、众数、中位数重叠:将正态分布的图形沿着中心位置对半折叠时,均值、众
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 统计 分析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内