SAS简明教程 .pdf





《SAS简明教程 .pdf》由会员分享,可在线阅读,更多相关《SAS简明教程 .pdf(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本文转自网站生物谷WORD 版由 Robot 整理1 第一章统计软件中的数据录入格式统计分析是科研中的必要环节,统计软件则是进行统计分析的利器。但是,在计算机已逐渐普及的今天, 统计软件却仍让人感到几分神秘:除了大型统计软件都还没有中文版这一原因,统计软件在许多小的方面也有自己的特点,往往就是这些小地方就会让许多人深入宝山而空返。今天我们就来谈谈使用统计软件时一个最基本而又非常重要的问题数据录入格式。简言之, 我们平时往往用表格的形式来记录数据,这并无不妥。 问题在于当进行统计分析时,如果我们直接将数据按平时记录的格式来进行分析,那就很可能不得其门而入因为大多数统计软件对数据格式都有着特定的格
2、式要求,下面我们就举一些常见的情况来解释这一问题。( 篇幅较长,点“视图”“文档结构图”可方便定位阅读。)1. 单组或多组数据平时我们多记录成 第 1 组、第 2 组、第 3 组. 等等,如表一左侧所示。样本含量相等或不等。主要用于成组资料比较的t 、 F或秩和检验等。这种记录格式姑且称为统计表格格式,在各种统计软件中,该数据通用的分析格式如表一右侧所示,我们把这种格式称为统计分析格式。表 一统计表格格式序号第 1 组 第 2 组 第 3 组10.10.40.620.20.50.730.30.840.9样本量324统计分析格式1 , 0.1 1 , 0.2 1 , 0.3 2 , 0.4 2
3、, 0.5 3 , 0.6 3 , 0.7 3 , 0.8 3 , 0.9看出来区别了吗?统计分析格式中第一列为“ 分组变量 ” ,指示所在的组号;第二列为原始数据。现在再回到SPSS等统计软件的菜单去,做one-way ANOVA (成组的方差分析)知道怎么选变量了吧!2. 配伍组数据平时的记录格式同上面相似。主要用于配伍组资料比较或秩和检验 等。见表二:表 二统计表格格式序号第 1 组 第 2 组 第 3 组10.10.30.5名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1
4、页,共 48 页 - - - - - - - - - 本文转自网站生物谷WORD 版由 Robot 整理2 20.20.40.6样本量222统计分析格式1 , 1 , 0.1 1 , 2 , 0.2 2 , 1 , 0.3 2 , 2 , 0.4 3 , 1 , 0.5 3 , 2 , 0.6统计分析格式中第一列为“ 第一分组变量 ” ,指示所在的组号;第二列为“ 第二分组变量 ” ,指示在该组的序号,第三列为原始数据;3. 单组成对数据变量名分别为: X、Y,要求样本含量相等。主要用于配对计量资料比较的 t、秩和检验;直线回归与相关;曲线拟合等,格式见表三。表三统计表格格式序号XY10.1
5、0.420.2 0.530.3 0.6样本量33统计分析格式0.1 , 0.4 0.2 , 0.5 0.3 , 0.6两种格式没有区别, 但请注意, 如果配对资料转用方差分析来处理,则相应的也要变换格式。4. 多组成对数据主要用于协方差分析,格式见表四。表 四统计表格格式序号X1 Y1 X2 Y210.1 0.3 0.5 0.820.2 0.4 0.6 0.90.7 1.0样本量2233统计分析格式1 , 0.1 , 0.3 1 , 0.2 , 0.4 2 , 0.5 , 0.8 2 , 0.6 , 0.9 2 , 0.7 , 1.0在统计分析格式中,第一列为对子组号,第二列与第三列分别为该组
6、的对子X、Y。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 48 页 - - - - - - - - - 本文转自网站生物谷WORD 版由 Robot 整理3 第二章SAS/ASSIST 视窗简介SAS是一个庞大的系统,它由许多模块组成,每个模块分别完成不同功能。由于最初是为专业统计人员设计的(这一点和SPSS 恰恰相反),因此使用上以编程为主,初学者掌握较为困难。现在,微机操作系统已经进入了WINDOWS 时代,而WINDOWS 软件的一个重要特点就是易学易用。要想在
7、市场中继续领先,SAS 必须推出能体现WINDOWS 软件这一特色的新界面,SAS/ASSIST 视窗就是这一努力的结果。虽然它还有许多不足之处,但这一新界面使得初学者较快地学会使用SAS 成为可能。本章将向大家介绍这一SAS 的全新界面 SAS/ASSIST 视窗。长期以来, 对于统计软件界面的易用性有两种理论:一种认为统计软件也是软件,美观易用的界面是它必备的功能;另一种理论则认为统计软件有其特殊用途,现在有许多统计方法实际上是在被滥用,而如果任何人都可以通过简单方便(即“友好”)的界面来使用自己实际上并不了解的复杂统计模型, 则等同于是在助长这一现象。这两种理论都有一定的道理,看来 SA
8、S倾向于后者: ASSIST视窗只能提供较常用的统计功能,并且看上去也不怎么漂亮。2.0.1 ASSIST 视窗的启动ASSIST 视窗的启动方法也是比较多的。如果从下拉菜单启动,则请单击Globals- SAS/ASSIST ,系统将开始启动ASSIST 视窗,几秒钟后进入ASSIST 视窗主界面如下图所示:ASSIST 视窗的正上方为主菜单名(Primary Menu),下面的12 个按钮分别表示了在该视窗中可用的各种功能。常用的按钮有:TUTORIAL按钮由此可以进入SAS 提供的教学程序DATA MGMT按钮由此进入数据库管理模块GRAPHICS 按钮由此进入绘图模块DATA ANAL
9、YSIS按钮由此进入统计分析的有关模块INDEX 按钮提供全部可用命令的索引,如果对菜单项的分类不清楚,可以从这里直接查找所需功能EXIT 按钮使我们可以退出ASSIST 视窗我们主要介绍统计分析功能,对于其它功能,有兴趣的同学可以自行摸索。单击 DATA ANALYSIS ,则视窗进入二级菜单数据分析菜单(Data Analysis Menu),它的布局和主菜单界面基本一致,各种按钮中常用的有:ELEMENTARY按钮提供基本的统计分析,如描述、相关、频数表REGRESSION 按钮提供线性回归、 Logstic 回归和时间序列回归统计ANOVA 按钮提供方差分析、非参数检验和t 检验MUL
10、TIVARIATE按钮提供主成分分析等多元分析方法QUALITY CNTL按钮进入质量控制模块TIME SERIES按钮提供时间序列分析功能DATA MGMT按钮与主菜单的该按钮相同,进入数据库管理模块INDEX 按钮提供全部可用功能的索引2.0.2 ASSIST 视窗的使用方法下面我们以一个例子来说明ASSIST 视窗的使用方法。现有数据集SASUSER.CLASS记录了某班学生的年龄、身高和体重情况,我们要对该数据进行简单的描述,则用ASSIST 视窗的操作方法如下: 单击数据分析菜单中的按钮ELEMENTARY ,则系统开启一个新的ELEMETARY对话框如下图所示:名师资料总结 - -
11、 -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 48 页 - - - - - - - - - 本文转自网站生物谷WORD 版由 Robot 整理4 请注意 Summary statistics是以深色显示的,表示该项为默认值。用鼠标单击该项目,则系统开启下一个对话框Summary Statistics对话框如下图所示: Summary Statistics对话框就是统计描述的主窗口,它由一些按钮和复选框(Check box)组成,注意Active data set:按钮和 Variables
12、 :按钮的右侧写着“-REQUIRED-”,表示这两项必须加以定义,否则程序没有足够的信息来运行。首先定义所分析的数据集:单击 Active data set:,则系统开启新对话框如图A 所示: 在该对话框中列出了可用的所有数据集名,从左到右依次为库名、数据集名和数据集类型,拖动滑块使SASUSER.CLASS数据集出现在窗口中,用鼠标单击数据库名,由于当前数据集只能有一个,所以对话框自动关闭,退回Summary Statistics对话框。如果我们再次进入Active data set对话框, 则可见 SASUSER.CLASS数据集的左侧有一个星号,如图B 所示,这表示该数据集已被选中为当
13、前数据集。如果要改变选择,直接单击需要的数据集名,系统会自动替换。 请注意右图, Active data set:按钮的右侧显示为SASUSER.CLASS ,表示当前分析数据集为 SASUSER 库的数据集CLASS。现在我们可以定义分析变量了:单击Variables :,系统开启一个变量选择对话框供我们选择变量。 SASUSER.CLASS中可供分析的连续变量均显示在变量窗口中,我们想对这三个变量都做描述,则依次单击三个变量名,单击后变量名的左侧出现一个星号,表示该变量被选中;再单击一次则星号消失,表示撤消选择。 将三个变量全部选中,如图 C 所示。 然后后按 OK,该窗口关闭,系统退回上
14、一级窗口。 Variables按钮右侧显示为AGE 、HEIGHT 、WEIGHT 三个变量。现在我们输入的信息已经满足了运行程序的最低要求,但是我们还想将结果按性别分开输出,则单击Class:,系统开启变量选择窗口如图D 所示。用鼠标单击变量名“SEX”,再单击OK,此时变量描述窗口如下图所示: 变量的选择告一段落,现在开始选择所需要的统计量。变量描述窗口的下方为一些复选框,右侧为复选框名,左侧为复选框的状态。以 SUM 复选框为例, 用鼠标单击SUM 左侧的小方框,此时该方框内打勾,表示该项被选择;再点一下则复选框恢复原状态。如此选择所需的全部统计量,最后变量描述窗口的状态如下图所示: 现
15、在是最后一步运行程序了,选择下拉菜单Locals- Run,则系统开始执行程序,最后 OUTPUT 视窗自动弹出,显示最终的运行结果。可能有的同学觉得奇怪,为什么我总是说系统在执行程序,刚才没有写程序啊?!事实上,SAS/ASSIST视窗是一个程序自动产生器,我们所做的每一个选择都被写成了程序,最后系统执行这个自动产生的程序来向我们交差。如果想看所产生的程序,则选择下拉菜单LocalsView- Sourse。以刚才的选择为例,系统产生的程序其主要部分如下:proc means data=SASUSER.CLASS vardef=DFMIN MAX RANGE SUM MEANVAR STD
16、STDERR CV ;var AGE HEIGHT WEIGHT ;class SEX ;run;名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 48 页 - - - - - - - - - 本文转自网站生物谷WORD 版由 Robot 整理5 通过这个例子,我们掌握了使用SAS/ASSIST 视窗时将会碰到的窗口界面的用法。为了使大家在学习SAS 时能打下较坚实的基础,本书仍然以讲述SAS 语言为主线。但是在例题的解中,我们将尽可能给出程序和ASSIST 视窗两种操作方
17、法。同学们可根据具体情况自行选择使用哪种解法。第三章SAS 程序初步从本质上讲, SAS是一种完善的第四代计算机语言。因此要真正掌握它,我们仍然要抛开其华丽的外表,从学习它的核心SAS程序开始。现在, 让我们将 SAS看成一个计算能力极强的统计学白痴(之所以这样说,是因为它计算能力虽然极强, 却只能帮你计算而不能提出自己的实验设计方案或研究方向来),而你有一个非常小的关于数据分析的问题要请它帮忙。自然你要开口提出请求,无论措辞是委婉动听还是直截了当,你的大实话无非是“喂,老兄,我有这样一些数据,我想做这样一种统计分析,您能帮我吗?”。他迅速检查您的要求,在认为合情、合理并且合法后,就开始进行计
18、算,并且在很短的时间内给出计算结果。好的, 计算机语言就是我们和计算机对话时所用的语言。和以上人类对话的例子相对照,“我有这样一些数据”对应SAS程序中的数据步;而“我想做这样一些统计处理”对应SAS程序中的程序步;最后的那一句哀求“您能帮我吗”则对应了Submit 命令。在默认情况下,运行结果或者出错信息将自动给出(当然你也可以强制不让它输出)。此外, 还有一些系统环境控制语句,如Libname、title等。 SAS程序就是由一个或多个数据步和/ 或程序步加上一些乱七八糟的环境控制语句组成。 在本章中, 我们将首先学习SAS对数据的管理方式,然后会了解到什么是数据步和程序步,最后则介绍一下
19、SAS语言中结构化语句的语法。3.1 SAS 系统对数据的管理在 SAS系统中只有SAS数据集 才能被 SAS过程直接调用, SAS数据集的结构和DBF数据库完全相同, 因此无须多讲。 而 SAS数据集存储在被称为SAS数据库的文件集中,在 PC系统中,SAS数据库与某一个文件夹相对应,我们要为每一个数据库指定一个库标记( 库名 ) 来识别该库,使用Libname 命令可以指定库标记。它的一般格式如下:Libname 库标记 文件夹位置 选项 ;例如要指定目录“C:USER”为库标记A,可以在视窗中提交如下语句:libname a c:user;数据库可分为 永久库 和临时库 两种。临时库只有
20、个,名为WORK ,它在每次启动SAS系统后自动生成, 关闭 SAS时库中的数据集被自动删除;永久库可有多个, 用户可以使用Libname语句指定永久库的库标记,永久库中的所有文件都将被保留。但库标记仍是临时的,每次启动 SAS系统后都要重新指定。不过为了方便用户,SAS在每次启动时都会自动指定两个库标记:SASUSER:指明为永久库, 即库中的数据集被保存起来,以便下次启动系统时使用。WORK:指明为临时库,对于开发和检查新程序非常有用,但每次SAS运行结束后WORK 库中的所有文件将被删除。在程序中引用该库中的数据集可以省略库标记,即它被认为是缺省的数据库。SAS数据库对应文件夹, 如 S
21、ASUSER 对应 c:sassasuser,WORK 对应 c:sassaswork, SAS数据集则对应文件,每个数据集实际上是在硬盘的相应文件夹内产生一个文件名为数据名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 48 页 - - - - - - - - - 本文转自网站生物谷WORD 版由 Robot 整理6 集名,而扩展名为.sd2 的文件,因此如果你成功的建立了一个数据集,理论上你就可以反复使用它直到硬盘报废。每一个数据集都有一个两级名,第一级是库标记,第二级
22、是数据集名,中间用“. ”隔开,在程序中通过指定两级名来识别文件。文件两级名的一般形式如下:库标记 . 数据集名如在 a 库中的数据集abc 可以这样来引用:a.abc 。3.2 SAS 程序的数据步3.2.1 预备知识SAS程序的语句从上一个语句结束处开始,以一个分号结束,可占多行。3.2.2 数据步以 DATA语句开始,用于创建和处理数据集。其中最常用的语句有:DATA 语句它的主要功能是:o标志数据步的开始。o命名将要创建的SAS数据集。DATA 语句的一般形式如下:DATA数据集名 ;INFILE 语句 用于从外部文件读入数据,必须出现在INPUT 语句之前。它的主要功能是:o确定一个
23、包含原始数据的外部文本文件。INFILE 语句的格式如下:INFILE 外部文件的所在位置及名称选项 ;CARDS 语句 用于直接输入数据,标志着数据块的开始。格式如下:CARDS ;数据块;INPUT 语句用于向系统表明如何读入每一条记录。它的主要功能有:o读入由语句指定的数据列。o为相应的数据域定义变量名。o确定变量的读入模式。INPUT 语句的格式如下:INPUT 变量名 变量类型起止列数 .;方括号表示其中的内容为可选,如果不输入,系统会以默认值代替。3.2.3 数据的两种输入方式上面我们学到了INFILE 语句和 CARDS 语句,它们分别对应了两种数据输入的方式:【直接输入方式】实
24、际上我们在第一章已经用到了直接输入方式,仍以那个程序为例,其中的数据步如下:data temp;命名将要建立的数据集为work.tempinput x y;要输入的变量为x、y,并且连续输入cards;直接输入数据,数据块开始34 56 78 90 35 67 89 10 23 65 77 45数据块;数据块结束名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 48 页 - - - - - - - - - 本文转自网站生物谷WORD 版由 Robot 整理7 变量后面的 表
25、示数据可以在一行里连续读入,SAS默认按列来分隔变量,可是这里只有两个变量,输成两列数据太长,因此加上两个,SAS见到这个符号,在按变量名依次读取完数据后,不是跳到下一行,而是继续在该行读数据,直至本行结束或到达分号为止。如果你对这段叙述无法理解,请去掉两个,重新运行一遍程序,看看LOG视窗中的提示都有些什么变化。【外部文件读入方式】如果刚才的数据已经事先输好,在硬盘上的“ C:USER”文件夹内存为temp.dat文件,该文件内容如下(纯文本):34 56 78 90 35 67 89 10 23 65 77 45 则我们可以输入程序如下:data temp;命名将要建立的数据集为work.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS简明教程 2022 SAS 简明 教程

限制150内