SAS的基本统计功能及应用.docx
《SAS的基本统计功能及应用.docx》由会员分享,可在线阅读,更多相关《SAS的基本统计功能及应用.docx(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、SAS的基本统计功能及应用4.1 一些单变量检验问题 4.1.1 正态性检验 4.1.2 两独立样本的均值检验 4.1.3 成对总体均值检验 4.2 回归分析 4.2.1 用SAS/INSIGHT进行曲线拟合 4.2.2 用SAS/INSIGHT进行线性回归分析 4.2.3 用SAS/INSIGHT拟合广义线性模型 4.2.4 用REG过程进行回归分析 4.3 方差分析入门 4.3.1 用ANOVA过程进行单因素方差分析 4.3.2 用NPAR1WAY进行非参数单因素方差分析 4.3.3 多重比较 4.3.4 多因素方差分析 4.4 列联表分析 4.4.1 列联表的输入与制表 4.4.2 列联
2、表独立性检验 4.4.3 属性变量关联度计算前面我们已经看到了SAS的编程计算、数据管理能力、数据汇总、数据探索分析能力。这一章我们讲如何用SAS进行基本的统计检验、线性回归、方差分析、列联表检验等基本统计分析。我们既使用SAS语言编程,也使用SAS/INSIGHT的菜单界面。一些单变量检验问题 对单个变量,我们可能需要作正态性检验、两独立样本均值相等的检验、成对样本均值相等的检验。正态性检验在PROC UNIVARIATE语句中加上NORMAL选项可以进行正态性检验。例如,我们要检验SASUSER.GPA 中GPA是否服从正态分布,只要用如下UNIVARIATE过程:proc univari
3、ate data=sasuser.gpa normal; var gpa;run;结果(部分)如下: Univariate ProcedureVariable=GPA College Grade Point Average Moments W:Normal 0. PrW 0.0001其中W:Normal为Shapiro-Wilk正态性检验统计量,Pr2000时用Kolmogorov D统计量。我们可以看到,p值很小,所以在0.05水平(或0.10水平)下应拒绝零假设,即认为GPA分布非正态。在SAS/INSIGHT中为了检验GPA的分布,先选“Analyze | Distribution”菜单
4、打开GPA 变量的分布窗口,然后选“Curves | Test for Distribution”菜单。除了可以检验是否正态分布外还可以检验是否对数正态、指数分布、Weibull分布。两独立样本的均值检验假设我们有两组样本分别来自两个独立总体,需要检验两个总体的均值或中心位置是否一样。如果两个总体都分别服从正态分布,而且方差相等,可以使用两样本t检验过程TTEST 。比如,我们要检验SASUSER.GPA数据集中男生和女生的SATM分数是否具有相等的平均值,只要用如下程序:proc ttest data=sasuser.gpa; class sex; var satm;run;过程中用CLAS
5、S语句指定分组变量,用VAR语句指定要比较的变量。结果如下: TTEST PROCEDUREVariable: SATM Math SAT ScoreSEX N Mean Std Dev Std Error-Female 145 611. 84. 6.Male 79 565. 82. 9.Variances T DF Prob|T|-Unequal 4.0124 162.2 0.0001Equal 3.9969 222.0 0.0001For H0: Variances are equal, F = 1.03 DF = (144,78) ProbF = 0.9114结果有三个部分:两个总体的S
6、ATM简单统计量,两样本均值的检验,以及两样本方差是否相等的检验。标准的两样本t检验要求两总体方差相等,所以第三部分结果检验两样本方差是否相等。如果检验的结果为相等,则可使用精确的两样本t检验,看第二部分结果的Equal那一行。如果方差检验的结果为不等,则只能使用近似的两样本t检验,看第二部分结果的Unequal 那一行。这里我们看到方差检验的p值为0.9114不显著,所以可以认为方差相等,所以我们看Equal 行,p值为0.0001在0.05水平下是显著的,所以应认为男、女生的SATM分数有显著差异,女生分数要高。上面的检验中对立假设是两组的均值不等,所以检验是双边的,p值的计算公式为Pr(
7、t 分布随机变量绝对值计算得到的t统计量的绝对值)。如果要进行单边的检验,比如对立假设为女生分数高于男生分数(右边),则p值为Pr(t分布随机变量计算得到的t统计量) ,当计算得到的t统计量值为正数时(现在t=4.0)此单边p值为双边p值的一半,当计算得到的t统计量为负数时肯定不能否定零假设。检验左边时恰好相反。如果我们希望检验男、女生的GPA分数则无法使用两样本t检验,因为检验女生的GPA 样本的正态性发现它非正态。这种情况下我们可以使用非参数检验。检验两独立样本的位置是否相同的非参数检验有Wilcoxon秩和检验。我们用NPAR1WAY过程加Wilcoxon选项可以进行这种检验。见下例:p
8、roc npar1way data=sasuser.gpa wilcoxon; class sex; var gpa;run;其CLASS语句和VAR与TTEST过程相同。结果如下: N P A R 1 W A Y P R O C E D U R E Wilcoxon Scores (Rank Sums) for Variable GPA Classified by Variable SEX Sum of Expected Std Dev Mean SEX N Scores Under H0 Under H0 Score Female 145 16067.5000 16312.5000 463
9、. 110. Male 79 9132.5000 8887.5000 463. 115. Average Scores Were Used for Ties Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S = 9132.50 Z = 0. Prob |Z| = 0.5978 T-Test Approx. Significance = 0.5983 Kruskal-Wallis Test (Chi-Square Approximation) CHISQ = 0.27949 DF
10、= 1 Prob CHISQ = 0.5970结果分为四部分:两样本的秩和的有关统计量,Wilcoxon两样本检验的结果,t检验的近似显著性,Kruskal-wallis检验结果。我们只要看Wilcoxon检验的p值Prob |Z| = 0.5978 ,检验结果不显著,可认为男、女生的GPA分数在0.05水平下无显著差异。SAS/INSIGHT中未提供两独立样本检验的功能。成对总体均值检验我们在现实中经常遇到两个总体是相关的测量结果的比较,比如,考察同一组人在参加一年的长跑锻炼前后的心率有无显著差异。这时,每个人一年前的心率和一年后的心率是相关的,心率本来较快的人锻炼后仍相对于其它人较快。所以
11、,检验这样的成对总体的均值不能使用两样本t检验的方法,因为独立性条件不再满足。这时,我们可以检验两个变量间的差值的均值是否为零,这等价于检验两组测量值的平均水平有无显著差异。检验单个样本的均值是否为零只要使用UNIVARIATE过程,在UNIVARIATE过程的矩部分给出了均值为零的t检验和符号检验、符号秩检验的结果。例如,我们想知道SATM和SATV这两门考试的成绩有无显著差异(SATM平均值为595.3,SASTV平均值为504.6,我们希望知道差异是否显著)。因为这两个成绩是同一个学生的成绩,所以它们之间是相关的(学得好的学生两科一般都好,学得差的一般两科都差),不能用独立两样本的t检验
12、,但可以计算两变量间的差DMV SATMSATV,检验差值变量的均值是否为零。如果否定,则可认为SATM和SATV的平均值有显著差异。为此,我们先用一个数据步计算差值,然后对差值变量用UNIVARIATE过程进行分析就可以得到结果。程序如下:data new; set sasuser.gpa; dmv = satm - satv; keep dmv;run;proc univariate data=new; var dmv;run;结果(部分)如下: Univariate ProcedureVariable=DMV Moments N 224 Sum Wgts 224 Mean 90.7366
13、1 Sum 20325 Std Dev 92.82931 Variance 8617.28 Skewness -0.10367 Kurtosis -0.34625 USS CSS CV 102.3063 Std Mean 6. T:Mean=0 14.62923 Pr|T| 0.0001 Num = 0 215 Num 0 181 M(Sign) 73.5 Pr=|M| 0.0001 Sgn Rank 9757.5 Pr=|S| 0.0001我们只要看其中的三个检验:T: Mean=0是假定差值变量服从正态分布时检验均值为零的t 统计量值,相应的p值Pr|T|为0.0001在0.05水平下是显
14、著的,所以可认为两科分数有显著差异。M(Sign)是非参数检验符号检验的统计量,其p值Pr=|M|为0.0001在0.05水平下是显著的,结论不变。Sgn Rank是非参数检验符号秩检验的统计量,其p值Pr=|S|为0.0001 在0.05水平下是显著的,结论不变。所以这三个检验的结论都是两科成绩有显著差异。如果t检验对立假设是单边的,其p值算法与上面讲的两样本t检验p值算法相同。在SAS/INSIGHT中比较成对样本均值的显著差异,同样是先计算两变量的差值变量(在“Edit | Variables | Other”菜单中,指定两个变量,指定两个变量间的计算为减法,则可以生成差值变量,可以用数
15、据窗口菜单的“Define Variables”改变量名),然后对此差值变量选“Analyze | Distribution”,选“Tables | Location Tests”并选中t检验、符号检验和符号秩检验即可在分布窗口显示结果。回归分析本节先讲述如何用SAS/INSIGHT进行曲线拟合,然后进一步讲如何用SAS/INSIGHT进行线性回归,简单介绍SAS/INSIGHT的广义线性模型拟合,最后介绍如何用编程进行回归分析。用SAS/INSIGHT进行曲线拟合两个变量Y和X之间的相关关系经常可以用一个函数来表示,一元函数可以等同于一条曲线,实际工作中经常对两个变量拟合一条曲线来近似它们的
16、相关关系。最基本的“曲线” 是直线,还可以用多项式、样条函数、核估计和局部多项式估计。其模型可表示为例如,我们要研究SASUSER.CLASS数据集中学生体重与身高之间的相关关系。为此,我们可以先画出两者的散点图(Analyze | Scatter plot)。从图中可以看出,身高越高的人一般体重越重。我们可以把体重作为因变量、身高作为自变量拟合一条回归直线,只要选 “Analyze | Fit (Y X)”,并选体重为Y变量,身高为X变量,即可自动拟合出一条回归直线,见图 1。窗口中还给出了拟合的模型方程、参数估计、诊断信息等,我们在下一小节再详细介绍。在拟合了直线后,为拟合多项式曲线,只要
17、选“Curves | Polynomial”,然后输入阶次(Degree(Polynomial)),就可以在散点图基础上再加入一条多项式曲线。对于本例,我们看到二次多项式得到的曲线与直线差别很小,所以用二次多项式拟合没有优势。还可以试用三次、四次等多项式。为了改变阶次还可以使用拟合窗口中的多项式阶次滑块(Parametric Regression Fit中的Degree(Polynomial))。样条曲线是一种非参数回归的曲线拟合方法。光滑样条为分段的三次多项式,曲线在每一段内是一个三次多项式,在两段的连接点是连续、光滑的。为拟合样条曲线,只要选“Curves | Spline”,使用缺省的G
18、CV准则(广义交叉核实)来选取光滑系数(光滑系数c越大,得到的曲线越光滑,但拟合同时变差,光滑系数c小的时候得到的曲线较曲折,而拟合较好),就可以在散点图的基础上画出样条曲线。可以用光滑系数c的滑块来调整曲线的光滑程度/拟合优度。对于本例,GCV准则得到的样条曲线与回归直线几乎是重合的,说明直线拟合可以得到满意的结果。核估计是另一种非参数回归的曲线拟合方法。它定义了一个核函数 ,例如使用标准正态分布密度曲线,然后用如下公式估计经验公式 :其中 为光滑系数, 越大得到的曲线越光滑。为了画核估计曲线,只要选“Curves | Kernel”,权重函数使用缺省的正态核,选取光滑系数的方法采用缺省的G
19、CV法,就可以把核估计图附加到散点图上。本例得到的核估计曲线与回归直线、样条曲线有一定差别。可以手动调整光滑系数 的值,可以看到,当 过大时曲线不仅变光滑而且越来越变水平,因为这时的拟合值基本是一个常数,这与样条曲线的情形不同,样条曲线当 增大时曲线变光滑但不趋向于常数(水平线)。局部多项式估计(Loess)是另一种非参数回归的曲线拟合方法。它在每一自变量值处拟合一个局部多项式,可以是零阶、一阶、二阶,零阶时与核估计相同。SAS/INSIGHT缺省使用一阶(线性)局部多项式。改变Loess的系数alpha可以改变曲线的光滑度。alpha增大时曲线变光滑,而且使用一阶或二阶多项式时曲线不会同时变
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 基本 统计 功能 应用
限制150内