书签分享收藏举报版权申诉 / 34

立即下载

当前位置：首页 > 教育专区 > 高考资料 > SAS数据分析与统计(34页).doc

SAS数据分析与统计(34页).doc

上传人：1595****071

文档编号：36743505

上传时间：2022-08-28

格式：DOC

页数：34

大小：659.50KB

( 4.5 )

《SAS数据分析与统计(34页).doc》由会员分享，可在线阅读，更多相关《SAS数据分析与统计(34页).doc（34页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、-一、二、三、 SAS数据分析与统计-第 34 页四、数据集的建立1.导入Excel数据表的步骤如下： 1) 在SAS应用工作空间中，选择菜单“文件”“导入数据”，打开导入向导“Import Wizard”第一步：选择导入类型（Select import type）。 2) 在第二步的“Select file”对话框中，单击“Browse”按钮，在“打开”对话框中选择所需要的Excel文件，返回。然后，单击“Option”按钮，选择所需的工作表。（注意Excel文件要是2003的！） 3) 在第三步的“Select library and member”对话框中，选择导入数据集所存放的逻辑库

2、以及数据集的名称。 4 ) 在第四步的“Create SAS Statements”对话框中，可以选择将系统生成的程序代码存放的位置，完成导入过程。2.用INSIGHT创建数据集 1）启动SAS INSIGHT模块，在“SAS INSIGHT：Open”对话框的”逻辑库“列表框中，选定库逻辑名 2）单击“新建”按钮，在行列交汇处的数据区输入数据值（注意列名型变量和区间型变量，这在后面方差分析相关性分析等都要注意！）3）数据集的保存: “文件” “保存” “数据” ；选择保存的逻辑库名，并输入数据集名；单击“确定”按钮。即可保存新建的数据集。3.用VIEWTABLE窗口建立数据集1）打开

3、VIEWTABLE窗口2）单击表头顶端单元格，输入变量名3）在变量名下方单元格中输入数据4）变量类型的定义：右击变量名/column attributes4.用编程方法建立数据集DATA 语句； /*DATA步的开始，给出数据集名*/Input 语句；/*描述输入的数据，给出变量名及数据类型和格式等*/ （用于DATA步的其它语句）Cards； /*数据行的开始*/ 数据行； /*数据块的结束*/ RUN; /*提交并执行*/ 例子：data=数据集名字mylib.a;input name$ phone room height; ($符号代表该列为列名型，就是这一列是文字！比如名字，性别，科

4、目等等)cards;rebeccah 424 112 1.5648 （中间是数据集，中间每一行末尾不要加逗号，但是carol 450 112 5.6235 数据集最后要加一个分号！）louise 409 110 1.2568gina 474 110 1.3652mimi 410 106 1.6542alice 411 106 1.6985brenda 414 106 1.3698brenda 414 105 1.8975david 438 141 1.6547betty 464 141 1.5647holly 466 140 1.5624proc print data=whb.phones;

5、（这一过程步是打印出数据集，可要可不要！） run; *数据集中的框架我会用加粗来显示，大家主要记加粗的，下面的编程部分都是这样！二、基本统计分析1. 用INSIGHT计算统计量1）在INSIGHT中打开数据集在菜单中选择“Solution（解决方案）”“Analysis（分析）”“Interactive Data Analysis（交互式数据分析）”，打开“SAS/INSIGHT Open”对话框，在对话框中选择数据集，单击“Open（打开）”按钮，即可在INSIGHT中打开数据窗口2）选择菜单“Analyze（分析）”“Distribution (Y)（分布）”，打开“Distributi

6、on (Y)”对话框。在数据集的变量列表中，选择分析变量X、分组变量Y。（注意：分组变量就是那种可以区别不同种类的变量，例如地区编号、科目、组号等等，而分析变量一般是需要分析的数据，例如成绩，身高书目）3）单击“Output（输出）”按钮，在打开的对话框中包含描述性统计量选项。4）选择选项矩统计量和分位数，取消默认的选项：“Box Plot/Mosaic Plot”和“Histogram/Bar Chart”，单击“OK”按钮，即可得到变量按分组的各种矩统计量（Moments）和分位数（Quantiles）*描述性统计选项：Moments 矩统计量 Quantiles分位数见书P37 B

7、asic Confidence Intervals 基本置信区间Tests for Location 位置检验 Frequency Counts 频数统计Robust Measures of Scale 尺度的稳健估计Tests for Normality 正态性检验2. 用“分析家”计算统计量1）启动“分析家” 选择主菜单“Solutions（解决方案）”“Analysis（分析）”“Analyst（分析家）”，打开“分析家”窗口。选择主菜单“File（文件）”“按SAS名称打开”，打开“选择成员”对话框，选择数据集。2）通过Summary Statistics菜单计算描述性统计量选择主

8、菜单“Statistics(统计)”“Descriptive（描述性统计）”“Summary Statistics（汇总统计量）”，打开“Summary Statistics”对话框，选择变量列表中分析变量，单击“Analysis”按钮，选定分析变量单击“Statistics”按钮，打开“Summary Statistics：Statistics”对话框。对话框中列出可以计算的所有统计量。3）通过Distributions菜单计算描述性统计量选择主菜单“Statistics(统计)”“Descriptive（描述性统计）”“Distributions（分布）”，打开“Distribution

9、s”对话框，选择变量列表中的分析变量，单击“Analysis”按钮。单击“OK”按钮，即可得到关于分析变量的矩统计量和基本统计测度。3.用编程方法计算统计量1）FREQ过程FREQ过程包括多个控制频数输出与检验的语句和选项，格式如下：PROC FREQ DATA = ; TABLES ; FORMAT . . ;RUN;其中PROC FREQ语句调用FREQ过程，标志FREQ过程的开始；TABLES语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算，可以多次使用。例如：proc freq data = mylib.sryzc; tables R_Id Income;RUN;这个语句

10、提供了频数，所占百分数，累计频数，和累计百分数！2. MEANS过程 MEANS过程的一般格式：PROC MEANS DATA=； VAR ； BY ； CLASS ；RUN；例如：proc means data = mylib.sryzc; var Income;run;PROC MEANS语句后的选项主要用来指定所要计算的统计量，默认情况下， MEANS过程会给出频数、均数、标准差、最大值和最小值等，其余统计量的计算均需要在选项中指定。 VAR语句引导所要进行分析的所有变量的列表，SAS将对VAR语句所引导的所有变量分别进行描述性统计分析。 BY语句与CLASS语句所指定的分类变量用来进行

11、分组统计，但输出格式不同。3. 使用统计量关键字列表1）在PROC MEANS语句中使用统计量关键字列表：proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min; var Income;Run;关键字所代表的含义关键字所代表的含义n 有效数据记录数range 极差nmiss 缺失数据记录数skewness 偏度mean 均值kurtosis 峰度std 标准差t 分布位置假设检验之t统计量stderr 标准误probt 上述t统计量对应的概率值var 方差q1 第一四分位数median 中位数q3 第三四

12、分位数mode 众数qrange 四分位数间距cv 变异系数p1 第一百分位数max 最大值p5 第五百分位数min 最小值p10 第十百分位数sum 总计p90 第九十百分位数sumwgt 加权值总计p95 第九十五百分位数css 校正平方和p99 第九十九百分位数uss 未校正平方和2）使用CLASS语句和BY语句使用CLASS语句和BY语句可以分组计算分析变量的描述统计量值，由CLASS语句和BY语句指定的变量在分析中起分组（类）的作用，被称为分类变量。两个语句的区别是：使用BY语句时要求数据集须按BY变量排序，使用CLASS语句无此要求。使用BY语句时输出按BY变量的每个值分别提

13、供一个表，使用CLASS语句则将所有结果排列在一个表之中。使用BY语句之前先排序，可以在按分组变量统计：（p46）例如：proc sort data = mylib.sryzc; by R_Id;run;proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min; var Income; by R_Id;run;使用CLASS语句分组较为简单，也可以在按分组变量统计（p47） proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 ma

14、x min; var Income; class R_Id;RUN;3. UNIVARIATE过程（推荐使用） UNIVARIATE过程的一般格式为：PROC UNIVARIATE DATA = ； VAR ; BY | CLASS ; HISTOGRAM /; OUTPUT OUT = = ;RUN；UNIVARIATE过程和MEANS过程的格式非常相似，相同的语句和选项其含义也相同，所不同的是某些统计量只能在UNIVARIATE过程中计算（如众数），而且UNIVARIATE过程中具有绘图功能。其中，HISTOGRAM语句用来指示SAS对其后所指定的变量绘制直方图，其后的选项用来指示SAS

15、添加不同类型的拟合图形（如正态分布的分布密度曲线）。输出包括五个部分: 第一部分是矩统计量，各统计量已作了介绍。第二部分为基本的位置和分散程度统计量，位置统计量包括均值、中位数、众数，分散程度统计量包括标准差、方差、极差、四分位间距第三部分为关于均值等于零的三种检验的结果，包括t检验、符号检验和符号秩检验。第四部分为各个重要的分位数。第五部分是观测数据的五个最低值和五个最高值。*因为这个编程含有最齐全的结果，大家做一个这个编程，所有的数据就可以自己调了，但是要找到那个对的哦！三、程序绘图1. GCHART过程 (1) 语法格式 PROC GCHART DATA = ； /RUN；v G

17、续性图形的图案按数字列表中的中心点值|并排分组值|重叠分组值的次序呈现SUMVAR = 变量名（数值变量）指定要进行统计计算的变量，也就是“TYPE = 统计量关键字”选项中统计量的计算所依据的变量举例啦！2）画条形图（直方图）例如： proc gchart data = mylib.sryzc; vbar Income; （分析变量！）run;其中绘图用的变量用VBAR语句给出，如果把VBAR改成HBAR则条形方向变为横向。用GCHART绘制的条形图和在INSIGHT中绘制的直方图有所不同，它在横轴标的是区间的中点值，而在INSIGHT中横轴标的是区间的端点值。可以指定分组的变量，例如在

18、每个区段内再分段（就可以出现一个条形出现两个颜色哦！）proc gchart data = mylib.sryzc;vbar Income / subgroup = R_Id; (前一个是分析变量，后一个是分组变量哦)run;3) 画三维条形图使用BLOCK关键字可以画三维条形图。例如，画出数据集中Income变量的三维条形图的代码如下：proc gchart data = mylib.sryzc; block Income/ group = R_Id; (前一个是分析变量，后一个是分组变量)Run;4）画饼形图使用PIE关键字可以画饼形图，PIE3D关键字可以画三维饼形图。例如，画出数据

19、集中Income变量的三维饼形图的代码如下：proc gchart data = mylib.sryzc; PIE3D Income; （分析变量哦！）run;2使用GPLOT过程绘制散点图和连线图1）GPLOT过程的一般格式PROC GPLOT DATA = ; PLOT * = /; SYMBOLn ;RUN；PLOT语句的选项选项意义说明FRAM | NOFRAM 在图形四周加入或不加入边框默认为加入缺省为加入CFRAM = 颜色边框内的颜色默认为白色缺省为白色AUTOHREF(AUTOVEREF) 在水平(垂直)轴的每个主刻度处加入水平(垂直)参考线NOAXIS 取消坐标轴及相关的

20、图形元素CAXIS = 颜色设定轴的颜色CTEXT = 颜色设定与轴相关字符的颜色HAXIS = 值列举设定水平轴主刻度的值VAXIS = 值列举设定垂直轴主刻度的值overlay 多个图共坐标散点图绘制家庭总收入对家庭总支出的散点图，代码如下：proc gplot data = mylib.sryzc; plot Income*outgo; （分析变量哦！）run;如果换成这个样子，图像上面会出现星星或点型，而且线条颜色不同proc gplot data = mylib.sryzc; plot Income*outgo = r_id; symbol1 color=black v = star

21、; symbol2 color=blue v = dot;run;连线图为了绘制连线，只要在SYMBOL语句中指定i = join。例如绘制家庭总收入对家庭编号的连线图，代码如下：proc gplot data = mylib.sryzc; plot Income*id; symbol i=join v=star;run;也可以分地区绘制家庭总收入对家庭编号的连线图，代码如下：如果换成这个样子，图像上面会出现星星或点型，而且线条颜色不同proc gplot data = mylib.sryzc; plot Income*id=r_id; symbol1 color=black i=join v

22、 = star; symbol2 color=blue i=join v = dot;run;四、正态性检验1. 分布拟合图用“insight”绘图选择菜单“Analyze（分析）”“Distribution (Y)（分布）”，打开“Distribution (Y)”对话框设置正态性！2.绘制QQ图要选择QQ图的选项！1）选择菜单“Curves（曲线）”“QQ Ref Line（QQ参考线）”，打开“QQ Ref Line”对话框。选择“Method（方法）”栏下的“Least Squares（最小二乘）”单击“OK”按钮得到带参考线的QQ图选择最小二乘法！2）选择菜单“Graphs

23、（图形）”“QQ Plot（QQ图）”，打开“QQ Plot”对话框。选择“Distribution（分布）”栏下的“Lognormal QQ Plot（对数正态QQ图）”，单击“OK”按钮得到对数正态QQ图选择对数正态！3.正态性检验注意：前两种检验都是从图线上直观看出结果，不是很准确，最后这种是最准确的！建议大家做正态性检验时，用这种方法！1）在INSIGHT中继续上述操作：选择菜单“Curves（曲线）”“Test for Distribution（分布检验）”，打开“Test for Distribution”对话框。单击“OK”按钮，得到分析变量的经验分布和拟合的正态累计分布曲线图

24、。2）列举了拟合正态分布的均值（即样本均值）和标准差（即样本标准差），并提供了Kolmogorov D统计量的数值0.1377，而相应的p值 0.05 = ，所以不能拒绝原假设，可以认为分析变量总体分布为正态分布。这是检验的一步，注意看P值与0.05的比较，当P值大于0.05时，就可以确定这个分析变量总体分布为正态分布！在“分析家”绘图1. 绘制分布拟合图和QQ图 1）首先在“分析家”中打开数据集； 2）选择主菜单“Statistics” “Descriptive” “Distributions”，打开“Distributions”对话框。选择分布拟合图和QQ图！2. 分布检验 1）继续上

25、述步骤。在分析家窗口的项目管理器中双击“Fitted Distributions of Gcjg”项，得到检验结果2）分析结果时，注意看P值与0.05的比较，当P值大于0.05时，就可以确定这个分析变量总体分布为正态分布！用编程方法进行检验用编程方法是最方便的方法，也比较省时间，所以建议大家用这种方法！使用UNIVARIATE过程在PROC UNIVARIATE语句中加上NORMAL选项可以进行正态性检验。例如：proc univariate data = Mylib.yczl normal; var weight; （分析变量！）run;检验结果：结果中给出了分析变量的四种正态性检验结果

26、，其中Shapiro-Wilk检验是首选的。当看到p值很大大于0.05，所以在0.05水平下不能拒绝原假设，即认为分析变量服从正态分布五、假设实验1 总体均值的区间估计用“insight”计算统计量1) 启动INSIGHT模块，并打开数据集；2) 选择菜单“Analyze（分析）”“Distribution(Y)（分布）”；3) 在打开的“Distribution(Y)”对话框中进行区间估计的设置将分析变量放入Y4）单击Output,在打开的对话框中选中Basic Confidence Interval5) 两次单击OK按钮结果包括一个名为“95Confidence Intervals（95

27、%置信区间）”的列表，表中给出了均值、标准差、方差的估计值（Estimate）、置信下限（LCL）和置信上限（UCL）若想得到其他置信水平的置信区间：选择“表” “置信区间” “其他”，然后可以修改置信水平用“分析家”计算统计量 1) 在“分析家”模块中打开数据集； 2) 选择菜单“Statistics(统计)”“Hypothesis Tests(假设检验)”“One Sample t test for a Mean(单样本均值t - 检验)”；3) 在打开的“One Sample t test for a Mean”对话框中设置均值的置信区间先选择分析变量，然后单击“test”后选择“in

28、terval”，写置信区间用编程方法计算统计量Means过程实现： proc means data=sasdata.yczl clm alpha=0.05; /*关键字clm用于计算置信区间，“alpha=”用于指定显著性水平 */var weight; （分析变量！）run;ttest过程实现： proc ttest data=sasdata.yczl alpha=0.05; /* “alpha=”用于指定显著性水平 */var weight;run;univariate过程实现： proc univariate data=sasdata.yczl cibasic(alpha=0.05);

29、/* 关键字“cibasic(alpha=)”用于指定显著性水平 */var weight;run;重点介绍使用TTEST过程：TTEST过程可以执行单样本均值的t检验、配对数据的t检验以及双样本均值比较的t检验。语法格式 PROC TTEST ； CLASS ； VAR ； PAIED ； BY ； RUN；第一句和最后一句是必需的，中间的可以交换位置！CLASS语句所指定的分组变量是用来进行组间比较的；而BY语句所指定的分组变量是用来将数据分为若干个更小的样本，以便SAS分别在各小样本内进行各自独立的处理。 VAR语句引导要检验的所有变量列表，SAS将对VAR语句所引导的所有变量分别进行

30、组间均值比较的t检验。 PAIED语句用来指定配对t检验中要进行比较的变量对，其后所带的变量名列表一般形式及其产生的效果见表变量名列表形式产生的效果a*ba ba*b c*da b, c d(a b)*(c d)a c, a d, b c, b d(a b)*(c b)a c, a b, b cPROC TTEST语句后可跟的选项及其表示的含义如表所示选项代表的含义data =等号后为SAS数据集名，指定ttest过程所要处理的数据集，默认值为最近处理的数据集alpha =等号后为01之间的任何值，指定置信水平，默认为0.05ci =等号后为“equal, umpu, none”中的一个，表示

31、标准差的置信区间的显示形式，默认为ci = equalcochran有此选项时，ttest过程对方差不齐时的近似t检验增加cochran近似法h0 =等号后为任意实数，表示检验假设中对两均值差值的设定，默认值为0 2. 总体均值的置信区间1）使用最简代码求均值、标准差的置信区间： proc ttest data = sjcj; run;2）结果分析：代码运行结果给出两个变量在95%置信水平下的均值、标准差的置信区间，以及对原假设0= 0所作的t检验的p值3. 单样本总体均值的假设检验 proc ttest h0=70 alpha = 0.01 data=sjcj; var A; run; 结

32、果分析：代码运行结果除了给出变量A在99%置信水平下的均值、标准差的置信区间外，还给出对假设0 = 70，所作的t-检验的p值注意：颜色一样的地方是代码所代表的含义，一一对应的！显示t统计量的p值大于0.05时，不能拒绝原假设：均值 = 70。4. 配对两样本均值的假设检验 proc ttest data=sjcj; paired A*B;（两个分析变量！要相关的） run; 代码运行结果给出了对原假设1 2 = 0所作的t检验的p值结果分析：显示t统计量的p值 0.05，因此拒绝原假设，p值0.05，不能拒绝原假设。5. 独立两样本均值的假设检验过程TTEST还可以用于进行独立双样本均值比

33、较的t检验法。它的用法为 PROC TTEST DATA = ; CLASS ; VAR ; RUN;使用这一格式要求将两个样本中被比较均值的变量的观测值记在同一分析变量下，不同的样本用另一个分类变量的不同值加以区分，而且分类变量只能取两个值，否则将报错。讲分析变量记录在同一分析变量f之下，而两种方法的差别是由分类变量g的值加以区分的。检验代码如下：原理类似后面相关分析和回归分析中的建数据集！ proc ttest data=zzcpsj; class g; var f; run;结果分析：1）在检验中，先看其最后关于方差等式的检验结果，检验方差相等是用的F 统计量，相应的p值0.05 = ，

34、不能拒绝方差相等的假设；当P值0.05时，方差不相等，看第三步。2）在方差相等的前提下，检验均值差异使用Pooled方法，对应统计量的t值为2.16，相应的p值为0.05 = ，所以两种方法所需的时间是有显著差异的，若p值0.05，则两种变量没有显著差异。 3）在异方差的情况下，使用Satterthwaite法检验均值的差异。关于置信区间1. 总体比例的置信区间 1) 在“分析家”中打开数据集；2) 选择主菜单“Edit（编辑）”“Mode（模式）”“Edit（编辑）”，使数据集可以被编辑（修改）；3) 选择主菜单“Data（数据）”“Transform（变换）”“Recode Range

35、s（重编码范围）”，打开“Recode Ranges Information”对话框4) 单击“OK”按钮，打开“Recode Ranges”对话框，按图3-18右所示生成新变量price_f注意列类型要改变，还要写明名称！6) 选择菜单“Statistics（统计）”“Hypothesis Tests（假设检验）”“One Sample Test for a Proportion（单样本比例检验）”；7) 在打开的“One Sample Test for a Proportion”对话框中选择分析变量，然后按章前面所示设置置信区间。2. 总体方差的置信区间1) 在“分析家”中打开数据集； 2

36、) 选择菜单“Statistics（统计）”“Hypothesis Tests（假设检验）”“One Sample Test for a Variance（方差的单样本检验）”3）在打开的“One Sample Test for a Variance”对话框中设置方差的置信区间，还是如以前所示！3. 两样本总体方差的比较若s1和s2分别表示两个分析变量的方差，则检验的是： H0：s1 s2，H1：s1 s2；检验步骤如下：1) 首先，将数据生成数据集，两个分析变量可用两个变量表示，如分别用s和w表示。2) 在分析家中打开数据集后，选择菜单“Statistics”“Hypothesis Tes

37、ts”“Two-Sample Test for Variance（双样本方差检验）”，打开“Two-Sample Test for Variance”对话框并按图设置；单击“OK”按钮，得到分析结果。注意要选两个变量！六、方差分析1单因素方差分析用INSIGHT进行分析1）整理所给数据，创立数据集。（在方差分析中，这第一步是非常重要的。我感觉，做单因素分析时创立的数据集中只有两列：一列是代表分类变量的，即科目，行业，编号等等，一定要用列名型；另一列是代表分析变量的，即所需要分析的具体数据，即分数，次数等等，一定要用区间型！大家建完数据集之后自己可以检查下哈！）2) 在INSIGHT模块中打

38、开数据集；3) 选择菜单“Analyze（分析）”“Fit（拟合）”，在打开的“Fit(X Y)”对话框中按图选择分析变量；注意：X中放分类变量，即列名型；Y中放分析变量，即区间型！4) 单击“OK”按钮，得到分析结果。5）结果分析：第一张表提供拟合模型的一般信息: 第二张表为列名型变量信息；第三张表提供参数信息，并且约定，P_2、P_3、P_4、P_5分别标识变量（也称哑变量）。第四张表给出响应变量均值关于自变量不同水平的模型方程第五张表给出模型拟合的汇总信息，其中：R-Square（R2）是判定系数（coefficient of determination），阐明了自变量所能描述的

39、变化（模型平方和）在全部变差平方和中的比例，它的值总在0和1之间，其值越大，说明自变量的信息对说明因变量信息的贡献越大，即分类变量取不同的值对因变量的影响越显著。Aaj R-Sq（校正R2）是类似于R2的，但它随模型中的参数的个数而修正。第六张为方差分析表。从方差分析表可以看出，p值小于0.05（显著水平），所以拒绝原假设，即不同类别之间有显著差异；如果p值大于0.05，则不能拒绝原假设，不同类别之间无显著差异。第七张表提供III型检验，它是方差分析表的细化，给出了各因素的平方和及F统计量，因为本例是单因素的，所以这一行与上图的“Model”一行相同。第八张为参数估计表，其中有关于不同行业

40、下投诉次数差异的估计和检验： 1) 根据标识变量的定义，Intercept后的估计47.4是对应于旅游业投诉次数的均值，其后的t检验是检验这一均值是否为0。这里p值0.0001 0.05，所以航空业与旅游业的被投诉次数没有显著差异的。其它分析类似。6）检验模型假定：不要忘了哦！为了验证残差为正态分布的假定，回到数据窗口。可以看到R_TOUSU（残差）和P_TOUSU（预测值）已加到数据集之中，下面用Distribufion(Y)来验证残差的正态性。 1) 选择菜单“Analyze（分析）”“Distribution(Y)（分布）”； 2) 在打开的“Distribution(Y)”对话框中选

41、定分析变量：R_TOUSU；单击“OK”按钮； 3) 选择菜单“Curves（线）”“Test for Distribution（分布检验）”；在打开的“Test for Distribution”对话框中直接单击“OK”按钮。在检验结果的“Test for Distribution”表中看到，p值大于0.05，不能拒绝原假设，表明可以认为残差是正态分布的；若p值小于0.05，则拒绝原假设，标明残差不是正态分布的。用“分析家”作单因素方差分析1) 在“分析家”中，打开数据集；注意：建立数据集的方法同INSIGHT，这里就不重复了！ 2) 选择菜单“Statistics（统计）”“ANOVA（方

42、差分析）”“One-Way ANOVA（单因素方差分析）”，打开“One-Way ANOVA”对话框；3) 选中分类变量，单击“Independent”按钮，将其移到“Independent（自变量）”框中；选中分析变量，单击按钮“Dependent”，将其移到“Dependent（因变量）”4) 为了检验方差分析中关于方差齐性的假定，单击“Tests”按钮，打开“One-Way ANOVA：Tests”对话框，选中“Tests for equal variance”栏下的“levenes test”复选框（常用），如图左，单击“OK”按钮返回5) 单击“Plots”按钮，打开“One-Way

43、 ANOVA：Plots”对话框，可以选择图形类型，如选中“Types of plots”栏下的“Box-&-whisker plot”复选框，如图右，单击“OK”按钮返回；再次单击“OK”按钮。6）结果分析：结果分为五个部分，第一部分是因素水平的信息，可以看到只有一个分类变量因素，其中包含着几个水平，就是我们分类变量体现的几个种类。第二部分就是经典的方差分析表。由于这里p值小于0.05（显著水平），所以模型是显著的，即因素对指标有显著影响。第三部分是一些与模型有关的简单统计量，第一个是复相关系数平方R2，代表总变差中能被模型解释的比例，第二个是指标的变异系数，第三个是根均方误差，第四个是均值。第四部分是方差分析表的细化，给出了各因素的

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: SAS 数据分析统计 34

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：SAS数据分析与统计(34页).doc
链接地址：https://www.taowenge.com/p-36743505.html