统计分析软件基础教程.pptx
Page1掌握 SAS/Insight的操作掌握SAS/Insight的数据管理掌握SAS/Insight的数据探索内容与要求内容与要求第1页/共89页Page2SASSAS菜单系统简介菜单系统简介1 1InsightInsight的数据管理功能的数据管理功能2 2InsightInsight的其他功能的其他功能4 4InsightInsight的数据探索功能的数据探索功能3 3第2页/共89页Page3SAS菜单系统简介 在在SASSAS系统统计分析功能的使用中,除通过编程方系统统计分析功能的使用中,除通过编程方式外,对常用的分析功能式外,对常用的分析功能SASSAS还提供简便的菜单系统,还提供简便的菜单系统,使得用户不用编程就可以方便地享用使得用户不用编程就可以方便地享用SASSAS的许多深入的许多深入的统计分析功能的统计分析功能.目前已提供的菜单系统有:目前已提供的菜单系统有:SAS/InsightSAS/Insight:是一个进行探索性的交互式数据分是一个进行探索性的交互式数据分析的菜单系统析的菜单系统.SAS/STATSAS/STATAnalyst ApplicationAnalyst Application:是一个为分析是一个为分析员设计的菜单系统员设计的菜单系统.SAS/STATSAS/STATMarketing Research(Marketing Research(市场调查市场调查):是是一个为市场调查数据进行较深入的分析而开发的一个一个为市场调查数据进行较深入的分析而开发的一个菜单系统菜单系统.第3页/共89页Page4 SAS/QC SQCSAS/QC SQC:(质量控制)质量控制):是为企业使用是为企业使用各种质量控制方法而提供的菜单系统各种质量控制方法而提供的菜单系统.SAS/QC(X)ADXSAS/QC(X)ADX:是为安排各种试验和获得是为安排各种试验和获得数据后进行分析的菜单系统数据后进行分析的菜单系统.SAS/ETS SAS/ETS 时间序列预报系统时间序列预报系统(FORECASTFORECAST):):是在运用时间序列分析中为各种建模和预测功是在运用时间序列分析中为各种建模和预测功能而开发的菜单系统能而开发的菜单系统.与统计分析有关的菜单系统还有与统计分析有关的菜单系统还有 向导式数据分析向导式数据分析(LAB)LAB);投资分析;投资分析;企业数据挖掘;企业数据挖掘;排队仿真等等排队仿真等等第4页/共89页Page5 SAS/Insight是一个交互式的数据探索和分析的工具。它将统计方法与交互式的图形显示结合在一起,随时为用户提供数据、图形和分析结果三方面的内容,便于用户发现异常数据及包含在数据中的模式或规律,探索性地使用各种统计分析方法并观察分析结果。它为用户提供一种全新的使用统计分析方法的环境。InsightInsightInsightInsight的数据管理功能的数据管理功能的数据管理功能的数据管理功能第5页/共89页Page6进入SAS/Insight的几种方法:(1)在命令框键入命令 Insight(2)(2)用下拉菜单用下拉菜单 解决方案解决方案(Solutions)(Solutions)分析分析(Analysis)Analysis)交互式数据分析交互式数据分析(Interactive Data Analysis)Interactive Data Analysis)(3)(3)提交提交 Proc InsightProc Insight;(4)(4)建立建立InsightInsight的图标的图标,用图标启动用图标启动.进入进入进入进入SAS/InsightSAS/InsightSAS/InsightSAS/Insight第6页/共89页Page7第7页/共89页Page8 InsightInsight软件提供数据探索和分析中很广泛软件提供数据探索和分析中很广泛的一些方法的一些方法.在在InsightInsight环境下的主菜单包括环境下的主菜单包括文文件件File,File,编辑编辑Edit,Edit,分析分析Analyze,Analyze,表表Tables,Tables,图形图形Graphs,Graphs,曲线曲线Curves,Curves,变量变量VarsVars和和帮助帮助HelpHelp栏目,这些栏目提供栏目,这些栏目提供InsightInsight的功能的功能.FileFile栏目下提供打开数据集栏目下提供打开数据集,存贮数据集、存贮数据集、分析结果的表格和图形的管理分析结果的表格和图形的管理.EditEdit栏目下提供对打开数据集中的变量、栏目下提供对打开数据集中的变量、观测进行增删观测进行增删,设定数据显示格式和窗口管理设定数据显示格式和窗口管理 功能功能.SAS/InsightSAS/InsightSAS/InsightSAS/Insight的功能的功能的功能的功能第8页/共89页Page9 AnalyzeAnalyze栏目下提供分析和作图的功能栏目下提供分析和作图的功能.分析功能分析功能包括分布的拟合检验、线性模型包括分布的拟合检验、线性模型(含回归分析、方差分含回归分析、方差分析析LogisticLogistic回归等回归等)、多变量分析三大类、多变量分析三大类.TablesTables栏目下提供显示分析结果的各种表格功能栏目下提供显示分析结果的各种表格功能.GraphsGraphs栏目下提供生成与分析有关的各种图形,栏目下提供生成与分析有关的各种图形,包括直方图、盒形图、马赛克包括直方图、盒形图、马赛克(mosaic)mosaic)图、线图和三图、线图和三维旋转图等维旋转图等.CurvesCurves栏目下提供与分析有关的各种曲线栏目下提供与分析有关的各种曲线.包括拟包括拟合的分布密度函数和经验累计分布函数图、分位数合的分布密度函数和经验累计分布函数图、分位数-分位数图分位数图(Q Q-Q Q图图)等等.VarsVars栏目下提供由分析结果形成新的变量栏目下提供由分析结果形成新的变量.第9页/共89页Page10SAS/InsightSAS/Insight的帮助信息提供十分广泛的内容的帮助信息提供十分广泛的内容.用户可用户可以通过以通过HelpHelp系统来得到帮助信息系统来得到帮助信息.Help(.Help(帮助帮助)的下拉的下拉菜单菜单(见左下图见左下图)如下:如下:选定对象的帮助选定对象的帮助(Help on Help on Selection)/:Selection)/:提供与加亮区或内提供与加亮区或内容有关的帮助信息容有关的帮助信息.介绍介绍(Introduction):(Introduction):学习学习 SAS/InsightSAS/Insight软件的导引软件的导引.技巧技巧(Techniques):Techniques):学习如何学习如何执行一项特殊任务,比如数据输执行一项特殊任务,比如数据输入、坐标轴和标尺调整等入、坐标轴和标尺调整等.SAS/InsightSAS/Insight的功能的功能-帮助信息帮助信息第10页/共89页Page11 参考(参考(ReferenceReference):可以浏览由下拉菜单列出与可以浏览由下拉菜单列出与SAS/InsightSAS/Insight系统有关的详细信息系统有关的详细信息.索引(索引(IndexIndex):可快速查看可快速查看SAS/InsightSAS/Insight专题的专题的索引索引.SASSAS系统(系统(SAS SystemSAS System):查看查看SASSAS系统专题的一系统专题的一般索引般索引.创建样本创建样本(Create SamplesCreate Samples):在在SASUSERSASUSER库中库中建立样本数据集建立样本数据集(即本使用手册所涉及的即本使用手册所涉及的),执行过程,执行过程的有关信息可从的有关信息可从LOGLOG窗查看窗查看.第11页/共89页Page12在SAS/Insight中,可对SAS数据集进行:(1)用表格方式输入数据生成数据集并浏览;(2)增加变量和观测;(3)修改测量水平;(4)移动变量的显示次序(在数据窗口移动列);(5)创建新的变量;(6)按某个变量的值对数据集进行排序;(7)选取子集;(8)存贮数据.对数据集的操作对数据集的操作第12页/共89页Page13使用下拉菜单进入SAS/Insight后,则显示以下打开数据集的对话窗.输入数据或打开数据集输入数据或打开数据集输入数据或打开数据集输入数据或打开数据集第13页/共89页Page14 如果所要分析的数据还没有生成SAS数据集,则在对话窗中选择新建(New)(即用鼠标单击在新建按钮上),系统将打开一个供用户输入数据的新数据窗口,用户可在该窗口中方便地输入数据.第14页/共89页Page15 如果数据已生成SAS数据集,则从逻辑库(Library)下选中存放数据集的库名字,再从数据集(Data Set)下选中数据集名字(如CLASS),然后按打开(Open)即打开数据窗口,显示该数据集的数值表.数据窗口的左上角给出变量个数和观测个数数据窗口的左上角给出变量个数和观测个数;每每个观测有一个观测序号个观测有一个观测序号,序号前的符号及颜色表示该序号前的符号及颜色表示该观测在作图时使用的符号和颜色;数据表上方除了给观测在作图时使用的符号和颜色;数据表上方除了给变量名外变量名外,还标明每个变量的类型是区间型还标明每个变量的类型是区间型(Int)(Int)或是或是名义型名义型(Nom)(Nom);及每个变量的作用(角色)及每个变量的作用(角色).第15页/共89页Page16变量名变量名观观测测个个数数变量个数变量个数数据窗菜单数据窗菜单观观测测序序号号绘绘图图符符号号和和颜颜色色变量类型变量类型变量的作用变量的作用第16页/共89页Page17点击数据窗口左上角的,弹出的菜单项为用户编辑数据表(如移动行或列的位置、增加变量和观测、定义变量、对观测排序等)提供许多选项.菜单项如下:1.1.查找下一个查找下一个(Find Next)(Find Next):翻卷翻卷数据窗口到下一个被选中的观测数据窗口到下一个被选中的观测 .若没有被选中的观测,则翻卷到当若没有被选中的观测,则翻卷到当前的下一个观测前的下一个观测.2.2.移至第一个移至第一个(Move to First)(Move to First):将选中的观测或变量分别移至数据将选中的观测或变量分别移至数据窗口的第一行或第一列窗口的第一行或第一列.3.3.移至最后移至最后(Move to Last)(Move to Last):将选将选中的观测或变量分别移至数据窗口中的观测或变量分别移至数据窗口的最后一行或最后一列的最后一行或最后一列.窗口菜单窗口菜单窗口菜单窗口菜单浏览数据浏览数据浏览数据浏览数据第17页/共89页Page18 当数据窗口中变量较多时,可以用滚动当数据窗口中变量较多时,可以用滚动条滚动窗口内容来查看。如果某个变量比较条滚动窗口内容来查看。如果某个变量比较重要,可以考虑把它放到第一列的位置,这重要,可以考虑把它放到第一列的位置,这只要先单击该变量的名字选中它,然后在数只要先单击该变量的名字选中它,然后在数据窗的菜单中选据窗的菜单中选 移至第一个移至第一个(Move to FirstMove to First)要把某列移到最后要把某列移到最后,选中它后用选中它后用 移至最后(移至最后(Move to LastMove to Last)第18页/共89页Page19 选中一列只要单击其变量名。如果要选选中一列只要单击其变量名。如果要选中多个列,在选中一个后按住中多个列,在选中一个后按住CtrlCtrl键单击其键单击其它列的名字可以添加选中的其它变量。选中它列的名字可以添加选中的其它变量。选中一个变量后按住一个变量后按住ShiftShift单击另一个变量名则表单击另一个变量名则表示选中这两个变量及它们之间的所有变量。示选中这两个变量及它们之间的所有变量。选中的多个列也可以用选中的多个列也可以用移至第一个移至第一个(Move toMove to FirstFirst)和和移至最后(移至最后(Move to LastMove to Last)菜单项菜单项来移动。来移动。要取消所有选中,只要单击某一单元格而要取消所有选中,只要单击某一单元格而不是行、列标题即可。不是行、列标题即可。第19页/共89页Page20 要选中一个观测(行),只要单击其观测序号要选中一个观测(行),只要单击其观测序号(行号)。选多个观测可以用(行号)。选多个观测可以用CtrlCtrl单击或单击或ShiftShift单击单击的方法。选中的观测也可以用的方法。选中的观测也可以用移移至至第一个第一个(Move to Move to FirstFirst)和和移移至至最后(最后(Move to LastMove to Last)移动到最前或移动到最前或最后。最后。还可以选中某些列同时选中某些行。只要在后还可以选中某些列同时选中某些行。只要在后续的选中操作时用添加选中(续的选中操作时用添加选中(ShiftShift单击或单击或CtrlCtrl单击)单击)即可。用鼠标在数据窗口数值显示部分拖出一个方即可。用鼠标在数据窗口数值显示部分拖出一个方框也可以选定一部分数值框也可以选定一部分数值。选定了列或者行以后,用选定了列或者行以后,用 编辑(编辑(EditEdit)=删除删除(DeleteDelete)菜单可以删除选定的列或行。菜单可以删除选定的列或行。窗口菜单窗口菜单整理数据整理数据第20页/共89页Page21 通过使用通过使用手动工具手动工具(hand tool),hand tool),用户可以把某变用户可以把某变量(或某个行)移到不同的位置上量(或某个行)移到不同的位置上(不一定是第一列不一定是第一列或最后一列或最后一列)。步骤如下:步骤如下:选择选择编辑编辑(Edit)Edit)窗口(Windows)(Windows)工具(Tool)(Tool)浏览数据浏览数据手动工具手动工具第21页/共89页Page22则显示一工具窗口则显示一工具窗口(见右图见右图)。用鼠标单击在工具窗口上用鼠标单击在工具窗口上方的方的“手动手动”工具项上。这时工具项上。这时光标变成一只手的形状。移动光标变成一只手的形状。移动这只手到变量(如这只手到变量(如AGEAGE)名字或)名字或某个行的序号(如序号某个行的序号(如序号5 5)上。)上。按下鼠标左键并按住它,这按下鼠标左键并按住它,这时有一个虚线的矩形作为变量时有一个虚线的矩形作为变量列(或观测行)的轮廓出现。列(或观测行)的轮廓出现。第22页/共89页Page23 拽这个矩形,并把它放到变量拽这个矩形,并把它放到变量NAME(NAME(第第一个变量一个变量)和和SEXSEX(第二个变量第二个变量)之间的分界线之间的分界线上;或某二行上;或某二行(如第如第1010和和1111行行)间的分界线上。间的分界线上。释放鼠标左键,则变量释放鼠标左键,则变量AGEAGE变为数据窗变为数据窗口中的第二个变量;或者第口中的第二个变量;或者第5 5号观测变为第号观测变为第1010号观测。号观测。用鼠标单击在工具窗口上方的用鼠标单击在工具窗口上方的“箭头箭头”工具项上,这时光标还原为原来形状。工具项上,这时光标还原为原来形状。第23页/共89页Page24排序(Sort):选定一个或几个变量(列)对观测按上升或下降的顺序进行排序.在选定了一列的情况下,把数据集按此列从小到大排序;在选定了多列的情况下,由选定的变量次序按这些变量综合排序,比如在SASUSER.CLASS窗口中先选定SEX,再按住Ctrl单击另一选定的变量HEIGHT,然后排序,这样的结果是把数据集先按女生、男生分类排序,然后在女生内部和男生内部分别按身高从小到大排序。窗口菜单窗口菜单数据排序数据排序第24页/共89页Page25 如果没有选定任何列,则弹出一个菜单,询问按哪些变量排序,比如说DATA.BCLASS数据集,可以先点SEX,然后单击Y按钮,把性别加入了排序变量中;再选中HEIGHT,单击Y按钮,把身高作为第二排序变量;再单击排序变量中的HEIGHT,单击Asc/Des按钮(这是要求对身高值要由高到低排序),按OK后数据将按性别分组,然后女生、男生内部分别按身高由高到低排列。第25页/共89页Page26新建观测(New Observations):用于快速插入若干个空数据行,以便输入新观测。弹出一个对话框要求输入添加的观测数,缺省时是100个。添加的空行中字符型数据先置为空值,数值型数据先置为缺失值(用单独的小数点代表)。新变量新变量新变量新变量(New Variables):(New Variables):(New Variables):(New Variables):用于快速加入空列,以便输入新变量用于快速加入空列,以便输入新变量用于快速加入空列,以便输入新变量用于快速加入空列,以便输入新变量.定义变量定义变量定义变量定义变量(Define Variables(Define Variables(Define Variables(Define Variables):):):):将显示对话窗(见下页)。将显示对话窗(见下页)。窗口菜单窗口菜单整理数据整理数据第26页/共89页Page27 用户可以用户可以设置变量类型、设置变量类型、缺省时的角色、缺省时的角色、量测水平、名量测水平、名字和标签字和标签.在这在这一对话窗内,一对话窗内,用户可以改变用户可以改变一个变量或几一个变量或几个变量的名字个变量的名字等属性等属性.第27页/共89页Page28填充值(Fill Value):修改该数据窗口中某个选中变量或观测的数据值,它对生成常数或以常数为增量的等差数列变量值是特别方便的.先选定一个数值型变量,用此命令,将先选定一个数值型变量,用此命令,将弹出一个对话框要求输入起始值弹出一个对话框要求输入起始值(Value)Value)和和增量增量(Increment),Increment),比如起始值填比如起始值填1,1,增量填增量填10,10,则此变量的在各观测中的值分别填入为则此变量的在各观测中的值分别填入为1 1,1111,2121,。第28页/共89页Page29抽取(Extract):从已存在的数据窗口抽取某些列(变量)或行(观测)的数据子集来生成新的数据窗口.此项功能很强,它可以把选定的部分行,部分此项功能很强,它可以把选定的部分行,部分列或者部分行和列抽取出来生成另一个新的数据窗列或者部分行和列抽取出来生成另一个新的数据窗口。比如在口。比如在CLASSCLASS中先选定所有男生的观测,再用添中先选定所有男生的观测,再用添加选择(加选择(ShiftShift或或CtrlCtrl单击)的办法选定单击)的办法选定NAMENAME,AGEAGE和和WEIGHTWEIGHT变量,然后用此命令,可以抽取出一个名变量,然后用此命令,可以抽取出一个名为为SASUSER.CLASS1SASUSER.CLASS1的的数据窗口,此数据窗口中只有数据窗口,此数据窗口中只有姓名,年龄和体重三列及男生的观测行。姓名,年龄和体重三列及男生的观测行。第29页/共89页Page30第30页/共89页Page31可以在主菜单中选 文件(File)保存(Save)数据(Data)把此新数据集保存为SASUSER.CLASS1。这样可以由已有数据集挑选部分列、部分行组成新数据集。第31页/共89页Page32 在数据选项窗口:在数据选项窗口:用户可以选择数据用户可以选择数据表用变量名或变量表用变量名或变量的标签显示;的标签显示;还可以选择还可以选择Enter Enter(回车回车)的方向(如的方向(如向下)和向下)和TabTab的方向的方向(如为向右(如为向右)。数据选项数据选项数据选项数据选项(Data OptionsData OptionsData OptionsData Options):):):):设置控制数据窗口外观和操纵的选项设置控制数据窗口外观和操纵的选项.第32页/共89页Page33 在数据窗口中如果需要修改某一个在数据窗口中如果需要修改某一个值或几个值,只要直接用鼠标点到其单值或几个值,只要直接用鼠标点到其单元格修改,然后按回车键就实现了修改元格修改,然后按回车键就实现了修改。在单元格之间移动可以用鼠标单击、。在单元格之间移动可以用鼠标单击、制表键制表键(Tab)(Tab)、回车、上下光标键等方、回车、上下光标键等方法。法。第33页/共89页Page34 在在SASSAS数数据据集集中中,变变量量分分为为字字符符型型和和数数值值型型.在在InsightInsight中中,为为了了区区分分变变量量在在分分析析中中的的不不同同作作用用,变变量量又又按按其其测测量量水水平平分分为为区区间间型型(interval)(interval)和和名名义义型型或或列列名名型型(nominal).(nominal).对对于于字字符符变变量量系系统统自自动动地地设设置置为为名名义义型型;而而对对数数值值变变量量系系统统自自动动地地设设置置为为区区间间型型.如如果果某某个个数数值值变变量量在在分分析析中中将将作作为为分分类类变变量量,进进行行分分析析 之之 前前 应应 先先 设设 置置 该该 变变 量量 为为 名名 义义 型型(Nominal).(Nominal).整理数据设置测量水平整理数据设置测量水平第34页/共89页Page35在SAS/Insight中,变量按其测量水平分为:区间型的(Interval)名义型的(Nominal)数值型数值型 字符型字符型区间型区间型名义型以连续变化尺度测量具有以连续变化尺度测量具有可进行分析的数值变量可进行分析的数值变量有数值或字符值有数值或字符值用于作分类变量用于作分类变量SASSAS变量变量第35页/共89页Page36 设置变量的测量水平有两种方法:设置变量的测量水平有两种方法:(1)(1)在在数数据据窗窗菜菜单单中中用用定定义义变变量量菜菜单单项项在在对对话框里规定所选中变量的测量水平;话框里规定所选中变量的测量水平;(2)(2)在在数数据据窗窗口口所所选选中中变变量量名名字字的的上上方方显显示示该该变变量量默默认认的的测测量量水水平平。如如果果需需要要修修改改默默认认的的测测量量水水平平,在在该该处处点点击击鼠鼠标标右右键键,从从显显示示的的 两两 种种 测测 量量 水水 平平 选选 中中 所所 需需 要要 的的 区区 间间 型型(interval)(interval)或名义型或名义型(nominal).(nominal).第36页/共89页Page37 如如果果用用户户想想对对已已打打开开的的数数据据窗窗口口再再创创建建一一些新变量,有以下几种方法:些新变量,有以下几种方法:(1)由由 数数 据据 窗窗 菜菜 单单 的的 菜菜 单单 项项 新新 变变 量量(New Variables)来插入新变量;来插入新变量;(2)通通过过 编编辑辑(Edit)变量(Variables)由由生成新变量的计算公式来创建新变量;生成新变量的计算公式来创建新变量;(3)在在统统计计分分析析过过程程中中,如如果果用用户户想想把把分分析析计计算算的的统统计计量量添添加加到到数数据据集集中中,分分析析计计算算后后通通过过主主菜菜单单项项变变量量(Vars)选选择择统统计计量量作作为为数数据据集的新变量集的新变量.整理数据创建新变量整理数据创建新变量第37页/共89页Page38 有时用户想寻找某个变量具有共同特性的观测。例如在有时用户想寻找某个变量具有共同特性的观测。例如在CLASSCLASS数据集中,为了寻找所有男生。步骤以下数据集中,为了寻找所有男生。步骤以下(使用使用CLASSCLASS数数据集,假定据集,假定NAMENAME变量放在第一列变量放在第一列):选择选择编辑(Edit)(Edit)观测(Observations)(Observations)查找查找(Find(Find)则显示则显示查找观测(Find ObservationsFind Observations)对话窗对话窗(见下图见下图)。整理数据查找观测第38页/共89页Page39 选择变量选择变量SEXSEX(记录性别记录性别)。用鼠标左键点。用鼠标左键点击击查找查找观测观测对话窗左边的对话窗左边的CLASSCLASS集变量列表中集变量列表中的变量的变量SEXSEX,表示选中它表示选中它。在上图中,对话窗在上图中,对话窗右边的右边的值值(Value(Value)列表中列出了变量列表中列出了变量SEXSEX的所有的所有取值;并用上图对话窗取值;并用上图对话窗中间检查中间检查(Test(Test)的等号的等号(=)(=)来选择来选择SEXSEX等于右边等于右边ValueValue表中第二个值表中第二个值(即即“M M”)的观测。的观测。选择选择SEXSEX的的值值(Value(Value)为为“M M”。如果选多。如果选多个值,个值,可以通过可以通过Shift+Shift+击或击或CTRL+CTRL+击来选择这击来选择这些值些值。第39页/共89页Page40 用鼠标击在用鼠标击在应用应用(Apply)(Apply)按钮上来寻找符按钮上来寻找符合条件的中学生所对应的观测。此时选择观测合条件的中学生所对应的观测。此时选择观测时并没有关闭查找观测对话窗。当选择符合条时并没有关闭查找观测对话窗。当选择符合条件的观测后,若点击在件的观测后,若点击在确定确定(OK)(OK)按钮上,则关按钮上,则关闭查找观测对话窗。至此,闭查找观测对话窗。至此,SEX=SEX=M M的所有的所有观测被加亮。观测被加亮。从数据窗菜单上选择从数据窗菜单上选择查查找下一个找下一个(Find Next)(Find Next)数据窗口将往下滚动,使得具有数据窗口将往下滚动,使得具有SEX=SEX=M M 的观测移到数据窗口的顶部。的观测移到数据窗口的顶部。第40页/共89页Page41 从数据窗菜单选择从数据窗菜单选择移至第一个移至第一个(Move to(Move to First)First)。允许用户把选择的观测集中在一起查允许用户把选择的观测集中在一起查看,即所有选择的观测都移到数据窗口的开始看,即所有选择的观测都移到数据窗口的开始位置。位置。从数据窗菜单选择从数据窗菜单选择抽取,抽取,可以抽取出一个可以抽取出一个名为名为CLASS1CLASS1的的数据窗口,此数据窗口中只有包数据窗口,此数据窗口中只有包含男生所的观测行。含男生所的观测行。可把查找后抽取出来的观测存贮为可把查找后抽取出来的观测存贮为SASSAS数数据集,以备后用。据集,以备后用。第41页/共89页Page42 在数据窗口,为了存贮输入的数据或修改在数据窗口,为了存贮输入的数据或修改后的新数据窗口的数据:后的新数据窗口的数据:选选文件文件(File)(File)保存(Save)数据(Data)保存数据保存数据第42页/共89页Page43则显示以下的则显示以下的保存数据保存数据(Save Data)窗口窗口.首先选择存首先选择存贮数据的逻辑库贮数据的逻辑库(如如WORK),WORK),并输入数据集的名字并输入数据集的名字,然后然后按按确定确定(OK)(OK)即完成新数据窗口中数据的保存即完成新数据窗口中数据的保存.第43页/共89页Page44练 习 题1 1、浏览数据表:、浏览数据表:数据集数据集DST.FITNESSDST.FITNESS记录了某健身俱乐部客户的基记录了某健身俱乐部客户的基本数据本数据 (1)(1)用用InsightInsight打开数据集打开数据集DST.FITNESS,浏览该数据浏览该数据集。该数据集有多少个变量,多少个观测值?变量是集。该数据集有多少个变量,多少个观测值?变量是否使用标签否使用标签?第44页/共89页Page45 (2)(2)把变量把变量AgeAge移到数据表的第二列移到数据表的第二列,而变量而变量groupgroup移到数据表的第三列移到数据表的第三列;(3)(3)对以下变量确定其类型和测量水平:对以下变量确定其类型和测量水平:变量变量 类型类型 测量水平测量水平 RUNTIME RUNTIME RUNPULSE RUNPULSE (4)(4)对变量对变量GROUPGROUP加上标签名加上标签名 “客户分组客户分组”.第45页/共89页Page462 2、数据集排序、数据集排序:(1)(1)按变量按变量OXYGENOXYGEN对数据集从大到小重新排序对数据集从大到小重新排序;(2)(2)按变量按变量GROUPGROUP和和OXYGEN排序,找出各种排序,找出各种GROUP中中OXYGEN最大的数值。最大的数值。3 3、建立新变量、建立新变量:创建一个名为创建一个名为RATIORATIO的新变量,其值等于的新变量,其值等于OXYGEN与与RUNTIMERUNTIME的比,并在其标签名中注明的比,并在其标签名中注明.4 4、创建数据集的子集:、创建数据集的子集:将数据集中的所有将数据集中的所有oxygenoxygen大于大于5050的客户抽取出来,的客户抽取出来,生成新的数据集,并把它另存为生成新的数据集,并把它另存为WORK.maxoxygen.WORK.maxoxygen.第46页/共89页Page47Insight的数据探索功能 InsightInsight除除完完成成数数据据管管理理及及基基本本统统计计分分析析的的功功能能外外,还还有有非非常常强强的的图图形形功功能能,可可以以绘绘制制如如直直方方图图或或条条形形图图、盒盒形形图图或或散散布布图图、连连线线图图、等等高高线线图图、旋旋转转图图等等,进进一一步步地地还还有有分分布布拟拟合合和和检检验验(Distribution)、线线性性模模型型的的拟拟合合(Fit)和多变量分析和多变量分析(multivariate).重重点点介介绍绍用用Insight进进行行数数据据探探索索的的图图形形功功能能.第47页/共89页Page48数据探索的一维方法数据探索的一维方法直方图或条形图直方图或条形图 SAS/InsightSAS/Insight提供了十分方便的数据探索功能提供了十分方便的数据探索功能.对一维数据对一维数据,可以作直方图、盒形图、马赛克图可以作直方图、盒形图、马赛克图,对二对二维数据维数据,可以作散点图、曲线图、散点图矩阵可以作散点图、曲线图、散点图矩阵,对三维对三维数据可以作旋转图数据可以作旋转图(三维散点图三维散点图).).在图上可以选定一在图上可以选定一些观测些观测,这些选择结果会同时反映在数据窗口和其它这些选择结果会同时反映在数据窗口和其它图中图中.以以SASUSER.CLASSSASUSER.CLASS数据集为例数据集为例.选定变量选定变量EIGHTEIGHT,由由 分析分析(AnalyzeAnalyze)直方图直方图/条形图条形图Histogram/Bar Charts(Y)Histogram/Bar Charts(Y))菜单可以打开一个图形)菜单可以打开一个图形窗口生成身高的分布直方图(也称柱状图)窗口生成身高的分布直方图(也称柱状图).第48页/共89页Page49第49页/共89页Page50 直方图的每一个条形代表了绘图变量(直方图的每一个条形代表了绘图变量(HEIGHTHEIGHT)在一个区间范围内的取值情况在一个区间范围内的取值情况,比如比如144144到到152152之间的之间的条形代表身高在条形代表身高在144144到到152152厘米的人厘米的人,条形高度为该组条形高度为该组频数频数,即取值在这一区间内的观测个数即取值在这一区间内的观测个数,可以看出这一可以看出这一组只有组只有9 9个学生个学生.单击这一条形选中在此范围的观测单击这一条形选中在此范围的观测,可以发现这时数据窗口的相应观测也被选定了可以发现这时数据窗口的相应观测也被选定了.如果如果双击某一条形双击某一条形,就可以在选定相应观测的同时弹出一就可以在选定相应观测的同时弹出一个检查观测窗口个检查观测窗口,窗口中显示各被选中的观测序号窗口中显示各被选中的观测序号,以以及其中一个观测的各变量值及其中一个观测的各变量值.这样可以很方便地检查这样可以很方便地检查图中各部分所对应的观测图中各部分所对应的观测.为取消选定为取消选定,只要在图中空只要在图中空白处单击即可白处单击即可.第50页/共89页Page51 绘制的图形有一个方框包围绘制的图形有一个方框包围.如果想改变图形大小如果想改变图形大小,可以单击方框使其变粗,然后拖动四个角中的一个可以单击方框使其变粗,然后拖动四个角中的一个,就就可以把图形放大或缩小可以把图形放大或缩小.甚至还可以把一个角向其对角甚至还可以把一个角向其对角方向拖动一直拖过对角,这样可以改变图形的横纵轴方向拖动一直拖过对角,这样可以改变图形的横纵轴方向方向.拖动边框可以把图形移动到窗口内其它位置拖动边框可以把图形移动到窗口内其它位置.图形图形中提供了一个设置菜单中提供了一个设置菜单,可以单击图形边框左下角上的可以单击图形边框左下角上的向右箭头向右箭头()或在图形内单击右键来打开)或在图形内单击右键来打开.第51页/共89页Page52 菜单内容包括菜单内容包括刻度刻度(Ticks),Ticks),可以设可以设置坐标轴的具体刻度;置坐标轴的具体刻度;轴轴(Axes)Axes)用用来指定画不画坐标轴;来指定画不画坐标轴;观测观测(Observations)Observations)用来指定是否画观用来指定是否画观测;测;值值(Values)Values)指定是否标出各条指定是否标出各条形高度值(即频数)形高度值(即频数).第52页/共89页Page53 对连续数据对连续数据(Int(Int型型)作直方图可以反映其分布情况,作直方图可以反映其分布情况,对离散数据对离散数据(Nom(Nom型型)作直方图同样可以反映其分布,作直方图同样可以反映其分布,即取每一个离散值的频数分布即取每一个离散值的频数分布.比如比如,在绘制身高的直在绘制身高的直方图后方图后,选定变量选定变量AGE,AGE,并修改变量并修改变量AGEAGE的类型为名义型的类型为名义型(Nom)Nom)后后对其作直方图对其作直方图,则结果打开一个新图形窗口作则结果打开一个新图形窗口作出有出有6 6个条形的条形图个条形的条形图,分别为年龄从分别为年龄从1212至至1717的学生人的学生人数数.如选中如选中(单击单击)年龄为年龄为1515的条形的条形,可以看到数据窗口可以看到数据窗口中所有中所有AGE=15AGE=15的观测被选定的观测被选定.另外还可以看到已作的身高的直方图也发生了变另外还可以看到已作的身高的直方图也发生了变换,身高的条形中有一部分被选中换,身高的条形中有一部分被选中(颜色变亮颜色变亮),),加亮加亮的这一部分表示年龄为的这一部分表示年龄为1515岁在身高中的分布岁在身高中的分布.第53页/共89页Page54第54页/共89页Page55 在用在用分析分析(Analyse)Analyse)菜单中的作图命令作菜单中的作图命令作图时如果没有选定的变量则弹出一个对话框提图时如果没有选定的变量则弹出一个对话框提问用哪一个变量作图问用哪一个变量作图.如果对身高作图如果对身高作图,只要选只要选中中 HEIGHT,HEIGHT,然后按然后按Y钮即可钮即可.第55页/共89页Page56 如果在以上对话窗中还选中如果在以上对话窗中还选中SEXSEX作为分组变量,则作为分组变量,则将分别对男生和女生生成如下并排的直方图将分别对男生和女生生成如下并排的直方图.第56页/共89页Page57数据探索的一维方法数据探索的一维方法盒形图或马赛克图盒形图或马赛克图 盒形图是另一种表现数值型变量分布的图形盒形图是另一种表现数值型变量分布