章SAS系统基本统计分析功能.pptx
《章SAS系统基本统计分析功能.pptx》由会员分享,可在线阅读,更多相关《章SAS系统基本统计分析功能.pptx(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、某学校在新生中随机抽出某学校在新生中随机抽出2525名学生做名学生做IQIQ测试,测试的平均成绩为测试,测试的平均成绩为120120分;若分;若新生的新生的IQIQ成绩服从正态分布,且其标准差为成绩服从正态分布,且其标准差为5 5分,在显著性水平为分,在显著性水平为0.050.05条件条件下,试建立下,试建立IQIQ平均成绩的置信区间。平均成绩的置信区间。datadata IQSCORE1IQSCORE1;n=n=2525;mean=;mean=120120;sigma=;sigma=5 5;alpha=;alpha=0.050.05;z=probit(z=probit(1 1-alpha/-
2、alpha/2 2););lc=mean-z*sigma/sqrt(n);lc=mean-z*sigma/sqrt(n);uc=mean+z*sigma/sqrt(n);uc=mean+z*sigma/sqrt(n);procproc printprint;runrun;例例4.14.1总体均值的区间估计总体均值的区间估计(给定显著性水平(给定显著性水平 )(标准正态分布左侧标准正态分布左侧p p分位数分位数)第1页/共88页例例4.24.2若例若例4.14.1中,新生总体中,新生总体IQIQ成绩的标准差未知,其样本标准差的计算结果为成绩的标准差未知,其样本标准差的计算结果为5 5分,在显著性
3、水平为分,在显著性水平为0.050.05条件下,试建立条件下,试建立IQIQ平均成绩的置信区间。平均成绩的置信区间。datadata IQSCORE2IQSCORE2;n=n=2525;mean=;mean=120120;s=;s=5 5;alpha=;alpha=0.050.05;t=tinv(t=tinv(1 1-alpha/-alpha/2 2),n-),n-1 1););lc=mean-t*s/sqrt(n);lc=mean-t*s/sqrt(n);uc=mean+t*s/sqrt(n);uc=mean+t*s/sqrt(n);procproc printprint;runrun;总体
4、均值的区间估计总体均值的区间估计(给定显著性水平(给定显著性水平 )(t(t分布的左侧分布的左侧p p分位数分位数)第2页/共88页总体方差的区间估计总体方差的区间估计(给定显著性水平(给定显著性水平 )某种零件的直径服从正态分布,随机抽出某种零件的直径服从正态分布,随机抽出100100个进行测量得到方差个进行测量得到方差 ,在显著性水平为在显著性水平为0.010.01条件下,试建立总体方差的置信区间。条件下,试建立总体方差的置信区间。例例4.34.3datadata E3E3;n=n=100100;s2=;s2=9 9;alpha=;alpha=0.010.01;chi1=cinv(alph
5、a/chi1=cinv(alpha/2 2,n-,n-1 1););chi2=cinv(chi2=cinv(1 1-alpha/-alpha/2 2),n-),n-1 1););lc=(n-lc=(n-1 1)*s2/chi2;uc=(n-)*s2/chi2;uc=(n-1 1)*s2/chi1;)*s2/chi1;procproc printprint;runrun;(卡方分布的左侧卡方分布的左侧p p分位数分位数)第3页/共88页对于正态分布总体,当已知样本的原始数据时,可以利用对于正态分布总体,当已知样本的原始数据时,可以利用CapabilityCapability过程过程的的Inter
6、valsIntervals语句语句计算总体均值和方差的置信区间,或者利用计算总体均值和方差的置信区间,或者利用MeansMeans过程过程的的CLMCLM统统计量计量计算总体均值计算总体均值9595的置信区间。的置信区间。proc means data=sunny.bclass mean var clm;var height weight;run;例例4.44.4输出结果输出结果:第4页/共88页INTERVALSINTERVALS语句的选项:语句的选项:MethodMethod=1|2|3|4|5|6 1|2|3|4|5|6 设定区间估计统计量(设定区间估计统计量(4 4为均值,为均值,6
7、6为标准差,为标准差,缺省则提供缺省则提供6 6种不同统计量的置信区间);种不同统计量的置信区间);AlphaAlpha=值值 设定显著性水平(缺省为设定显著性水平(缺省为 ););Type=lower|twosided|upper Type=lower|twosided|upper 设定估计类型(分别为置设定估计类型(分别为置 信下限、区间和上限,缺省为置信区间)。信下限、区间和上限,缺省为置信区间)。PROCPROC CAPABILITYCAPABILITY DATA=DATA=数据集;数据集;INTERVALSINTERVALS 变量名列变量名列/选项;选项;RUNRUN;CAPABIL
8、ITYCAPABILITY过程过程的一般形式:的一般形式:第5页/共88页procproc capability capability datadata=sunny.bclass=sunny.bclass noprintnoprint;intervalsintervals height weight/height weight/method=method=4 4,6 6 alpha=alpha=0.100.10;intervalsintervals height/height/method=method=4 4,6 6 type=type=lower;lower;runrun;例例4.54.5
9、第6页/共88页用用SAS/INSIGHTSAS/INSIGHT作置信区间作置信区间(调用方法:调用方法:Solutions Analysis Interactive Data Analysis Solutions Analysis Interactive Data Analysis)步骤步骤选定数据集选定数据集 Analyze DistributionAnalyze Distribution 选定分析变量选定分析变量 Output Output basic confidence intervalsbasic confidence intervals输出结果输出结果:第7页/共88页用用分析员
10、应用分析员应用作置信区间作置信区间(调用方法:调用方法:Solutions Analysis Analyst Solutions Analysis Analyst)步骤步骤选定数据集选定数据集 Statistics Hypothesis testsStatistics Hypothesis tests One-Sample t-test for a mean One-Sample t-test for a mean 选定分析变量选定分析变量 testtest intervalinterval输出结果输出结果:第8页/共88页4.1 参数估计4.2 假设检验4.3 相关分析4.4 回归分析第四章
11、 SAS系统的基本统计分析功能第9页/共88页假设检验指利用样本的实际观测资料来检验事先对总体某些数量特征所作的假指利用样本的实际观测资料来检验事先对总体某些数量特征所作的假设是否可信的统计分析方法。设是否可信的统计分析方法。(这里只讨论单变量检验问题)(这里只讨论单变量检验问题)正态性检验正态性检验用用编程编程作正态性检验作正态性检验在在PROC UNIVARIATEPROC UNIVARIATE语句中加上语句中加上NORMALNORMAL选项选项PROC PROC UNIVARIATE UNIVARIATE DATA=SUNNY.BCLASS NORMALDATA=SUNNY.BCLASS
12、 NORMAL;VAR VAR HEIGHTHEIGHT;RUN;RUN;例例4.54.5输出结果(部分)输出结果(部分)第10页/共88页步骤步骤选定数据集选定数据集 Analyze DistributionAnalyze Distribution 选定分析变量选定分析变量 Output Test For Normality.Output Test For Normality.步骤步骤选定数据集选定数据集 Statistics Descriptive DistributionsStatistics Descriptive Distributions 选定分析变量选定分析变量 Fit Fit
13、Normal.Normal.用用SAS/INSIGHTSAS/INSIGHT作正态性检验作正态性检验用用分析员应用分析员应用作正态性检验作正态性检验第11页/共88页两独立样本的均值检验两独立样本的均值检验用用编程编程作两独立样本的均值检验作两独立样本的均值检验设设 和和 分别是来自两个正态分布总体分别是来自两个正态分布总体 和和 的独立的独立样本,检验假设:样本,检验假设:PROCPROC TTESTTTEST DATA=DATA=数据集;数据集;CLASSCLASS分类变量名;分类变量名;VARVAR分析变量名列;分析变量名列;RUNRUN;TTESTTTEST过程过程的一般形式:的一般形
14、式:第12页/共88页proc ttest data=sunny.bclass;class sex;var height weight;run;例例4.64.6输出结果输出结果:第13页/共88页用用分析员应用分析员应用作两独立样本的均值检验作两独立样本的均值检验步骤步骤选定数据集选定数据集 Statistics Hypothesis testsStatistics Hypothesis tests Two-Sample t-test for means Two-Sample t-test for means 选定分析变量和分类变量选定分析变量和分类变量 OK.OK.(作均值检验前需先检验两样
15、本方差是否相等)(作均值检验前需先检验两样本方差是否相等)(SAS/INSIGHTSAS/INSIGHT未提供两独立样本均值检验的功能)未提供两独立样本均值检验的功能)输出结果输出结果?第14页/共88页检验两独立样本检验两独立样本的方差是否相等:的方差是否相等:选定数据集选定数据集 Statistics Hypothesis testsStatistics Hypothesis tests Two-Sample t-test for variances Two-Sample t-test for variances 选定分析变量和分类变量选定分析变量和分类变量 OK.OK.步骤步骤方差检验输
16、出结方差检验输出结果果第15页/共88页若样本呈若样本呈非正态分布非正态分布,则,则t t检验检验无效,可使用非参数检验中的无效,可使用非参数检验中的WilcoxonWilcoxon秩和秩和检验检验方法方法检验两独立样本的中心位置是否相同。检验两独立样本的中心位置是否相同。PROCPROC NPAR1WAY NPAR1WAY DATA=DATA=数据集数据集 WilcoxonWilcoxon;CLASSCLASS分类变量名;分类变量名;VARVAR分析变量名列;分析变量名列;RUNRUN;编程编程分析员分析员应用应用选定数据集选定数据集 Statistics ANOVAStatistics A
17、NOVA Nonparametric One-Way ANOVA Nonparametric One-Way ANOVA 选定分析变量选定分析变量 Tests Wilcoxon.Tests Wilcoxon.第16页/共88页procproc npar1waynpar1way datadata=sunny.bclass=sunny.bclass wilcoxonwilcoxon;classclass sex;sex;varvar age;age;runrun;例例4.64.6输出结果输出结果第17页/共88页配对样本的均值检验配对样本的均值检验设设 为第为第 个样本单位实验前后的对比测量值,且
18、个样本单位实验前后的对比测量值,且 ,为为 总体的均值,则检验假设:总体的均值,则检验假设:先构造每对观测值的差值变量,然后利用先构造每对观测值的差值变量,然后利用MEANMEAN或或UNIVARIATEUNIVARIATE过程检验该过程检验该变量均值是否为零变量均值是否为零.编程编程分析员分析员应用应用选定数据集选定数据集 Statistics Hypothesis testsStatistics Hypothesis tests Two-Sample paired t-test for means Two-Sample paired t-test for means 选定分析变量选定分析变
19、量 OK.OK.第18页/共88页datadata tempulse;tempulse;setset sunny.pulse;sunny.pulse;d=pre-postd=pre-post;runrun;procproc meansmeans mean stderr prtmean stderr prt maxdecmaxdec=4 4;var dvar d;runrun;输出结果输出结果例例4.74.7数据集数据集PULSEPULSE是对是对1515个试验者服用某种减缓心跳药物前后每分钟心跳次数所个试验者服用某种减缓心跳药物前后每分钟心跳次数所作的记录(作的记录(PREPRE为服药前,为服
20、药前,POSTPOST为服药后),考察该种药物的疗效。为服药后),考察该种药物的疗效。第19页/共88页datadata tempulse;tempulse;setset sunny.pulse;sunny.pulse;d=pre-postd=pre-post;runrun;procproc univariateunivariate;var dvar d;runrun;例例4.84.8输出结果输出结果(部分部分)第20页/共88页4.1 参数估计4.2 假设检验4.3 相关分析4.4 回归分析第四章 SAS系统的基本统计分析功能第21页/共88页相关关系相关关系指客观现象间确实存在,但数量上不
21、是严格对应的依存关系指客观现象间确实存在,但数量上不是严格对应的依存关系.在在直线相关直线相关条件下,用以反映条件下,用以反映两变量两变量间间线性相关线性相关密切程度的统密切程度的统计指标计指标.相关系数相关系数正态分布等间隔测度的变量正态分布等间隔测度的变量X X与与Y Y之间的相关关系,可用之间的相关关系,可用皮尔逊皮尔逊(PearsonPearson)相关系数相关系数来测算,即:来测算,即:第22页/共88页有序变量或不满足正态分布假设的变量有序变量或不满足正态分布假设的变量X X与与Y Y之间的相关关系,可用之间的相关关系,可用斯皮尔曼斯皮尔曼(SpearmanSpearman)等级相
22、关系数等级相关系数来测算,即:来测算,即:式中,分别为变量 秩次,分别为 的平均。第23页/共88页相关系数的计算相关系数的计算编程编程PROCPROC CORR CORR DATA=DATA=数据集数据集 OPTIONSOPTIONS;VAR VAR 变量名列;变量名列;WITH WITH 变量名列;变量名列;PARTIAL PARTIAL 变量名列;变量名列;RUNRUN;CORRCORR过程过程的一般形式:的一般形式:语句说明:语句说明:WITHWITH语句语句用来指定与用来指定与VARVAR语句语句配对的变量名,即计算配对的变量名,即计算WITHWITH指定变量与指定变量与VARVAR
23、指定指定变量间的相关系数;变量间的相关系数;PARTIALPARTIAL语句用来计算指定变量的偏相关系数。语句用来计算指定变量的偏相关系数。第24页/共88页常用常用选项选项有有:PEARSONPEARSON 计算皮尔逊相关系数(缺省值);计算皮尔逊相关系数(缺省值);SPEARMAN SPEARMAN 计算斯皮尔曼等级相关系数;计算斯皮尔曼等级相关系数;NOSIMPLE NOSIMPLE 不打印输出各变量的描述性统计量;不打印输出各变量的描述性统计量;NOPROB NOPROB 省略检验统计量省略检验统计量p-p-值;值;COV(COVARIANCE)COV(COVARIANCE)打印协方差
24、矩阵;打印协方差矩阵;NOCCORRNOCCORR 储存时省略相关系数;储存时省略相关系数;OUTP=OUTP=指定皮尔逊相关系数存储的数据集;指定皮尔逊相关系数存储的数据集;OUTS=OUTS=指定斯皮尔曼相关系数存储的数据集。指定斯皮尔曼相关系数存储的数据集。第25页/共88页数据集数据集SUNNY.CARSSUNNY.CARS是关于不同类型汽车的价格和性能的数据资料,各变量含义如下:是关于不同类型汽车的价格和性能的数据资料,各变量含义如下:MANUFACMANUFAC(制造商制造商)、MODEL MODEL(型号型号)、MIDPRICE MIDPRICE(中间价中间价)、CITYMPG
25、CITYMPG(市内每加仑油市内每加仑油平均行驶哩数平均行驶哩数)、HWYMPGHWYMPG (高速公路每加仑油平均行驶哩数高速公路每加仑油平均行驶哩数)、CYLINDERCYLINDER (汽缸数汽缸数)、EGNSIZEEGNSIZE (配置引擎容量配置引擎容量:升升)、RPM RPM(达到最大功率时每分钟转数达到最大功率时每分钟转数)、REVLTNSREVLTNS (最最高速行驶一哩时引擎转数高速行驶一哩时引擎转数)、FUELTNKFUELTNK (储油箱容量:加仑储油箱容量:加仑)、PERFORMPERFORM (使用效率:使用效率:功率与车重之比功率与车重之比)。例例4.94.9第26
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 系统 基本 统计分析 功能
限制150内