sas课件第5讲 SAS系统与基础统计分析.ppt
《sas课件第5讲 SAS系统与基础统计分析.ppt》由会员分享,可在线阅读,更多相关《sas课件第5讲 SAS系统与基础统计分析.ppt(146页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第5讲讲 SASSAS系统系统与基础统计分析1.1.统计基本概念统计基本概念2.2.频率分布和常用描述统计量频率分布和常用描述统计量3.3.计算描述统计量的常用过程计算描述统计量的常用过程4.4.直方图和分布的拟合检验直方图和分布的拟合检验5.5.参数估计参数估计6.6.假设检验假设检验SAS分析的特点分析的特点(1)SAS 将常用的统计方法用过程实现将常用的统计方法用过程实现,是一个是一个高品位的程序系统高品位的程序系统;(2)SAS 是一个迅速发展的系统:融入最新的是一个迅速发展的系统:融入最新的方法,不断适应用户的新需求方法,不断适应用户的新需求;(3)SAS 既可由编程也可用图形界面
2、交互地实既可由编程也可用图形界面交互地实现分析功能现分析功能;(4)SAS 将各种专门分析方法融入为用户提供将各种专门分析方法融入为用户提供的直接使用的专用系统中的直接使用的专用系统中-应用系统应用系统.如何学习如何学习SAS统计分析的功能统计分析的功能 会找会找:针对问题和数据选用合适的分析工针对问题和数据选用合适的分析工具具.会用:会用:选选PROC(过程过程),选,选Option(选项选项),写写Statement(语句语句),或选用菜单系统或选用菜单系统.会解释:对会解释:对SAS提供的计算结果给出解释和提供的计算结果给出解释和 分析分析.用用SAS完成常规统计的常用方法和过程完成常规
3、统计的常用方法和过程 (1)用编程实现各种任务用编程实现各种任务;(2)用用SAS提供的菜单系统实现各种任务提供的菜单系统实现各种任务:用用SAS/INSIGHT:发命令发命令insight 用分析员应用用分析员应用(ANALYST)发命令发命令analyst 用用SAS/ASSIST等等.用用SAS系统系统作常规统计分析作常规统计分析,在交互式在交互式运行方式下常用的做法有:运行方式下常用的做法有:SAS 系统内七种常用的描述性统计程序系统内七种常用的描述性统计程序 旨在形容样本旨在形容样本(Sample)的平均数标准差偏度的平均数标准差偏度峰度等统计值或为样本的数据绘图、制表格。峰度等统计
4、值或为样本的数据绘图、制表格。1=PROC MEANS2=PROC SUMMARY3=PROC UNIVARIATE4=PROC CHART5=PROC TABULATE6=PROC CORR7=PROC PLOT完成基础统计分析的几个常用过程基础统计分析的几个常用过程FREQ:计算变量取值的频数计算变量取值的频数;MEANS:分类计算变量的常用统计量分类计算变量的常用统计量;SUMMARY:分类计算变量的常用统计量分类计算变量的常用统计量;UNIVARIATE:计算单变量的统计量和分计算单变量的统计量和分 布的拟合检验布的拟合检验;CORR:计算变量间的相关系数计算变量间的相关系数.频率分布
5、和常用描述统计量频率分布和常用描述统计量进行统计分析首先应该对我们手头上的数据进行统计分析首先应该对我们手头上的数据特征有一个比较明确的了解,比如数据的频特征有一个比较明确的了解,比如数据的频率分布或者其他对数据的描述的统计量,这率分布或者其他对数据的描述的统计量,这有助于我们对数据的特征,可能的分布有一有助于我们对数据的特征,可能的分布有一个比较全面的了解,用于帮助我们决定进一个比较全面的了解,用于帮助我们决定进一步的研究方法和方向步的研究方法和方向.我们将介绍如何用编程我们将介绍如何用编程进行描述性数据分析进行描述性数据分析.FREQ 过程(频数过程)FREQ过程用于产生1至N维的频数和交
6、叉表。FREQ语句格式:PROC PREQ 选择项;TABLES 变量名;WEIGHT 变量名;BY 变量名;RUN;5.WEIGHT语句统计计算中我们统称假设每条观测记录对频数计算的贡献为 1,使用WEIGHT语句可以定义每个观测值出现的频数为这个观测对应的权重(权重不能为负)。6.BY语句对由BY变量定义的几组观测分别进行分析。但要求先按BY变量排序。频率分布和常用描述统计量频率分布和常用描述统计量 FREQ(频数频数)过程过程-频数表是变量取值分布的描述频数表是变量取值分布的描述 PROC FREQ DATA=数据集名数据集名;TABLES 变量变量;RUN;PROC FREQ DATA
7、=数据集名数据集名;TABLES 变量变量*变量变量 变量变量*变量变量./nocol norow nocum nofreq nopercent missing list out=数据集数据集 outpct;WETGHT 变量名变量名;BY 变量名变量名;RUN;一般是分类变量一般是分类变量 频率分布和常用描述统计量频率分布和常用描述统计量 FREQ(频数频数)过程过程-定义输出格式的定义输出格式的FORMAT过程过程 PROC FORMAT library=DST;VALUE 格式名格式名 范围范围1=格式化值格式化值1.范围范围n=格式化值格式化值n;RUN;例例:proc format;
8、value agefmt low-39=YOUNG 39-50=MIDDLE 50-high=OLD;run;把自定义的格式存把自定义的格式存放到永久库放到永久库DSTDST中中当当age39 YOUNG当当39age50 MIDDLE当当age50 OLD频率分布和常用描述统计量频率分布和常用描述统计量 FREQ(频数频数)过程过程-定义输出格式的定义输出格式的FORMAT过程过程proc format;(用于用于Fitness数据集数据集)value oxyfmt 32.5-37.5=32.5-37.7 37.5-42.5=37.5-42.5 42.5-47.5=42.5-47.547.5
9、-52.5=47.5-52.5 52.5-57.5=52.5-57.5 57.5-62.5=57.5-62.5;run;当当37.5oxygen42.5 37.5-42.5Proc freq data=fitness;format age agefmt.oxygen oxyfmt.;tables group age/nocum;tables age*oxygen/nocum;tables group*age/list nocum;tables group*age/out=out outpct;run;proc print data=out;run;(bstat21.sas)要求输出集中还包含列
10、百分数和行百分数要求输出集中还包含列百分数和行百分数 频率分布和常用描述统计量频率分布和常用描述统计量 描述统计量描述统计量使用各种统计量描述变量取值的不同特征使用各种统计量描述变量取值的不同特征:均值、中位数均值、中位数-描述变量取值的中心位置描述变量取值的中心位置;方差、标准差、极差方差、标准差、极差-描述变量取值的离描述变量取值的离散程度散程度;峰度、偏度峰度、偏度-描述变量取值分布的形状描述变量取值分布的形状;次序统计量、分位数次序统计量、分位数-可描述变量取值的可描述变量取值的分布分布.频率分布和常用描述统计量频率分布和常用描述统计量 描述统计量描述统计量-次序统计量次序统计量样本样
11、本(Sample):次序统计量次序统计量(Order Statistics):4,3,11,3,1 5,81,3,3,4,5,8,11 频率分布和常用描述统计量频率分布和常用描述统计量 描述统计量描述统计量-描述数据中心位置的统计量描述数据中心位置的统计量样本观测值:4,3,11,3,1,5,8 频率分布和常用描述统计量频率分布和常用描述统计量 描述统计量描述统计量-描述数据离散程度的统计量描述数据离散程度的统计量样本观测值:4,3,11,3,1,5,8 (n=7)频率分布和常用描述统计量频率分布和常用描述统计量 5 描述统计量描述统计量-与均值方差有关的统计量与均值方差有关的统计量标准差标准
12、差(Std Dev):标准误标准误(Std Error):变异系数变异系数(CV):未校平方和未校平方和(USS):校正平方和校正平方和(CSS):X标准差标准差 的估计的估计 频率分布和常用描述统计量频率分布和常用描述统计量描述统计量描述统计量-偏度偏度(Skewness)偏度偏度:(Skewness)精确地精确地 0=0 频率分布和常用描述统计量频率分布和常用描述统计量 描述统计量描述统计量-峰度峰度(Kurtosis)峰度:(Kurtosis)精确地精确地 0 0|t|权重总和权重总和 -RUNTIME Min.to run 1.5 miles 0.2491869 42.48 .0001
13、 31.0000000 OXYGEN Oxygen consumption 0.9567988 49.51|t|=|M|=|S|t|=|M|0.0010 符号秩符号秩 S 33 Pr=|S|0.0010 SAS 系统系统 2005年年05月月01日日 星期日星期日 上午上午11时时30分分09秒秒 26-Experimental group=2-UNIVARIATE 过程过程 变量变量:WEIGHT (Weight in kg)分位数(定义分位数(定义 5)分位数分位数 估计值估计值 100%最大值最大值 91.63 99%91.63 95%91.63 90%82.78 75%Q3 79.38
14、 50%中位数中位数 73.71 25%Q1 67.25 10%61.24 5%59.08 1%59.08 0%最小值最小值 59.08 极值观测极值观测 -最小值最小值-最大值最大值-值值 观测观测 值值 观测观测 59.08 28 76.32 23 61.24 30 76.32 29 67.25 25 79.38 22 70.87 24 82.78 31 73.37 21 91.63 26proc univariate data=Hbs.fitness plot normal;var weight;run;proc univariate data=Hbs.fitness PLOTS;var
15、 Group;run;统计检验的基本原理与方法假设检验的基本概念1问题的提出2假设检验的步骤一个完整的假设检验过程,通常包括以下四个步骤:1)提出原假设(Null Hypothesis)和备择假设(Alternative Hypothesis);2)确定适当的检验统计量并计算检验统计量的值;3)规定显著性水平;4)做出统计决策。4 p值的进一步说明5实际显著性性和常识进行综合考虑,作出最后的判断。6关于实际显著性和统计显著性的重要一点7.参数方法与非参数方法样本平均数的检验u检验与t检验非参数检验1 检验2符号检验3秩和检验法 直方图和分布的拟合检验直方图和分布的拟合检验 概念和定理概念和定理
16、-总体分布函数和样本经验分布总体分布函数和样本经验分布对母体和样本都可考虑它们各自的分布对母体和样本都可考虑它们各自的分布:样本直方图总体分布密度样本经验分布总体累计分布 直方图和分布的拟合检验直方图和分布的拟合检验 概念和定理概念和定理-中心极限定理中心极限定理 直方图和分布的拟合检验直方图和分布的拟合检验 概念和定理概念和定理-中心极限定理中心极限定理样本容量足够大时,样本均值接近正态分布样本容量足够大时,样本均值接近正态分布.样本均值接近总体均值,样本均值接近总体均值,样本标准差为样本标准差为 直方图和分布的拟合检验直方图和分布的拟合检验 标准正态分布密度标准正态分布密度 直方图和分布的
17、拟合检验直方图和分布的拟合检验 检验样本是否为某个分布的图示法检验样本是否为某个分布的图示法-QQ图图 检验样本是否为正态分布的图法检验样本是否为正态分布的图法:(类似地可检验样本是否为对数正态,指数和Weibull分布)87 直方图和分布的拟合检验直方图和分布的拟合检验 UNIVARIATE过程过程-变量分布的图形描述变量分布的图形描述 PROC UNIVARIATE DATA=数据集名数据集名 noprint;VAR 变量名列变量名列;HISTOGRAM 变量名列变量名列/midpoints=中点列中点列 normal(mu=均值均值 sigma=标准差标准差 图象选项图象选项)exp(t
18、heta=阈值阈值 图象选项图象选项)lognormal(theta=阈值阈值 图象选项图象选项);INSET 统计量关键名统计量关键名=显示名显示名 格式格式;QQPLOT 变量名列变量名列/square.;PROBPLOT 变量名列变量名列/.;BY 变量名列变量名列;ID 变量名变量名;RUN;直方图和分布的拟合检验直方图和分布的拟合检验 UNIVARITE过程过程-例子例子proc univariate data=Hbs.fitness;var oxygen;id age;run;proc univariate data=Hbs.fitness;var oxygen;histogram
19、;run;proc univariate data=Hbs.fitness noprint;histogram oxygen;title Histogram;run;直方图和分布的拟合检验直方图和分布的拟合检验 UNIVARITE过程过程-例子例子proc univariate data=HBs.fitness noprint;histogram oxygen/midpoints=32 to 60 by 4 normal(L=2 color=orange w=4);inset n mean(4.1)std(4.2);Run;proc univariate data=Hbs.fitness;va
20、r group;histogram;run;proc univariate data=HBs.fitness noprint;histogram oxygen/midpoints=32 to 60 by 2 normal(L=2 color=orange w=4);inset n mean(4.1)std(4.2);Run;直方图和分布的拟合检验直方图和分布的拟合检验 UNIVARITE过程过程-例子例子proc univariate data=Hbs.fitness noprint;histogram oxygen/midpoints=32 to 60 by 4 normal(L=1 w=2
21、)lognormal(L=2 w=3 theta=30)exponential(L=8 w=4 theta=30);run;quit;(Bstat41.sas)Histogram 2005年年05月月01日日 星期日星期日 上午上午11时时30分分09秒秒 33 UNIVARIATE 过程过程 Fitted Distributions for OXYGEN “正态正态”分布的参数分布的参数 参数参数 符号符号 估计值估计值 均值均值 Mu 47.37581 标准偏差标准偏差 Sigma 5.327231 “正态正态”分布的拟合优度检验分布的拟合优度检验 检验检验 -统计量统计量-P 值值-Ko
22、lmogorov-Smirnov D 0.14046087 Pr D 0.119 Cramer-von Mises W-Sq 0.08473813 Pr W-Sq 0.179 Anderson-Darling A-Sq 0.54053923 Pr A-Sq 0.157 “正态正态”分布的分位数分布的分位数 -分位数分位数-百分比百分比 观测值观测值 估计值估计值 1.0 37.3880 34.9828 5.0 39.2030 38.6133 10.0 39.4420 40.5487 25.0 44.8110 43.7826 50.0 46.7740 47.3758 75.0 50.3880 5
23、0.9690 90.0 54.2970 54.2029 95.0 59.5710 56.1383 99.0 60.0550 59.7688 Histogram 2005年年05月月01日日 星期日星期日 上午上午11时时30分分09秒秒 33 UNIVARIATE 过程过程 Fitted Distributions for OXYGEN “对数正态对数正态”分布的参数分布的参数 参数参数 符号符号 估计值估计值 阀值阀值 Theta 30 比例比例 Zeta 2.806582 形状形状 Sigma 0.325986 均值均值 47.45656 标准偏差标准偏差 5.845174 “对数正态对数
24、正态”分布的拟合优度检验分布的拟合优度检验 检验检验 -统计量统计量-P 值值-Kolmogorov-Smirnov D 0.18946559 Pr D W-Sq 0.041 Anderson-Darling A-Sq 0.76778476 Pr A-Sq 0.043 “对数正态对数正态”分布的分位数分布的分位数 -分位数分位数-百分比百分比 观测值观测值 估计值估计值 1.0 37.3880 37.7541 5.0 39.2030 39.6831 10.0 39.4420 40.9006 25.0 44.8110 43.2860 50.0 46.7740 46.5532 75.0 50.38
25、80 50.6240 90.0 54.2970 55.1372 “指数指数”分布的参数分布的参数 参数参数 符号符号 估计值估计值 阀值阀值 Theta 30 比例比例 Sigma 17.37581 均值均值 47.37581 标准偏差标准偏差 17.37581 “指数指数”分布的拟合优度检验分布的拟合优度检验 检验检验 -统计量统计量-P 值值-Kolmogorov-Smirnov D 0.40733003 Pr D W-Sq A-Sq 0.001 “指数指数”分布的分位数分布的分位数 -分位数分位数-百分比百分比 观测值观测值 估计值估计值 1.0 37.3880 30.1746 5.0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- sas课件第5讲 SAS系统与基础统计分析 sas 课件 系统 基础 统计分析
限制150内