《最新医用SAS统计分析(二)ppt课件.ppt》由会员分享,可在线阅读,更多相关《最新医用SAS统计分析(二)ppt课件.ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、医用医用SASSAS统计分析统计分析( (二二) )一、单变量的统计描述一、单变量的统计描述q统计分析内容回顾 v统计描述:集中趋势、离散趋势v统计推断:l参数估计:总体参数估计(可信区间)l假设检验q资料类型v计量资料-数值变量v计数资料-分类变量 q资料的分布 正态分布和偏态分布 详细统计描述详细统计描述-UNIVARIATE 过程过程 Univariate过程可对数值变量进行详细的统计描述。除了提供means过程所有的统计描述外,还可以给出了变量的峰度、偏度、众数、中位数及四分位数等更详尽的统计描述,同时还可进行正态性检验,以及几个描述分布的图。PROC UNIVARIATE PROC
2、UNIVARIATE 操作选项操作选项 ; ; VAR VAR ; 指定分析的变量名列表,缺省为所有数值变量 BY BY ; 按变量名列分组按变量名列分组统计,要求排序 FREQ FREQ ; 表明该变量为分析变量的频数OUTPUT OUT= OUTPUT 关键字关键字= = ; ; / /* *指定统计指定统计量的输出数据集名和统计量对应的新变量名量的输出数据集名和统计量对应的新变量名* */ /Run;Run;proc univariate 语句的操作选项; data= 指定要分析的数据集名 noprint 禁止统计结果在output窗输出 freq 详细的频数表 normal 进行正态性
3、检验 plot 生成统计图:茎叶图,盒状图,正态概率图 例4 程序3-2data unil;input x ;cards;3 9 8 6 5 5 7 3 10 8 10 4;proc univariate normal plot;run; Moments N(样本含量) 12 Sum Wgts(总权重) 12 Mean(均数) 6.5 Sum(合计) 78 Std Dev(标准差) 2.54058 Variance(方差) 6.454545 Skewness(偏度 g1) 0 Kurtosis(峰度 g2) -1.39044 USS(平方和) 578 CSS(离均差平方和) 71 CV(变异系
4、数) 39.08584 Std Mean(标准误) 0.733402 T:Mean=0(均数是否为0的检验)8.862804 Pr|T|(t值对应的p值) 0.0001 Num = 0(不等于0的样本数) 12 Num 0(大于0的样本数) 12 M(Sign)(符号检验) 6 Pr=|M|(符号检验的p值)0.0005 Sgn Rank(符号秩和检验) 39 Pr=|S|(符号秩和检验的p值).0005 W:Normal(正态性检验W检验)0.932772 PrW(正态性检验的p值) 0.3843 Quantiles(Def=5) 100% Max 10 99% 10 75% Q3 8.5
5、95% 10 50% Med 6.5 90% 10 25% Q1 4.5 10% 3 0% Min 3 5% 3 1% 3 Range 7 Q3-Q1 4 Mode 3 Extremes Lowest Obs Highest Obs 3( 8) 8( 3) 3( 1) 8( 10) 4( 12) 9( 2) 5( 6) 10( 9) 5( 5) 10( 11)Stem Leaf # Boxplot 10 00 2 | 9 0 1 | 8 00 2 +-+ 7 0 1 | | 6 0 1 *-+-* 5 00 2 | | 4 0 1 +-+ 3 00 2 | -+-+-+-+ Normal Pr
6、obability Plot 10.5+ * +*+ | * + | * *+ | *+ | *+ | *+*+ | +*+ 3.5+ * +*+ +-+-+-+-+-+-+-+-+-+-+ -2 -1 0 +1 +2频数分布表数据的输入例5 程序3-5data uni2; input x f ;cards; 65 3 67 5 69 8 71 11 73 25 75 24 77 10 79 7 81 6 83 0 85 1 ;proc univariate; var x; freq f;run;频数表的编制方法1:语句格式: proc univariate freq; 例6 王洁贞主编DAT
7、A SG;INFILE d:sassas2psb.txt;INPUT X ;PROC MEANS mean std MIN MAX;RUN;DATA FSH;SET SG;IF X164 THEN Y=163;IF X=164 THEN Y=165;IF X=166 THEN Y=167;IF X=168 THEN Y=169;IF X=170 THEN Y=171;IF X=172 THEN Y=173;IF X=174 THEN Y=175;IF X=176 THEN Y=177;IF X=178 THEN Y=179;IF X=180 THEN Y=181;IF X=182 THEN Y
8、=183;PROC UNIVARIATE FREQ;VAR Y;RUN; Analysis Variable : X Mean Std Dev Minimum Maximum - 172.6710000 4.0756308 162.9000000 183.5000000 - univariate过程略 Frequency Table Percents Percents Value Count Cell Cum Value Count Cell Cum 163 1 1.0 1.0 175 15 15.0 81.0 165 4 4.0 5.0 177 8 8.0 89.0 167 7 7.0 12
9、.0 179 7 7.0 96.0 169 12 12.0 24.0 181 3 3.0 99.0 171 18 18.0 42.0 183 1 1.0 100.0 173 24 24.0 66.0方法2: 语句格式:proc freq; tables 变量名; 说明:该语句是根据定义的变量产生频数分布表 。 例7:上例资料DATA psb1;INFILE d:sassas2psb.txt;INPUT X ;L=162; /* 定义第一组的下限值*/i=2; /*定义组距*/z=(x-mod(x-L,i)+(i/2); /*z值就是将原始变量转化成该数据所在组段的组中值*/proc freq;
10、 /*根据z值产生频数分布表*/tables z; proc univariate normal plot;var z;RUN; vmod(x,y)为算术函数,求x/y的余数。如mod(10,3)=1,mod(6,2)=0 Cumulative Cumulative Z Frequency Percent Frequency Percent - 163 1 1.0 1 1.0165 4 4.0 5 5.0167 7 7.0 12 12.0169 12 12.0 24 24.0171 18 18.0 42 42.0173 24 24.0 66 66.0175 15 15.0 81 81.0177
11、 8 8.0 89 89.0179 7 7.0 96 96.0181 3 3.0 99 99.0183 1 1.0 100 100.0 Univariate ProcedureVariable=Z Moments Quantiles(Def=5)N 100 Sum Wgts 100 100% Max 183 99% 182Mean 172.7 Sum 17270 75% Q3 175 95% 179Std Dev 4.013865 Variance 16.11111 50% Med 173 90% 179Skewness 0.102995 Kurtosis -0.10056 25% Q1 17
12、1 10% 167USS 2984124 CSS 1595 0% Min 163 5% 166CV 2.324183 Std Mean 0.401386 1% 164T:Mean=0 430.2586 Pr|T| 0.0001 Range 20Num = 0 100 Num 0 100 Q3-Q1 4M(Sign) 50 Pr=|M| 0.0001 Mode 173Sgn Rank 2525 Pr=|S| 0.0001W:Normal 0.9671 Pr|T| - -6.8000000 5.2042717 -1.3066189 0.2237 - 程序中如无 var d; The SAS Sys
13、tem Variable Mean Std Error T Prob|T|- X1 125.9000000 5.1627942 24.3860193 0.0001 X2 132.7000000 3.4158129 38.8487320 0.0001 D -6.8000000 5.2042717 -1.3066189 0.2237-成组成组t检验检验原理:原理: H0: SAS程序:程序: proc ttest;proc ttest;proc ttest; /* 过程名 */class class ; /* 分组变量名 */var var ; /* 分析变量名 */run;run;2121xxs
14、xxt21 例9:程序4-3data ttest3; do c=1 to 2; /* c循环开始,循环次数为2 */ input n; /* 输入n值 */ do i=1 to n; /* i循环开始,循环次数为n */ input x ; /* 输入x 值,注意的合理使用*/ output; /* output将x输出,循环语句中必须使用。 */ end; /* i循环结束 */ end; /* c循环结束 */ cards; 5 279 334 303 338 198 3 229 274 310 ;proc print; proc ttest; class c; var x; run;/*
15、 循环的结果 * / OBS C N I X 1 1 5 1 279 2 1 5 2 334 3 1 5 3 303 4 1 5 4 338 5 1 5 5 198 6 2 3 1 229 7 2 3 2 274 8 2 3 3 310 TTEST PROCEDURE Variable: XC N Mean Std Dev Std Error-1 5 290.40000000 56.99385932 25.488428752 3 271.00000000 40.58324778 23.43074903 Variances T DF Prob|T|-Unequal 0.5603 5.6 0.59
16、71Equal 0.5099 6.0 0.6284For H0: Variances are equal, F = 1.97 DF = (4,2) ProbF = 0.7272 两样本含量相等时,可去除input n; 例10:data t; do c=1 to 2; do i=1 to 5; input x ; output; end; end; cards; 279 334 303 338 198 229 274 310 345 344 ; proc print; proc ttest; class c; var x; run;OBS C I X 1 1 1 279 2 1 2 334 3
17、 1 3 303 4 1 4 338 5 1 5 198 6 2 1 229 7 2 2 274 8 2 3 310 9 2 4 345 10 2 5 344TTEST PROCEDURE Variable: XC N Mean Std Dev Std Error-1 5 290.40000000 56.99385932 25.488428752 5 300.40000000 49.43986246 22.11017865Variances T DF Prob|T|-Unequal -0.2964 7.8 0.7747Equal -0.2964 8.0 0.7745For H0: Varian
18、ces are equal, F = 1.33 DF = (4,4) ProbF = 0.7896两样本几何均数的比较在data语句中进行对数变换:x=log10(x) 例11:王洁贞主编data G;do c=1 to 2; input n; do i=1 to n; input x ; x=log10(x); output; end; end; cards; 11 100 200 400 400 400 400 800 1600 1600 1600 32009 100 100 100 200 200 200 200 400 1600 ;proc ttest; class c; var x;
19、 run; TTEST PROCEDUREVariable: XC N Mean Std Dev Std Error- 11 2.79362453 0.45200087 0.13628339 9 2.33447777 0.38209602 0.12736534Variances T DF Prob|T|-Unequal 2.4615 18.0 0.0242Equal 2.4186 18.0 0.0264For H0: Variances are equal, F = 1.40 DF = (10,8)ProbF = 0.6470三、方差分析(一)统计回顾统计回顾l 应用:应用:两个或两个以上均数
20、的比较l 条件:条件: 样本来自正态总体;方差齐;相互独立的随机样本l基本原理:基本原理:变异分解SS总=SS组内+SS组间 ;自由度分解总= 组间+组内组内均方MS组内= SS组内/ v组内组间均方MS组间= SS组间/ v组间F=MS组间/MS组内当FF(1,2),则P,拒绝H0,接受H1当F,接受H0,。q 方差分析- 基本语句Proc anova data=Proc anova data=; Class Class 分组变量分组变量; ;/* 指明分组变量, 必须放在model语句前 */Model Model 因变量因变量= =分组变量;分组变量;/* 规定按分组变量对因变量作方差分
21、析 */means means 分组变量分组变量 / / 多重比较的方法多重比较的方法; /* 计算每个分组变量所对应的因变量均值,对分组变量进行多重比较,其方法可用snk(q检验)、dunnett、LSD法等。该语句可多次使用 */means means 分组变量分组变量/hovtest=/hovtest=方法;方法; /* 进行方差齐性检验(homogeneity of variance test),常用方法为Bartlett和Levenes法 ,默认为Levenes法 */freq freq 变量名;变量名; /*规定频数变量*/ 分组变量:分组变量:把要考察的处理因素做为分组变量。它的
22、取值即为分组变量的水平,可以是数值型,也可是字符型。例5-1中,衣料就是分类变量,其取值有四个水平。因变量:因变量:也称响应变量,为连续的数值型变量。例5-1中,因变量为十硼氢的吸附量效应:效应:方差分析模型中规定的各分组变量组合代表其相应的效应。l主效应:主效应: 由分组变量本身引起,不考虑其他因素的影响,可以用分组变量本身表示。例5-1中,只有一个效应,即衣料的效应。如果对某一因变量,它的研究因素为A、B两个,主效应就是由A、B两个分组变量引起的,不考虑A对B的作用。在model 语句中表示为 A B 。q 方差分析-几个概念l 交叉效应:交叉效应:即交互作用。用*连接两个变量以表示它们之
23、间的交互作用。在model语句中可用 A*B表示。检验在A因素的各个水平B因素的效应是否相同,即一个因素的效应是否依赖于交叉项里其他因素。 l 相应的模型有主效应模型(完全随机、随机区组、拉丁方等)和含交互作用项的模型(析因设计、正交设计) q 完全随机设计资料的方差分析例12:程序5-1data anova1;do c=1 to 4;do i=1 to 5;input x ;output;end;end;cards;2.33 2.00 2.93 2.73 2.332.48 2.34 2.68 2.34 2.223.06 3.06 3.00 2.66 3.064.00 5.13 4.61 2.
24、80 3.60;proc anova;class c; /*分组变量为c */model x=c; /*按变量c分组对因变量X进行方差分析*/means c/snk; /*对变量c的各水平用snk法作均数的多重比较*/Means c/hovtest /*进行方差齐性检验*/run; 方差分析结果 Class Level Information Class Levels Values C 4 1 2 3 4Number of observations in data set = 20 在class语句中规定的分组变量名 分组变量的水平数 分组变量的取值Dependent Variable: X
25、Source DF Sum of Squares Mean Square F Value Pr F 变异来源 自由度 离均差平方和 均方 F值 P值模型 Model 3 8.43376000 2.81125333 11.16 0.0003误差 Error 16 4.02916000 0.25182250总变异 Corrected Total 19 12.46292000R-Square C.V. Root MSE X Mean 变异系数 因变量的均值0.676708 16.90765 0.50181919 2.96800000 决定系数R2,反映了在总变异中由模型解释的变异所占的比例,越接近1
26、,表明模型对这批数据拟合越好。 误差均方的平方根,剩余标准差Source DF Anova SS Mean Square F Value Pr FC 3 8.43376000 2.81125333 11.16 0.0003 SNK法两两比较结果: Student-Newman-Keuls test for variable: X NOTE: This test controls the type I experimentwise error rate under the complete null hypothesis but not under partial null hypotheses
27、. Alpha= 0.05 df= 16 MSE= 0.251823 误差的均方Number of Means 2 3 4 均数间相隔组数Critical Range 0.672812 0.8189412 0.9080258 相差有无意义的临界值Means with the same letter are not significantly different. SNK Grouping Mean N C SNK分组标志 均数 样本数 分类变量值(水平数) A 4.0280 5 4 B 2.9680 5 3 B 2.4640 5 1 B 2.4120 5 2 SNK分组标志:相同字母代表组间差
28、别无统计学意义。如c=3和c=1以及c=2组的标志均为B,表明这三组的均数无差别;而c=4组的标志为A,因此它与其它三组的差别均有统计学意义。 Levenes Test for Equality of X Variance ANOVA of Squared Deviations from Group Means Sum of Mean Source DF Squares Square F Value Pr F C 3 1.3585 0.4528 3.9339 0.0280 Error 16 1.8418 0.1151 Analysis of Variance Procedure Level o
29、f -X- C N Mean SD 1 5 2.46400000 0.36712396 2 5 2.41200000 0.17584084 3 5 2.96800000 0.17412639 4 5 4.02800000 0.90070528例13:程序5-3 样本含量不等时方差分析data anova3; do c=1 to 3; input n; do i=1 to n; input x ; output; end;end;cards;5279 334 303 338 1983229 274 3103210 285 117;proc anova;class c;model x=c;run;
30、q 随机区组设计资料的方差分析data anova4; do a=1 to 4; do b=1 to 8; input x ; output; end; end;cards;5.27 5.27 5.88 5.44 5.66 6.22 5.83 5.275.27 5.22 5.83 5.38 5.44 6.22 5.72 5.114.94 4.88 5.38 5.27 5.38 5.61 5.38 5.004.61 4.66 5.00 5.00 4.88 5.22 4.88 4.44;proc anova;class a b;model x=a b;means a/snk;run;例14 程序5
31、-4方差分析结果 Analysis of Variance Procedure Class Level Information Class Levels Values A 4 1 2 3 4 B 8 1 2 3 4 5 6 7 8 Number of observations in data set = 32 Analysis of Variance ProcedureDependent Variable: XSource DF Sum of Squares Mean Square F Value Pr FModel 10 5.40237500 0.54023750 43.14 0.0001E
32、rror 21 0.26297500 0.01252262Total 31 5.66535000R-Square C.V. Root MSE X Mean0.953582 2.111904 0.11190451 5.29875000Source DF Anova SS Mean Square F Value Pr FA 3 2.90437500 0.96812500 77.31 0.0001B 7 2.49800000 0.35685714 28.50 0.0001 Analysis of Variance Procedure Student-Newman-Keuls test for var
33、iable: XNOTE: This test controls the type I experimentwise error rate under the complete null hypothesis but not under partial null hypotheses. Alpha= 0.05 df= 21 MSE= 0.012523Number of Means 2 3 4Critical Range 0.1163592 0.1410316 0.1559574Means with the same letter are not significantly different.
34、 SNK Grouping Mean N A A 5.60500 8 1 A 5.52375 8 2 B 5.23000 8 3 C 4.83625 8 4q 拉丁方设计资料的方差分析 拉丁方设计的方差分析主要适用于:三个处理水平数相同且无交互作用。亦称三因素方差分析。 利用拉丁方阵安排试验,拉丁方阵亦称r阶拉丁方,是用r个拉丁字母排成r行r列的方阵,每个字母在每行每列中只出现一次。如55拉丁方: A B C D E B C D E A C D E A B D E A B C E A B C D 如例5-5,5种防护服(cloth),有5个人(person)个在不同的5天(date)中穿着,测
35、定脉搏数。如表5.5所示。试验就5种防护服对脉搏数有无作用。 表5可见,5种防护服在5个不同的日期和5个不同的受试者各出现一次;在同一日期和不同受试者5种防护服各不相同。例15 程序5-5data anova5; do date=1 to 5; do person=1 to 5; input cloth $ x ; output; end; end;cards;A 129.8 B 116.2 C 114.8 D 104.0 E 100.6B 144.4 C 119.2 D 113.2 E 132.8 A 115.2C 143.0 D 118.0 E 115.8 A 123.0 B 103.8D
36、 133.4 E 110.8 A 114.0 B 98.0 C 110.6E 142.8 A 110.6 B 105.8 C 120.0 D 109.8;proc anova;class date person cloth;model x=date person cloth;run;SAS分析结果 Analysis of Variance Procedure Class Level Information Class Levels Values DATE 5 1 2 3 4 5 PERSON 5 1 2 3 4 5 CLOTH 5 A B C D E Number of observation
37、s in data set = 25 Analysis of Variance ProcedureDependent Variable: XSource DF Sum of Squares Mean Square F Value Pr FModel 12 3579.77280000 298.31440000 6.80 0.0011Error 12 526.14080000 43.84506667Total 24 4105.91360000R-Square C.V. Root MSE X Mean0.871858 5.612253 6.62156074 117.98400000Source DF
38、 Anova SS Mean Square F Value Pr FDATE 4 508.07360000 127.01840000 2.90 0.0684PERSON 4 2853.67360000 713.41840000 16.27 0.0001CLOTH 4 218.02560000 54.50640000 1.24 0.3445例16 王洁贞主编医学统计学例9.10data anova6; do dose=1 to 4; do tumor=1 to 4; input drug $ x ; output; end; end;cards;C 0.37 B 0.80 A 0.74 D 0.
39、48B 0.48 A 0.56 D 0.18 C 0.22A 0.32 D 0.44 C 0.16 B 0.42D 0.30 C 0.30 B 0.22 A 0.25;proc anova;class tumor dose drug;model x=tumor dose drug;run; Analysis of Variance ProcedureDependent Variable: XSource DF Sum of Squares Mean Square F Value Pr FModel 9 0.47665000 0.05296111 5.45 0.0259Error 6 0.05835000 0.00972500Total 15 0.53500000R-Square C.V. Root MSE X Mean0.890935 25.28600 0.09861541 0.39000000Source DF Anova SS Mean Square F Value Pr FTUMOR 3 0.10085000 0.03361667 3.46 0.0916DOSE 3 0.24795000 0.08265000 8.50 0.0140DRUG 3 0.12785000 0.04261667 4.38 0.0588
限制150内