医用SAS统计分析四.pptx
《医用SAS统计分析四.pptx》由会员分享,可在线阅读,更多相关《医用SAS统计分析四.pptx(75页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、医用SAS统计分析第五讲12/17/202212/17/20221 1第一页,共七十五页。一、多元线性回归 根本概念 多元线性回归简称多元回归,是研究一个应变量与多个自变量间线性依存关系数量变化规律的一种方法。多元线性回归方程式中:b0为回归方程常数项,bj(j=1,2,,m)为偏回归系数,即在其他自变量固定的条件下,Xj改变一个单位时应变量的改变量。12/17/202212/17/20222 2第二页,共七十五页。q多元线性回归方程的应用v 预测应变量的估计值 v 探索影响应变量y的主要因素v当X为某一定值时,估计应变量y的容许区间v当X为某一定值时,估计其应变量 的总体均数 的置信区间12
2、/17/202212/17/20223 3第三页,共七十五页。q 语句格式q 同单变量线性回归根本相同。q proc reg 选项;q model 应变量=自变量名列/选项;必选语句,定义回归分析模型q proc reg 语句的选项q data=数据集 指明回归分析所用的数据集。q outset=数据集 指定一个输出数据集,用以存储回归分析所得的参数估计。q simple 输出每个变量的简单统计结果。12/17/202212/17/20224 4第四页,共七十五页。v model语句的选项v selection=method 规定变量筛选方法,method可以是以下几种选项:v forward
3、或 f前进法,按照sle规定的P值从无到有依次选一个变量进入模型v backward或 b后退法,按照sls规定的P值从含有全部变量的模型开始,以次剔除一个变量。v stepwise 逐步法,按照sle的标准依次选入变量,同时对模型中现有的变量按sls的标准剔除不显著的变量。v 注:选项中没有selection语句时,模型中含有全部自变量的回归模型。v sle=概率值 入选标准,规定变量入选模型的显著性水平,前进法默认为0.5,逐步法默认为0.15。v sls=概率值 剔除标准,指定变量保存在模型的显著性水平,后退法默认为0.1,逐步法默认为0.15。12/17/202212/17/20225
4、 5第五页,共七十五页。stb 输出各自变量的标准偏回归系数。cli 输出个体y值的95%容许区间上下限 clm 输出预测值均值 的95%可信区间上下限。P 输出实际值Yi,预测值 、残差及其标准误。tol 输出各自变量的容许值。0tol值1,越接近于0,共线性越严重。vif 输出各自变量的方差膨胀因子。当vif10时,可认为多元共线性严重存在。collin 要求详细分析自变量之间的共线性,给出信息矩阵的特征根、条件指数和方差比,当条件指数10,方差比0.5时,可认为存在多元共线性。collinoint 与选择项collin作用相同,但不包括回归常数。R 进行预测值的残差分析即异常值识别与强影
5、响分析,输出学生化残差值和Cooks距离D值。当学生化残差值2时,所对应的点可能是异常点,当D值0.5时,可认为对应的变量值对回归函数是强影响点。12/17/202212/17/20226 6第六页,共七十五页。q 完全多元线性回归q 例7-7 10名女中学生的体重X1,kg,胸围X2,cm,胸围的呼吸差X3,cm及肺活量Y,ml的资料如下表所示。现作应变量Y对自变量X1,X2,X3的三元线性回归方程。data mreg1;input x1 x2 x3 y;cards;35 69 0.7 160040 74 2.5 260040 64 2.0 210042 74 3.0 265037 72 1
6、.1 240045 68 1.5 220043 78 4.3 275037 66 2.0 160044 70 3.2 275042 65 3.0 2500;proc reg;model y=x1 x2 x3/stb;run;12/17/202212/17/20227 7第七页,共七十五页。Model:MODEL1Dependent Variable:Y Analysis of Variance Sum of MeanSource DF Squares Square F Value ProbFModel 3 1250109.0678 416703.02259 5.617 0.0355Error
7、6 445140.93222 74190.15537C Total 9 1695250 Root MSE 272.37870 R-square 0.7374 Dep Mean 2315.00000 Adj R-sq 0.6061 C.V.11.76582 12/17/202212/17/20228 8第八页,共七十五页。Parameter Estimates Parameter Standard T for H0:Variable DF Estimate Error Parameter=0 Prob|T|INTERCEP 1 -3035.536354 2168.6738473 -1.400 0
8、.2111 X1 1 60.931823 36.29713798 1.679 0.1442 X2 1 37.808334 22.98080891 1.645 0.1510 X3 1 101.379460 121.97470310 0.831 0.4377 StandardizedVariable EstimateINTERCEP 0.00000000X1 0.46445689X2 0.39174762X3 0.2539945012/17/202212/17/20229 9第九页,共七十五页。q 逐步回归 v 简介 逐步回归是筛选自变量的常用的方法之一。筛选自变量的方法还有前进法,后退法和最优回
9、归子集法。逐步回归法是依据事先给定的两个显著性水平SLE和SLS,将自变量逐个引入方程,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著的变量剔除,这样保证最后所得的变量都有显著性。v自变量间的多重共线性(multicollinearity)整个回归方程的统计检验P 的矛盾现象。偏回归系数的估计值明显与实际情况不符,或者是偏回归系数的符号与专业知识的情况相反。12/17/202212/17/20221010第十页,共七十五页。据专业知识,该自变量与应变量间关系密切,而偏回归系数检验结果P。增加或删除一个变量,或者改变或去除一个观察值,引起回归系数估计值发生大的变化。多重共线性是引
10、起上述问题的重要原因。解决多重共线性的方法 用主成分估计等有偏估计替代最小二乘估计。用逐步回归等方法筛选自变量。如上例7-7,整个回归模型P=0.0355,而b0,b1,b2,b3P值均大于0.05。估计变量之间存在共线性问题。12/17/202212/17/20221111第十一页,共七十五页。程序7-13data stepreg1;input x1 x2 x3 y;cards;35 69 0.7 160040 74 2.5 260040 64 2.0 210042 74 3.0 265037 72 1.1 240045 68 1.5 220043 78 4.3 275037 66 2.0
11、160044 70 3.2 275042 65 3.0 2500;proc reg;model y=x1-x3/stb tol vif collin collinoint R;model y=x1-x3/selection=stepwise sle=0.25 sls=0.25 stb;run;12/17/202212/17/20221212第十二页,共七十五页。例?医学统计学?王洁贞主编,例15.1 某科研协作组调查某煤矿期高血压病患者40例,X1为工作面污染程度等级,X2为井下工龄年,X3为体重kg,X4为吸烟年限(年),X5为饮酒年限年,Y为收缩压(kPa),试作多元线性回归分析。data
12、 stepreg2;infile d:sassas5wang15_1.txt;input id x1 x2 x3 x4 x5 y;proc reg;model y=x1-x5/stb tol vif collin collinoint r;model y=x1-x5/selection=stepwise sle=0.05 sls=0.05 stb;run;12/17/202212/17/20221313第十三页,共七十五页。二、多元线性相关 研究多个变量间线性关系的一种统计分析方法。变量间相关系数有以下三类:简单相关系数 它是说明两个变量相关程度和方向不考虑其他变量的影响的统计指标ri,j)。
13、偏相关系数 它是当其他变量固定时,说明某两个变量间相关程度和方向的统计指标如r12,3。复相关系数R 亦称为全相关系数。说明应变量与各自变量的线性关系的密切程度。决定系数 R2 复相关系数的平方。它说明应变量的变异中由各自变量的改变而引起的占多少。如R2=0.8,那么说明应变量的变异中有80%由自变量的改变而引起的。12/17/202212/17/20221414第十四页,共七十五页。程序7-12data mcorr1;infile d:sassas5mcorr1.txt;input x1 x2 x3 y;proc corr nosimple;/*禁止一些简单统计量的输出*/var x1 x2
14、 x3 y;/*包括了所有变量,实际可以省略*/proc corr nosimple;var x1 x2;partial x3;/*partial语句的作用是固定x3*/proc corr nosimple;var x1 x2;partial x3 y;/*partial语句的作用是固定x3和y*/run;12/17/202212/17/20221515第十五页,共七十五页。三、Logistic回归分析 简介 Logistic回归模型是适用于应变量因变量为分类变量的回归分析。当应变量为分类变量时,如应变量结果为二分类变量的发病、不发病,生存、死亡等,是不能用多元线性回归模型Y=0+i xi)来
15、分析各种危险因素与应变量之间的关系的。因为应变量Y只能取值为1和0。不符合线性回归模型中应变量Y应具有正态分布和方差齐性的要求,同时线性回归模型得到的Y值会出现大于1或小于0的不合理结果,显然不能用线性回归建立预测模型。以发病为例,发病的概率为P,不发病的概率为1-P,0P1。公式等号左边简称为logitP,即logit(P)=0+i xi可证明,无论Y得何值,均0P1。上式可推导为:12/17/202212/17/20221616第十六页,共七十五页。q Logistic回归的应用 q logistic回归在流行病学和临床流行病学等方面应用广泛,既可用于前瞻性的队列研究,又可用于回忆性的病例
16、对照研究。q 常用于:病因学分析;预后分析;鉴别诊断;评价治疗措施;毒物的半数效量和联合作用 12/17/202212/17/20221717第十七页,共七十五页。qLogistic回归的分类q 按应变量的类型分类为:q 两分类的Logistic回归q 非条件logistic回归 即研究对象未经过配对。在SAS中调用logistic模块进行统计。q 条件logistic回归 即在配对病例对照研究中的1:1和1:M及N:M配对。在SAS中调用Phreg模块进行统计。q 多分类有序反响变量的Logistic回归 在SAS中调用logistic模块进行统计。q 多分类无序反响变量的Logistic回
17、归 在SAS中调用Catmod模块进行统计。q本讲主要介绍两分类Logistic回归q 12/17/202212/17/20221818第十八页,共七十五页。q 两分类非条件Logistic回归q 语法格式q Proc logistic data=数据集 选项;q model 应变量名=自变量名列/选项;q freq ;可选项,指明频数变量。q output ;q output语句创立一个新的SAS数据集,其含有每个个体的原始数据,pred|p=变量名为在out=数据集中含有每个个体预测概率。q【Proc语句的选项】q order=data 规定按照数据集中反响变量水平出现的先后顺序进行运算。
18、q descending(或des)规定按照反响变量降序水平进行运算。12/17/202212/17/20221919第十九页,共七十五页。注意:以上两个选项非常重要,如死亡为1,存活为0,为了得到死亡对存活的概率或者说是死亡的危险,应选择此两个选项之一,否那么得到的是存活对死亡的概率,因为logistic回归模型是自动按反响变量值为小的来拟合方程的。反之,如果死亡为0,存活为1,可不选此两项之一,【model语句的选项】selection=forward(或f)|backward(或b)|stepwise(或s)|score 规定变量的筛选方法,分别为向前、向后、逐步和最优子集法。缺省时为n
19、one,拟合全回归模型。sle=概率值 指定变量进人模型的显著水平,缺省为0.05。sls=概率值 指定变量剔除模型的显著水平,缺省为0.05。CL 计算输出所有回归参数的可信区间。12/17/202212/17/20222020第二十页,共七十五页。clodds=pl 计算输出OR的可信区间。scale=none aggregate 要求对模型进行拟合优度检验。例9-4 40例病人的治愈情况YY=0表示未愈,Y=1表示治愈,病情严重程度X1(X1=0 表示不严重,X1=1表示严重,年龄X2为连续变量,治疗方法X3(X3=0表示新方法,X3=1表示一般疗法,数据如表9.6,试作logistic
20、回归分析。程序9-4data c;infile d:sassas5cx9_4.txt;input y x1-x3;proc logistic des;/*按降序水平进行运算*/model y=x1-x3/scale=none aggregate;/*对模型进行拟合优度检验*/Output out=b p=pr;/*在数据集b中含有每个个体的预测概率值*/run;12/17/202212/17/20222121第二十一页,共七十五页。The LOGISTIC Procedure Data Set:WORK.C 数据集名 Response Variable:Y 反响变量Y Response Lev
21、els:2 反响变量水平数2 Number of Observations:40 观察值40 Link Function:Logit 联系函数logit Response Profile 反响变量的描述 Ordered 顺序值 Value Y Count 计数值 1 1 17 2 0 23 12/17/202212/17/20222222第二十二页,共七十五页。Deviance and Pearson Goodness-of-Fit Statistics 模型的拟合优度检验 Pr Criterion DF Value Value/DF Chi-SquareDeviance 31 36.3231
22、 1.1717 0.2344Pearson 31 29.5583 0.9535 0.5402 Model Fitting Information and Testing Global Null Hypothesis BETA=0 模型拟合信息和整体偏回归系数为0 的假设检验 Intercept Intercept andCriterion Only Covariates Chi-Square for Covariates判断的准那么 仅有截距 所有变量 协变量的卡方AIC 56.548 55.413 .SC 58.237 62.169 .-2 LOG L 54.548 47.413 7.135
23、 with 3 DF(p=0.0677)Score .6.630 with 3 DF(p=0.0847)12/17/202212/17/20222323第二十三页,共七十五页。Analysis of Maximum Likelihood Estimates 最大似然法估计值分析 Parameter Standard Wald Pr Standardized OddsVariable DF Estimate Error Chi-Square Chi-Square Estimate RatioINTERCPT 1 3.7025 2.1442 2.9817 0.0842 .X1 1 -0.6157
24、0.7135 0.7446 0.3882 -0.171877 0.540X2 1 -0.0939 0.0636 2.1812 0.1397 -0.309336 0.910X3 1 -1.5236 0.7396 4.2430 0.0394 -0.424813 0.218 Association of Predicted Probabilities and Observed Responses 模型回代判别分析 Concordant=71.9%(一致率 Somers D=0.448 Discordant=27.1%(非一致率 Gamma =0.452 Tied =1.0%(结点率)Tau-a =0
25、.224 (391 pairs)c =0.72412/17/202212/17/20222424第二十四页,共七十五页。治愈的概率模型为:例2为了探讨冠心病发生的有关危险因素,对26例冠心病病人和28例对照者进行病例对照研究,各因素的说明见下表。试用logistic逐步回归分析方法筛选危险因素。12/17/202212/17/20222525第二十五页,共七十五页。表冠心病8个可能的危险因素与赋值因素变量名赋值说明年龄(岁)X145=1,4554=2,5564=3,65=4高血压史X2无=0,有=1高血压家族史X3无=0,有=1吸烟X4不吸=0,吸=1高血脂史X5无=0,有=1动物脂肪摄入X6
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医用 SAS 统计分析
限制150内