SAS统计分析.ppt
《SAS统计分析.ppt》由会员分享,可在线阅读,更多相关《SAS统计分析.ppt(118页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2013.6.13,1,医学统计学,8,主讲人 陶育纯,http:/ 卫生统计学 第7版 方积乾 主编 人民卫生出版社年级、专业:2010级白求恩医学班授课时间:2013年6月14日授课时数:4h,2013.6.13,3,目录,第十八章 logistic回归分析的SPSS操作,第十九章 生存分析的SPSS操作,2013.6.13,4,第十八章 logistic回归分析的SPSS操作,一、非条件logistic回归, logistic回归的概念,logistic回归(logistic regression) 定义:是研究分类类型的因变量和多个自变量间依存关系的一种非线性的多重回归方法。,1个因变
2、量(分类),k个自变量(k1),非线性,2013.6.13,5,医学研究中常碰到应变量的可能取值仅有两个(即二分类变量),如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,显然这类资料不满足多重回归的条件。 若发生率P为应变量,仍用线性模型处理,则不能保证在自变量的各种组合下,P的取值仍限制在01内。 logistic回归模型成功地解决了上述问题,已成为流行病学中研究疾病发生与危险因素间关系, logistic回归的基本原理,2013.6.13,6,较常用的方法,此外在校正混杂因素、疾病预后的估计、疾病诊断等方面也可应用此方法。 logistic回归模型的基本原理如下:,2
3、013.6.13,7,由上式推导可得:,OR,2013.6.13,8,此式即为logistic回归模型。式中0为常数项,参数i为logistic回归系数。 Logistic回归参数的估计通常采用最大似然法(Maximum Likelihood,ML)。最大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大求解相应的参数值,所得到的估计值称为参数的最大似然估计值。,2013.6.13,9,Logistic回归参数估计的基本原理如下:,2013.6.13,10,logistic回归模型建立后,需要作假设检验。 logistic回归模型的假设检验常用方法有: 1. 似然比检验(
4、Likelihood Ratio Test),通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G(又称Deviance)。 G2(ln Lpln Lk) 样本量较大时,G近似服从自由度为待检验因素个数的2分布。,2013.6.13,11,2. 记分检验(Score Test),以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S。样本量较大时,S近似服从自由度为待检验因素个数的2分布。,3. Wald检验(Wald Test),检验假设为
5、:H0: =0, H1: 0 。通过Wald统计量2i检验,2i近似服从自由度为1的2分布。,2013.6.13,12,上述三种方法中,似然比检验最可靠,记分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。,2013.6.13,13,2013.6.13,14,流行病学概念: 设表示暴露因素X时个体发病的概率,则发病的概率与未发病的概率1- 之比为优势(odds), logit 就是odds的对数。,2013.6.13,15,相对危险度(relative risk): RR= 1/ 2比数(odds) : Odds=
6、/(1- )比数比(odds ratio): OR= /(1- )/ /(1- )在患病率较小情况下,ORRR。,2013.6.13,16,Logistic回归中的常数项( 0 )表示,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。Logistic回归中的回归系数( i )表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值。分析因素Xi为二分类变量时,存在(暴露)Xi ,不存在(未暴露) Xi ,则Logistic回归中Xi的系数i就是暴露与非暴露优势比之对数值。 即OR=exp(i )=ei 。,2013.6.
7、13,17,Logistic回归分析的一般步骤,变量的编码哑变量的设置和引入各个自变量的单因素分析自变量的筛选交互作用的引入建立多个模型选择较优的模型模型应用条件的评价输出结果的解释,2013.6.13,18,1. 变量的编码,变量的编码要易于识别注意编码的等级关系改变分类变量的编码,其分析的意义并不改变。牢记编码使用变量数值标识(value labels)记录编码内容,2013.6.13,19,变量的编码举例,变量名 变量标识 变量值 值标识 SEX 性别 1 男 2 女 EDU 教育程度 0 文盲 1 小学 2 初中及以上,variable labels,value labels,2013
8、.6.13,20,variable labelssex 性别edu 教育程度value labelssex 1 男 2 女edu 0 文盲 1 小学程度 2 初中及以上,SPSS数据库中的变量编码,2013.6.13,21,2. 哑变量的设置和引入,哑变量,又称指示变量或设计矩阵。有利于检验等级变量各个等级间的变化是否相同。一个k分类的分类变量,可以用k-1个哑变量来表示。使用变量数值标识。,2013.6.13,22,哑变量设置举例,婚姻状况:结婚,离婚,丧偶,单身,2013.6.13,23,以单身作为参照,2013.6.13,24,SPSS中哑变量的设置(Categorical按钮),Ind
9、icator: 默认。以第1 或最后1类作对照,其他每类与对照比较;Sample: 以第1 或最后1类作对照,其他每类与对照比较,但反映 平均效应。Difference: 除第1类外各分类与其前各类平均效应比较;Helmert: 除最后1类外各分类与其前各类平均效应比较;Repeated: 除第1类外各分类与其前一类比较;Polynomial: 假设类间距相等,用于数值型变量。Deviation: 以第1 或最后1类作对照,其余每类与总效应比较。,2013.6.13,25,3. 自变量的单因素分析,了解自变量与因变量的分布检验是否符合建立模型的应用条件偏离应用条件时,进行数据变换各个自变量两组
10、间的比较计数资料计量资料双变量分析,2013.6.13,26,4. 自变量的筛选,变量筛选的可用方法逐步logistic回归:自动选择有显著性的自变量,不仅用于自变量的剔选,也用于交互作用项是否显著的判断。前进法:逐个引入模型外的变量。后退法:放入所有变量,再逐个筛选。 理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因素分析时,建议用后退法。当变量间有完全相关性时,后退法无法使用,可用前进法。,2013.6.13,27,5. 交互作用的引入,交互作用的定义当自变量和因变量的关系随第三个变量的变化而改变时,则存在交互作用交互作用项的引入基于临床实际认为对结果有重要影响基于模型应用条件的分
11、析引入两个自变量的乘积项交互作用的检验交互作用的解释,2013.6.13,28,6. 建立多个模型,饱和模型自定义的模型从饱和模型中选择自变量再建立模型,可以略去不看!,2013.6.13,29,7. 选择较优的模型,模型拟合优度检验AIC(Akaike information criterion): 同一资料的多个模型的比较,此值越小,模型越合适。SC(Schwartz criterion):同上Score统计量:同上,但不包括截距项。-2logL(似然比检验,Omnibus Test):检验全部自变量的作用是否显著。较为可靠。适用于含连续性变量的情况。模型拟合好, 2值大,P值小。Hosm
12、er-Lemeshow检验:评价估计概率和观察概率接近的程度。适用于含连续性变量的情况。模型好, 2值小,P值大。,2013.6.13,30,8. 模型应用条件的评价,残差分析 残差是观察值与估计值之差。合理的logistic回归模型也可能得到不理想的残差,这在自变量是二分类变量时更易出现。增加交互作用项可能增加模型的效能。,可以做眼保操!,2013.6.13,31,9. 输出结果的解释,模型中各个系数的显著性检验Wald检验:类似于直线回归系数的t检验Wald 2检验:同上似然比检验:自变量不在模型中与在模型中的似然值比较。Score检验,2013.6.13,32,回归系数的解释系数的正负值
13、:正(负)系数表示随自变量的增加 因变量logit值的增加(减少)。二分类自变量 系数为比数比的对数值,由此可得比数比=eb。多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。连续型自变量 当自变量改变一个单位时,比数比为eb。,2013.6.13,33,模型拟合的优劣自变量与结果变量(因变量)有无关系 确认因变量与自变量的编码模型包含的各个自变量的临床意义由模型回归系数计算得到的各个自变量的比数比的临床意义,不看理论,看实例!,2013.6.13,34, logistic回归的实例,例6. 成组病例-对照研究。在饮酒与食道癌的病例-对照研究中,考虑到年龄可能是混杂因素,按年龄分层后资料
14、整理见下表6。,2013.6.13,35,此例若不考虑年龄的混杂作用,可以简单地估计本例饮酒与患食道癌的优势比: OR=(96665)/(104109)=5.63 此例若考虑年龄的混杂作用,则需要分层估计OR,但本例第1和第6年龄组都出现频数为0,使得这两组无法估计OR。 logistic回归模型能较好地利用所有的信息,校正混杂作用,估计排除年龄影响后饮酒与患食道癌的关系。,2013.6.13,36,SPSS分析步骤,相当重要!,1. 建立SPSS数据文件(见exp6.sav); 2. 频数加权:Data Weight Cases Weight cases byfreq OK。 freq是频数
15、变量。 3. 分析: Analyze Regression Binary Logistic 打开Logistic Regression对话框,将Y变量(id)调入Dependent:栏中,将X1、X2变量(drink、age)调入Covariates :栏中,点击 Catergorical 按钮打开哑变量定义窗口,将age调入右侧窗口,选择First ,点击 Change Continue OK即可完成Logistic回归分析。(Method:默认选Enter),2013.6.13,37,SPSS分析结果1,Logistic Regression,不算加权的例数,2013.6.13,38,SP
16、SS分析结果2,年龄变量的哑变量编码表,Block 0: Beginning Block,2013.6.13,39,SPSS分析结果3,只含常数项的方程,Block 1: Method = Enter,似然比检验的结果,2013.6.13,40,SPSS分析结果4,OR=Exp(B ),2013.6.13,41,此例考虑年龄的混杂作用,用logistic回归模型估计本例饮酒与患食道癌的优势比OR=5.297,比未校正年龄的5.63稍有下降,说明可能饮酒者的年龄较不饮酒者大,年龄有混杂作用。 此例的logistic回归模型有统计学意义(似然比2=200.573,P0.001),而且饮酒和年龄都是
17、影响食道癌的有统计学意义的因素(Wald检验2=77.291,P0.001和Wald检验2= 57.193,P0.001),二者的OR值为正,故都为危险因素。,2013.6.13,42,第二十一章 生存分析的SPSS操作,一、生存分析简介, 生存资料的特点,医学研究中常用死亡率或存活率来表达某事件在一定时间内终极结果的发生强度或概率。显然这是一种只考虑结果而不考虑过程的方法。,To be or not to be, that is a question.,2013.6.13,43,医学研究中常有需要考虑过程(时间)的研究,如治疗爱滋病的疗效观察,研究其能否使病人存活时间延长是主要的目的。 对于
18、像肿瘤、结核及其他慢性疾病而言,其预后不是短期内所能明确判断的,这时常采取对病人进行随访(Follow Up)调查,统计一定期限后的生存时间(Survival Time)的长短以判断疗效。 此外,随访资料的失访问题也使得前述只考虑结果的死亡率或存活率不准确。,2013.6.13,44, 生存分析的概念,生存分析(Survival Analysis) 定义:是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。,To be or not to be is only a part of the question. The question also includes
19、how long to be.,2013.6.13,45,生存分析也可以称为用于处理以生存时间为反应变量、含有删失数据(Censored Data)一类资料的统计方法。 所谓生存时间,狭义地讲是从某个标准时点起至死亡止,即患者的存活时间。例如,患有某病的病人从发病到死亡或从确诊到死亡所经历的时间。广义地说,“死亡”可定义为某研究目的“结果”的发生,如宫内节育器的失落,疾病的痊愈,女孩月经初潮的到来等(生存分析中往往统指各“死亡”为失效)。,2013.6.13,46,生存分析在医学科研中具有广泛而重要的应用价值,它对人群寿命的研究,各种慢性疾病的现场追踪研究或预后观察,临床疗效的试验、动物模型实
20、验等研究中针对随访资料的处理起着非常重要的作用。,2013.6.13,47,又称失效时间(Failure Time)。定义:终点事件与起始事件之间的时间间隔。终点事件指研究者所关心的特定结局。起始事件是反映研究对象生存过程的起始特征的事件。, 生存分析的基本术语,生存时间(Survival Time),终点事件,起始事件,生存时间,2013.6.13,48,生存时间举例 起始事件 终点事件 服药 痊愈 手术切除 死亡 染毒 死亡 化疗 缓解 缓解 复发 疾病确诊 死亡 治疗开始 死亡(痊愈) 接触危险物 出现反应 治愈出院 复发,2013.6.13,49,终点事件和起始事件是相对而言的,它们都
21、由研究目的决定,须在设计时明确规定,并在研究期间严格遵守,不能随意改变。,广义的“生存时间”也可为医疗费用(元)、医疗设备使用次数、车辆行驶总里程(公里)等。,2013.6.13,50, 生存时间数据常通过随访(Follow Up)获得。 随访资料的记录项目常有:(起始与终止)随访事件 生存时间(开始观察日期与终止观察日期) 生存时间单位(年、月、天、小时、分、秒等) 分组变量(处理方法) 和其它协变量(性别、年龄、职业、文化程度等),2013.6.13,51,随访资料举例:,月 份(2002年) 图5 生存时间原始记录示意 (“+”删失),天 数 图6 生存时间排序整理数据示意,2013.6
22、.13,52,生存时间的类型,1. 完全数据(Complete Data)从起点至死亡(死于所研究疾病)所经历的时间。 2. 删失数据(截尾数据,Censored Data)从起点至删失点所经历的时间。 删失原因:失访、死于其它疾病、观察结束时病人尚存活等。,生存时间的度量单位可以是年、月、日、小时等。常用符号t表示,删失数据在其右上角标记“+”表示。,2013.6.13,53,生存时间资料的特点,2个效应变量: 生存时间(天数),结局(死亡与 否、是否阳性等)删失数据:如表10中的1号和 3号病人未观察到底,不 知他们究竟能活多长时间。产生结尾原因:迁移; 死于其他原因;因其他客观原因中途退
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- sas 统计分析
限制150内