logistic回归分析及其应用.ppt
《logistic回归分析及其应用.ppt》由会员分享,可在线阅读,更多相关《logistic回归分析及其应用.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、LogisticLogistic回归分析回归分析及其应用及其应用潘发明潘发明安徽医科大学安徽医科大学流行病与卫生统计学系流行病与卫生统计学系11/28/20221概述概述1967年年Truelt J,Connifield J和和Kannel W在在Journal of Chronic Disease上发表了冠心病危险因素上发表了冠心病危险因素的研究,较早将的研究,较早将Logistic回归用于医回归用于医学研究。学研究。一般概念一般概念l一元直线回归一元直线回归l多元直线回归多元直线回归11/28/20222一元直线回归模型一元直线回归模型 y=a+b x+e多元直线回归模型多元直线回归模型
2、y=a+b1x1+b2x2+bkxk+e11/28/20223-4.00-2.000.002.004.00X X:自变量自变量0.000.250.500.751.00F(y):因变量的logit值如果一定要进行直线回归也可以做出结果,但此时效果不佳。当自变量取一定值时,因变量的预测值可能为负数。11/28/20224一般直线回归难以解决的问题一般直线回归难以解决的问题医学数据的复杂、多样医学数据的复杂、多样l连续型和离散型数据连续型和离散型数据医学研究中疾病的复杂性医学研究中疾病的复杂性l一种疾病可能有多种致病因素或与多种危一种疾病可能有多种致病因素或与多种危险因素有关险因素有关l疾病转归的影
3、响因素也可能多种多样疾病转归的影响因素也可能多种多样l临床治疗结局的综合性临床治疗结局的综合性11/28/20225简单的解决方法简单的解决方法固定其他因素,研究有影响的一两个因固定其他因素,研究有影响的一两个因素;素;分层分析:按分层分析:按12个因素组成的层进行个因素组成的层进行层内分析和综合。层内分析和综合。统计模型统计模型11/28/20226寻找合适的模型寻找合适的模型进行进行logit变换变换llogit(p)=ln(),p为为y=1所对应的概所对应的概率率 logit(0.1)=ln()=ln(0.1/0.9)p1 p0.11 0.111/28/20227llogit(p)=ln
4、()p=0或或1时,此式失效时,此式失效 以以 p=r/n 代之代之 logit(p)=ln (r+0.5)/(n r+0.5)此称此称经验经验logistic变换变换 以以Z代上式的代上式的logit(p),Z=a+b1x1+b2x2+bkxk 称此为称此为logistic回归模型回归模型p1 p11/28/20228P=ez/(1+ez)ea+b1x1+b2x2+bkxk 1+ea+b1x1+b2x2+bkxk此为非条件此为非条件logistic回归模型回归模型 应用于成组数据的分析应用于成组数据的分析P=11/28/20229自变量取定一些值时,因变量取自变量取定一些值时,因变量取0、1
5、的概率就是的概率就是条件概率,对条件概率进行条件概率,对条件概率进行logistic回归,称为回归,称为条件条件logistic回归回归表达式:表达式:eb1x1+b2x2+bkxk 1-eb1x1+b2x2+bkxk 常用于分析配比的资料常用于分析配比的资料P=11/28/202210概述小结概述小结logistic回归回归对因变量的比数的对数值对因变量的比数的对数值(logit值)建立模型值)建立模型因变量的因变量的logit值值的的改变与多个自变量的改变与多个自变量的加权和加权和呈线性关系呈线性关系因变量呈二项分布因变量呈二项分布11/28/202211Logistic回归分析的一般步骤
6、回归分析的一般步骤变量的编码变量的编码哑变量的设置和引入哑变量的设置和引入各个自变量的单因素分析各个自变量的单因素分析变量的筛选变量的筛选交互作用的引入交互作用的引入建立多个模型建立多个模型选择较优的模型选择较优的模型模型应用条件的评价模型应用条件的评价输出结果的解释输出结果的解释11/28/2022121.变量的编码变量的编码变量的编码要易于识别变量的编码要易于识别注意编码的等级关系注意编码的等级关系改变分类变量的编码,其分析的意改变分类变量的编码,其分析的意义并不改变。义并不改变。牢记编码牢记编码l使用使用变量数值标识变量数值标识(value labels)l记录记录编码内容编码内容11/
7、28/202213变量的编码变量的编码变量名 变量标识 变量值 值标识 SEX 性别 1 男 2 女 EDU 教育程度 0 文盲 1 小学 2 初中及以上 11/28/202214variable labelsqnum 问卷序号rnum 录入序号pnum 病人编号hnum 住院号/门诊号chname 患者中文姓名drugroup 组别name 患者姓名sex 患者性别age 患者年龄value labelssex 1 男 2 女/hisc 1 是 0 否 9 无法判断/nsex 1 正常 0 异常 9 未检/demdx 1 有 0 无/addx 0 无 1 危险性 2 可能 3 很可能/edu
8、 0 文盲 1 小学程度 2 初中及以上11/28/2022152.哑变量的设置和引入哑变量的设置和引入哑哑变量,又称变量,又称指示变量指示变量或或设计矩阵设计矩阵。有利于检验等级变量各个等级间的变有利于检验等级变量各个等级间的变化是否相同化是否相同,但主要适合于无序分类变但主要适合于无序分类变量。量。一个一个k分类的分类变量,可以用分类的分类变量,可以用k-1个个哑变量来表示。哑变量来表示。11/28/202216哑变量的设置教育程度X1X2X3文盲:0000小学:1100初中:2010高中:3001教育程度教育程度:文盲,小学,初中,高中以上文盲,小学,初中,高中以上以文盲作为参考组11/
9、28/202217教育程度X1X2X3文盲:0100小学:1010初中:2001高中:3000以高中作为参照以高中作为参照11/28/202218SPSS提供的方法Indicator:默认。以第1 或最后1类作对照,其他每类与对照比较;Sample:以第1 或最后1类作对照,其他每类与对照比较,但反映平均效应。Difference:除第1类外各分类与其前各类平均效应比较;Helmert:除最后1类外各分类与其前各类平均效应比较;Repeated:除第1类外各分类与其前一类比较;Polynomial:假设类间距相等,用于数值型变量。Deviation:以第1 或最后1类作对照,其余每类与总效应比
10、较。11/28/2022193.自变量的单因素分析自变量的单因素分析了解自变量与因变量的分布了解自变量与因变量的分布检验是否符合建立模型的应用条件检验是否符合建立模型的应用条件l偏离应用条件时,进行数据变换偏离应用条件时,进行数据变换各个自变量两组间的比较各个自变量两组间的比较l计数资料计数资料l计量资料计量资料双变量分析双变量分析11/28/2022204.变量的筛选变量的筛选变量筛选的原则变量筛选的原则l专业上考虑专业上考虑l测量上考虑测量上考虑l共线性问题:计算相关矩阵,相关系数共线性问题:计算相关矩阵,相关系数0.8-0.9,则选其一。,则选其一。l缺失数据少、测量误差低的优先选择缺失
11、数据少、测量误差低的优先选择l经验上考虑经验上考虑l双变量分析中有显著性的自变量双变量分析中有显著性的自变量(P.15)l选择那些改变主效应的自变量选择那些改变主效应的自变量11/28/202221变量的筛选变量的筛选变量筛选的可用方法变量筛选的可用方法l逐步逐步logistic回归:回归:自动选择有显著性的自变自动选择有显著性的自变量,不仅用于自变量的剔选,也用于交互作量,不仅用于自变量的剔选,也用于交互作用项是否显著的判断。用项是否显著的判断。l前进法:前进法:逐个引入模型外的变量逐个引入模型外的变量l后退法:后退法:放入所有变量,再逐个筛选放入所有变量,再逐个筛选 理论上看,前进法选择变
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- logistic 回归 分析 及其 应用
限制150内