logistic回归、probit回归与poission回归.ppt
《logistic回归、probit回归与poission回归.ppt》由会员分享,可在线阅读,更多相关《logistic回归、probit回归与poission回归.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Logistic回归回归(因变量为二分变量(因变量为二分变量/二项分布)二项分布)probit回归回归Poisson(因变量为(因变量为poisson分布)分布)第三章:横截面数据:因变量为分类变量及因第三章:横截面数据:因变量为分类变量及因变量为频数(计数)变量的情况变量为频数(计数)变量的情况Logistic回归回归(因变量为二分变量(因变量为二分变量/二项分布)二项分布)probit回归回归Poisson(因变量为(因变量为poisson分布)分布)第三章:横截面数据:因变量为分类变量及因第三章:横截面数据:因变量为分类变量及因变量为频数(计数)变量的情况变量为频数(计数)变量的情况概念
2、logistic回归是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。最常用的是二值型二值型logistic,即因变量的取值只包含两个类别例如:好、坏;发生、不发生;常用Y=1或Y=0表示。自变量X称为危险因素或暴露因素,可为连续变量、等级变量、分类变量,可有m个自变量X1,X2,Xm。P表示Y=1的概率,是其他变量的一个函数。【p(Y=1|X)表示在X的条件下Y=1的概率】logistic回归的数学表达式为:logistic回归的分类:(1)二分类资料logistic回归:因变量为两分类变量的资料,可用非条件logistic回归和条件l
3、ogistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。(2)多分类资料logistic回归:因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。也可以分为也可以分为logistic回归和条件回归和条件logistic回归回归1.令因变量两个水平对应的值为0、1,概率为1-p、p,则显然我们也可以用多重回归进行分析?为什么要用logistic回归分析?2.logistic回归回归系数、模型评估、参数估计、假设检验等与之前的回归分析有何不同?3.因变量为二分变
4、量时既可以用logistics回归也可以用probit回归,那么probit回归及其与logistic回归的异同之处问题问题问题1:p(y=1)表示某暴露因素状态下,结果y=1的概率(P)模型。或或模型描述了应变量模型描述了应变量p与与x的关系的关系P概率概率10.5Z值值0123-1-2-3 图图1 Logistic回归函数的几何图形回归函数的几何图形线性回归在处理有上限和下限的因变量时面临着线性回归在处理有上限和下限的因变量时面临着一个问题:一个问题:X上同样的变化对上同样的变化对Y产生的影响不同,产生的影响不同,由图由图1也可以直观的看出这里并不适合进行线性也可以直观的看出这里并不适合进
5、行线性回归。回归。虽然有很多非线性的函数可以呈现虽然有很多非线性的函数可以呈现S形,但由于形,但由于Logit转化比较简易,所以更受欢迎。转化比较简易,所以更受欢迎。Logit与概率不同,它没有上下限。比数去除了概率的上限,比与概率不同,它没有上下限。比数去除了概率的上限,比数的对数去除了概率的下限;且是以数的对数去除了概率的下限;且是以0,5为中点对称的,概率大为中点对称的,概率大于于0.5产生正的产生正的logit,logit距离距离0的距离反映了概率距离的距离反映了概率距离0.5的距离;的距离;概率上相同的改变与在概率上相同的改变与在logits上产生的改变是不同的,上产生的改变是不同的
6、,logit转化转化拉直了拉直了X与最初的概率之间的非线性关系。与最初的概率之间的非线性关系。回归系数的意义:回归系数的意义:Logistic回归中的回归系数回归中的回归系数表示,某一因素表示,某一因素改变一个单位时,效应指标发生与不发生事件改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即的概率之比的对数变化值,即OR的对数值。的对数值。Logistic回归中的常数项回归中的常数项表示,在不接触任表示,在不接触任何潜在危险保护因素条件下,效应指标发生何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。与不发生事件的概率之比的对数值。单纯从数学上讲,与多元线单
7、纯从数学上讲,与多元线性回归分析中回归系数的解性回归分析中回归系数的解释并无不同。释并无不同。问题问题2:模型评估(1)osmer-Lemeshowz指标HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。(2)AIC和SC指标即池雷准则和施瓦茨准则与线性回归类似AIC和SC越小说明模型拟合的越好(3)似然比卡方出从整体上看解释变量对因变量有无解释作用相当于多元回归中的F检验在logistic回归中可以通过似然比(likelihoodratiotest)进行检验(4)RSQUARE(R2)和C统计量解释变量解
8、释在多大程度上解释了因变量与线性回归中的R2作用类似在logistic回归中可以通过R2和统计量进行度量统计量统计量趋势趋势拟合拟合作用作用备注备注AIC、SC越小越小越好越好类似于多元回归中的残差平方和类似于多元回归中的残差平方和似然比卡方似然比卡方越大越大越好越好类似于多元回归中的回归平方和类似于多元回归中的回归平方和P值越小越好值越小越好RSQUARE越大越大越好越好类似于多元回归中的类似于多元回归中的统计量统计量越大越大越好度量观测值和条件预测的相对一致性越好度量观测值和条件预测的相对一致性统计量越小越好度量观测值和预测值总体的一致性统计量越小越好度量观测值和预测值总体的一致性P值越大
9、越好值越大越好说明:说明:在实践中,对以上统计量最为关注的是C统计量,其次是似然比卡方,最后才是统计量。AIC和SQUARE极少关注,这一点和多元线性回归有很大的区别。根本原因就是多元线性回归模型是一个预测模型,目标变量的值具有实际意义;而logistic是一个分类模型,目标变量只是一个分类标识,因此更关注预测值和预测值之间的相对一致性而不是绝对一致性。参数估计参数估计 除此以外,除此以外,logistic回归还可以用优势比估计:回归还可以用优势比估计:案例:案例:在logistic过程步中加“descending”选项的目的是使SAS过程按阳性率(y=1)拟合模型,得到阳性病例对应于阴性病例
10、的优势比。观观察察例例数数OR值OR的95%CI对偏回归系数的假设检验logisticlogistic回归模型的假设检验回归模型的假设检验3.比分检验(比分检验(score test)以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S。样本量较大时,S近似服从自由度为待检验因素个数的分布。上述三种方法中,似然比检验(与之前的类似)上述三种方法中,似然比检验(与之前的类似)最可靠,比分检验(最可靠,比分检验(logistic回归模型特有)一回归模型特有)一般与它相一致,但两者均要求
11、较大的计算量;而般与它相一致,但两者均要求较大的计算量;而Wald检验(相当于广义的检验(相当于广义的t检验)未考虑各因素检验)未考虑各因素间的综合作用,在因素间有共线性时结果不如其间的综合作用,在因素间有共线性时结果不如其它两者可靠。它两者可靠。概率概率p值均小值均小于于0.05,说明,说明方程有意义。方程有意义。对所拟合模型的假设检验:对所拟合模型的假设检验:变量筛选变量筛选例例 某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例。试用logistic回归分析筛选出于癌细胞转移有关的危险因素(变量选入和剔除水平均为0.10)。
12、用逐步回用逐步回归法拟合归法拟合模型模型,变量变量选入和剔选入和剔除水平均除水平均为为0.10 指定选项“des”是为了按照y=1(有转移)的概率拟合模型。如果不加此选择项,则软件会按照y=0(无转移)的概率拟合模型,此时,应变量的排序水平发生颠倒,且所有参数估计的符号相反,OR值为原来的倒数。logistic逐步回归分析筛选出两个有统计学意义的变量为x2和x4,回归系数分别为2.4134和2.0963,比数比分别为11.172和8.136。结果中还给出了标准化偏回归系数,肾癌细胞核组织学分级(x4)在引起癌细胞转移中的危险性大于肾细胞癌血管内皮生长因子(x2)。条件Logistic回归对配对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- logistic 回归 probit poission
限制150内