logistic回归probit回归与poission回归.ppt
《logistic回归probit回归与poission回归.ppt》由会员分享,可在线阅读,更多相关《logistic回归probit回归与poission回归.ppt(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Logistic回归(因变量为二分变量/二项分布) probit回归 Poisson (因变量为poisson分布),第三章:横截面数据:因变量为分类变量及因变量为频数(计数)变量的情况,Logistic回归(因变量为二分变量/二项分布) probit回归 Poisson (因变量为poisson分布),第三章:横截面数据:因变量为分类变量及因变量为频数(计数)变量的情况,概念,logistic回归是研究因变量为二分类或多分类观察结果与影响 因素(自变量)之间关系的一种多变量分析方法,属概率型非线 性回归。 最常用的是二值型logistic ,即因变量的取值只包含两个类 别 例如:好、坏;发生
2、、不发生;常用Y=1或Y=0表示。 自变 量X称为危险因素或暴露因素,可为连续变量、等级变量、分类 变量,可有m个自变量X1, X2, Xm 。P表示Y=1的概率,是 其他变量的一个函数。 【p(Y=1|X)表示在X的条件下Y=1的概率】 logistic回归的数学表达式为:,logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。 (2)多分类资料logistic回归: 因变
3、量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。 也可以分为logistic回归和条件logistic回归,令因变量两个水平对应的值为0、1,概率为1-p、p,则显然我们也可以用多重回归进行分析?为什么要用logistic回归分析? logistic回归回归系数、模型评估、参数估计、假设检验等与之前的回归分析有何不同? 因变量为二分变量时既可以用logistics回归也可以用probit回归,那么probit回归及其与logistic回归的异同之处,问题,问题1:,p(y=1)表示某暴露因素状态下,结果y=1的概率(P)模型。,或,模型描述了
4、应变量p与x的关系,P概率,1,0.5,Z值,0,1,2,3,-1,-2,-3,图1 Logistic回归函数的几何图形,线性回归在处理有上限和下限的因变量时面临着一个问题:X上同样的变化对Y产生的影响不同,由图1也可以直观的看出这里并不适合进行线性回归。 虽然有很多非线性的函数可以呈现S形,但由于Logit转化比较简易,所以更受欢迎。,Logit与概率不同,它没有上下限。比数去除了概率的上限,比数的对数去除了概率的下限;且是以0,5为中点对称的,概率大于0.5产生正的logit,logit距离0的距离反映了概率距离0.5的距离;概率上相同的改变与在logits上产生的改变是不同的,logit
5、转化拉直了X与最初的概率之间的非线性关系。,回归系数的意义:,Logistic回归中的回归系数 表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。 Logistic回归中的常数项 表示,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。,单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同。,问题2:,模型评估,(1)osmer-Lemeshowz指标 HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。 (2)AIC和SC指标
6、即池雷准则和施瓦茨准则 与线性回归类似AIC和SC越小说明模型拟合的越好 (3)似然比卡方出从整体上看解释变量对因变量有无解释作用相当于多元回归中的F检验 在logistic回归中可以通过似然比(likelihood ratio test)进行检验(4)RSQUARE( R2 )和C统计量解释变量解释在多大程度上解释了因变量与线性回归中的R2作用类似 在logistic回归中可以通过R2和统计量进行度量,统计量 趋势拟合 作用 备注AIC、SC越小 越好类似于多元回归中的残差平方和 似然比卡方越大越好类似于多元回归中的回归平方和 P值越小越好RSQUARE 越大越好类似于多元回归中的统计量 越
7、大 越好度量观测值和条件预测的相对一致性 统计量越小越好度量观测值和预测值总体的一致性P值越大越好,说明: 在实践中,对以上统计量最为关注的是C统计量,其次是似然比卡方,最后才是统计量。AIC和SQUARE极少关注,这一点和多元线性回归有很大的区别。根本原因就是多元线性回归模型是一个预测模型,目标变量的值具有实际意义;而logistic是一个分类模型,目标变量只是一个分类标识,因此更关注预测值和预测值之间的相对一致性而不是绝对一致性。,参数估计,除此以外,logistic回归还可以用优势比估计:,案例:,观察例数,logistic回归模型的假设检验,3.比分检验(score test) 以未包
8、含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S 。样本量较大时, S近似服从自由度为待检验因素个数的分布。,上述三种方法中,似然比检验(与之前的类似)最可靠,比分检验(logistic回归模型特有)一般与它相一致,但两者均要求较大的计算量;而Wald检验(相当于广义的t检验)未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。,对所拟合模型的假设检验:,变量筛选,例 某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从
9、中抽取26例。试用logistic回归分析筛选出于癌细胞转移有关的危险因素(变量选入和剔除水平均为0.10)。,用逐步回归法拟合模型,变量选入和剔除水平均为0.10,指定选项“des”是为了按照y=1(有转移)的概率拟合模型。如果不加此选择项,则软件会按照y=0(无转移)的概率拟合模型,此时,应变量的排序水平发生颠倒,且所有参数估计的符号相反,OR值为原来的倒数。,logistic逐步回归分析筛选出两个有统计学意义的变量为x2和x4,回归系数分别为2.4134和2.0963,比数比分别为11.172和8.136。结果中还给出了标准化偏回归系数,肾癌细胞核组织学分级(x4)在引起癌细胞转移中的危
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- logistic 回归 probit poission
限制150内