logistic回归probit回归与poission回归.pptx
《logistic回归probit回归与poission回归.pptx》由会员分享,可在线阅读,更多相关《logistic回归probit回归与poission回归.pptx(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1logistic回归回归(hugu)probit回归回归(hugu)与与poission回归回归(hugu)PPT课件课件第一页,共49页。n nLogistic回归回归(hugu)(因变量为(因变量为二分变量二分变量/二项分布)二项分布)n nprobit回归回归(hugu)n nPoisson(因变量为(因变量为poisson分布)分布)第三章:横截面数据:因变量为分类第三章:横截面数据:因变量为分类(fn li)变变量及因变量为频数(计数)变量的情况量及因变量为频数(计数)变量的情况第1页/共49页第二页,共49页。概念概念概念概念(ginin)(ginin)logistic l
2、ogistic回归是研究因变量为二分类或多分类观察结果与影响回归是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非因素(自变量)之间关系的一种多变量分析方法,属概率型非线线性回归。性回归。最常用的是二值型最常用的是二值型logistic logistic,即因变量的取值只包含两个类,即因变量的取值只包含两个类别别 例如:好、坏例如:好、坏;发生、不发生;常用;发生、不发生;常用Y=1Y=1或或Y=0Y=0表示。表示。自变自变量量X X称为危险因素或暴露称为危险因素或暴露(bol)(bol)因素,可为连续变量、等级变量、因素,可为连续变量、等级变量、
3、分类分类变量,可有变量,可有mm个自变量个自变量X1X1,X2 X2,Xm Xm。P P表示表示Y=1Y=1的概率,是的概率,是其他变量的一个函数。其他变量的一个函数。【p p(Y=1|XY=1|X)表示在)表示在X X的条件下的条件下Y=1Y=1的概率】的概率】logisticlogistic回归的数学表达式为:回归的数学表达式为:第2页/共49页第三页,共49页。logisticlogistic回归的分类:回归的分类:(1 1)二分类资料)二分类资料logisticlogistic回归:回归:因变量为两分类变量的资料,因变量为两分类变量的资料,可用非条件可用非条件logisticlogis
4、tic回归和条件回归和条件logisticlogistic回归进行分析。非条件回归进行分析。非条件logisticlogistic回归多用于非配比病例回归多用于非配比病例-对照研究或队列研究资料,对照研究或队列研究资料,条件条件logisticlogistic回归多用于配对或配比资料。回归多用于配对或配比资料。(2 2)多分类资料)多分类资料logisticlogistic回归:回归:因变量为多项分类的资料,可因变量为多项分类的资料,可用多项分类用多项分类logisticlogistic回归模型回归模型(mxng)(mxng)或有序分类或有序分类logisticlogistic回归回归模型模型
5、(mxng)(mxng)进行分析。进行分析。也可以分为也可以分为logisticlogistic回归和条件回归和条件logisticlogistic回归回归第3页/共49页第四页,共49页。1.1.令因变量两个水平对应的值为令因变量两个水平对应的值为0 0、1 1,概率为,概率为1-p1-p、p p,则显然我们也可以用多重回归进行分析?为什么要用则显然我们也可以用多重回归进行分析?为什么要用logisticlogistic回归分析?回归分析?2.2.logisticlogistic回归回归系数、模型评估回归回归系数、模型评估(pn(pn )、参数估计、参数估计、假设检验等与之前的回归分析有何不
6、同?假设检验等与之前的回归分析有何不同?3.3.因变量为二分变量时既可以用因变量为二分变量时既可以用logisticslogistics回归也可以用回归也可以用probitprobit回归,那么回归,那么probitprobit回归及其与回归及其与logisticlogistic回归的异同回归的异同之处之处问题问题问题问题(wnt)(wnt)第4页/共49页第五页,共49页。问题问题问题问题(wnt)1(wnt)1:p(y=1)表示某暴露因素状态下,结果y=1的概率(gil)(P)模型。或或模型描述模型描述(mio sh)了应变量了应变量p与与x的关系的关系第5页/共49页第六页,共49页。P
7、概率概率(gil)10.5Z值值0123-1-2-3 图图1 Logistic回归函数回归函数(hnsh)的几何图形的几何图形第6页/共49页第七页,共49页。线性回归在处理线性回归在处理(chl)有上限和下限的因变量时面临着有上限和下限的因变量时面临着一个问题:一个问题:X上同样的变化对上同样的变化对Y产生的影响不同,由图产生的影响不同,由图1也可以直观的看出这里并不适合进行线性回归。也可以直观的看出这里并不适合进行线性回归。虽然有很多非线性的函数可以呈现虽然有很多非线性的函数可以呈现S形,但由于形,但由于Logit转转化比较简易,所以更受欢迎。化比较简易,所以更受欢迎。第7页/共49页第八
8、页,共49页。第8页/共49页第九页,共49页。Logit与概率不同,它没有上下限。比数去除了概率的上限与概率不同,它没有上下限。比数去除了概率的上限(shngxin),比数,比数的对数去除了概率的下限;且是以的对数去除了概率的下限;且是以0,5为中点对称的,概率大于为中点对称的,概率大于0.5产生正的产生正的logit,logit距离距离0的距离反映了概率距离的距离反映了概率距离0.5的距离;概率上相同的改变与在的距离;概率上相同的改变与在logits上产生的改变是不同的,上产生的改变是不同的,logit转化拉直了转化拉直了X与最初的概率之间的非线性关与最初的概率之间的非线性关系。系。第9页
9、/共49页第十页,共49页。回归系数的意义回归系数的意义(yy):Logistic回归中的回归系数回归中的回归系数 表示,某一因素改表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率变一个单位时,效应指标发生与不发生事件的概率之比的对数之比的对数(du sh)变化值,即变化值,即OR的对数的对数(du sh)值。值。Logistic回归中的常数项回归中的常数项 表示,在不接触任何潜表示,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数事件的概率之比的对数(du sh)值。值。单纯从数学上讲,与多元线性单纯从数学上讲
10、,与多元线性回归回归(hugu)分析中回归分析中回归(hugu)系数的解释并无不同。系数的解释并无不同。问题问题问题问题2 2:第10页/共49页第十一页,共49页。模型(mxng)评估(1)osmer-Lemeshowz指标HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据(shj)。(2)AIC和SC指标即池雷准则和施瓦茨准则与线性回归类似AIC和SC越小说明模型拟合的越好(3)似然比卡方出从整体上看解释变量对因变量有无解释作用相当于多元回归中的F检验在logistic回归中可以通过似然比(likelih
11、oodratiotest)进行检验(4)RSQUARE(R2)和C统计量解释变量解释在多大程度上解释了因变量与线性回归中的R2作用类似在logistic回归中可以通过R2和统计量进行度量第11页/共49页第十二页,共49页。统计量统计量统计量统计量 趋势趋势趋势趋势拟合拟合拟合拟合 作用作用作用作用 备注备注备注备注AICAIC、SCSC越小越小越小越小 越好越好越好越好类似类似类似类似(li s)(li s)于多元回归中的残差平方和于多元回归中的残差平方和于多元回归中的残差平方和于多元回归中的残差平方和 似然比卡方似然比卡方似然比卡方似然比卡方 越大越大越大越大越好越好越好越好类似类似类似类
12、似(li s)(li s)于多元回归中的回归平方和于多元回归中的回归平方和于多元回归中的回归平方和于多元回归中的回归平方和 P P值越小越好值越小越好值越小越好值越小越好RSQUARE RSQUARE 越大越大越大越大越好越好越好越好类似类似类似类似(li s)(li s)于多元回归中的于多元回归中的于多元回归中的于多元回归中的统计量统计量统计量统计量 越大越大越大越大 越好度量观测值和条件预测的相对一致性越好度量观测值和条件预测的相对一致性越好度量观测值和条件预测的相对一致性越好度量观测值和条件预测的相对一致性 统计量越小越好度量观测值和预测值总体的一致性统计量越小越好度量观测值和预测值总体
13、的一致性统计量越小越好度量观测值和预测值总体的一致性统计量越小越好度量观测值和预测值总体的一致性PP值越大越好值越大越好值越大越好值越大越好说明:说明:在实践中,对以上统计量最为关注的是在实践中,对以上统计量最为关注的是C统计统计量,其次是似然比卡方,最后才是统计量。量,其次是似然比卡方,最后才是统计量。AIC和和SQUARE极少关注,这一点和多元线性回极少关注,这一点和多元线性回归有很大的区别。根本原因就是多元线性回归模归有很大的区别。根本原因就是多元线性回归模型是一个预测模型,目标变量的值具有实际意义;型是一个预测模型,目标变量的值具有实际意义;而而logistic是一个分类模型,目标变量
14、只是是一个分类模型,目标变量只是(zhsh)一个分类标识,因此更关注预测值和预一个分类标识,因此更关注预测值和预测值之间的相对一致性而不是绝对一致性。测值之间的相对一致性而不是绝对一致性。第12页/共49页第十三页,共49页。参数估计参数估计参数估计参数估计 第13页/共49页第十四页,共49页。第14页/共49页第十五页,共49页。除此以外,除此以外,logistic回归回归(hugu)还可以用优势还可以用优势比估计:比估计:第15页/共49页第十六页,共49页。案例案例(n l):第16页/共49页第十七页,共49页。在logistic过程步中加“descending”选项的目的是使SAS
15、过程按阳性率(y=1)拟合模型,得到阳性病例对应于阴性病例的优势比。观观察察(gunch)例例数数第17页/共49页第十八页,共49页。OR值OR的95%CI对偏回归系数的假设检验第18页/共49页第十九页,共49页。第19页/共49页第二十页,共49页。logisticlogisticlogisticlogistic回归回归回归回归(hugu)(hugu)(hugu)(hugu)模型的假设检验模型的假设检验模型的假设检验模型的假设检验 第20页/共49页第二十一页,共49页。第21页/共49页第二十二页,共49页。3.3.比分检验(比分检验(比分检验(比分检验(score testscore
16、 test)以未包含某个或几个变量的模型为基础,保留模型以未包含某个或几个变量的模型为基础,保留模型以未包含某个或几个变量的模型为基础,保留模型以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加中参数的估计值,并假设新增加中参数的估计值,并假设新增加中参数的估计值,并假设新增加(zngji)(zngji)的参数为零,的参数为零,的参数为零,的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息计算似然函数的一价偏导数(又称有效比分)及信息计算似然函数的一价偏导数(又称有效比分)及信息计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量距阵,
17、两者相乘便得比分检验的统计量距阵,两者相乘便得比分检验的统计量距阵,两者相乘便得比分检验的统计量S S。样本量较。样本量较。样本量较。样本量较大时,大时,大时,大时,S S近似服从自由度为待检验因素个数的近似服从自由度为待检验因素个数的近似服从自由度为待检验因素个数的近似服从自由度为待检验因素个数的分分分分布。布。布。布。上述三种方法中,似然比检验(与之前的类似)最可靠,上述三种方法中,似然比检验(与之前的类似)最可靠,比分检验(比分检验(logistic回归模型特有回归模型特有(t yu))一般与它相)一般与它相一致,但两者均要求较大的计算量;而一致,但两者均要求较大的计算量;而Wald检验
18、(相当检验(相当于广义的于广义的t检验)未考虑各因素间的综合作用,在因素间检验)未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。有共线性时结果不如其它两者可靠。第22页/共49页第二十三页,共49页。概率概率p值均小值均小于于0.05,说明,说明方程有意义。方程有意义。对所拟合对所拟合(n h)模型的假设检验:模型的假设检验:第23页/共49页第二十四页,共49页。变量变量变量变量(binling)(binling)筛选筛选筛选筛选 第24页/共49页第二十五页,共49页。n n例例例例 某工作者在探讨肾细胞癌转移某工作者在探讨肾细胞癌转移某工作者在探讨肾细胞癌转移某工作者在
19、探讨肾细胞癌转移(zhuny)(zhuny)的有关临床病理的有关临床病理的有关临床病理的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标因素研究中,收集了一批行根治性肾切除术患者的肾癌标因素研究中,收集了一批行根治性肾切除术患者的肾癌标因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取本资料,现从中抽取本资料,现从中抽取本资料,现从中抽取2626例。试用例。试用例。试用例。试用logisticlogistic回归分析筛选出于回归分析筛选出于回归分析筛选出于回归分析筛选出于癌细胞转移癌细胞转移癌细胞转移癌细胞转移(zhuny)(zhuny)有关的危险因素(变量选入
20、和剔除水有关的危险因素(变量选入和剔除水有关的危险因素(变量选入和剔除水有关的危险因素(变量选入和剔除水平均为平均为平均为平均为0.100.10)。)。)。)。第25页/共49页第二十六页,共49页。用逐步回用逐步回归法拟合归法拟合模型模型,变量变量选入和剔选入和剔除除(tch)水平均为水平均为0.10 指定选项“des”是为了按照y=1(有转移(zhuny))的概率拟合模型。如果不加此选择项,则软件会按照y=0(无转移(zhuny))的概率拟合模型,此时,应变量的排序水平发生颠倒,且所有参数估计的符号相反,OR值为原来的倒数。第26页/共49页第二十七页,共49页。第27页/共49页第二十八
21、页,共49页。logistic逐步回归分析筛选出两个有统计学意义的变量为x2和x4,回归系数分别为2.4134和2.0963,比数比分别为11.172和8.136。结果(ji gu)中还给出了标准化偏回归系数,肾癌细胞核组织学分级(x4)在引起癌细胞转移中的危险性大于肾细胞癌血管内皮生长因子(x2)。第28页/共49页第二十九页,共49页。条件条件条件条件(tiojin)Logistic(tiojin)Logistic回归回归回归回归对配对对配对对配对对配对/比调查资料,应该用条件比调查资料,应该用条件比调查资料,应该用条件比调查资料,应该用条件LogisticLogistic回归分析。回归分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- logistic 回归 probit poission
限制150内