《无序多分类逻辑斯蒂回归模型.pptx》由会员分享,可在线阅读,更多相关《无序多分类逻辑斯蒂回归模型.pptx(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Logistic回归因变量二项Logistic回归多项Logistic回归有序回归Probit回归第1页/共23页第13章 多项Logistic回归(无序多分类Logistic回归)13.1 无序多分类Logistic回归的基本思想13.2 无序多分类Logistic回归的案例分析第2页/共23页13.1 无序多分类Logistic回归的基本思想设因变量有k个取值水平,可以对其中的k-1个取值水平各做一个回归方程。设因变量第i个水平的Logistic回归模型:这样对于每一个模型都可以获得一组回归系数。根据因变量(响应变量)类型的不同,分两种情况:因变量为定性名义变量:各类之间地位相等因变量为定
2、性有序变量:各类之间存在程度、先后之分第3页/共23页13.1 无序多分类Logistic回归的基本思想当名义因变量(响应变量)有多个类别时,一般通过一种叫广义Logit模型的方法进行。即:多项Logistic模型采取把每个类别与一个参考类别配成对,通常取最后一类为基线/参照类别,称为基线-类别Logistic,预测变量为预测变量为x的基线的基线-类别类别logit模型为:模型为:模型共有模型共有J-1个方程,每个方程有不同的参数,这些效个方程,每个方程有不同的参数,这些效应依据与基线配对的类别而变化;应依据与基线配对的类别而变化;不管哪个类别作为参照,对于同一对类别都会有相同不管哪个类别作为
3、参照,对于同一对类别都会有相同的参数估计;即参照类别的选择是任意的。的参数估计;即参照类别的选择是任意的。第4页/共23页以Y分三类情形为例。假定因变量Y为分类变量,类数为3,各类之间无顺序之分,且假定Y的取值分别为a、b、c,选Ya为b和c的共同参照组,则有以下模型:Pa+Pb+Pc=1,实质上通过两个二维逻辑回归方程 就可以处理三分类情形。如果希望比较b和c两组,则直接将上述两方程相减即可得到相应函数。第5页/共23页13.2 无序多分类Logistic回归的案例分析例题:研究例题:研究不同学校不同学校和和不同课程计划不同课程计划对对学生学习方式偏好学生学习方式偏好的影响,得到数据如下的影
4、响,得到数据如下表。试进行表。试进行logistic回归分析。数据文件:回归分析。数据文件:“学习偏好学习偏好.sav”学校学校school课程计划课程计划program学生偏好的学习方式学生偏好的学习方式自修自修小组小组上课上课1常规常规101726附加附加512502常规常规211726附加附加1612263常规常规151516附加附加121220第6页/共23页SPSS操作步骤:1、建立数据文件;2、数据加权个案3、分析回归多元logistic回归4、学习方式因变量;学校、课程计划因子5、确定(其他选项默认)第7页/共23页13.2 无序多分类Logistic回归的案例分析默认参考类别为
5、最后一类,也可重新设定因变量和因子都必须为分类变量协变量:不能够控制和不感兴趣协变量:不能够控制和不感兴趣的变量。例如,当研究学习时间的变量。例如,当研究学习时间对学习绩效的影响,学生原来的对学习绩效的影响,学生原来的学习基础、智力、学习兴趣就是学习基础、智力、学习兴趣就是协变。协变。在实验的设计中,协变量是一个在实验的设计中,协变量是一个独立变量(解释变量),不为实独立变量(解释变量),不为实验者所操纵,但仍影响实验结果。验者所操纵,但仍影响实验结果。例如,研究教学方法对学生成绩例如,研究教学方法对学生成绩的影响,学生原来的学习基础就的影响,学生原来的学习基础就是你所不能控制的,只能尽量消是
6、你所不能控制的,只能尽量消除其影响。除其影响。协变量可以为分类变量和连续协变量可以为分类变量和连续变量变量用于设置区分类别的顺序,升序用于设置区分类别的顺序,升序则取值最小的类为第一类,降序则取值最小的类为第一类,降序则取值最小的类为最后一类则取值最小的类为最后一类第8页/共23页指定模型主效应:表示模型中只包含些变量和因素变量的主效应全因子:表示模型中包含所有主效应以及它们之间所有可能的交互效应设定/步进式:由用户自行选择使用哪些效应进行分析,选中之后激活下面的选项强制输入项:进入的效应强制出现在模型中步进项:选入此列表的效应将以逐步回归的方式加入模型建立项:用来指定效应的种类,可供选择的有
7、6种步进法:给出了4种步进方法第9页/共23页输出逐步回归的判别标准,输出Akaike信息标准(AIC)和施瓦兹-贝叶斯信息标准(BIC),越小越好用于指定一个小于用于指定一个小于1 1的正数,此数的正数,此数将被添入分类变量交叉标的空单元将被添入分类变量交叉标的空单元格中,有助于稳定算法,防止出现格中,有助于稳定算法,防止出现较大的估计偏差较大的估计偏差对所有因自变量和协变量计算单对所有因自变量和协变量计算单元概率,并进行拟合优度检验元概率,并进行拟合优度检验第10页/共23页把观测记录按照因变量进行分类的估计概率,因变量有几个水平就保存几个变量保存模型的预测响应分类保存模型的预测响应分类保
8、存最大的预测响应概率保存最大的预测响应概率保存预测正确时的估计保存预测正确时的估计响应概率响应概率第11页/共23页第12页/共23页该表为总模型的似然比检验结果,可见最终模型和只含有常数项的初始模型相比,-2LL值从78.128下降至51.303,下降了26.825,似然比卡方检验的P-值小于0.05,说明模型整体是显著的。第13页/共23页伪R2指标,此处因只有分类变量,所以三个决定系数都非常低,不过在Logistic模型分析中它们的用处不太大。拟合优度检验:检验的零假设是模型能很好的拟合拟合优度检验:检验的零假设是模型能很好的拟合原始数据,从原始数据,从sig.看,均远大于看,均远大于0
9、.05,不能否定原假,不能否定原假设,即最终模型的显著成立。设,即最终模型的显著成立。第14页/共23页似然比检验该表结果表明,在5%的显著水平下,两个变量的作用都是显著的。第15页/共23页其中其中:school=3和和program=2为参照,因此其参数为为参照,因此其参数为0。第16页/共23页变量“school1”回归系数为负值,显著不为零,表明:自修与上课两种学习方式相比,学校1的学生比学校3的学生更容易选择上课学校2与学校3的学生的选择则没什么差别。常规课程计划的学生比附加学习计划的学生更容易选择自修学习方式;常规课程计划的学生更偏好小组学习。冗余参数:研究冗余参数:研究者不感兴趣
10、的参者不感兴趣的参数,此处是被固数,此处是被固定参考类别定参考类别第17页/共23页在实际应用中,分类自变量(如婚姻状况)各哑变量的偏回归系数可能其中某一(几)个有统计学意义,而其他的没有统计学意义(Pa)。此时建议保留该自变量。分类表:是根据观测频分类表:是根据观测频率和预测频率统计得到率和预测频率统计得到的。对角线上的单元个的。对角线上的单元个代表判断正确的个数或代表判断正确的个数或概率,非对角线则为判概率,非对角线则为判错的个数或概率。可以错的个数或概率。可以看出,模型仍有改进的看出,模型仍有改进的余地。余地。第18页/共23页观测频率和预测频率:较为接近,拟合不错第19页/共23页练习
11、:早餐习惯受生活方式、性别等因素的影响。某块三公司为了提高其早餐的市场份额,对880名消费者做了一次调查,见数据“早餐偏好调查数据.sav”,问卷提出了年龄段、性别、生活方式、早餐、婚否等问题,其中早餐=1表示不吃,=2表示吃麦片,=3表示吃谷物。试分析各因素对早餐的影响。13.2 无序多分类Logistic回归的案例分析第20页/共23页练习:小布什为捍卫家庭荣誉与民主党总统候选人克里围绕新一届总统大选进行“殊死搏斗”以试图打破“赢了战争却丢了总统宝座”的怪圈。这里回顾一下老布什与克林顿在1992 年进行的较量,当时还有独立候选人佩罗先生。数据文件为“vote.sav”,变量有:pres92,所欲选的总统候选人;age,年龄;agecat,年龄分组;educ,受教育年数;degree,最高学历;sex,性别。试对其拟合反应变量为无序多分类的Logistic 回归,看看哪些因素导致了老布什的败北,小布什应从中吸取哪些教训。13.2 无序多分类Logistic回归的案例分析第21页/共23页本章结束!第22页/共23页感谢您的观看!第23页/共23页
限制150内