调查数据分析二元Logistic回归.pptx
《调查数据分析二元Logistic回归.pptx》由会员分享,可在线阅读,更多相关《调查数据分析二元Logistic回归.pptx(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、分类变量分析通常采用对数线性模型分类变量分析通常采用对数线性模型(Log-linear model),(Log-linear model),而因变量为二分变量时而因变量为二分变量时,对数线性模型就变成对数线性模型就变成LogisticLogistic回归模型回归模型.logisticlogistic回归是一个概率型模型,因此回归是一个概率型模型,因此可以利用它预测某事件发生的概率。例如可以利用它预测某事件发生的概率。例如在可以根据消费者的一些特征,判断购买在可以根据消费者的一些特征,判断购买某项产品概率有多大。某项产品概率有多大。第1页/共59页目的:作出以多个自变量估计因变量的目的:作出以多
2、个自变量估计因变量的logisticlogistic回归方程。属于概率型非线性回归。回归方程。属于概率型非线性回归。资料:资料:1.1.因变量为反映某现象发生与不发因变量为反映某现象发生与不发生的二值变量;生的二值变量;2.2.自变量宜全部或大部自变量宜全部或大部分为分类变量,可有少数数值变量。分分为分类变量,可有少数数值变量。分类变量要数量化。类变量要数量化。用途:研究哪些变量影响因变量,影响程用途:研究哪些变量影响因变量,影响程度方向、大小等。度方向、大小等。第2页/共59页3LogisticLogistic回归模型回归模型一.模型的引进二.Logistic回归模型估计三.Logistic
3、回归模型的评价四.Logistic回归系数的统计推断五.Logistic回归诊断第3页/共59页回归建模二元Logistic回归模型 当虚拟变量作为因变量,虚拟变量有两个取值,可使用二元Logistic回归。例:在一次有关公共交通的调查中,一个调查项目为“是乘坐公交车上下班,还是骑自行车上下班”。因变量有两个取值,当取值为1,乘坐公交车上下班;取值为0,骑自行车上下班。第4页/共59页回归建模二元Logistic回归模型 第5页/共59页回归建模二元Logistic回归模型 自变量(解释变量):X1:年龄,取值从18到58;X2:月收入(元),取值850、950、1000、1200、1300、
4、1500、1800、2100;X3:性别,取值为1,表示男性;取值为0,表示女性。第6页/共59页7回归建模二元Logistic回归模型研究目的:X1,X2,X3等因素对因变量(使用什么交通方式)有无影响?建立Y与X的多元线性回归模型?(取值(取值0和和1)第7页/共59页8回归建模二元Logistic回归模型建立p(Y=1|X)与X的多元线性回归模型?(取值范围取值范围01)第8页/共59页 线性回归模型的基本假定:(1)随机误差项具有均值:(2)随机误差项具有同方差:(3)随机误差项在不同样本点之间是独立的,不存在序列相关:(4)随机误差项与解释变量(自变量)之间不相关:(5)随机误差项服
5、从均值、同方差的正态分布 第9页/共59页回归建模二元Logistic回归模型1、发生概率p的大小取值范围0,1,p与自变量的关系难以用多元线性模型来描述。2、当p接近0或者1时,p值的微小变化用普通的方法难以发现和处理好。总:能不能找到一个p的严格单调函数Q,就会比较方便;同时要求Q对在p=0或p=1的附近的微小变化很敏感。第10页/共59页回归建模二元Logistic回归模型第11页/共59页12回归建模二元Logistic回归模型Logit(P)P第12页/共59页13回归建模二元Logistic回归模型建立logit(p)与X的多元线性回归模型:(取值范围取值范围-+)优势比优势比(o
6、dds)机会比机会比(odds)第13页/共59页14logistic回归模型Logistic回归模型:第14页/共59页15Logistic回归模型估计:极大似然估计Logistic回归模型估计的假设条件与OLS的不同 (1)logistic回归的因变量是二分类变量 (2)logistic回归的因变量与自变量之间的关系是非线性的 (3)logistic回归中无相同分布的假设 (4)logistic回归没有关于自变量“分布”的假设(离散,连续,虚拟)第15页/共59页Logistic回归模型估计:极大似然估计多元回归采用最小二乘估计,使因变量的真实值和预测值差异值的平方和最小化;Logisti
7、c变换的非线性特征使得在估计模型的时候采用极大似然估计的迭代方法,找到系数的“最可能”的估计,在计算整个模型拟合度时,采用似然值。第16页/共59页17Logistic回归模型估计:极大似然估计最小二乘估计(OLS):根据线性回归模型,选择参数估计值,使得模型的估计值与真值的离差平方和最小。极大似然估计(MLE):选择使得似然函数最大的参数估计值。第17页/共59页18由于各项观测相互独立,其联合分布为:Logistic回归模型估计:极大似然估计第18页/共59页19求似然函数的极大值Logistic回归模型估计:极大似然估计第19页/共59页20分别对参数求偏导,然后令它等于0:求得 的估计
8、值 ,从而得到 (pi的极大似然估计),这个值是在给定xi的条件下yi=1的条件概率的估计,它代表了Logistic回归模型的拟合值。Logistic回归模型估计:极大似然估计第20页/共59页21Logistic 回归系数的解释因此每个 代表当保持其他变量不变时,每单位量的增加对对数发生比的影响发生比率若发生比率1,则说明该变量增大时,则Y=1事件发生的比例也就越高。第21页/共59页Logistic回归模型估计:极大似然估计第22页/共59页23LogisticLogistic回归模型的评价回归模型的评价n 1 拟合优度检验(Goodness of fit)1.1 皮尔逊检验1.2 Hos
9、mer-Lemeshow检验n 2 Logistic回归模型的预测准确性Cox&Snell R Square指标和Nagelkerke R Square指标第23页/共59页拟合优度检验Logistic回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。如果预测的值与实际观测的值越接近,说明模型的拟合效果越好。模型的拟合优度检验方法有偏差检验(Deviance)、皮尔逊(pearson)检验、统计量(Homser-Lemeshow),分别计算统计量X2D、X2 P、X2HL值。统计量值越小,对应的概率越大。原假设H0:模型的拟合效果好。模型拟合优度信
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 调查 数据 分析 二元 Logistic 回归
限制150内