欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    多元线性回归、回归讲稿.ppt

    • 资源ID:47753659       资源大小:3.58MB        全文页数:74页
    • 资源格式: PPT        下载积分:18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多元线性回归、回归讲稿.ppt

    多元线性回归、回归1第一页,讲稿共七十四页哦n n概念概念概念概念 多因素分析是同时对观察对象的两个或两个以上的变量进多因素分析是同时对观察对象的两个或两个以上的变量进多因素分析是同时对观察对象的两个或两个以上的变量进多因素分析是同时对观察对象的两个或两个以上的变量进行分析。行分析。行分析。行分析。常用的统计分析方法有:常用的统计分析方法有:多元线性回归、多元线性回归、Logistic回归、回归、COX比例风险回归比例风险回归模型、因子分析、主成分分析,等。模型、因子分析、主成分分析,等。2第二页,讲稿共七十四页哦多变量资料数据格式多变量资料数据格式多变量资料数据格式多变量资料数据格式例号例号X X1 1X X2 2X Xp pY Y1 1X X1111X X1212X X1p1pY Y1 12 2X X2121X X2222X X2p2pY Y2 2n nX Xn1n1X Xn2n2X XnpnpY Yn nY Y为定量变量为定量变量为定量变量为定量变量Linear RegressionLinear RegressionY Y为二项分类变量为二项分类变量为二项分类变量为二项分类变量Binary Logistic RegressionBinary Logistic RegressionY Y为多项分类变量为多项分类变量为多项分类变量为多项分类变量Multinomial Logistic RegressionMultinomial Logistic RegressionY Y为有序分类变量为有序分类变量为有序分类变量为有序分类变量Ordinal Logistic RegressionOrdinal Logistic RegressionY Y为生存时间与生存结局为生存时间与生存结局为生存时间与生存结局为生存时间与生存结局Cox RegressionCox Regression3第三页,讲稿共七十四页哦Y,X直线回归直线回归 Y,X1,X2,Xm多元回归(多重回归)多元回归(多重回归)第十五章第十五章 多元线性回归多元线性回归 (multiple linear regressoin)P.261例:例:欲研究血压受年龄、性别、体重、性格、职业欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸烟、血脂水平(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。等因素的影响。4第四页,讲稿共七十四页哦 0 0为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(constant)constant),表示各自变量均为,表示各自变量均为,表示各自变量均为,表示各自变量均为0 0时时时时y y的平均值;的平均值;的平均值;的平均值;mm为自变量的个数;为自变量的个数;为自变量的个数;为自变量的个数;1 1、2 2、mm为偏回归系数(为偏回归系数(为偏回归系数(为偏回归系数(Partial regression coefficientPartial regression coefficient)意义:意义:意义:意义:如如如如 1 1 表示在表示在表示在表示在X X2 2、X X3 3 X Xmm固定条件下,固定条件下,固定条件下,固定条件下,X X1 1 每增减一个单位每增减一个单位每增减一个单位每增减一个单位对对对对Y Y 的效应(的效应(的效应(的效应(Y Y 增减增减增减增减 个单位)。个单位)。个单位)。个单位)。e e为去除为去除为去除为去除mm个自变量对个自变量对个自变量对个自变量对Y Y影响后的随机误差,称残差(影响后的随机误差,称残差(影响后的随机误差,称残差(影响后的随机误差,称残差(residual)residual)。多元回归方程的一般形式多元回归方程的一般形式多元回归方程的一般形式多元回归方程的一般形式一、多元回归模型一、多元回归模型5第五页,讲稿共七十四页哦 为为为为y y的估计值或预测值(的估计值或预测值(的估计值或预测值(的估计值或预测值(predicted value)predicted value);b b0 0为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(constant)constant),表示各自变量均为,表示各自变量均为,表示各自变量均为,表示各自变量均为0 0时时时时y y的估计值;的估计值;的估计值;的估计值;由样本估计而得的多元回归方程:由样本估计而得的多元回归方程:b b1 1、b b2 2、b bmm为偏回归系数(为偏回归系数(为偏回归系数(为偏回归系数(Partial regression coefficientPartial regression coefficient)意义:如意义:如意义:如意义:如 b b1 1 表示在表示在表示在表示在X X2 2、X X3 3 X Xmm固定条件下,固定条件下,固定条件下,固定条件下,X X1 1 每增减一个每增减一个每增减一个每增减一个单位对单位对单位对单位对Y Y 的效应(的效应(的效应(的效应(Y Y 增减增减增减增减 b b 个单位)。个单位)。个单位)。个单位)。6第六页,讲稿共七十四页哦适用条件:适用条件:适用条件:适用条件:线性(线性(线性(线性(linearlinear)、独立性()、独立性()、独立性()、独立性(independentindependent)、正态性()、正态性()、正态性()、正态性(normalnormal)、等方差)、等方差)、等方差)、等方差(equal varianceequal variance)“LINE”“LINE”。线性线性线性线性自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。独立性独立性独立性独立性任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。正态性正态性正态性正态性就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量y y均服从正态分均服从正态分均服从正态分均服从正态分布。即要求残差服从正态分布。常用残差图分析。布。即要求残差服从正态分布。常用残差图分析。布。即要求残差服从正态分布。常用残差图分析。布。即要求残差服从正态分布。常用残差图分析。等方差等方差等方差等方差就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量y y的方差均相同。的方差均相同。的方差均相同。的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。即要求残差的方差齐性。用散点图或残差图判断。即要求残差的方差齐性。用散点图或残差图判断。即要求残差的方差齐性。用散点图或残差图判断。7第七页,讲稿共七十四页哦8第八页,讲稿共七十四页哦(1 1)因素筛选:)因素筛选:)因素筛选:)因素筛选:(因素分析)(因素分析)例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:1 1)哪些是主要因素?)哪些是主要因素?)哪些是主要因素?)哪些是主要因素?2)各因素的作用大小?)各因素的作用大小?)各因素的作用大小?)各因素的作用大小?(2 2)提高回归方程的估计精度)提高回归方程的估计精度)提高回归方程的估计精度)提高回归方程的估计精度 多元回归比只有一个自变量的简单直线回归更能多元回归比只有一个自变量的简单直线回归更能缩小应变量缩小应变量Y对其估计值的离差,在预测和统计控制对其估计值的离差,在预测和统计控制方面应用的效果更好。方面应用的效果更好。(3 3)控制混杂因素)控制混杂因素)控制混杂因素)控制混杂因素n n多元线性回归除具有直线回归的基本性质外,还具有以下多元线性回归除具有直线回归的基本性质外,还具有以下多元线性回归除具有直线回归的基本性质外,还具有以下多元线性回归除具有直线回归的基本性质外,还具有以下特点(用途):特点(用途):特点(用途):特点(用途):9第九页,讲稿共七十四页哦(1)用各变量的数据建立回归方程)用各变量的数据建立回归方程(2 2)对总的方程进行假设检验)对总的方程进行假设检验)对总的方程进行假设检验)对总的方程进行假设检验(3 3)当总的方程有显著性意义时,应对每个自变量的偏回归系)当总的方程有显著性意义时,应对每个自变量的偏回归系)当总的方程有显著性意义时,应对每个自变量的偏回归系)当总的方程有显著性意义时,应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归系数无显著性,则数再进行假设检验,若某个自变量的偏回归系数无显著性,则数再进行假设检验,若某个自变量的偏回归系数无显著性,则数再进行假设检验,若某个自变量的偏回归系数无显著性,则应把该变量剔除,重新建立不包含该变量的多元回归方程。应把该变量剔除,重新建立不包含该变量的多元回归方程。应把该变量剔除,重新建立不包含该变量的多元回归方程。应把该变量剔除,重新建立不包含该变量的多元回归方程。二、多元回归分析步骤二、多元回归分析步骤二、多元回归分析步骤二、多元回归分析步骤对新建立的多元回归方程及偏回归系数按上述程序进对新建立的多元回归方程及偏回归系数按上述程序进对新建立的多元回归方程及偏回归系数按上述程序进对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后行检验,直到余下的偏回归系数都具有统计意义为止。最后行检验,直到余下的偏回归系数都具有统计意义为止。最后行检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。得到最优方程。得到最优方程。得到最优方程。10第十页,讲稿共七十四页哦例例例例15-115-1(P.262P.262)27 27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰名糖尿病人的血清总胆固醇、甘油三脂、空腹胰名糖尿病人的血清总胆固醇、甘油三脂、空腹胰名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表岛素、糖化血红蛋白、空腹血糖的测量值列于表岛素、糖化血红蛋白、空腹血糖的测量值列于表岛素、糖化血红蛋白、空腹血糖的测量值列于表15-215-2中,试建立血中,试建立血中,试建立血中,试建立血糖与其它几项指标关系的多元线性回归方程。糖与其它几项指标关系的多元线性回归方程。糖与其它几项指标关系的多元线性回归方程。糖与其它几项指标关系的多元线性回归方程。表15-2 27名糖尿病人的血糖及有关变量的测量结果序号i总胆固醇甘油三脂胰岛素糖化血血 糖(mmol/L)(mmol/L)(U/ml)红蛋白(%)(mmol/L)X1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.3265.840.928.616.413.3273.841.206.459.610.411第十一页,讲稿共七十四页哦由上表得到如下多元线性回归方程:由上表得到如下多元线性回归方程:1 1、建立回归方程、建立回归方程、建立回归方程、建立回归方程12第十二页,讲稿共七十四页哦2、回归方程的假设检验、回归方程的假设检验F检验检验n n结果无显著性结果无显著性结果无显著性结果无显著性 1 1)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;2 2)也可能由于样本例数过少;)也可能由于样本例数过少;)也可能由于样本例数过少;)也可能由于样本例数过少;n n结果有显著性结果有显著性结果有显著性结果有显著性 表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。HH0 0:1 1=2 2=mm=0=0HH1 1:1 1、2 2、mm不等于不等于不等于不等于0 0或不全等于或不全等于或不全等于或不全等于0 013第十三页,讲稿共七十四页哦14第十四页,讲稿共七十四页哦3 3、各个偏回归系数的假设检验、各个偏回归系数的假设检验、各个偏回归系数的假设检验、各个偏回归系数的假设检验tt检验检验检验检验n n将将将将总胆固醇总胆固醇总胆固醇总胆固醇(X(X1 1)剔除。剔除。剔除。剔除。注意:注意:注意:注意:通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。对于同一资料,不同自变量的对于同一资料,不同自变量的对于同一资料,不同自变量的对于同一资料,不同自变量的t t值可以相互比较,值可以相互比较,值可以相互比较,值可以相互比较,t t的绝对值越大,的绝对值越大,的绝对值越大,的绝对值越大,或或或或P P越小,说明该自变量对越小,说明该自变量对越小,说明该自变量对越小,说明该自变量对Y Y所起的作用越大。所起的作用越大。所起的作用越大。所起的作用越大。15第十五页,讲稿共七十四页哦n n重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程注意:表中偏回归系数已变化。注意:表中偏回归系数已变化。注意:表中偏回归系数已变化。注意:表中偏回归系数已变化。16第十六页,讲稿共七十四页哦n n对新建立的回归方程进行检验对新建立的回归方程进行检验检验结果有显著性意义。检验结果有显著性意义。检验结果有显著性意义。检验结果有显著性意义。17第十七页,讲稿共七十四页哦n对新方程的偏回归系数进行检验对新方程的偏回归系数进行检验检验结果均有意义,因此回归方程保留检验结果均有意义,因此回归方程保留甘油三酯甘油三酯(X2)、胰岛素、胰岛素(X3)和和糖化血红蛋白糖化血红蛋白(X4)三个三个因素。因素。最后获得回归方程为:最后获得回归方程为:18第十八页,讲稿共七十四页哦1、确定系数(、确定系数(R2):):意义:意义:意义:意义:在在在在y y的总变异中,由的总变异中,由的总变异中,由的总变异中,由x x变量组建立的线性回归方程所能解释变量组建立的线性回归方程所能解释变量组建立的线性回归方程所能解释变量组建立的线性回归方程所能解释的比例。的比例。的比例。的比例。01 01,越大越优。,越大越优。,越大越优。,越大越优。特点:特点:特点:特点:R R2 2是随自变量的增加而增大。是随自变量的增加而增大。是随自变量的增加而增大。是随自变量的增加而增大。因此,因此,因此,因此,在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。三、回归方程的评价三、回归方程的评价三、回归方程的评价三、回归方程的评价、R复相关系数复相关系数(multiple correlation coefficientmultiple correlation coefficient)表示表示表示表示mm个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程 度。度。度。度。0R10R1。即。即。即。即Y Y与与与与 的相关系数。的相关系数。的相关系数。的相关系数。19第十九页,讲稿共七十四页哦、校正确定系数(、校正确定系数(adjusted R-square,R2a)越大越优。越大越优。越大越优。越大越优。R R2 2a a不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。校正确定系数的计算:校正确定系数的计算:校正确定系数的计算:校正确定系数的计算:p 为方程中包含的自变量个数,为方程中包含的自变量个数,p mp m。R R2 2一定时,一定时,一定时,一定时,p p R R2 2 a a P.268 P.268 20第二十页,讲稿共七十四页哦21第二十一页,讲稿共七十四页哦四、各自变量的评价四、各自变量的评价1、偏回归平方和、偏回归平方和 是指将某自变量是指将某自变量是指将某自变量是指将某自变量x xj j从回归方程中剔除后所引起的回归从回归方程中剔除后所引起的回归从回归方程中剔除后所引起的回归从回归方程中剔除后所引起的回归平方和的减少量平方和的减少量平方和的减少量平方和的减少量间接反应了自变量间接反应了自变量间接反应了自变量间接反应了自变量x xj j对应变量的贡对应变量的贡献大小。献大小。各个自变量的偏回归平方和可以通过拟合包含不同自变各个自变量的偏回归平方和可以通过拟合包含不同自变各个自变量的偏回归平方和可以通过拟合包含不同自变各个自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到。量的回归方程计算得到。量的回归方程计算得到。量的回归方程计算得到。22第二十二页,讲稿共七十四页哦回归方程中包含的自变量回归方程中包含的自变量平方和平方和SSSS回回SSSS残残X X1 1、X X2 2、X X3 3、X X4 4133.711133.71188.84188.841X X2 2、X X3 3、X X4 4133.098133.09889.45489.454X X1 1、X X3 3、X X4 4121.748121.748100.804100.804X X1 1、X X2 2、X X4 4113.647113.647108.905108.905X X1 1、X X2 2、X X3 3105.917105.917116.635116.635对例对例对例对例15-115-1作回归分析的部分中间结果作回归分析的部分中间结果作回归分析的部分中间结果作回归分析的部分中间结果SSSS回回回回(X X1 1)=133.711=133.711133.098=0.613133.098=0.613SSSS回回回回(X X2 2)=133.711=133.711 121.748=11.963121.748=11.963SSSS回回回回(X X3 3)=133.711=133.711113.647=20.064113.647=20.064SSSS回回回回(X X4 4)=133.711=133.711 105.917=27.794105.917=27.79423第二十三页,讲稿共七十四页哦2 2、标准化偏回归系数(、标准化偏回归系数(、标准化偏回归系数(、标准化偏回归系数(standardized partial regression standardized partial regression coefficientcoefficient)消除测量单位影响后的偏回归系数消除测量单位影响后的偏回归系数消除测量单位影响后的偏回归系数消除测量单位影响后的偏回归系数标准化偏回归系数。标准化偏回归系数。标准化偏回归系数。标准化偏回归系数。n n意义:意义:意义:意义:用以比较各自变量对应变量的影响程度大小用以比较各自变量对应变量的影响程度大小(即相对贡献大小)。(即相对贡献大小)。24第二十四页,讲稿共七十四页哦bj X的偏回归系数的偏回归系数 Sj为自变量的标准差为自变量的标准差 SY 为应变量的标准差为应变量的标准差n若将各变量先经标准状态化处理后,再进行多元回归,若将各变量先经标准状态化处理后,再进行多元回归,则所得到的偏回归系数即为标准偏回归系数。则所得到的偏回归系数即为标准偏回归系数。n计算:计算:25第二十五页,讲稿共七十四页哦对血糖影响大小的顺序依次为:糖化血红蛋白对血糖影响大小的顺序依次为:糖化血红蛋白(X4)、胰岛素、胰岛素(X3)、甘油三酯、甘油三酯(X2)。比较糖化血红蛋白和甘油三酯的标准偏回归系数:比较糖化血红蛋白和甘油三酯的标准偏回归系数:0.413/0.354=1.17(倍)(倍)糖化血红蛋白对血糖的影响强度约为甘油三酯的糖化血红蛋白对血糖的影响强度约为甘油三酯的 1.17倍。倍。例例例例15-115-1资料,比较各个自变量对血糖的贡献大小比较。资料,比较各个自变量对血糖的贡献大小比较。资料,比较各个自变量对血糖的贡献大小比较。资料,比较各个自变量对血糖的贡献大小比较。26第二十六页,讲稿共七十四页哦五、自变量的筛选五、自变量的筛选基本思路:基本思路:尽可能将回归效果显著的自变量选尽可能将回归效果显著的自变量选入方程中,作用不显著的自变量排除在外。入方程中,作用不显著的自变量排除在外。(1)全局择优法()全局择优法(all possible subsets selection):):(2)逐步选择法)逐步选择法前进法前进法(Forward selectionForward selection)后退法后退法(Backward eliminationBackward elimination)逐步法逐步法(StepwiseStepwise)27第二十七页,讲稿共七十四页哦1、全局择优法(最优子集回归)、全局择优法(最优子集回归)(all possible subsets selection):):有有m个自变量就有个自变量就有2m-1个自变量子集。在个自变量子集。在各子集中选择最优的回归方程。各子集中选择最优的回归方程。仅适用于自变量个数不太多的情况。仅适用于自变量个数不太多的情况。28第二十八页,讲稿共七十四页哦2 2、向前筛选法、向前筛选法、向前筛选法、向前筛选法(Forward selectionForward selection):):):):事先给定一个入选标准,即事先给定一个入选标准,即事先给定一个入选标准,即事先给定一个入选标准,即 (通常(通常(通常(通常 =0.05=0.05),然后根,然后根,然后根,然后根据各因素偏回归平方和从大到小,依次逐个引入回归方程至据各因素偏回归平方和从大到小,依次逐个引入回归方程至据各因素偏回归平方和从大到小,依次逐个引入回归方程至据各因素偏回归平方和从大到小,依次逐个引入回归方程至无显著性自变量可以入选为止,因素一旦入选便始终保留在无显著性自变量可以入选为止,因素一旦入选便始终保留在无显著性自变量可以入选为止,因素一旦入选便始终保留在无显著性自变量可以入选为止,因素一旦入选便始终保留在方程中而不被剔除。方程中而不被剔除。方程中而不被剔除。方程中而不被剔除。局限性:后续变量的引入可能会使先进入方程的变量局限性:后续变量的引入可能会使先进入方程的变量局限性:后续变量的引入可能会使先进入方程的变量局限性:后续变量的引入可能会使先进入方程的变量变得不重要。变得不重要。变得不重要。变得不重要。29第二十九页,讲稿共七十四页哦3 3、向后剔除法、向后剔除法、向后剔除法、向后剔除法(Backward elimination)首先建立全部自变量的全回归方程,给定剔除标首先建立全部自变量的全回归方程,给定剔除标首先建立全部自变量的全回归方程,给定剔除标首先建立全部自变量的全回归方程,给定剔除标准,根据各因素偏回归平方和从小到大,依次逐个将准,根据各因素偏回归平方和从小到大,依次逐个将准,根据各因素偏回归平方和从小到大,依次逐个将准,根据各因素偏回归平方和从小到大,依次逐个将无显著性的自变量从回归方程中剔除。无显著性的自变量从回归方程中剔除。无显著性的自变量从回归方程中剔除。无显著性的自变量从回归方程中剔除。优点:考虑到了自变量的组合作用,选中的自变量优点:考虑到了自变量的组合作用,选中的自变量优点:考虑到了自变量的组合作用,选中的自变量优点:考虑到了自变量的组合作用,选中的自变量数目一般会比前进法选中的多。数目一般会比前进法选中的多。数目一般会比前进法选中的多。数目一般会比前进法选中的多。缺点:当自变量数目较多或有某些自变量高度相缺点:当自变量数目较多或有某些自变量高度相关时,可能得不出正确的结果。关时,可能得不出正确的结果。30第三十页,讲稿共七十四页哦4 4、逐步法、逐步法、逐步法、逐步法(StepwiseStepwise):):):):给出入选标准(通常给出入选标准(通常给出入选标准(通常给出入选标准(通常 1 1=0.05=0.05)和剔除标准()和剔除标准()和剔除标准()和剔除标准(通常通常通常通常 2 2 =0.10=0.10),每次选入一个在方程外且最具统计学意义的自变量),每次选入一个在方程外且最具统计学意义的自变量),每次选入一个在方程外且最具统计学意义的自变量),每次选入一个在方程外且最具统计学意义的自变量后,就对原在方程中的自变量做剔除检验,这个过程逐步进后,就对原在方程中的自变量做剔除检验,这个过程逐步进后,就对原在方程中的自变量做剔除检验,这个过程逐步进后,就对原在方程中的自变量做剔除检验,这个过程逐步进行,直到没有有统计意义的自变量可以入选,也没有无统计行,直到没有有统计意义的自变量可以入选,也没有无统计行,直到没有有统计意义的自变量可以入选,也没有无统计行,直到没有有统计意义的自变量可以入选,也没有无统计学意义的自变量保留在方程中为止。学意义的自变量保留在方程中为止。学意义的自变量保留在方程中为止。学意义的自变量保留在方程中为止。n n 实际工作中,多采用逐步法。实际工作中,多采用逐步法。实际工作中,多采用逐步法。实际工作中,多采用逐步法。n n 用上述方法对上例资料进行分析。用上述方法对上例资料进行分析。31第三十一页,讲稿共七十四页哦 六、应用多元线性回归分析时需注意的事项六、应用多元线性回归分析时需注意的事项(1 1)样本量要求:)样本量要求:)样本量要求:)样本量要求:无精确的计算公式。据经验,样本量无精确的计算公式。据经验,样本量无精确的计算公式。据经验,样本量无精确的计算公式。据经验,样本量应是自变量数的应是自变量数的应是自变量数的应是自变量数的510510倍以上。倍以上。倍以上。倍以上。(20?)(20?)(2 2)做预报时,只能在自变量)做预报时,只能在自变量X X的观察值范围内进的观察值范围内进行;行;(3 3)在资料要求上,应变量)在资料要求上,应变量Y服从正态分布;服从正态分布;服从正态分布;服从正态分布;(4 4)注意资料的特异点()注意资料的特异点(outlieroutlier););););32第三十二页,讲稿共七十四页哦(5 5)观测值重新量化问题)观测值重新量化问题)观测值重新量化问题)观测值重新量化问题 二项分类资料:用二项分类资料:用二项分类资料:用二项分类资料:用X X表示分类变量,阴性为表示分类变量,阴性为表示分类变量,阴性为表示分类变量,阴性为0 0,阳性为,阳性为,阳性为,阳性为1 1。有序多项分类资料:用一个有序多项分类资料:用一个有序多项分类资料:用一个有序多项分类资料:用一个X X 作为分类变量,以自然数作为分类变量,以自然数作为分类变量,以自然数作为分类变量,以自然数0 0,1 1,2 2,赋值。如将病情分为轻中重三类时,用赋值。如将病情分为轻中重三类时,用赋值。如将病情分为轻中重三类时,用赋值。如将病情分为轻中重三类时,用X X表示病情,赋值方法表示病情,赋值方法表示病情,赋值方法表示病情,赋值方法为:为:为:为:n n无序多项分类资料:无序多项分类资料:无序多项分类资料:无序多项分类资料:或或或或33第三十三页,讲稿共七十四页哦 上述以职员作为对比水平上述以职员作为对比水平上述以职员作为对比水平上述以职员作为对比水平(基础水平基础水平基础水平基础水平)。哑变量。哑变量。哑变量。哑变量X X1 1、X X2 2、X X3 3分别代表分别代表分别代表分别代表了工人、农民、干部与职员相比的系数。了工人、农民、干部与职员相比的系数。了工人、农民、干部与职员相比的系数。了工人、农民、干部与职员相比的系数。哑变量代表的是同一个变量的不同取值,在分析时应当同时进入哑变量代表的是同一个变量的不同取值,在分析时应当同时进入哑变量代表的是同一个变量的不同取值,在分析时应当同时进入哑变量代表的是同一个变量的不同取值,在分析时应当同时进入或移出方程。即使只有部分哑变量有统计学意义也是如此。或移出方程。即使只有部分哑变量有统计学意义也是如此。或移出方程。即使只有部分哑变量有统计学意义也是如此。或移出方程。即使只有部分哑变量有统计学意义也是如此。34第三十四页,讲稿共七十四页哦(7 7)自变量的联合作用分析)自变量的联合作用分析)自变量的联合作用分析)自变量的联合作用分析 若要考虑若要考虑若要考虑若要考虑X X3 3、X X4 4对应变量对应变量对应变量对应变量 y y 的联合作用,可设置一个新变量的联合作用,可设置一个新变量的联合作用,可设置一个新变量的联合作用,可设置一个新变量X X5 5=X X3 3X X4 4。若。若。若。若b b3 3、b b4 4和和和和b b5 5都有统计学意义,则说明都有统计学意义,则说明都有统计学意义,则说明都有统计学意义,则说明X X3 3、X X4 4对应变量既有单对应变量既有单对应变量既有单对应变量既有单独作用,又有交互作用。独作用,又有交互作用。独作用,又有交互作用。独作用,又有交互作用。(6 6)自变量筛选过程中引入和剔除变量时检验水准的确)自变量筛选过程中引入和剔除变量时检验水准的确)自变量筛选过程中引入和剔除变量时检验水准的确)自变量筛选过程中引入和剔除变量时检验水准的确定定定定1 1)引入变量检验的水准)引入变量检验的水准)引入变量检验的水准)引入变量检验的水准小于小于小于小于或或或或等于等于等于等于剔除变量时检验的水准剔除变量时检验的水准剔除变量时检验的水准剔除变量时检验的水准2 2)通常引入变量检验的水准为)通常引入变量检验的水准为)通常引入变量检验的水准为)通常引入变量检验的水准为0.050.05,剔除变量时,剔除变量时,剔除变量时,剔除变量时0.100.10,但不绝对。,但不绝对。,但不绝对。,但不绝对。35第三十五页,讲稿共七十四页哦说明说明X3、X4对应变量既有单独作用,又有交互作用。即说明糖尿病对应变量既有单独作用,又有交互作用。即说明糖尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量。人体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量。36第三十六页,讲稿共七十四页哦(8 8)自变量的共线性)自变量的共线性)自变量的共线性)自变量的共线性 当自变量之间存在较强的相关关系时,称之为共线性。当自变量之间存在较强的相关关系时,称之为共线性。当自变量之间存在较强的相关关系时,称之为共线性。当自变量之间存在较强的相关关系时,称之为共线性。后果后果后果后果偏回归系数的估计值容易失真。偏回归系数的估计值容易失真。偏回归系数的估计值容易失真。偏回归系数的估计值容易失真。当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性:性:性:性:1 1)在某个检验水准下,整个回归方程有统计学意义,但是每个偏)在某个检验水准下,整个回归方程有统计学意义,但是每个偏)在某个检验水准下,整个回归方程有统计学意义,但是每个偏)在某个检验水准下,整个回归方程有统计学意义,但是每个偏回归系数的检验均无统计学意义。回归系数的检验均无统计学意义。回归系数的检验均无统计学意义。回归系数的检验均无统计学意义。2 2)偏回归系数的符号与医学专业知识不一致。)偏回归系数的符号与医学专业知识不一致。)偏回归系数的符号与医学专业知识不一致。)偏回归系数的符号与医学专业知识不一致。3 3)参数估计的标准误变得很大,使)参数估计的标准误变得很大,使)参数估计的标准误变得很大,使)参数估计的标准误变得很大,使t t值变得很小,值变得很小,值变得很小,值变得很小,P P值很大。值很大。值很大。值很大。37第三十七页,讲稿共七十四页哦判断方法:判断方法:判断方法:判断方法:利用自变量间的相关系数阵。利用自变量间的相关系数阵。利用自变量间的相关系数阵。利用自变量间的相关系数阵。(r r 0.90.9,共线性可能性大),共线性可能性大),共线性可能性大),共线性可能性大)处理方法:处理方法:处理方法:处理方法:最简单、有效的方法是根据专业知识人为去最简单、有效的方法是根据专业知识人为去除在专业上比较次要的、或缺失值较多、测除在专业上比较次要的、或缺失值较多、测量误差较大的共线性因子。量误差较大的共线性因子。38第三十八页,讲稿共七十四页哦(9)残差分析)残差分析模型诊断模型诊断通常以标准化残差(通常以标准化残差(standardized residual)为纵坐标,为纵坐标,以以 为横坐标,作残差图。为横坐标,作残差图。39第三十九页,讲稿共七十四页哦40第四十页,讲稿共七十四页哦第十六章第十六章 Logistic 回归回归 一、概念一、概念 Logistic 回归是一种适用于应变量为分类回归是一种适用于应变量为分类值多因素概率型曲线模型。值多因素概率型曲线模型。Y Y为二项分类:为二项分类:为二项分类:为二项分类:非条件非条件非条件非条件Logistic Logistic 回归回归回归回归成组设计成组设计 条件条件Logistic 回归回归配对设计配对设计 Y Y为多分类:多分类为多分类:多分类为多分类:多分类为多分类:多分类Logistic Logistic 回归回归回归回归 P.278 41第四十一页,讲稿共七十四页哦Binary Logistic Binary Logistic 适用于应变量为二项分类的资料。适用于应变量为二项分类的资料。适用于应变量为二项分类的资料。适用于应变量为二项分类的资料。应变量(应变量(应变量(应变量(Y Y)在一组自变量()在一组自变量()在一组自变量()在一组自变量(X X)的作用下所发生的结果赋值规)的作用下所发生的结果赋值规)的作用下所发生的结果赋值规)的作用下所发生的结果赋值规则为:则为:则为:则为:logistic logistic 回归模型:回归模型:回归模型:回归模型:n n统计学中,把统计学中,把统计学中,把统计学中,把lnln(P/QP/Q)称为)称为)称为)称为 P P的的的的LogitLogit转换或对数转换,即转换或对数转换,即转换或对数转换,即转换或对数转换,即Logit PLogit P。由此得到的回归方程,称为由此得到的回归方程,称为由此得到的回归方程,称为由此得到的回归方程,称为LogisticLogistic回归方程。回归方程。回归方程。回归方程。出现阳性的结果出现阳性的结果出现阳性的结果出现阳性的结果 1 1 ,其概率用,其概率用,其概率用,其概率用P P来表示;来表示;来表示;来表示;出现阴性的结果出现阴性的结果出现阴性的结果出现阴性的结果 0 0 ,其概率用,其概率用,其概率用,其概率用QQ或(或(或(或(1 P1 P)来表示。)来表示。)来表示。)来表示。42第四十二页,讲稿共七十四页哦由上式可得由上式可得由上式可得由上式可得:由样本估计而得的由样本估计而得的由样本估计而得的由样本估计而得的logisticlogisticlogisticlogistic回归模型:回归模型:回归模型:回归模型:43第四十三页,讲稿共七十四页哦将将将将P/QP/Q称为比数(称为比数(称为比数(称为比数(oddsodds,优势、比值);两个比数之比称为,优势、比值);两个比数之比称

    注意事项

    本文(多元线性回归、回归讲稿.ppt)为本站会员(石***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开