欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    多元线性回归回归讲稿.ppt

    • 资源ID:47758222       资源大小:1.78MB        全文页数:88页
    • 资源格式: PPT        下载积分:18金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要18金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多元线性回归回归讲稿.ppt

    关于多元线性回归回归第一页,讲稿共八十八页哦2n n概念概念概念概念 多因素分析是同时对观察对象的两个或两个以上的变量多因素分析是同时对观察对象的两个或两个以上的变量多因素分析是同时对观察对象的两个或两个以上的变量多因素分析是同时对观察对象的两个或两个以上的变量进行分析。进行分析。进行分析。进行分析。常用的统计分析方法有:常用的统计分析方法有:多元线性回归、多元线性回归、多元线性回归、多元线性回归、Logistic回归、回归、COX比例风险回归模型、比例风险回归模型、比例风险回归模型、比例风险回归模型、因子分析、主成分分析等。因子分析、主成分分析等。因子分析、主成分分析等。因子分析、主成分分析等。第二页,讲稿共八十八页哦3多变量资料数据格式多变量资料数据格式多变量资料数据格式多变量资料数据格式例号例号X X1 1X X2 2X Xp pY Y1 1X X1111X X1212X X1p1pY Y1 12 2X X2121X X2222X X2p2pY Y2 2n nX Xn1n1X Xn2n2X XnpnpY Yn nY Y为定量变量为定量变量为定量变量为定量变量Linear RegressionLinear RegressionY Y为二项分类变量为二项分类变量为二项分类变量为二项分类变量Binary Logistic RegressionBinary Logistic RegressionY Y为多项分类变量为多项分类变量为多项分类变量为多项分类变量Multinomial Logistic RegressionMultinomial Logistic RegressionY Y为有序分类变量为有序分类变量为有序分类变量为有序分类变量Ordinal Logistic RegressionOrdinal Logistic RegressionY Y为生存时间与生存结局为生存时间与生存结局为生存时间与生存结局为生存时间与生存结局Cox RegressionCox Regression第三页,讲稿共八十八页哦4(1 1)因素筛选:)因素筛选:)因素筛选:)因素筛选:例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:1 1)哪些是主要因素?)哪些是主要因素?2 2)各因素的作用大小?)各因素的作用大小?(2)控制混杂因素)控制混杂因素)控制混杂因素)控制混杂因素(3 3)提高回归方程的估计精度)提高回归方程的估计精度)提高回归方程的估计精度)提高回归方程的估计精度 多因素分析只有一个自变量的单因素回归更能缩小应多因素分析只有一个自变量的单因素回归更能缩小应多因素分析只有一个自变量的单因素回归更能缩小应多因素分析只有一个自变量的单因素回归更能缩小应变量变量变量变量Y Y对其估计值的离差,在预测和统计控制方面应用的对其估计值的离差,在预测和统计控制方面应用的对其估计值的离差,在预测和统计控制方面应用的对其估计值的离差,在预测和统计控制方面应用的效果更好。效果更好。效果更好。效果更好。n n多因素回归分析主要用途:多因素回归分析主要用途:多因素回归分析主要用途:多因素回归分析主要用途:第四页,讲稿共八十八页哦5Y,X直线回归直线回归 Y,X1,X2,Xm多元回归(多重回归)多元回归(多重回归)一、多元线性回归一、多元线性回归(multiple linear regressoin)例:例:欲研究血压受年龄、性别、体重、性格、职业欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸烟、血脂水(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。平等因素的影响。第五页,讲稿共八十八页哦6 0 0为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(constant)constant),表示各自变量均为,表示各自变量均为,表示各自变量均为,表示各自变量均为0 0时时时时y y的平均值;的平均值;的平均值;的平均值;mm为自变量的个数;为自变量的个数;为自变量的个数;为自变量的个数;1 1、2 2、mm为偏回归系数(为偏回归系数(为偏回归系数(为偏回归系数(Partial regression coefficientPartial regression coefficient)意义:意义:意义:意义:如如如如 1 1 表示在表示在表示在表示在X X2 2、X X3 3 X Xmm固定条件下,固定条件下,固定条件下,固定条件下,X X1 1 每增减一个单每增减一个单每增减一个单每增减一个单位对位对位对位对Y Y 的效应(的效应(的效应(的效应(Y Y 增减增减增减增减 个单位)。个单位)。个单位)。个单位)。e e为去除为去除为去除为去除mm个自变量对个自变量对个自变量对个自变量对Y Y影响后的随机误差,称残差(影响后的随机误差,称残差(影响后的随机误差,称残差(影响后的随机误差,称残差(residual)residual)。多元回归方程的一般形式多元回归方程的一般形式多元回归方程的一般形式多元回归方程的一般形式(一)(一)(一)(一)多元回归模型多元回归模型多元回归模型多元回归模型第六页,讲稿共八十八页哦7 为为为为y y的估计值或预测值(的估计值或预测值(的估计值或预测值(的估计值或预测值(predicted value)predicted value);b b0 0为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(constant)constant),表示各自变量均为,表示各自变量均为,表示各自变量均为,表示各自变量均为0 0时时时时y y的估计的估计的估计的估计值;值;值;值;由样本估计而得的多元回归方程:由样本估计而得的多元回归方程:由样本估计而得的多元回归方程:由样本估计而得的多元回归方程:b b1 1、b b2 2、b bmm为偏回归系数(为偏回归系数(为偏回归系数(为偏回归系数(Partial regression coefficientPartial regression coefficient)意义:如意义:如意义:如意义:如 b b1 1 表示在表示在表示在表示在X X2 2、X X3 3 X Xmm固定条件下,固定条件下,固定条件下,固定条件下,X X1 1 每增减一个单每增减一个单每增减一个单每增减一个单位对位对位对位对Y Y 的效应(的效应(的效应(的效应(Y Y 增减增减增减增减 b b 个单位)。个单位)。个单位)。个单位)。第七页,讲稿共八十八页哦8适用条件:适用条件:适用条件:适用条件:线性(线性(线性(线性(linearlinear)、独立性()、独立性()、独立性()、独立性(independentindependent)、正态性()、正态性()、正态性()、正态性(normalnormal)、方)、方)、方)、方差齐性(差齐性(差齐性(差齐性(equal varianceequal variance)“LINE”“LINE”。线性线性线性线性自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。独立性独立性独立性独立性任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。正态性正态性正态性正态性就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量y y均服从正态分均服从正态分均服从正态分均服从正态分布。即要求残差服从正态分布。常用残差图分析。布。即要求残差服从正态分布。常用残差图分析。布。即要求残差服从正态分布。常用残差图分析。布。即要求残差服从正态分布。常用残差图分析。方差齐性方差齐性方差齐性方差齐性就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量y y的方差均相同。的方差均相同。的方差均相同。的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。即要求残差的方差齐性。用散点图或残差图判断。即要求残差的方差齐性。用散点图或残差图判断。即要求残差的方差齐性。用散点图或残差图判断。第八页,讲稿共八十八页哦9(1)用各变量的数据建立回归方程)用各变量的数据建立回归方程)用各变量的数据建立回归方程)用各变量的数据建立回归方程(2 2)对总的方程进行假设检验)对总的方程进行假设检验)对总的方程进行假设检验)对总的方程进行假设检验(3 3)当总的方程有显著性意义时,应对每个自变量的偏)当总的方程有显著性意义时,应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归系数回归系数再进行假设检验,若某个自变量的偏回归系数无显著性,则应把该变量剔除,重新建立不包含该变量无显著性,则应把该变量剔除,重新建立不包含该变量的多元回归方程。的多元回归方程。(二)多元回归分析步骤(二)多元回归分析步骤对新建立的多元回归方程及偏回归系数按上述程序进行对新建立的多元回归方程及偏回归系数按上述程序进行对新建立的多元回归方程及偏回归系数按上述程序进行对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后得检验,直到余下的偏回归系数都具有统计意义为止。最后得检验,直到余下的偏回归系数都具有统计意义为止。最后得检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。到最优方程。到最优方程。到最优方程。第九页,讲稿共八十八页哦10例例例例1 1 2727名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表化血红蛋白、空腹血糖的测量值列于表化血红蛋白、空腹血糖的测量值列于表化血红蛋白、空腹血糖的测量值列于表1 1中,试建立血糖与其它中,试建立血糖与其它中,试建立血糖与其它中,试建立血糖与其它几项指标关系的多元线性回归方程。几项指标关系的多元线性回归方程。几项指标关系的多元线性回归方程。几项指标关系的多元线性回归方程。表1 27名糖尿病人的血糖及有关变量的测量结果序号i总胆固醇甘油三脂胰岛素糖化血血 糖(mmol/L)(mmol/L)(U/ml)红蛋白(%)(mmol/L)X1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.3265.840.928.616.413.3273.841.206.459.610.4第十页,讲稿共八十八页哦11由上表得到如下多元线性回归方程:由上表得到如下多元线性回归方程:1 1、建立回归方程、建立回归方程、建立回归方程、建立回归方程第十一页,讲稿共八十八页哦122 2、回归方程的假设检验、回归方程的假设检验FF检验检验检验检验n n结果无显著性结果无显著性结果无显著性结果无显著性 1 1)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;2 2)也可能由于样本例数过少;)也可能由于样本例数过少;)也可能由于样本例数过少;)也可能由于样本例数过少;n n结果有显著性结果有显著性结果有显著性结果有显著性 表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。HH0 0:1 1=2 2=mm=0=0HH1 1:1 1、2 2、mm不等于不等于不等于不等于0 0或不全等于或不全等于或不全等于或不全等于0 0第十二页,讲稿共八十八页哦13第十三页,讲稿共八十八页哦143 3、各个偏回归系数的假设检验、各个偏回归系数的假设检验、各个偏回归系数的假设检验、各个偏回归系数的假设检验tt检验检验检验检验n n将将将将总胆固醇总胆固醇总胆固醇总胆固醇(X(X1 1)剔除。剔除。剔除。剔除。注意:注意:注意:注意:通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。对于同一资料,不同自变量的对于同一资料,不同自变量的对于同一资料,不同自变量的对于同一资料,不同自变量的t t值可以相互比较,值可以相互比较,值可以相互比较,值可以相互比较,t t的绝对值越的绝对值越的绝对值越的绝对值越大,或大,或大,或大,或P P越小,说明该自变量对越小,说明该自变量对越小,说明该自变量对越小,说明该自变量对Y Y所起的作用越大。所起的作用越大。所起的作用越大。所起的作用越大。第十四页,讲稿共八十八页哦15n n重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程注意:表中偏回归系数已变化。注意:表中偏回归系数已变化。注意:表中偏回归系数已变化。注意:表中偏回归系数已变化。第十五页,讲稿共八十八页哦16n n对新建立的回归方程进行检验对新建立的回归方程进行检验对新建立的回归方程进行检验对新建立的回归方程进行检验检验结果有显著性意义。检验结果有显著性意义。检验结果有显著性意义。检验结果有显著性意义。第十六页,讲稿共八十八页哦17n对新方程的偏回归系数进行检验对新方程的偏回归系数进行检验n检验结果均有意义,因此回归方程保留检验结果均有意义,因此回归方程保留甘油三酯甘油三酯(X2)、胰岛素、胰岛素(X3)和糖化血红蛋白和糖化血红蛋白(X4)三个因素。三个因素。n最后获得回归方程为:最后获得回归方程为:第十七页,讲稿共八十八页哦181 1、确定系数(、确定系数(R R2 2):):):):意义:意义:意义:意义:在在在在y y的总变异中,由的总变异中,由的总变异中,由的总变异中,由x x变量组建立的线性回归方程所能解释的比变量组建立的线性回归方程所能解释的比变量组建立的线性回归方程所能解释的比变量组建立的线性回归方程所能解释的比例。例。例。例。0101,越大越优。,越大越优。,越大越优。,越大越优。特点:特点:特点:特点:R R2 2是随自变量的增加而增大。是随自变量的增加而增大。是随自变量的增加而增大。是随自变量的增加而增大。因此,因此,因此,因此,在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。(三)回归方程的评价(三)回归方程的评价(三)回归方程的评价(三)回归方程的评价、R复相关系数复相关系数(multiple correlation coefficientmultiple correlation coefficient)表示表示表示表示mm个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程 度。度。度。度。0R10R1。即。即。即。即Y Y与与与与 的相关系数。的相关系数。的相关系数。的相关系数。第十八页,讲稿共八十八页哦19、校正确定系数(、校正确定系数(adjusted R-squareadjusted R-square,R R2a a )越大越优。越大越优。越大越优。越大越优。R R2 2a a不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。校正确定系数的计算:校正确定系数的计算:校正确定系数的计算:校正确定系数的计算:p p 为方程中包含的自变量个数,为方程中包含的自变量个数,为方程中包含的自变量个数,为方程中包含的自变量个数,p mp m。R R2 2一定时,一定时,一定时,一定时,p p R R2 2 a a 第十九页,讲稿共八十八页哦20第二十页,讲稿共八十八页哦21(四)自变量的筛选(四)自变量的筛选基本思路:基本思路:基本思路:基本思路:尽可能将回归效果显著的自变量选入方程中,尽可能将回归效果显著的自变量选入方程中,作用不显著的自变量排除在外。作用不显著的自变量排除在外。(1)全局择优法()全局择优法(all possible subsets selection):):(2)逐步选择法)逐步选择法)逐步选择法)逐步选择法前进法前进法(Forward selectionForward selection)后退法后退法(Backward eliminationBackward elimination)逐步法逐步法(StepwiseStepwise)第二十一页,讲稿共八十八页哦221、全局择优法(最优子集回归)、全局择优法(最优子集回归)(all possible subsets selection):):有有m个自变量就有个自变量就有2m-1个自变量子集。在各子个自变量子集。在各子集中选择最优的回归方程。集中选择最优的回归方程。仅适用于自变量个数不太多的情况。仅适用于自变量个数不太多的情况。第二十二页,讲稿共八十八页哦232、向前筛选法、向前筛选法、向前筛选法、向前筛选法(Forward selectionForward selection):):):):事先给定一个入选标准,即事先给定一个入选标准,即 (通常(通常(通常(通常 =0.05),然后,然后,然后,然后根据各因素偏回归平方和从大到小,依次逐个引入回归方程根据各因素偏回归平方和从大到小,依次逐个引入回归方程根据各因素偏回归平方和从大到小,依次逐个引入回归方程根据各因素偏回归平方和从大到小,依次逐个引入回归方程至无显著性自变量可以入选为止,因素一旦入选便始终保留至无显著性自变量可以入选为止,因素一旦入选便始终保留至无显著性自变量可以入选为止,因素一旦入选便始终保留至无显著性自变量可以入选为止,因素一旦入选便始终保留在方程中而不被剔除。在方程中而不被剔除。在方程中而不被剔除。在方程中而不被剔除。局限性:后续变量的引入可能会使先进入方程的变量变得局限性:后续变量的引入可能会使先进入方程的变量变得局限性:后续变量的引入可能会使先进入方程的变量变得局限性:后续变量的引入可能会使先进入方程的变量变得不重要。不重要。不重要。不重要。第二十三页,讲稿共八十八页哦243 3、向后剔除法、向后剔除法(Backward eliminationBackward elimination)首先建立全部自变量的全回归方程,给定剔除标准,首先建立全部自变量的全回归方程,给定剔除标准,首先建立全部自变量的全回归方程,给定剔除标准,首先建立全部自变量的全回归方程,给定剔除标准,根据各因素偏回归平方和从小到大,依次逐个将无显著根据各因素偏回归平方和从小到大,依次逐个将无显著根据各因素偏回归平方和从小到大,依次逐个将无显著根据各因素偏回归平方和从小到大,依次逐个将无显著性的自变量从回归方程中剔除。性的自变量从回归方程中剔除。性的自变量从回归方程中剔除。性的自变量从回归方程中剔除。优点:考虑到了自变量的组合作用,选中的自变优点:考虑到了自变量的组合作用,选中的自变优点:考虑到了自变量的组合作用,选中的自变优点:考虑到了自变量的组合作用,选中的自变量数目一般会比前进法选中的多。量数目一般会比前进法选中的多。量数目一般会比前进法选中的多。量数目一般会比前进法选中的多。缺点:当自变量数目较多或有某些自变量高度相缺点:当自变量数目较多或有某些自变量高度相关时,可能得不出正确的结果。关时,可能得不出正确的结果。第二十四页,讲稿共八十八页哦254 4、逐步法、逐步法(Stepwise):):):):给出入选标准(通常给出入选标准(通常给出入选标准(通常给出入选标准(通常 1 1=0.05=0.05)和剔除标准()和剔除标准(通常通常 2 2=0.10),每次选入一个在方程外且最具统计学意义的),每次选入一个在方程外且最具统计学意义的),每次选入一个在方程外且最具统计学意义的),每次选入一个在方程外且最具统计学意义的自变量后,就对原在方程中的自变量做剔除检验,这个过自变量后,就对原在方程中的自变量做剔除检验,这个过自变量后,就对原在方程中的自变量做剔除检验,这个过自变量后,就对原在方程中的自变量做剔除检验,这个过程逐步进行,直到没有有统计意义的自变量可以入选,也程逐步进行,直到没有有统计意义的自变量可以入选,也程逐步进行,直到没有有统计意义的自变量可以入选,也程逐步进行,直到没有有统计意义的自变量可以入选,也没有无统计学意义的自变量保留在方程中为止。没有无统计学意义的自变量保留在方程中为止。没有无统计学意义的自变量保留在方程中为止。没有无统计学意义的自变量保留在方程中为止。n n 实际工作中,多采用逐步法。实际工作中,多采用逐步法。n n 用上述方法对上例资料进行分析。用上述方法对上例资料进行分析。用上述方法对上例资料进行分析。用上述方法对上例资料进行分析。第二十五页,讲稿共八十八页哦26(六)应用多元线性回归分析时需注意的事项(六)应用多元线性回归分析时需注意的事项(1 1)样本量要求:)样本量要求:)样本量要求:)样本量要求:无精确的计算公式。据经验,样本无精确的计算公式。据经验,样本量应是自变量数的量应是自变量数的510倍以上。倍以上。(2 2)做预报时,只能在自变量)做预报时,只能在自变量)做预报时,只能在自变量)做预报时,只能在自变量X X的观察值范围内进行;的观察值范围内进行;(3 3)在资料要求上,应变量)在资料要求上,应变量)在资料要求上,应变量)在资料要求上,应变量Y服从正态分布;服从正态分布;服从正态分布;服从正态分布;(4 4)注意资料的特异点()注意资料的特异点(outlieroutlier););第二十六页,讲稿共八十八页哦27(5 5)观测值重新量化问题)观测值重新量化问题)观测值重新量化问题)观测值重新量化问题 二项分类资料:用二项分类资料:用二项分类资料:用二项分类资料:用X X表示分类变量,阴性为表示分类变量,阴性为表示分类变量,阴性为表示分类变量,阴性为0 0,阳性为,阳性为,阳性为,阳性为1 1。有序多项分类资料:用一个有序多项分类资料:用一个有序多项分类资料:用一个有序多项分类资料:用一个X X 作为分类变量,以自然数作为分类变量,以自然数作为分类变量,以自然数作为分类变量,以自然数0 0,1 1,2 2,赋值。如将病情分为轻中重三类时,用赋值。如将病情分为轻中重三类时,用赋值。如将病情分为轻中重三类时,用赋值。如将病情分为轻中重三类时,用X X表示病情,赋值方表示病情,赋值方表示病情,赋值方表示病情,赋值方法为:法为:法为:法为:n n无序多项分类资料:无序多项分类资料:无序多项分类资料:无序多项分类资料:或或或或第二十七页,讲稿共八十八页哦28 上述以职员作为对比水平上述以职员作为对比水平上述以职员作为对比水平上述以职员作为对比水平(基础水平基础水平基础水平基础水平)。哑变量。哑变量。哑变量。哑变量X X1 1、X X2 2、X X3 3分别代表分别代表分别代表分别代表了工人、农民、干部与职员相比的系数。了工人、农民、干部与职员相比的系数。了工人、农民、干部与职员相比的系数。了工人、农民、干部与职员相比的系数。哑变量代表的是同一个变量的不同取值,在分析时应当同时进入哑变量代表的是同一个变量的不同取值,在分析时应当同时进入哑变量代表的是同一个变量的不同取值,在分析时应当同时进入哑变量代表的是同一个变量的不同取值,在分析时应当同时进入或移出方程。即使只有部分哑变量有统计学意义也是如此。或移出方程。即使只有部分哑变量有统计学意义也是如此。或移出方程。即使只有部分哑变量有统计学意义也是如此。或移出方程。即使只有部分哑变量有统计学意义也是如此。第二十八页,讲稿共八十八页哦29(7 7)自变量的联合作用分析)自变量的联合作用分析 若要考虑若要考虑若要考虑若要考虑X X3 3、X X4 4对应变量对应变量对应变量对应变量 y y 的联合作用,可设置一个新变量的联合作用,可设置一个新变量的联合作用,可设置一个新变量的联合作用,可设置一个新变量X X5 5=X X3 3X X4 4。若。若。若。若b b3 3、b b4 4和和和和b b5 5都有统计学意义,则说明都有统计学意义,则说明都有统计学意义,则说明都有统计学意义,则说明X X3 3、X X4 4对应变量既有单独对应变量既有单独对应变量既有单独对应变量既有单独作用,又有交互作用。作用,又有交互作用。作用,又有交互作用。作用,又有交互作用。(6 6)自变量筛选过程中引入和剔除变量时检验水准的)自变量筛选过程中引入和剔除变量时检验水准的)自变量筛选过程中引入和剔除变量时检验水准的)自变量筛选过程中引入和剔除变量时检验水准的确定确定确定确定1 1)引入变量检验的水准)引入变量检验的水准)引入变量检验的水准)引入变量检验的水准小于小于小于小于或或或或等于等于等于等于剔除变量时检验的水准剔除变量时检验的水准剔除变量时检验的水准剔除变量时检验的水准2 2)通常引入变量检验的水准为)通常引入变量检验的水准为)通常引入变量检验的水准为)通常引入变量检验的水准为0.050.05,剔除变量时,剔除变量时,剔除变量时,剔除变量时0.100.10,但不绝对。,但不绝对。,但不绝对。,但不绝对。第二十九页,讲稿共八十八页哦30说明说明X3、X4对应变量既有单独作用,又有交互作用。即说明糖对应变量既有单独作用,又有交互作用。即说明糖尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量。尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量。第三十页,讲稿共八十八页哦31(8 8)自变量的共线性)自变量的共线性 当自变量之间存在较强的相关关系时,称之为共线性。当自变量之间存在较强的相关关系时,称之为共线性。当自变量之间存在较强的相关关系时,称之为共线性。当自变量之间存在较强的相关关系时,称之为共线性。后果后果后果后果偏回归系数的估计值容易失真。偏回归系数的估计值容易失真。偏回归系数的估计值容易失真。偏回归系数的估计值容易失真。当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性:当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性:当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性:当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性:1 1)在某个检验水准下,整个回归方程有统计学意义,但是每个偏)在某个检验水准下,整个回归方程有统计学意义,但是每个偏)在某个检验水准下,整个回归方程有统计学意义,但是每个偏)在某个检验水准下,整个回归方程有统计学意义,但是每个偏回归系数的检验均无统计学意义。回归系数的检验均无统计学意义。回归系数的检验均无统计学意义。回归系数的检验均无统计学意义。2 2)偏回归系数的符号与医学专业知识不一致。)偏回归系数的符号与医学专业知识不一致。)偏回归系数的符号与医学专业知识不一致。)偏回归系数的符号与医学专业知识不一致。3 3)参数估计的标准误变得很大,使)参数估计的标准误变得很大,使)参数估计的标准误变得很大,使)参数估计的标准误变得很大,使t t值变得很小,值变得很小,值变得很小,值变得很小,P P值很大。值很大。值很大。值很大。第三十一页,讲稿共八十八页哦32判断方法:判断方法:利用自变量间的相关系数阵。利用自变量间的相关系数阵。利用自变量间的相关系数阵。利用自变量间的相关系数阵。(r 0.90.9,共线性可能性大),共线性可能性大),共线性可能性大),共线性可能性大)处理方法:处理方法:处理方法:处理方法:最简单、有效的方法是根据专业知识人为去除在最简单、有效的方法是根据专业知识人为去除在最简单、有效的方法是根据专业知识人为去除在最简单、有效的方法是根据专业知识人为去除在专业上比较次要的、或缺失值较多、测量误差专业上比较次要的、或缺失值较多、测量误差专业上比较次要的、或缺失值较多、测量误差专业上比较次要的、或缺失值较多、测量误差较大的共线性因子。较大的共线性因子。较大的共线性因子。较大的共线性因子。第三十二页,讲稿共八十八页哦33(9)残差分析)残差分析模型诊断模型诊断通常以标准化残差(通常以标准化残差(standardized residual)为纵坐标,为纵坐标,以以 为横坐标,作残差图。为横坐标,作残差图。第三十三页,讲稿共八十八页哦34第三十四页,讲稿共八十八页哦简单分析实例简单分析实例例例1 为为研研究究男男性性高高血血压压患患者者血血压压与与年年龄龄、身身高高、体体重重等等变变量量的的关关系系,随随机机测测量量了了32名名40岁岁以以上上男男性性的的血血压压y、年年龄龄x1、体体重重指指数数x2,试试建建立多重线性回归方程。数据文件见立多重线性回归方程。数据文件见mreg2.sav。第三十五页,讲稿共八十八页哦简单分析实例初步分析简单分析实例初步分析初步分析:初步分析:与与简简单单线线性性回回归归相相类类似似,先先绘绘制制散散点点图图,以以便便在在进进行行回回归归分分析析之之前前了了解解各各变变量量之之间间是是否否存存在在线线性性关关系系。本本例例有有两两个个自自变变量与一个反应变量,绘制散点图矩阵,如下。量与一个反应变量,绘制散点图矩阵,如下。第三十六页,讲稿共八十八页哦n 绘制散点图矩阵绘制散点图矩阵简单分析实例初步分析简单分析实例初步分析第三十七页,讲稿共八十八页哦简单分析实例简单分析实例第三十八页,讲稿共八十八页哦简单分析实例简单分析实例第三十九页,讲稿共八十八页哦简单分析实例简单分析实例结果分析结果分析n 给给出出了了自自变变量量进进入入模模型型的的方方式式,此此处处尚尚未未涉涉及及变变量量筛筛选选问问题题,因因为为两两个个变变量量是是被被强强行行纳纳入入模模型型的的(MethodMethod为为EnterEnter),当然就不存在剔除变量的事情了。当然就不存在剔除变量的事情了。第四十页,讲稿共八十八页哦简单分析实例简单分析实例结果分析结果分析n 模型拟合优度情况的检验,结果显示,复相关系数为模型拟合优度情况的检验,结果显示,复相关系数为0.8400.840,决,决定系数为定系数为0.7060.706,调整的决定系数为,调整的决定系数为0.6860.686,还输出了剩余标准,还输出了剩余标准差。差。第四十一页,讲稿共八十八页哦简单分析实例简单分析实例结果分析结果分析n 回回归归模模型型的的假假设设检检验验结结果果,显显示示F F34.808,P P 0.001,说说明明所所建建立立的的回回归归模模型型是是有有统统计计学学意意义义的的,至至少少有有一一个个自自变变量量的的回回归归系系数不为数不为0 0。第四十二页,讲稿共八十八页哦简单分析实例简单分析实例结果分析结果分析n 给给出出了了模模型型的的常常数数项项以以及及两两个个自自变变量量的的偏偏回回归归系系数数及及其其检检验结果,可以写出回归方程如下:验结果,可以写出回归方程如下:Y Y 54.798+1.379x54.798+1.379x1 1+4.513x+4.513x2 2主要结果主要结果第四十三页,讲稿共八十八页哦n SPSS SPSS 结结果果中中输输出出偏偏回回归归系系数数的的同同时时,也也输输出出了了各各自自的的标标准准偏偏回回归归系系数数。年年龄龄的的标标准准化化偏偏回回归归系系数数为为0.6640.664,体体重重指指数数的的标标准准化化偏偏回回归归系系数数为为0.2470.247,因因此此,可可以以认认为为,年年龄龄对对血血压压的的影影响响比体重指数对血压的影响大。比体重指数对血压的影响大。简单分析实例简单分析实例结果分析结果分析第四十四页,讲稿共八十八页哦例例2 仍仍以以例例1的的资资料料为为例例,试试作作逐逐步步回回归归分分析析。数据文件见数据文件见mreg2.sav。逐步回归逐步回归第四十五页,讲稿共八十八页哦逐步回归逐步回归第四十六页,讲稿共八十八页哦逐步回归逐步回归第四十七页,讲稿共八十八页哦逐步回归逐步回归n 输输出出SPSSSPSS在在逐逐步步回回归归过过程程中中拟拟合合的的步步骤骤中中,每每一一步步引引入入模型的变量情况模型的变量情况,此处只有一个变量引入。此处只有一个变量引入。结果分析结果分析第四十八页,讲稿共八十八页哦逐步回归逐步回归结果分析结果分析n 分分别别输输出出拟拟合合的的模模型型中中,拟拟合合优优度度情情况况的的检检验验结结果果:复复相相关关系系数数、决决定定系系数数、调调整整的的决决定定系系数数以以及及剩剩余余标标准准差差。本本例例只只有有一一步步,故结果很简单,仅拟合一个模型。故结果很简单,仅拟合一个模型。第四十九页,讲稿共八十八页哦逐步回归逐步回归结果分析结果分析n 给给出出各各个个拟拟合合模模型型的的常常数数项项以以及及各各自自变变量量的的偏偏回回归归系系数数、9595可可信信区区间及其检验结果(此处为仅有一步的结果)。间及其检验结果(此处为仅有一步的结果)。第五十页,讲稿共八十八页哦逐步回归逐步回归结果分析结果分析n 给给出出拟拟合合模模型型过过程程中中被被剔剔除除的的变变量量情情况况及及其其检检验验结结果果(此此处处为为仅仅有一步)。有一步)。第五十一页,讲稿共八十八页哦残差分析残差分析非标准化残差(原始残差)非标准化残差(原始残差)标准化残差(标准化残差(Pearson残差)残差)学生化残差学生化残差剔除残差剔除残差学生化剔除残差学生化剔除残差n 残差种类残差种类第五十二页,讲稿共八十八页哦残差分析残差分析n 模型适用条件的检验模型适用条件的检验因变量与自变量之间存在线性关系的因变量与自变量之间存在线性关系的检验(以例检验(以例1为例:年龄)为例:年龄)第五十三页,讲稿共八十八页哦残差分析残差分析n 模型适用条件的检验模型适用条件的检验因变量与自变量之间存在线性关系的因变量与自变量之间存在线性关系的检验(以例检验(以例1 1为例:体重指数)为例:体重指数)第五十四页,讲稿共八十八页哦残差分析残差分析n 模型适用条件的检验模型适用条件的检验独立性的检验独立性的检验通通过过Linear Linear RegressionRegression过过程程的的statisticsstatistics按按钮钮中中的的Durbin-Durbin-WatsonWatson检检验验进进行行判判断断。若若自自变变量量数数少少于于4 4个个,统统计计量量接接近近2 2,基基本本上上可可以以肯肯定定残残差差间间相相互互独独立立。仍仍以以例例1 1为为例例,结结果果如下如下 。第五十五页,讲稿共八十八页哦残差分析残差分析n 模型适用条件的检验模型适用条件的检验方差齐性的检验方差齐性的检验第五十六页,讲稿共八十八页哦残差分析残差分析n 模型适用条件的检验模型适用条件的检验正态性的检验正态性的检验绘制残差的直方绘制残差的直方图及图及PPPP图的复选图的复选框框第五十七页,讲稿共八十八页哦残差分析残差分析n 模型适用条件的检验模型适用条件的检验正态性的检验结果正态性的检验结果第五十八页,讲稿共八十八页哦59二、二、Logistic 回归回归 一、概念一、概念 Logistic 回归是一种适用于应变量为分类值回归是一种适用于应变量为分类值多因素概率型曲线模型。多因素概率型曲线模型。Y Y为二项分类:为二项分类:为二项分类:为二项分类:非条件非条件Logistic Logistic 回归回归回归回归成

    注意事项

    本文(多元线性回归回归讲稿.ppt)为本站会员(石***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开