多元线性回归回归讲稿.ppt
《多元线性回归回归讲稿.ppt》由会员分享,可在线阅读,更多相关《多元线性回归回归讲稿.ppt(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于多元线性回归回归第一页,讲稿共八十八页哦2n n概念概念概念概念 多因素分析是同时对观察对象的两个或两个以上的变量多因素分析是同时对观察对象的两个或两个以上的变量多因素分析是同时对观察对象的两个或两个以上的变量多因素分析是同时对观察对象的两个或两个以上的变量进行分析。进行分析。进行分析。进行分析。常用的统计分析方法有:常用的统计分析方法有:多元线性回归、多元线性回归、多元线性回归、多元线性回归、Logistic回归、回归、COX比例风险回归模型、比例风险回归模型、比例风险回归模型、比例风险回归模型、因子分析、主成分分析等。因子分析、主成分分析等。因子分析、主成分分析等。因子分析、主成分分析
2、等。第二页,讲稿共八十八页哦3多变量资料数据格式多变量资料数据格式多变量资料数据格式多变量资料数据格式例号例号X X1 1X X2 2X Xp pY Y1 1X X1111X X1212X X1p1pY Y1 12 2X X2121X X2222X X2p2pY Y2 2n nX Xn1n1X Xn2n2X XnpnpY Yn nY Y为定量变量为定量变量为定量变量为定量变量Linear RegressionLinear RegressionY Y为二项分类变量为二项分类变量为二项分类变量为二项分类变量Binary Logistic RegressionBinary Logistic Regr
3、essionY Y为多项分类变量为多项分类变量为多项分类变量为多项分类变量Multinomial Logistic RegressionMultinomial Logistic RegressionY Y为有序分类变量为有序分类变量为有序分类变量为有序分类变量Ordinal Logistic RegressionOrdinal Logistic RegressionY Y为生存时间与生存结局为生存时间与生存结局为生存时间与生存结局为生存时间与生存结局Cox RegressionCox Regression第三页,讲稿共八十八页哦4(1 1)因素筛选:)因素筛选:)因素筛选:)因素筛选:例如影响
4、高血压的诸多因素中:例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:1 1)哪些是主要因素?)哪些是主要因素?2 2)各因素的作用大小?)各因素的作用大小?(2)控制混杂因素)控制混杂因素)控制混杂因素)控制混杂因素(3 3)提高回归方程的估计精度)提高回归方程的估计精度)提高回归方程的估计精度)提高回归方程的估计精度 多因素分析只有一个自变量的单因素回归更能缩小应多因素分析只有一个自变量的单因素回归更能缩小应多因素分析只有一个自变量的单因素回归更能缩小应多因素分析只有一个自变量的单因素回归更能缩小应变量变量变量变量Y Y对其估计值的离差,在预测和统计控制方
5、面应用的对其估计值的离差,在预测和统计控制方面应用的对其估计值的离差,在预测和统计控制方面应用的对其估计值的离差,在预测和统计控制方面应用的效果更好。效果更好。效果更好。效果更好。n n多因素回归分析主要用途:多因素回归分析主要用途:多因素回归分析主要用途:多因素回归分析主要用途:第四页,讲稿共八十八页哦5Y,X直线回归直线回归 Y,X1,X2,Xm多元回归(多重回归)多元回归(多重回归)一、多元线性回归一、多元线性回归(multiple linear regressoin)例:例:欲研究血压受年龄、性别、体重、性格、职业欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸
6、烟、血脂水(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。平等因素的影响。第五页,讲稿共八十八页哦6 0 0为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(constant)constant),表示各自变量均为,表示各自变量均为,表示各自变量均为,表示各自变量均为0 0时时时时y y的平均值;的平均值;的平均值;的平均值;mm为自变量的个数;为自变量的个数;为自变量的个数;为自变量的个数;1 1、2 2、mm为偏回归系数(为偏回归系数(为偏回归系数(为偏回归系数(Partial regression coefficientPartial regress
7、ion coefficient)意义:意义:意义:意义:如如如如 1 1 表示在表示在表示在表示在X X2 2、X X3 3 X Xmm固定条件下,固定条件下,固定条件下,固定条件下,X X1 1 每增减一个单每增减一个单每增减一个单每增减一个单位对位对位对位对Y Y 的效应(的效应(的效应(的效应(Y Y 增减增减增减增减 个单位)。个单位)。个单位)。个单位)。e e为去除为去除为去除为去除mm个自变量对个自变量对个自变量对个自变量对Y Y影响后的随机误差,称残差(影响后的随机误差,称残差(影响后的随机误差,称残差(影响后的随机误差,称残差(residual)residual)。多元回归方
8、程的一般形式多元回归方程的一般形式多元回归方程的一般形式多元回归方程的一般形式(一)(一)(一)(一)多元回归模型多元回归模型多元回归模型多元回归模型第六页,讲稿共八十八页哦7 为为为为y y的估计值或预测值(的估计值或预测值(的估计值或预测值(的估计值或预测值(predicted value)predicted value);b b0 0为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(constant)constant),表示各自变量均为,表示各自变量均为,表示各自变量均为,表示各自变量均为0 0时时时时y y的估计的估计的估计的估计值;值;值;值;由样本估计
9、而得的多元回归方程:由样本估计而得的多元回归方程:由样本估计而得的多元回归方程:由样本估计而得的多元回归方程:b b1 1、b b2 2、b bmm为偏回归系数(为偏回归系数(为偏回归系数(为偏回归系数(Partial regression coefficientPartial regression coefficient)意义:如意义:如意义:如意义:如 b b1 1 表示在表示在表示在表示在X X2 2、X X3 3 X Xmm固定条件下,固定条件下,固定条件下,固定条件下,X X1 1 每增减一个单每增减一个单每增减一个单每增减一个单位对位对位对位对Y Y 的效应(的效应(的效应(的效应
10、(Y Y 增减增减增减增减 b b 个单位)。个单位)。个单位)。个单位)。第七页,讲稿共八十八页哦8适用条件:适用条件:适用条件:适用条件:线性(线性(线性(线性(linearlinear)、独立性()、独立性()、独立性()、独立性(independentindependent)、正态性()、正态性()、正态性()、正态性(normalnormal)、方)、方)、方)、方差齐性(差齐性(差齐性(差齐性(equal varianceequal variance)“LINE”“LINE”。线性线性线性线性自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。自
11、变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。独立性独立性独立性独立性任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。正态性正态性正态性正态性就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量y y均服从正态分均服从正态分均服从正态分均服从正态分布。即要求残差服从正态分布。常用残差图分析。布。即要求残差服从正态分布。常用残差图分析。布。即要求残
12、差服从正态分布。常用残差图分析。布。即要求残差服从正态分布。常用残差图分析。方差齐性方差齐性方差齐性方差齐性就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量y y的方差均相同。的方差均相同。的方差均相同。的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。即要求残差的方差齐性。用散点图或残差图判断。即要求残差的方差齐性。用散点图或残差图判断。即要求残差的方差齐性。用散点图或残差图判断。第八页,讲稿共八十八页哦9(1)用各变量的数据建立回归方程)用各变量的数据建立回归方程)用各变量的数据建立回归方程)用
13、各变量的数据建立回归方程(2 2)对总的方程进行假设检验)对总的方程进行假设检验)对总的方程进行假设检验)对总的方程进行假设检验(3 3)当总的方程有显著性意义时,应对每个自变量的偏)当总的方程有显著性意义时,应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归系数回归系数再进行假设检验,若某个自变量的偏回归系数无显著性,则应把该变量剔除,重新建立不包含该变量无显著性,则应把该变量剔除,重新建立不包含该变量的多元回归方程。的多元回归方程。(二)多元回归分析步骤(二)多元回归分析步骤对新建立的多元回归方程及偏回归系数按上述程序进行对新建立的多元回归方程及偏回归系数按上述程序进行对新建立
14、的多元回归方程及偏回归系数按上述程序进行对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后得检验,直到余下的偏回归系数都具有统计意义为止。最后得检验,直到余下的偏回归系数都具有统计意义为止。最后得检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。到最优方程。到最优方程。到最优方程。第九页,讲稿共八十八页哦10例例例例1 1 2727名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血
15、红蛋白、空腹血糖的测量值列于表化血红蛋白、空腹血糖的测量值列于表化血红蛋白、空腹血糖的测量值列于表化血红蛋白、空腹血糖的测量值列于表1 1中,试建立血糖与其它中,试建立血糖与其它中,试建立血糖与其它中,试建立血糖与其它几项指标关系的多元线性回归方程。几项指标关系的多元线性回归方程。几项指标关系的多元线性回归方程。几项指标关系的多元线性回归方程。表1 27名糖尿病人的血糖及有关变量的测量结果序号i总胆固醇甘油三脂胰岛素糖化血血 糖(mmol/L)(mmol/L)(U/ml)红蛋白(%)(mmol/L)X1X2X3X4Y15.681.904.538.211.223.791.647.326.98.8
16、36.023.566.9510.812.3265.840.928.616.413.3273.841.206.459.610.4第十页,讲稿共八十八页哦11由上表得到如下多元线性回归方程:由上表得到如下多元线性回归方程:1 1、建立回归方程、建立回归方程、建立回归方程、建立回归方程第十一页,讲稿共八十八页哦122 2、回归方程的假设检验、回归方程的假设检验FF检验检验检验检验n n结果无显著性结果无显著性结果无显著性结果无显著性 1 1)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变
17、量与应变量不存在线性回归关系;2 2)也可能由于样本例数过少;)也可能由于样本例数过少;)也可能由于样本例数过少;)也可能由于样本例数过少;n n结果有显著性结果有显著性结果有显著性结果有显著性 表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。HH0 0:1 1=2 2=mm=0=0HH1 1:1 1、2 2、mm不等于不等于不等于不等于0 0或不全等于或不全等于或不全等于或不全等于0 0第十二页,讲稿共八十八页哦13第十三页,讲稿共八十八页哦
18、143 3、各个偏回归系数的假设检验、各个偏回归系数的假设检验、各个偏回归系数的假设检验、各个偏回归系数的假设检验tt检验检验检验检验n n将将将将总胆固醇总胆固醇总胆固醇总胆固醇(X(X1 1)剔除。剔除。剔除。剔除。注意:注意:注意:注意:通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。对于同一资料,不同自变量的对于同一资料,不同自变量的对于同一资料,不同自变量的对于同一资料,不同自变量的t t值可以相互比较,值可以相互比较,值可以相互比较,值可以相互比较,t t的绝对值越的绝对值越的绝对值越的绝对值越
19、大,或大,或大,或大,或P P越小,说明该自变量对越小,说明该自变量对越小,说明该自变量对越小,说明该自变量对Y Y所起的作用越大。所起的作用越大。所起的作用越大。所起的作用越大。第十四页,讲稿共八十八页哦15n n重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程注意:表中偏回归系数已变化。注意:表中偏回归系数已变化。注意:表中偏回归系数已变化。注意:表中偏回归系数已变化。第十五页,讲稿共八十八页哦16n n对新建立的回归方程进行检验对新建立的回归方程进行检验对新建立的回归方程进行检验对新建立的回归方程进行检验检验结果有显著性意义。检验结果有显著性意义。检验结果有显著性意义。检
20、验结果有显著性意义。第十六页,讲稿共八十八页哦17n对新方程的偏回归系数进行检验对新方程的偏回归系数进行检验n检验结果均有意义,因此回归方程保留检验结果均有意义,因此回归方程保留甘油三酯甘油三酯(X2)、胰岛素、胰岛素(X3)和糖化血红蛋白和糖化血红蛋白(X4)三个因素。三个因素。n最后获得回归方程为:最后获得回归方程为:第十七页,讲稿共八十八页哦181 1、确定系数(、确定系数(R R2 2):):):):意义:意义:意义:意义:在在在在y y的总变异中,由的总变异中,由的总变异中,由的总变异中,由x x变量组建立的线性回归方程所能解释的比变量组建立的线性回归方程所能解释的比变量组建立的线性
21、回归方程所能解释的比变量组建立的线性回归方程所能解释的比例。例。例。例。0101,越大越优。,越大越优。,越大越优。,越大越优。特点:特点:特点:特点:R R2 2是随自变量的增加而增大。是随自变量的增加而增大。是随自变量的增加而增大。是随自变量的增加而增大。因此,因此,因此,因此,在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。(三)回归方程的评价(三)回归方程的评价(三)回归方程的评价(三)回归方程的评价、R复相关系数复相关系数(multiple correlation coef
22、ficientmultiple correlation coefficient)表示表示表示表示mm个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程 度。度。度。度。0R10R1。即。即。即。即Y Y与与与与 的相关系数。的相关系数。的相关系数。的相关系数。第十八页,讲稿共八十八页哦19、校正确定系数(、校正确定系数(adjusted R-squareadjusted R-square,R R2a a )越大越优。越大越优。越大越优。越大越优。R R2 2a a不会随无意义的自变量增加而增大。不会随
23、无意义的自变量增加而增大。不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。校正确定系数的计算:校正确定系数的计算:校正确定系数的计算:校正确定系数的计算:p p 为方程中包含的自变量个数,为方程中包含的自变量个数,为方程中包含的自变量个数,为方程中包含的自变量个数,p mp m。R R2 2一定时,一定时,一定时,一定时,p p R R2 2 a a 第十九页,讲稿共八十八页哦20第二十页,讲稿共八十八页哦21(四)自变量的筛选(四)自变量的筛选基本思路:基本思路:基本思路:
24、基本思路:尽可能将回归效果显著的自变量选入方程中,尽可能将回归效果显著的自变量选入方程中,作用不显著的自变量排除在外。作用不显著的自变量排除在外。(1)全局择优法()全局择优法(all possible subsets selection):):(2)逐步选择法)逐步选择法)逐步选择法)逐步选择法前进法前进法(Forward selectionForward selection)后退法后退法(Backward eliminationBackward elimination)逐步法逐步法(StepwiseStepwise)第二十一页,讲稿共八十八页哦221、全局择优法(最优子集回归)、全局择优法
25、(最优子集回归)(all possible subsets selection):):有有m个自变量就有个自变量就有2m-1个自变量子集。在各子个自变量子集。在各子集中选择最优的回归方程。集中选择最优的回归方程。仅适用于自变量个数不太多的情况。仅适用于自变量个数不太多的情况。第二十二页,讲稿共八十八页哦232、向前筛选法、向前筛选法、向前筛选法、向前筛选法(Forward selectionForward selection):):):):事先给定一个入选标准,即事先给定一个入选标准,即 (通常(通常(通常(通常 =0.05),然后,然后,然后,然后根据各因素偏回归平方和从大到小,依次逐个引入
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 线性 回归 讲稿
限制150内