多元线性回归回归精选PPT.ppt
《多元线性回归回归精选PPT.ppt》由会员分享,可在线阅读,更多相关《多元线性回归回归精选PPT.ppt(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于多元线性回归回归第1页,讲稿共88张,创作于星期日2n n概念概念概念概念 多因素分析是同时对观察对象的两个或两个以上的变量进多因素分析是同时对观察对象的两个或两个以上的变量进多因素分析是同时对观察对象的两个或两个以上的变量进多因素分析是同时对观察对象的两个或两个以上的变量进行分析。行分析。行分析。行分析。常用的统计分析方法有:常用的统计分析方法有:常用的统计分析方法有:常用的统计分析方法有:多元线性回归、多元线性回归、多元线性回归、多元线性回归、LogisticLogistic回归、回归、回归、回归、COXCOX比例风险回归模型、比例风险回归模型、比例风险回归模型、比例风险回归模型、因子
2、分析、主成分分析等。因子分析、主成分分析等。因子分析、主成分分析等。因子分析、主成分分析等。第2页,讲稿共88张,创作于星期日3多变量资料数据格式多变量资料数据格式多变量资料数据格式多变量资料数据格式例号例号X X1 1X X2 2X Xp pY Y1 1X X1111X X1212X X1p1pY Y1 12 2X X2121X X2222X X2p2pY Y2 2n nX Xn1n1X Xn2n2X XnpnpY Yn nY Y为定量变量为定量变量为定量变量为定量变量Linear RegressionLinear RegressionY Y为二项分类变量为二项分类变量为二项分类变量为二项分
3、类变量Binary Logistic RegressionBinary Logistic RegressionY Y为多项分类变量为多项分类变量为多项分类变量为多项分类变量Multinomial Logistic RegressionMultinomial Logistic RegressionY Y为有序分类变量为有序分类变量为有序分类变量为有序分类变量Ordinal Logistic RegressionOrdinal Logistic RegressionY Y为生存时间与生存结局为生存时间与生存结局为生存时间与生存结局为生存时间与生存结局Cox RegressionCox Regres
4、sion第3页,讲稿共88张,创作于星期日4(1 1)因素筛选:)因素筛选:)因素筛选:)因素筛选:例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:1 1)哪些是主要因素?)哪些是主要因素?)哪些是主要因素?)哪些是主要因素?2 2)各因素的作用大小?)各因素的作用大小?(2 2)控制混杂因素)控制混杂因素)控制混杂因素)控制混杂因素(3)提高回归方程的估计精度)提高回归方程的估计精度)提高回归方程的估计精度)提高回归方程的估计精度 多因素分析只有一个自变量的单因素回归更能缩小应多因素分析只有一个自变量的单因素回归更能缩小应多因素
5、分析只有一个自变量的单因素回归更能缩小应多因素分析只有一个自变量的单因素回归更能缩小应变量变量变量变量Y Y对其估计值的离差,在预测和统计控制方面应用的对其估计值的离差,在预测和统计控制方面应用的对其估计值的离差,在预测和统计控制方面应用的对其估计值的离差,在预测和统计控制方面应用的效果更好。效果更好。效果更好。效果更好。n n多因素回归分析主要用途:多因素回归分析主要用途:多因素回归分析主要用途:多因素回归分析主要用途:第4页,讲稿共88张,创作于星期日5Y,X直线回归直线回归 Y,X1,X2,Xm多元回归(多重回归)多元回归(多重回归)一、多元线性回归一、多元线性回归(multiple l
6、inear regressoin)例:例:欲研究血压受年龄、性别、体重、性格、职欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸烟、血脂业(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。水平等因素的影响。第5页,讲稿共88张,创作于星期日6 0 0为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(constant)constant),表示各自变量均为,表示各自变量均为,表示各自变量均为,表示各自变量均为0 0时时时时y y的平均值;的平均值;的平均值;的平均值;mm为自变量的个数;为自变量的个数;为自变量的个数;为自变量的个数;1
7、 1、2 2、mm为偏回归系数(为偏回归系数(为偏回归系数(为偏回归系数(Partial regression coefficientPartial regression coefficient)意义:意义:意义:意义:如如如如 1 1 表示在表示在表示在表示在X X2 2、X X3 3 X Xmm固定条件下,固定条件下,固定条件下,固定条件下,X X1 1 每增减一个单每增减一个单每增减一个单每增减一个单位对位对位对位对Y Y 的效应(的效应(的效应(的效应(Y Y 增减增减增减增减 个单位)。个单位)。个单位)。个单位)。e e为去除为去除为去除为去除mm个自变量对个自变量对个自变量对个自
8、变量对Y Y影响后的随机误差,称残差(影响后的随机误差,称残差(影响后的随机误差,称残差(影响后的随机误差,称残差(residual)residual)。多元回归方程的一般形式多元回归方程的一般形式多元回归方程的一般形式多元回归方程的一般形式(一)(一)多元回归模型多元回归模型第6页,讲稿共88张,创作于星期日7 为为为为y y的估计值或预测值(的估计值或预测值(的估计值或预测值(的估计值或预测值(predicted value)predicted value);b b0 0为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(为回归方程的常数项(constant)constant),表
9、示各自变量均为,表示各自变量均为,表示各自变量均为,表示各自变量均为0 0时时时时y y的估计的估计的估计的估计值;值;值;值;由样本估计而得的多元回归方程:由样本估计而得的多元回归方程:由样本估计而得的多元回归方程:由样本估计而得的多元回归方程:b b1 1、b b2 2、b bmm为偏回归系数(为偏回归系数(为偏回归系数(为偏回归系数(Partial regression coefficientPartial regression coefficient)意义:如意义:如意义:如意义:如 b b1 1 表示在表示在表示在表示在X X2 2、X X3 3 X Xmm固定条件下,固定条件下,固
10、定条件下,固定条件下,X X1 1 每增减一个每增减一个每增减一个每增减一个单位对单位对单位对单位对Y Y 的效应(的效应(的效应(的效应(Y Y 增减增减增减增减 b b 个单位)。个单位)。个单位)。个单位)。第7页,讲稿共88张,创作于星期日8适用条件:适用条件:适用条件:适用条件:线性(线性(线性(线性(linearlinear)、独立性()、独立性()、独立性()、独立性(independentindependent)、正态性()、正态性()、正态性()、正态性(normalnormal)、方差)、方差)、方差)、方差齐性(齐性(齐性(齐性(equal varianceequal v
11、ariance)“LINE”“LINE”。线性线性线性线性自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。独立性独立性独立性独立性任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。正态性正态性正态性正态性就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量y y
12、均服从正态分布。即均服从正态分布。即均服从正态分布。即均服从正态分布。即要求残差服从正态分布。常用残差图分析。要求残差服从正态分布。常用残差图分析。要求残差服从正态分布。常用残差图分析。要求残差服从正态分布。常用残差图分析。方差齐性方差齐性方差齐性方差齐性就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量y y的方差均相同。即的方差均相同。即的方差均相同。即的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。要求残差的方差齐性。用散点图或残差图判断。要求残差的方差齐性。用散点图或残差图判断。要求残差的方
13、差齐性。用散点图或残差图判断。第8页,讲稿共88张,创作于星期日9(1 1)用各变量的数据建立回归方程)用各变量的数据建立回归方程)用各变量的数据建立回归方程)用各变量的数据建立回归方程(2 2)对总的方程进行假设检验)对总的方程进行假设检验)对总的方程进行假设检验)对总的方程进行假设检验(3 3)当总的方程有显著性意义时,应对每个自变量的偏)当总的方程有显著性意义时,应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归系数回归系数再进行假设检验,若某个自变量的偏回归系数无显著性,则应把该变量剔除,重新建立不包含该变量无显著性,则应把该变量剔除,重新建立不包含该变量的多元回归方程。的
14、多元回归方程。(二)多元回归分析步骤(二)多元回归分析步骤(二)多元回归分析步骤(二)多元回归分析步骤对新建立的多元回归方程及偏回归系数按上述程序进对新建立的多元回归方程及偏回归系数按上述程序进对新建立的多元回归方程及偏回归系数按上述程序进对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后行检验,直到余下的偏回归系数都具有统计意义为止。最后行检验,直到余下的偏回归系数都具有统计意义为止。最后行检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。得到最优方程。得到最优方程。得到最优方程。第9页,讲稿共88张,创作于星期日10例例例例1
15、1 2727名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表血红蛋白、空腹血糖的测量值列于表血红蛋白、空腹血糖的测量值列于表血红蛋白、空腹血糖的测量值列于表1 1中,试建立血糖与其它几项指中,试建立血糖与其它几项指中,试建立血糖与其它几项指中,试建立血糖与其它几项指标关系的多元线性回归方程。标关系的多元线性回归方程。标关系的多元线性回归方程。标关系的多元线性回归方程。表1 27名糖尿病人的血糖及有关变量的
16、测量结果序号i总胆固醇甘油三脂胰岛素糖化血血 糖(mmol/L)(mmol/L)(U/ml)红蛋白(%)(mmol/L)X1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.3265.840.928.616.413.3273.841.206.459.610.4第10页,讲稿共88张,创作于星期日11由上表得到如下多元线性回归方程:由上表得到如下多元线性回归方程:1 1、建立回归方程、建立回归方程、建立回归方程、建立回归方程第11页,讲稿共88张,创作于星期日122 2、回归方程的假设检验、回归方程的假设检验、回归
17、方程的假设检验、回归方程的假设检验F检验检验检验检验n n结果无显著性结果无显著性结果无显著性结果无显著性 1 1)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;2 2)也可能由于样本例数过少;)也可能由于样本例数过少;)也可能由于样本例数过少;)也可能由于样本例数过少;n n结果有显著性结果有显著性结果有显著性结果有显著性 表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量
18、之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。HH0 0:1 1=2 2=mm=0=0HH1 1:1 1、2 2、mm不等于不等于不等于不等于0 0或不全等于或不全等于或不全等于或不全等于0 0第12页,讲稿共88张,创作于星期日13第13页,讲稿共88张,创作于星期日143 3、各个偏回归系数的假设检验、各个偏回归系数的假设检验tt检验检验检验检验n n将将将将总胆固醇总胆固醇总胆固醇总胆固醇(X(X1 1)剔除。剔除。剔除。剔除。注意:注意:注意:注意:通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。通常每次只
19、剔除关系最弱的一个因素。对于同一资料,不同自变量的对于同一资料,不同自变量的对于同一资料,不同自变量的对于同一资料,不同自变量的t t值可以相互比较,值可以相互比较,值可以相互比较,值可以相互比较,t t的绝对值越大,或的绝对值越大,或的绝对值越大,或的绝对值越大,或P P越小,说明该自变量对越小,说明该自变量对越小,说明该自变量对越小,说明该自变量对Y Y所起的作用越大。所起的作用越大。所起的作用越大。所起的作用越大。第14页,讲稿共88张,创作于星期日15n n重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程注
20、意:表中偏回归系数已变化。注意:表中偏回归系数已变化。注意:表中偏回归系数已变化。注意:表中偏回归系数已变化。第15页,讲稿共88张,创作于星期日16n n对新建立的回归方程进行检验对新建立的回归方程进行检验对新建立的回归方程进行检验对新建立的回归方程进行检验检验结果有显著性意义。检验结果有显著性意义。检验结果有显著性意义。检验结果有显著性意义。第16页,讲稿共88张,创作于星期日17n对新方程的偏回归系数进行检验对新方程的偏回归系数进行检验n检验结果均有意义,因此回归方程保留甘油三酯检验结果均有意义,因此回归方程保留甘油三酯(X2)、胰岛素、胰岛素(X3)和糖和糖化血红蛋白化血红蛋白(X4)
21、三个三个因素。因素。n最后获得回归方程为:最后获得回归方程为:第17页,讲稿共88张,创作于星期日181、确定系数(、确定系数(、确定系数(、确定系数(R R2 2):):):):意义:意义:意义:意义:在在在在y y的总变异中,由的总变异中,由的总变异中,由的总变异中,由x x变量组建立的线性回归方程所能解释的比例。变量组建立的线性回归方程所能解释的比例。变量组建立的线性回归方程所能解释的比例。变量组建立的线性回归方程所能解释的比例。0101,越大越优。,越大越优。,越大越优。,越大越优。特点:特点:特点:特点:R R2 2是随自变量的增加而增大。是随自变量的增加而增大。是随自变量的增加而增
22、大。是随自变量的增加而增大。因此,因此,因此,因此,在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。(三)回归方程的评价(三)回归方程的评价(三)回归方程的评价(三)回归方程的评价、R复相关系数复相关系数(multiple correlation coefficientmultiple correlation coefficient)表示表示表示表示mm个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性
23、相关的密切程 度。度。度。度。0R10R1。即。即。即。即Y Y与与与与 的相关系数。的相关系数。的相关系数。的相关系数。第18页,讲稿共88张,创作于星期日19、校正确定系数(、校正确定系数(、校正确定系数(、校正确定系数(adjusted R-square,R R2a)越大越优。越大越优。越大越优。越大越优。R R2 2a a不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。校正确定系数的计算:校正确定系数的计
24、算:校正确定系数的计算:校正确定系数的计算:p p 为方程中包含的自变量个数,为方程中包含的自变量个数,为方程中包含的自变量个数,为方程中包含的自变量个数,p mp m。R R2 2一定时,一定时,一定时,一定时,p p R R2 2 a a 第19页,讲稿共88张,创作于星期日20第20页,讲稿共88张,创作于星期日21(四)自变量的筛选(四)自变量的筛选基本思路:基本思路:基本思路:基本思路:尽可能将回归效果显著的自变量选入方程中,作用尽可能将回归效果显著的自变量选入方程中,作用尽可能将回归效果显著的自变量选入方程中,作用尽可能将回归效果显著的自变量选入方程中,作用不显著的自变量排除在外。
25、不显著的自变量排除在外。不显著的自变量排除在外。不显著的自变量排除在外。(1 1)全局择优法()全局择优法(all possible subsets selection):):):):(2 2)逐步选择法)逐步选择法)逐步选择法)逐步选择法前进法前进法(Forward selectionForward selection)后退法后退法(Backward eliminationBackward elimination)逐步法逐步法(StepwiseStepwise)第21页,讲稿共88张,创作于星期日221、全局择优法(最优子集回归)、全局择优法(最优子集回归)(all possible sub
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 线性 回归 精选 PPT
限制150内