数据分析24学习教案.pptx
《数据分析24学习教案.pptx》由会员分享,可在线阅读,更多相关《数据分析24学习教案.pptx(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据分析数据分析24第一页,共41页。2 22.1 线性回归模型及基参数估计2.2 统计推断与预测2.3 残差分析(fnx)2.4 回归方程的选取第1页/共41页第二页,共41页。3 32.4 回归方程的选取(xunq)1.1.理解理解理解理解(lji)(lji)回归方程中自变量选取的必要性;回归方程中自变量选取的必要性;回归方程中自变量选取的必要性;回归方程中自变量选取的必要性;2.2.掌握穷举法回归方程选取法掌握穷举法回归方程选取法掌握穷举法回归方程选取法掌握穷举法回归方程选取法3.3.掌握逐步回归法回归方程选取法掌握逐步回归法回归方程选取法掌握逐步回归法回归方程选取法掌握逐步回归法回归方
2、程选取法4.4.了解利用了解利用了解利用了解利用SASSAS的的的的Proc regProc reg过程选取回归方程过程选取回归方程过程选取回归方程过程选取回归方程的方法的方法的方法的方法 第2页/共41页第三页,共41页。4 42.4回归方程的选取(xunq)n n回归方程的选取分为:回归方程的选取分为:回归方程的选取分为:回归方程的选取分为:n n 1.1.回归方程类型回归方程类型回归方程类型回归方程类型(线性与非线性线性与非线性线性与非线性线性与非线性)的选取的选取的选取的选取n n 2.2.回归方程类型确定回归方程类型确定回归方程类型确定回归方程类型确定(qudng)(qudng)后自
3、变量的选取后自变量的选取后自变量的选取后自变量的选取n n 用全部可能的自变量建立的回归方程并不一用全部可能的自变量建立的回归方程并不一用全部可能的自变量建立的回归方程并不一用全部可能的自变量建立的回归方程并不一n n定是最好的:定是最好的:定是最好的:定是最好的:n n 一方面是将一些对因变量影响很小甚至根本无一方面是将一些对因变量影响很小甚至根本无一方面是将一些对因变量影响很小甚至根本无一方面是将一些对因变量影响很小甚至根本无影响的自变量包含在方程里,增加计算量,导致参影响的自变量包含在方程里,增加计算量,导致参影响的自变量包含在方程里,增加计算量,导致参影响的自变量包含在方程里,增加计算
4、量,导致参数估计与预测值的精度下降数估计与预测值的精度下降数估计与预测值的精度下降数估计与预测值的精度下降n n 另一方面是自变量太多不利于应用回归方程对另一方面是自变量太多不利于应用回归方程对另一方面是自变量太多不利于应用回归方程对另一方面是自变量太多不利于应用回归方程对实际问题作出合理的解释,也会造成数据的收集和实际问题作出合理的解释,也会造成数据的收集和实际问题作出合理的解释,也会造成数据的收集和实际问题作出合理的解释,也会造成数据的收集和模型应用的费用不必要的加大模型应用的费用不必要的加大模型应用的费用不必要的加大模型应用的费用不必要的加大 第3页/共41页第四页,共41页。例例8.2
5、.2 8.2.2 设单因素有三水平,每个水平下实验设单因素有三水平,每个水平下实验(shyn)(shyn)的次数不同。的次数不同。因素因素 I II III I II III 0.365 0.27 0.305 0.365 0.27 0.305 0.255 0.275 0.250 0.255 0.275 0.250 0.195 0.240 0.225 0.195 0.240 0.225 0.215 0.265 0.215 0.265 0.185 0.185问三水平下的结果是否有显著区别?注意问三水平下的结果是否有显著区别?注意 groupgroup的使用。的使用。data=0.365 0.255
6、 0.195 0.215 0.27 0.275 0.24 data=0.365 0.255 0.195 0.215 0.27 0.275 0.24 0.265.0.185 0.305 0.25 0.225;0.265.0.185 0.305 0.25 0.225;group=1,1,1,1,2,2,2,2,.group=1,1,1,1,2,2,2,2,.2,3,3,3;2,3,3,3;p=anova1(data,group)p=anova1(data,group)第4页/共41页第五页,共41页。p=0.9338方差分析表为:方差分析表为:结果表明,没有结果表明,没有(mi yu)显著性差别。
7、即该因素对实验没有显著性差别。即该因素对实验没有(mi yu)影响。影响。第5页/共41页第六页,共41页。7 7n n在实际应用在实际应用在实际应用在实际应用(yngyng)(yngyng)中,如何从与因变量有中,如何从与因变量有中,如何从与因变量有中,如何从与因变量有关的自变量集合中选取一个关的自变量集合中选取一个关的自变量集合中选取一个关的自变量集合中选取一个“最优最优最优最优”的自变量的自变量的自变量的自变量子集,以建立一个既合理又简单的回归方程是子集,以建立一个既合理又简单的回归方程是子集,以建立一个既合理又简单的回归方程是子集,以建立一个既合理又简单的回归方程是十分重要的。十分重要
8、的。十分重要的。十分重要的。n n主要介绍两种常用的回归方程选取方法:主要介绍两种常用的回归方程选取方法:主要介绍两种常用的回归方程选取方法:主要介绍两种常用的回归方程选取方法:n n1.1.从所有可能的自变量子集中选取从所有可能的自变量子集中选取从所有可能的自变量子集中选取从所有可能的自变量子集中选取“最优最优最优最优”回回回回归方程:即穷举法归方程:即穷举法归方程:即穷举法归方程:即穷举法n n2.2.逐步回归法逐步回归法逐步回归法逐步回归法第6页/共41页第七页,共41页。8 82.4.1 2.4.1 穷举法穷举法n n设与因变量设与因变量设与因变量设与因变量Y Y有关有关有关有关(yu
9、gun)(yugun)的的的的“所有可能所有可能所有可能所有可能”的变量的变量的变量的变量X X的的的的 个数为个数为个数为个数为M-1M-1,记为,记为,记为,记为X1,X2,XM-1.X1,X2,XM-1.n n穷举法:从这穷举法:从这穷举法:从这穷举法:从这M-1M-1个自变量的所有可能的子集个自变量的所有可能的子集个自变量的所有可能的子集个自变量的所有可能的子集(z j)(z j)所拟合的回归方程中,按照一定准则选所拟合的回归方程中,按照一定准则选所拟合的回归方程中,按照一定准则选所拟合的回归方程中,按照一定准则选取最优的一个或几个。取最优的一个或几个。取最优的一个或几个。取最优的一个
10、或几个。n n对任一给定的对任一给定的对任一给定的对任一给定的1pM,1pM,拟合包含拟合包含拟合包含拟合包含p-1p-1个自变量的个自变量的个自变量的个自变量的所有回归方程共有所有回归方程共有所有回归方程共有所有回归方程共有 个,对有个,对有个,对有个,对有M-1M-1个自变个自变个自变个自变量,共需要拟合量,共需要拟合量,共需要拟合量,共需要拟合 个回归方程。个回归方程。个回归方程。个回归方程。n n必须必须必须必须(bx)(bx)建立一定准则选取最优的:优良性的建立一定准则选取最优的:优良性的建立一定准则选取最优的:优良性的建立一定准则选取最优的:优良性的准则准则准则准则 第7页/共41
11、页第八页,共41页。9含有含有含有含有(hn yu)p-1(hn yu)p-1(hn yu)p-1(hn yu)p-1个自变量的回归方程其复相个自变量的回归方程其复相个自变量的回归方程其复相个自变量的回归方程其复相关系数:关系数:关系数:关系数:SSEpSSEp为相应为相应为相应为相应(xingyng)(xingyng)回归方程的残差平方和;回归方程的残差平方和;回归方程的残差平方和;回归方程的残差平方和;SSTSST为总离差平方和且与回归方程无关;为总离差平方和且与回归方程无关;为总离差平方和且与回归方程无关;为总离差平方和且与回归方程无关;1 1 修正的复相关系数准则或均方残差准则修正的复
12、相关系数准则或均方残差准则修正的复相关系数准则或均方残差准则修正的复相关系数准则或均方残差准则 (或或或或 准则准则准则准则)是评价回归方程的重要指标:值越大,是评价回归方程的重要指标:值越大,是评价回归方程的重要指标:值越大,是评价回归方程的重要指标:值越大,方程的拟合效果越好,即观测数据与理论方程的拟合效果越好,即观测数据与理论方程的拟合效果越好,即观测数据与理论方程的拟合效果越好,即观测数据与理论模型的预测值的偏离程度就越小模型的预测值的偏离程度就越小模型的预测值的偏离程度就越小模型的预测值的偏离程度就越小第8页/共41页第九页,共41页。10当当当当p p p p增大时,增大时,增大时
13、,增大时,SSESSESSESSEp p p p减小,而减小,而减小,而减小,而 在增大,在增大,在增大,在增大,因而用直接利用因而用直接利用因而用直接利用因而用直接利用 达到最大没有实际意义达到最大没有实际意义达到最大没有实际意义达到最大没有实际意义?将将将将p p p p的控制作用引入到的控制作用引入到的控制作用引入到的控制作用引入到 中得修正的复相关系数中得修正的复相关系数中得修正的复相关系数中得修正的复相关系数P P P P增加时,增加时,增加时,增加时,MSEp=SSEp/(n-p)MSEp=SSEp/(n-p)MSEp=SSEp/(n-p)MSEp=SSEp/(n-p)分子与分母都
14、减小,分子与分母都减小,分子与分母都减小,分子与分母都减小,不再是不再是不再是不再是p p p p的单调函数的单调函数的单调函数的单调函数.SST/(n-1).SST/(n-1).SST/(n-1).SST/(n-1)不随不随不随不随p p p p变化,变化,变化,变化,因而存在因而存在因而存在因而存在p p p p使使使使MSEp=MSEp=MSEp=MSEp=达到最小,即存在达到最小,即存在达到最小,即存在达到最小,即存在p p p p使复相关使复相关使复相关使复相关(xinggun)(xinggun)(xinggun)(xinggun)系数达到最大系数达到最大系数达到最大系数达到最大第9
15、页/共41页第十页,共41页。11实用实用实用实用(shyng)(shyng)中中中中,利用观测数据拟合所有可能的利用观测数据拟合所有可能的利用观测数据拟合所有可能的利用观测数据拟合所有可能的2M-1-12M-1-1个个个个回归方程,从中选取使回归方程,从中选取使回归方程,从中选取使回归方程,从中选取使R2a(p)R2a(p)达到最大或接近最达到最大或接近最达到最大或接近最达到最大或接近最大或使大或使大或使大或使MSEpMSEp达到最小或接近最小且包含较少自变达到最小或接近最小且包含较少自变达到最小或接近最小且包含较少自变达到最小或接近最小且包含较少自变量的回归方程作为最优回归方程量的回归方程
16、作为最优回归方程量的回归方程作为最优回归方程量的回归方程作为最优回归方程以以以以 达到最大或达到最大或达到最大或达到最大或MSEMSEMSEMSEp p p p达到最小作为回归方达到最小作为回归方达到最小作为回归方达到最小作为回归方程程程程的评选准则称为的评选准则称为的评选准则称为的评选准则称为修正的复相关系数准则或均方修正的复相关系数准则或均方修正的复相关系数准则或均方修正的复相关系数准则或均方残差准则残差准则残差准则残差准则第10页/共41页第十一页,共41页。12122.Cp2.Cp准则准则准则准则(zhnz)(zhnz)C Cp p准则准则准则准则统计量为统计量为统计量为统计量为其中其
17、中其中其中SSEpSSEp残差平方和;残差平方和;残差平方和;残差平方和;MSEMSE为利用全部为利用全部为利用全部为利用全部M-1M-1变量变量变量变量(binling)(binling)拟合线性回归方程的均方残拟合线性回归方程的均方残拟合线性回归方程的均方残拟合线性回归方程的均方残差差差差.理论结果理论结果理论结果理论结果(ji gu):(ji gu):当利用观测数据对当利用观测数据对当利用观测数据对当利用观测数据对p-1p-1个个个个变量与变量与变量与变量与M-1M-1变量拟合的回归方程无显著差异时,有变量拟合的回归方程无显著差异时,有变量拟合的回归方程无显著差异时,有变量拟合的回归方程
18、无显著差异时,有E(E(C Cp p)(n-p)-(n-2p)=p E()(n-p)-(n-2p)=p E(C CMM)=M)=M拟合较好的方程,其拟合较好的方程,其拟合较好的方程,其拟合较好的方程,其C Cp p值应值应值应值应p p相差不大,故相差不大,故相差不大,故相差不大,故C Cp p准则准则准则准则选取使选取使选取使选取使C Cp p准准准准最接近最接近最接近最接近p p的回归方程为的回归方程为的回归方程为的回归方程为最优最优最优最优第11页/共41页第十二页,共41页。1313实用实用实用实用(shyng)(shyng)中中中中,当自变量数当自变量数当自变量数当自变量数M-M-1
19、 1较大时,较大时,较大时,较大时,拟合所有拟合所有拟合所有拟合所有2M-1-12M-1-1个回归方程,将个回归方程,将个回归方程,将个回归方程,将相应的相应的相应的相应的(p,Cp)(p,Cp)描在如右的图中,描在如右的图中,描在如右的图中,描在如右的图中,再作参考直线再作参考直线再作参考直线再作参考直线Cp=p,Cp=p,称之为称之为称之为称之为CpCp图图图图在在在在CpCp图中最接近参考直线图中最接近参考直线图中最接近参考直线图中最接近参考直线Cp=pCp=p的点所对应的回归方程为的点所对应的回归方程为的点所对应的回归方程为的点所对应的回归方程为最优方程最优方程最优方程最优方程第12页
20、/共41页第十三页,共41页。14143 预测预测(yc)平方和准则平方和准则(PRESSp准则准则)预测平方和准则的思想:对给定的预测平方和准则的思想:对给定的p-1个自个自变变量量X1,X2,Xp-1的的n组观测组观测(gunc)数据数据删第删第i组数据组数据,利用其余利用其余利用其余利用其余n-1n-1组拟合因变量组拟合因变量组拟合因变量组拟合因变量Y Y与与与与X X1 1,X,X2 2,X,Xp-1p-1的线性回归模型,并对的线性回归模型,并对yi作预测作预测记其预测值为记其预测值为则预测误差为则预测误差为对任意对任意(rny)i=1,2,n,求得求得n个预测误差个预测误差d1(p)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 24 学习 教案
限制150内