第九章-----回归分析ppt课件.ppt
《第九章-----回归分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《第九章-----回归分析ppt课件.ppt(127页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1第八章第八章 回归分析回归分析第一节第一节 一元线性回归分析一元线性回归分析第二节第二节 可线性化的一元非线性回归问题可线性化的一元非线性回归问题第三节第三节 多元线性回归分析多元线性回归分析第四节第四节 逐步回归分析逐步回归分析第五节第五节 处理多元线性回归中自变量共线性的几种方法处理多元线性回归中自变量共线性的几种方法第七节第七节 含有定性变量的回归分析含有定性变量的回归分析第八节第八节 通径分析通径分析第六节第六节 多元非线性回归分析多元非线性回归分析2 回归分析(regression analysis)是指由自变量的变异来估计因变量的变异问题,具体可通过建立回归方程来实现. 在热带作
2、物栽培和加工试验以及作物病虫害预测预报的研究中, 回归分析有着极其广泛的应用.如在橡胶树产量研究中, 应用回归分析可由蓬距、幼苗期刺检干胶量、叶脉角度等估测产胶量;在橡胶树白粉病研究中,用越冬菌量、温度、湿度及橡胶物候等因子可预测白粉病的流行强度等等. 按自变量个数的多少可将回归分析分为一元回归分析和多元回归分析.只考虑一个自变量的回归问题称为一元回归分析,含有两个或两个以上自变量的回归问题称为多元回归分析.以自变量和因变量之间内在联系特征的不同,又可将回归问题分为线性回归和非线性回归分析. 本章着重介绍应用国际通用统计软件SAS进行线性和非线性回归分析的方法3一一. . 回归模型回归模型 第
3、一节第一节 一元线性回归分析一元线性回归分析回归模型建立的直观思想回归模型建立的直观思想 如果对于自变量 x 的一个观测值 xi ,因变量y有一个相应的观察值yi与之对应,则称 (xi , yi)组成一对观察值. 现假定x与y有n对观察值(x1, y1), (x2 , y2) , (xn , yn),把这n个点(xi , yi) 画在平面直角坐标系上,得到如图81所示的散点图. y=a+bxyx 图81 观测值 (xi ,yi)散点图 4 从散点图可以看出从散点图可以看出,随着自变量随着自变量x的增加的增加,因变量因变量y也呈现上也呈现上升的趋势升的趋势,图中的点大致分布在一条向右方倾斜的直线
4、附近图中的点大致分布在一条向右方倾斜的直线附近,因因而可以用一条直线方程来近似的逼近而可以用一条直线方程来近似的逼近 即即 yi=b b0+b b1xi+e ei i=1 , 2, , n 其中其中e ei N(0 ,s s 2), e ei 是相互独立的随机变量序列且它们的方差是相互独立的随机变量序列且它们的方差相同相同(方差齐性方差齐性),称为回归直线称为回归直线(方程方程).对于一元线性回归模型,我们要解决以下问题:对于一元线性回归模型,我们要解决以下问题:(1)参数估计参数估计:给出参数给出参数b b0 , b b1 , s s 2 的估计值的估计值.(2)显著性检验显著性检验:检验线
5、性函数检验线性函数 yi=b b0+b b1xi 用来描述因变量用来描述因变量 y 与自变量与自变量 x 的关系是否合适的关系是否合适,包括回归模型的显著性检验和包括回归模型的显著性检验和 参数的显著性检验参数的显著性检验.(3)模型检查模型检查:检查对模型所做的假设是否成立检查对模型所做的假设是否成立,包括包括 e ei 是相互独是相互独 立的随机变量序列的检查和方差齐性的检查立的随机变量序列的检查和方差齐性的检查.(4)预测或控制预测或控制.5对对b b0 , b b1的估计实际上就是在平面直角坐标系中估计一条直线的估计实际上就是在平面直角坐标系中估计一条直线 xy10bbxy10bbni
6、niiiixyeQ11210210)(),(bbbb二二 回归模型建立的方法回归模型建立的方法最小二乘估计最小二乘估计 使它尽可能地接近回归直线使它尽可能地接近回归直线 直观的说来就是使理论值和观测值的所有偏差和最小直观的说来就是使理论值和观测值的所有偏差和最小.为了为了避免正负偏差项互相抵消避免正负偏差项互相抵消,因而要求所有偏差平方和最小因而要求所有偏差平方和最小,即求即求参数参数 b b0 , b b1 , 使函数使函数达到最小达到最小. .6根据二元函数的极值理论,分别求关于两个变量10,bbniniiiixyeQ11210210)(),(bbbb011001100,1,0bbbbbb
7、bbbbQQ解方程组得的一阶偏导数,并令它们等于零解联立方程组即可.将以上两式展开,得方程组:niiiiniiixxyxy1101100)(0)(bbbbxxyxLLxy110bbb7称观测值与理论值的差称观测值与理论值的差 为残差为残差. .以上用数学方法对参以上用数学方法对参数数 进行估计的方法进行估计的方法, ,称为最小二乘估计法称为最小二乘估计法. . SAS SAS程序直接调用程序直接调用regreg过程过程. .一般格式如下:一般格式如下: poc regpoc reg data= data=数据集名称;数据集名称; model model 因变量集因变量集= =自变量集自变量集;
8、 (; (如如model y=x;)model y=x;)三三 一元线性回归模型的检验一元线性回归模型的检验1 1方差分析与方差分析与F F检验检验1 1)统计假设)统计假设 原假设原假设 备择假设备择假设2 2)平方和与自由度分解)平方和与自由度分解 即总平方和分解为误差平方和与回归平方和即总平方和分解为误差平方和与回归平方和, ,同时总自由度也同时总自由度也分解为误差自由度加上回归自由度分解为误差自由度加上回归自由度, ,即即 niiniixxxnxxxL12212)(niiiiniiyxyxnyxyyxxL11)( )(iiiyy10,bb0:11bH; 0:10bHSSRSSEyyyy
9、yySSTniiniiinii121212)()()(RETfdfdfd83 3)F统计量统计量若若 , ,则拒绝则拒绝 接受接受 说明用函数说明用函数 来描述因变量来描述因变量 y与自变量与自变量 x 的关系是的关系是合适的合适的, ,即回归模型是显著性的。即回归模型是显著性的。4 4)方差分析表)方差分析表21nSSESSRdfSSEdfSSRFER)2, 1 (nFF0:11bH;0:10bHiixy10bb方差来源方差来源平方和平方和自由度自由度均方均方 F值值回归回归残差残差总计总计SSRSSESST 1n- -2n- -1MSR= SSR/ 1MSE= SSE/n- -2F=MSR
10、/MSESSTSSESSTSSRR122 2可决定系数可决定系数R2( (判定系数)判定系数) 作为一个相对指标作为一个相对指标, ,测度了拟合的回归直线所导致离差平方测度了拟合的回归直线所导致离差平方和占样本的总离差平方和的百分比和占样本的总离差平方和的百分比, ,因此它也是对回归方程拟因此它也是对回归方程拟合优度的一种测度合优度的一种测度. .R2越接近于越接近于1,1,则说明回归方程对样本点的则说明回归方程对样本点的拟合得越好拟合得越好. .93t 检验检验 0:10bH)2(111nttbsb) 1(2/1ntt0:00bH)2(000nttbsb) 1(2/0ntt0:10bHt 检
11、验是对回归参数显著性的检验检验是对回归参数显著性的检验,可以证明以下两个结论可以证明以下两个结论:结论结论1:在零假设:在零假设 对于一元线性回归来说对于一元线性回归来说成立的条件下有成立的条件下有: 拒绝域为拒绝域为:结论结论2:在零假设:在零假设成立的条件下有成立的条件下有:拒绝域为拒绝域为: 的的F检验值和检验值和t检验中的检验中的t值的概率值值的概率值 p 相等相等.实际上实际上,对于一元线性回归模型来说对于一元线性回归模型来说,上述上述两个检验是等价的两个检验是等价的,即都有相同的拒绝域即都有相同的拒绝域. 101.1.残差图残差图四四 一元线性回归模型的残差分析一元线性回归模型的残
12、差分析( (回归诊断回归诊断) ) 称观测值与理论值的差称观测值与理论值的差为残差为残差. .而称而称iiiyy)(iiiDe为标准化残差为标准化残差. .残差图以残差图以x为坐标横轴为坐标横轴, ,残差残差e为坐标纵轴为坐标纵轴, ,由所有点由所有点( (xi , ei) )构成构成. . 残差图可用于检验随机变量序列残差图可用于检验随机变量序列 的独立性的独立性, ,正态性和方差整正态性和方差整齐性齐性. .从理论上可以证明从理论上可以证明e1,e2, en相互独立且近似的服从相互独立且近似的服从N N(0,1).(0,1).故关于预测值残差图中的点应随机分布在故关于预测值残差图中的点应随
13、机分布在-2-2到到+2+2之间的带子形之间的带子形里里, ,这样的残差图称为正常的残差图这样的残差图称为正常的残差图. .ie另一种残差图是用横轴表示因变量的预测值而用纵轴表示残差另一种残差图是用横轴表示因变量的预测值而用纵轴表示残差值值ei, ,即点的坐标为即点的坐标为( (yi,ei).).111正常的残差图2直线回归模型不合适3.方差齐性不成立4.误差项不独立图82为几种常见的残差图 122. .方差齐性的诊断及修正方法方差齐性的诊断及修正方法 对于一元线性回归来说对于一元线性回归来说, ,关于关于 x 的残差图和关于预测值的残的残差图和关于预测值的残差图提供了同样的信息差图提供了同样
14、的信息. . 对于多元线性回归分析对于多元线性回归分析, ,由于有一个以上的自变量由于有一个以上的自变量, ,所以所以一般采用关于预测值的残差图一般采用关于预测值的残差图. . 误差方差非齐性时误差方差非齐性时, ,残差图不正常残差图不正常. .可通过对因变量作适当的可通过对因变量作适当的变换变换, ,令令z=f ( y ) 使得关于因变量的回归分析中误差的方差接近使得关于因变量的回归分析中误差的方差接近于齐性于齐性. .实用上常选用一些变换实用上常选用一些变换, ,变换后重新做回归及残差图变换后重新做回归及残差图, ,如如残残差图有改善或已属正常残残差图有改善或已属正常, ,则该变换是合适的
15、则该变换是合适的. .否则改变变换否则改变变换函数计算直到找到合适的变换为止函数计算直到找到合适的变换为止, ,常用的方差稳定性变换有常用的方差稳定性变换有: :)ln(YZ )0(YYZ)0(1YYZ13 在许多回归分析中在许多回归分析中, ,所利用的数据是按时间顺序采集的所利用的数据是按时间顺序采集的, ,即即时间序列数据时间序列数据, ,用用yt表示表示y在时刻在时刻t的值的值, ,而而y的值又常常依赖于的值又常常依赖于y在以前时刻的值在以前时刻的值. .此时此时, ,称数据存在自相关称数据存在自相关( (序列相关序列相关),),从而违从而违背了回归模型的假设背了回归模型的假设, ,误差
16、项误差项 已不再是独立的已不再是独立的. . neee,21nttnttteeeD12221)(检验方法为检验方法为DurbinWatson统计量:统计量:3 3DurbinWatson 检验检验 DurbinWatson DurbinWatson统计量的取值统计量的取值介于介于0 0和和4 4之间之间, ,一个粗略的判断是一个粗略的判断是: : 若若D值在值在2附近附近( (1.6D2.4),),则没有充分的证据证明存在序列相则没有充分的证据证明存在序列相关;若关;若D2.4, ,则存在负的自相关则存在负的自相关. .具体可通过具体可通过SAS程序来完成程序来完成, ,只需在只需在reg过程
17、后增加选项过程后增加选项DW即可,即可,如如:proc reg DW; 14五、一元线性回归模型的五、一元线性回归模型的SAS实施实施 一元线性回归模型的建立可通过国际通用软件SAS实施.具体可直接调用reg过程,一般格式如下: poc reg data=数据集名称;(data=数据集名称可以省略,此时所用的数据集为最近的数据集) model 因变量集=自变量集;(如model y=x;)六、应用实例六、应用实例 例8.1 海南省国营大岭农场橡胶树大型系比二组无性系,1960年刺检干胶量(x:毫克)与1965年正式割胶产量(y:克)如下表82,求正式割胶量关于剌检干胶量的回归方程.15表82
18、正式割胶产量与刺检干胶量编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14xy77 64 62 72 71 83 79 94 104 96 61 90 81 1228.8 7.9 8.9 7.7 8.6 8.1 9.1 5.6 8.5 7.6 4.9 8.1 12.0 15.7编号15 16 17 18 19 20 21 22 23 24 25 26xy65 130 111 160 188 81 92 80 63 105 89 7311.9 11.1 6.5 15.3 17.7 5.9 10.6 8.3 6.0 8.5 10.1 3.51建立回归方程 由所给的数据得 239
19、6ix15.92x9 .236iy11.9y2439902ix23.24352iy9 .23618iiyx于是得 0771. 026/)2396(24399026/9 .23623969 .23618/)(/ )(222nxxnyxyxbiiiiii1601. 215.920771. 011. 9xbya于是得回归方程为 xy0771.001.22. 回归方程显著性检验 71.27626/)9 .236(23.2435/)()(2222nyyyySSiiiT总平方和/)()()(222222nxxbxxbyySSiiiiR回归平方和81.13726/)2396(243990)0771. 0(2
20、290.13852.13971.276RTESSSSSS剩余平方和方差分析结果列于表83. 17表83 回归方程的方差分析变异来源平方和(SS)自由度( df )均方(MS )F值回 归剩 余 1 24137.81138.90137.81 5.7923.81*总变异 25276.71SAS程序与输出结果程序与输出结果 data han81; input x y;cards; 77 8.8 64 7.9 62 8.9 72 7.7 71 8.6 83 8.1 79 9.1 97 5.6 104 8.5 96 7.6 61 4.9 90 8.1 81 12.0 122 15.7 65 11.9 1
21、30 11.1 111 6.5 160 15.3 188 17.7 81 5.9 92 10.6 80 8.3 63 6.0 105 8.5 89 10.1 73 3.5; 18proc gplot; plot y*x=*; proc reg; model y=x/p clm cli; plot residual.*x=*;run; 主要的输出结果主要的输出结果:(1)因变量y关于变量x的散点图 19 由散点图可以看出,图中的点大致呈现直线上升的趋势,因而可以用线性模型来刻画因变量y与自变量x的关系. (2)模型拟合与检验 Dependent Variable: y Analysis of V
22、ariance Sum of MeanSource DF Squares Square F Value Pr FModel 1 137.80902 137.80902 23.81 |t| Intercept 1 2.00746 1.53037 1.31 0.2020 x 1 0.07709 0.01580 4.88 .0001输出结果的给出了F=23.81, Pr0 , x0) 4. S形曲线函数形曲线函数 y=1/(a+be- -x) 5. 负指数函数负指数函数 y=ae- -b/x 先取对数先取对数,得得 lny=lna+blnx ,作变换作变换,令令 lny=z , lnx=t , ln
23、a=k 则有则有 z=k+bt ,显然显然 z是是t 的线性函数的线性函数.作变换作变换,令令 1/y = z , t=1/ex则有则有 z=a+bt ,显然显然z是是t的线性函数的线性函数.先取对数得先取对数得 lny=lna- -b/x令令 lny=z , lna=k , -1/x=t 则有则有 z=k+bt ,显然显然 z是是t的线性函数的线性函数. 23 对回归方程选择一种合适的函数形式对回归方程选择一种合适的函数形式, ,必须对散点图进行认必须对散点图进行认真的分析真的分析. .有时有时, ,对同一种散点图所呈现的因变量与自变量的关对同一种散点图所呈现的因变量与自变量的关系系, ,可
24、以选择不同的函数形式来描述回归方程可以选择不同的函数形式来描述回归方程, ,那么如何判断并那么如何判断并比较不同回归方程的拟合优度呢比较不同回归方程的拟合优度呢? ?通常使用的比较准则通常使用的比较准则. . 有下面两个有下面两个: :SSTSSESSTSSRR12二二. . 曲线回归的选择准则曲线回归的选择准则 1. 1. 相关指数相关指数 R 作为一个相对指标作为一个相对指标, ,测度了拟合的回归直线所导致离差平方测度了拟合的回归直线所导致离差平方和占样本的总离差平方和的百分比和占样本的总离差平方和的百分比, ,因此它也是对回归方程拟合因此它也是对回归方程拟合优度的一种测度优度的一种测度.
25、 .R2越接近于越接近于1,1,则回归方程对样本点的拟合得越则回归方程对样本点的拟合得越好好. .因此因此, ,对于用不同的曲线拟合的回归方程对于用不同的曲线拟合的回归方程, ,通常选择通常选择R2较大的较大的一个为好一个为好. .24 2. 2.剩余标准差剩余标准差S 它反映了样本偏离回归曲线的平均大小它反映了样本偏离回归曲线的平均大小, ,当然当然S越小越好越小越好. .事实上事实上, ,上述两个准则是一致的上述两个准则是一致的. .R越大越大, ,则则S越小越小, ,反之也然反之也然. .例例1 1 以下为一组观测值以下为一组观测值 1) 1) 绘制绘制y对对x的散点图的散点图 2) 2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九 回归 分析 ppt 课件
限制150内