回归分析和曲线拟合.ppt
1第五章第五章 回归分析和曲线拟合回归分析和曲线拟合回归分析方法251 一元线性回归l一、什么叫回归分析一、什么叫回归分析l(一)两种不同类型的变量关系、函数与相关(一)两种不同类型的变量关系、函数与相关l简单的说,回归分析就是一种处理变量与变量之间关系简单的说,回归分析就是一种处理变量与变量之间关系的数学方法。的数学方法。l例:自由落体运动中,物体下落的举例例:自由落体运动中,物体下落的举例S与所需时间与所需时间t之间,之间,有如下关系有如下关系 3l变量变量S的值随的值随t而定,这就是说,如果而定,这就是说,如果t去了固定去了固定值,那么值,那么S的值就完全确定了的值就完全确定了l这种关系就是所谓的函数关系或确定性关系这种关系就是所谓的函数关系或确定性关系l回归分析方法是处理变量之间相关关系的有理回归分析方法是处理变量之间相关关系的有理工具,它不仅提供建立变量间关系的数学表达式工具,它不仅提供建立变量间关系的数学表达式经验公式,而且利用概率统计知识进行了分析讨经验公式,而且利用概率统计知识进行了分析讨论,从而判断经验公式的正确性论,从而判断经验公式的正确性4l二、回归分析所能解决的问题二、回归分析所能解决的问题l回归分析主要解决以下几方面的问题:回归分析主要解决以下几方面的问题:l(1)确定几个特定变量之间是否存在相关关系,如)确定几个特定变量之间是否存在相关关系,如果存在的话,找出她们之间合适的数学表达式果存在的话,找出她们之间合适的数学表达式l(2)根据一个或几个变量的值,预报或控制另一个)根据一个或几个变量的值,预报或控制另一个变量的取值,并且要知道这种预报或控制的精确度变量的取值,并且要知道这种预报或控制的精确度l(3)进行因素分析,确定因素的主次以及因素之间)进行因素分析,确定因素的主次以及因素之间的相互关系等等的相互关系等等5l一元线性回归分析,只要解决:一元线性回归分析,只要解决:l(1)求变量)求变量x与与y之间的回归直线方程之间的回归直线方程l(2)判断变量)判断变量x和和y之间是否确为线性关系之间是否确为线性关系l(3)根据一个变量的值,预测或控制另一变量)根据一个变量的值,预测或控制另一变量的取值的取值6l二、一元线性回归方程的确定二、一元线性回归方程的确定789101112l三、回归方程检验方法三、回归方程检验方法l(一)方差分析法(一)方差分析法l回顾方差分析的基本特点:回顾方差分析的基本特点:l把所给数据的总波动分解为两部分,一部分反映水平把所给数据的总波动分解为两部分,一部分反映水平变化引起的波动,另一部分反映由于存在试验误差而引起变化引起的波动,另一部分反映由于存在试验误差而引起的波动。然后把各因素水平变化引起的波动与试验误差引的波动。然后把各因素水平变化引起的波动与试验误差引起的波动大小进行比较,而达到检验因素显著性的目的起的波动大小进行比较,而达到检验因素显著性的目的.1314151617l(二)相关系数检验法(二)相关系数检验法18192021222324n-2123456789100.05 0.010.9970.9500.8780.8110.7540.7070.6660.6320.6020.5761.0000.9900.9590.9170.8740.8340.7980.7650.7350.708n-2111213141516171819200.05 0.010.5530.5320.5140.4790.4820.4680.4560.4440.4330.4130.6840.6610.6410.6230.6060.5900.5750.5610.5490.537n-2212223242526272829300.05 0.010.4130.4040.3960.3880.3810.3740.3670.3640.3550.3490.5260.5150.5050.4960.4870.4780.4700.4630.4560.449相关系数临界值表25l四、预报与控制四、预报与控制l当我们求得变量当我们求得变量x、y之间的回归直线方程后,之间的回归直线方程后,往往通过回归方程回答这样两方面的问题:往往通过回归方程回答这样两方面的问题:l(1)对任何一个给定的观测点)对任何一个给定的观测点x0,推断推断y0大致落的范围大致落的范围l(2)若要求观测值)若要求观测值y在一定的范围在一定的范围y1yy2内内取值,应将取值,应将变量控制在什么地方变量控制在什么地方l前者就是所谓的预报问题,后者称为控制问题。前者就是所谓的预报问题,后者称为控制问题。262728293031l五、应用举例五、应用举例l例例61 在某产品表明腐蚀刻线,下表是试在某产品表明腐蚀刻线,下表是试验活得的腐蚀时间(验活得的腐蚀时间(x)与腐蚀深度(与腐蚀深度(y)间的间的一组数据。试研究两变量(一组数据。试研究两变量(x,y)之间的关系。之间的关系。腐蚀时间腐蚀时间x(秒)秒)腐蚀深度腐蚀深度y()5 5 10 20 30 40 50 60 65 90 1204 6 8 13 16 17 19 25 25 29 463240302010yx10 20 30 40 50 60 70 80 90 100 110 1203334序号12345678910115510203040506065901204954681316171925252946208252510040090016002500360042258100144003587516366416925628936162562584121165398203080260480680950150016252610552013755353637383952 多元回归分析方法多元回归分析方法40一、多元回归分析概述一、多元回归分析概述 上节讨论的只是两个变量的回归问题,其中因上节讨论的只是两个变量的回归问题,其中因变量只与一个自变量相关。但这只是最简单的情况,变量只与一个自变量相关。但这只是最简单的情况,在大多数的实际问题中,影响因变量的因素不是一在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。个而是多个,我们称这类回问题为多元回归分析。我们这里着重讨论简单而又最一般的线性回归我们这里着重讨论简单而又最一般的线性回归问题,这是因为许多非线性的情形可以化为线性回问题,这是因为许多非线性的情形可以化为线性回归来做。多元线性回归分析的原理与一元线性回归归来做。多元线性回归分析的原理与一元线性回归分析完全相同,但在计算上却要复杂得多。不过,分析完全相同,但在计算上却要复杂得多。不过,应用计算机多元回归的计算量是很小的,一般的计应用计算机多元回归的计算量是很小的,一般的计算机都有多元回归(以及逐步回归方法)的专门程算机都有多元回归(以及逐步回归方法)的专门程序序。4142434445464748多元线性回归方差分析表494偏回归平方和与因素主次的差别偏回归平方和与因素主次的差别 前面讲的有关多元线性回归的内容,纯属一元情形的推广,前面讲的有关多元线性回归的内容,纯属一元情形的推广,只是形式上复杂一些而已,而偏回归平方和与因素主次的差只是形式上复杂一些而已,而偏回归平方和与因素主次的差别则是多元回归问题所特有的。别则是多元回归问题所特有的。先从判别因素的主次说起。在实际工作中先从判别因素的主次说起。在实际工作中,我们还关心我们还关心Y对对x1,x2,xk的线性回归中的线性回归中,哪些因素哪些因素(即自变量即自变量)更重要些更重要些,哪些不重要哪些不重要,怎栏来衡量某个特定因素(,怎栏来衡量某个特定因素(,)的影响呢的影响呢?我们知道我们知道,回归平方和回归平方和U这个量这个量,刻划了全体自变量刻划了全体自变量x1,x2,xk对于对于Y总的线性影响总的线性影响,为了研究为了研究xk的作用的作用,可以这可以这样来考虑样来考虑:从原来的个自变量中扣除从原来的个自变量中扣除xk,我们知道这我们知道这个自变量个自变量x1,x2,xxk-1k-1对于对于Y的总的线性影响也是一个回归的总的线性影响也是一个回归平方和平方和,记作记作U U(k)(k);我们称我们称 P Pk k=U-U=U-U(k)(k)50 为为x1,x2,xk中中xk的偏回归平方和。这个偏回归平的偏回归平方和。这个偏回归平方和也可看作方和也可看作xk产生的作用产生的作用,类似地类似地,可定义为可定义为U U(i).(i).一般地一般地,称称 P Pi i=U-U=U-U(i)(i)为为x1,x2,xk 中中i的偏回归平方和。用它来衡量的偏回归平方和。用它来衡量i在在Y对对x1,x2,xk的线性回归中的作用的大小。的线性回归中的作用的大小。51 52 从偏回归平方和的意义可以看出从偏回归平方和的意义可以看出,凡是对凡是对Y作用显著的因作用显著的因素一般具有较大的素一般具有较大的i值。值。i愈大愈大,该因素对该因素对Y的作用也就愈大的作用也就愈大,这样通过比较各个因素的这样通过比较各个因素的P值就可以大致看出各个因素对因值就可以大致看出各个因素对因素变量作用的重要性。素变量作用的重要性。在实用上在实用上,在计算了偏回归平方和在计算了偏回归平方和后后,对各因素的分析可以按下面步骤进行对各因素的分析可以按下面步骤进行:凡是偏回归平方和大的凡是偏回归平方和大的,也就是显著性的那些因素也就是显著性的那些因素,一定是对一定是对Y有重要有重要影响的因素。至于偏回归平方和大到什么程度才算显著影响的因素。至于偏回归平方和大到什么程度才算显著,要对它作检要对它作检验验,检验的方法与本节中对总回归的检验法类似。检验的方法与本节中对总回归的检验法类似。为此为此,我们要先计算我们要先计算 53 其中其中S即是方差分析计算中的剩余方差即是方差分析计算中的剩余方差,F自由度为(,自由度为(,),于是在给定的显著性水平于是在给定的显著性水平,按前面的按前面的F检验法检验法,检验该因素的偏回归平和的显著性。检验该因素的偏回归平和的显著性。凡是偏回归平方和小的凡是偏回归平方和小的,即不显著的变量即不显著的变量;则可肯定偏回归平则可肯定偏回归平方和最小的那个因素必然是在这些因素中对方和最小的那个因素必然是在这些因素中对Y作用最小的一个作用最小的一个,此时应该从回归方程中将变量剔除。剔除一个变量后此时应该从回归方程中将变量剔除。剔除一个变量后,各因素各因素的偏回归平方和的大小一般的都会有所改变的偏回归平方和的大小一般的都会有所改变,这时应该对它们这时应该对它们重新作出检验。重新作出检验。另外需要说明一下就是另外需要说明一下就是,在通常情况下在通常情况下,各因素的偏回归平各因素的偏回归平方和相加并不等于回归平方和。方和相加并不等于回归平方和。只有当正规方程的系数矩阵为对角型只有当正规方程的系数矩阵为对角型5455曲线拟合曲线拟合l 在化工实验数据处理中,我们经常会遇到在化工实验数据处理中,我们经常会遇到这样的问题,即已知两个变量之间存在着函数这样的问题,即已知两个变量之间存在着函数关系,但是,不能从理论上推出公式的形式,关系,但是,不能从理论上推出公式的形式,要我们建立一个经验公式来表达这两个变量之要我们建立一个经验公式来表达这两个变量之间的函数关系。间的函数关系。l 二元溶液的溶解热与浓度的函数关系二元溶液的溶解热与浓度的函数关系l 反应物的浓度与反应时间的函数关系反应物的浓度与反应时间的函数关系l 做散点图,选经验方程,曲线变直,相关做散点图,选经验方程,曲线变直,相关系数对比,求出常数系数对比,求出常数56575859606162