第7章 回归分析法.ppt
第七章回归分析法第七章回归分析法案例引入案例引入 20072007年的统计数据表明:首都机场全年出港航年的统计数据表明:首都机场全年出港航班正常率为班正常率为86.28%86.28%,其中,衡量航班起飞情况的航,其中,衡量航班起飞情况的航班放行正常率高达班放行正常率高达94.49%94.49%。中国民航总局代局长李。中国民航总局代局长李家祥表示我国航空公司的正点率,在世界来说,这家祥表示我国航空公司的正点率,在世界来说,这个比例属于中等水平,略微偏上。但是近两年因航个比例属于中等水平,略微偏上。但是近两年因航班延误造成的旅客与航空公司激烈冲突接连不断,班延误造成的旅客与航空公司激烈冲突接连不断,如果按航班延误每客补偿如果按航班延误每客补偿200200元计,仅南航一家元计,仅南航一家20072007年就要付出年就要付出1.61.6亿元的巨额赔款,这对于还属于亿元的巨额赔款,这对于还属于“投投入大,产出低入大,产出低”的国内航空公司而言是难以承受的,的国内航空公司而言是难以承受的,其结果必然导致企业为减少成本而降低服务,引发其结果必然导致企业为减少成本而降低服务,引发恶性竞争。为此,对于航空公司航班正点率和顾客恶性竞争。为此,对于航空公司航班正点率和顾客投诉率之间关系的研究就显得至关重要。投诉率之间关系的研究就显得至关重要。第七章第七章 回归分析法回归分析法p 7.1 7.1 概述概述p 7.2 7.2 一元线性回归分析法一元线性回归分析法p 7.3 7.3 多元线性回归分析法多元线性回归分析法p 7.4 7.4 非线性回归分析法非线性回归分析法第七章回归分析法第七章回归分析法7.1 7.1 概述概述1.1.回归分析的内涵回归分析的内涵 在信息分析研究中,我们经常会发现所研究的对象事物之间往往存在某种相关关系,它们互相联系、互相影响、互相制约。当研究对象的一个或多个变量X1,X2,Xm的变化会引起另一个或多个变量Y1,Y2,Yn发生变化时,我们就说它们之间存在着某种相关关系。其中诸其中诸X X带有带有“原因原因”的性质,故称为的性质,故称为自变量自变量;诸诸Y Y带有带有“结果结果”的性质,称之为的性质,称之为因变量因变量。第七章回归分析法第七章回归分析法7.1 7.1 概述概述2.2.回归分析与相关分析的区别回归分析与相关分析的区别 回归(Regression,或Linear Regression)和相关都用来分析两个定距变量间的关系,但回归有明确的因果关系假设。即要假设一个变量为自变量,一个为因变量,自变量对因变量的影响就用回归表示。如年龄对收入的影响。由于回归构建了变量间因果关系的数学表达,它具有统计预测功能。第七章回归分析法第七章回归分析法3.3.回归回归分析法主要解决以下两个问题分析法主要解决以下两个问题p一是确定几个变量一是确定几个变量(X(X与与Y)Y)之间是否存在因果关系、相关之间是否存在因果关系、相关 关系(关系(X1X1与与X2X2等)等),如果存在,找出他们之间适当的如果存在,找出他们之间适当的 数学表达式数学表达式;p二是根据一个或几个变量的值,预测或控制另一个或几二是根据一个或几个变量的值,预测或控制另一个或几 个变量的值,且要估计这种控制或预测可以达到何种精个变量的值,且要估计这种控制或预测可以达到何种精 确度。确度。7.1 7.1 概述概述第七章回归分析法第七章回归分析法7.1 7.1 概述概述7.1.27.1.2 类型类型回归方程为线性的称为线性回归,否则称为回归方程为线性的称为线性回归,否则称为 非线性回归。非线性回归。线性回归是回归分析的基本模型,很多复杂线性回归是回归分析的基本模型,很多复杂 的情况都是转化为线性回归进行处理的。的情况都是转化为线性回归进行处理的。回归方程的自变量只有一个的称为回归方程的自变量只有一个的称为一一元回归,元回归,多于一个的称为多元回归。多于一个的称为多元回归。第七章回归分析法第七章回归分析法7.1.2 7.1.2 类型类型一元线性回归,即只有一个自变量的线性回归一元线性回归,即只有一个自变量的线性回归,用于两用于两 个变量接近线性关系的场合个变量接近线性关系的场合,如如y=y=a+bxa+bx。多元线性回归,用于一个因变量多元线性回归,用于一个因变量Y Y同多个自变量同多个自变量X X1 1,X,X2 2 ,XmXm线性相关的问题线性相关的问题,如如y=a+by=a+b1 1x x1 1+b2 2x2 2+bn nxn n 非线性回归非线性回归,又可分为两类:一类可通过数学变换变成又可分为两类:一类可通过数学变换变成 线性回归,如取对数可使乘法变成加法等;另一类可线性回归,如取对数可使乘法变成加法等;另一类可 直接进行非线性回归,如多项式回归。直接进行非线性回归,如多项式回归。第七章回归分析法第七章回归分析法7.1.3 7.1.3 步骤步骤根据自变量与因变量的现有数据以及关系根据自变量与因变量的现有数据以及关系,绘制散点图绘制散点图,并观察散点图是否近于呈直线趋势,若是并观察散点图是否近于呈直线趋势,若是,则设定回归则设定回归 方程方程y=y=a+bxa+bx;求出合理的回归系数(对于一元线性回归而言,即用最求出合理的回归系数(对于一元线性回归而言,即用最 小二乘法求出小二乘法求出a a、b b),并确定回归方程并确定回归方程;进行相关性检验,确定相关系数;进行相关性检验,确定相关系数;在符合相关性要求后,即可根据已得的回归方程与具体在符合相关性要求后,即可根据已得的回归方程与具体 条件相结合,来确定事物的未来状况;并计算预测值的条件相结合,来确定事物的未来状况;并计算预测值的 置信区间置信区间.第七章第七章 回归分析法回归分析法p 7.1 7.1 概述概述p 7.2 7.2 一元线性回归分析法一元线性回归分析法p 7.3 7.3 多元线性回归分析法多元线性回归分析法p 7.4 7.4 非线性回归分析法非线性回归分析法第七章回归分析法第七章回归分析法7.2.1 7.2.1 设定回归方程设定回归方程两个定距变量的回归是用函数两个定距变量的回归是用函数y=fy=f(x x)来分析的。)来分析的。我们最常用的是一元回归方程我们最常用的是一元回归方程其中其中x x为自变量;为自变量;y y为因变量;为因变量;a a为截距,即常量;为截距,即常量;b b为回归系数,表明自变量对因变量的影响程度。为回归系数,表明自变量对因变量的影响程度。第七章回归分析法第七章回归分析法7.2.1 7.2.1 设定回归方程设定回归方程例题:例题:现在我们来研究全国技术贸易额的变化规律并进行现在我们来研究全国技术贸易额的变化规律并进行预测。全国每年的技术贸易额与很多因素有关,但经过分预测。全国每年的技术贸易额与很多因素有关,但经过分析,它主要受全国析,它主要受全国GDPGDP这一因素的影响和制约,于是,我们这一因素的影响和制约,于是,我们来寻求二者之间的统计规律,并进行预测。来寻求二者之间的统计规律,并进行预测。p以以x x表示自变量表示自变量全国全国GDPGDP数量,数量,p以以y y表示因变量表示因变量全国技术贸易额。全国技术贸易额。谁是自变量?谁是因变量?谁是自变量?谁是因变量?第七章回归分析法第七章回归分析法7.2.1 7.2.1 设定回归方程设定回归方程表7-1 全国GDP及技术贸易额统计数据第七章回归分析法第七章回归分析法7.2.1 7.2.1 设定回归方程设定回归方程根据表列数据,我们可以在直角坐标系中绘出散点图 从散点图中,我们假定y与x之间大致呈线性关系,可用直线方程:y=y=a+bxa+bx (7-1)(7-1)这条直线称为y对x的回归直线回归直线其表达式(7-1)称为回归方程,a、b称为回归系数回归系数 第七章回归分析法第七章回归分析法7.2.2 7.2.2 确定回归系数确定回归系数例题:例题:现在我们来研究全国技术贸易额的变化规律并进行现在我们来研究全国技术贸易额的变化规律并进行预测。全国每年的技术贸易额与很多因素有关,但经过分预测。全国每年的技术贸易额与很多因素有关,但经过分析,它主要受全国析,它主要受全国GDPGDP这一因素的影响和制约,于是,我们这一因素的影响和制约,于是,我们来寻求二者之间的统计规律,并进行预测。来寻求二者之间的统计规律,并进行预测。根据最小二乘法原理,求得根据最小二乘法原理,求得a=-69.8587a=-69.8587b=b=0.0073 0.0073Y=Y=-69.8587+0.0073X-69.8587+0.0073Xr=0.9471r=0.9471第七章回归分析法第七章回归分析法7.2.2 7.2.2 设定回归方程设定回归方程p 用用SPSSSPSS软件实现演示软件实现演示(在变量窗口中建立变量在变量窗口中建立变量)第七章回归分析法第七章回归分析法7.2.2 7.2.2 设定回归方程设定回归方程p 用用SPSSSPSS软件实现演示软件实现演示(在数据窗口中输入数据在数据窗口中输入数据)第七章回归分析法第七章回归分析法7.2.2 7.2.2 设定回归方程设定回归方程p 用用SPSSSPSS软件实现演示软件实现演示(分析分析-回归分析回归分析-线性线性)第七章回归分析法第七章回归分析法7.2.2 7.2.2 设定回归方程设定回归方程p 用用SPSSSPSS软件实现演示软件实现演示(分析分析-回归分析回归分析-线性线性)第七章回归分析法第七章回归分析法7.2.2 7.2.2 设定回归方程设定回归方程回归系数回归系数相关系数相关系数p 用用SPSSSPSS软件实现演示软件实现演示(得到相关输出结果得到相关输出结果)第七章回归分析法第七章回归分析法7.2.2 7.2.2 设定回归方程设定回归方程p 用用SPSSSPSS软件实现演示软件实现演示(绘制散点图绘制散点图)第七章回归分析法第七章回归分析法7.2.2 7.2.2 设定回归方程设定回归方程第七章回归分析法第七章回归分析法7.2.3 7.2.3 相关性检验相关性检验1.1.相关性检验的含义相关性检验的含义 对回归模型描述实际数据的近似程度,也即对所得对回归模型描述实际数据的近似程度,也即对所得的的回归模型的可信程度回归模型的可信程度进行检验,称为相关性检验。进行检验,称为相关性检验。2.2.相关性检验的规则相关性检验的规则p 0|r|1,0|r|1,当当|r|r|越接近越接近1 1时,剩余平方和的值越接时,剩余平方和的值越接 近于近于0 0,则回归模型描述,则回归模型描述y y与与x x的关系的近似程度越好的关系的近似程度越好,y y与与x x的关系越接近于线性的关系越接近于线性.p 当当|r|=1|r|=1时时,为完全线性相关为完全线性相关;p 当当|r|=0|r|=0时时,称无线性相关称无线性相关.第七章回归分析法第七章回归分析法3.r3.r的取值情况的取值情况 情况一情况一图图7-27-2第七章回归分析法第七章回归分析法情况二情况二图图7-27-23.r3.r的取值情况的取值情况 第七章回归分析法第七章回归分析法情况三情况三图图7-27-23.r3.r的取值情况的取值情况 第七章回归分析法第七章回归分析法情况四情况四图图7-27-23.r3.r的取值情况的取值情况 第七章回归分析法第七章回归分析法4.4.相关系数临界值相关系数临界值 上面的讨论中上面的讨论中,知道只有当知道只有当r r比较大时比较大时,才可以才可以用回归直线来近似地描述用回归直线来近似地描述y y与与x x的关系的关系.那么那么r r应该应该至少大到什么程度至少大到什么程度,才可以使得用回归直线来描述才可以使得用回归直线来描述y y与与x x的关系达到足够好的近似程度的关系达到足够好的近似程度?相关系数的最相关系数的最低值称为低值称为相关系数临界值相关系数临界值,记为记为rara,它是相关性检它是相关性检验的标准。验的标准。第七章第七章 回归分析法回归分析法p 7.1 7.1 概述概述p 7.2 7.2 一元线性回归分析法一元线性回归分析法p 7.3 7.3 多元线性回归分析法多元线性回归分析法p 7.4 7.4 非线性回归分析法非线性回归分析法第七章回归分析法第七章回归分析法n 多元线性回归的提出背景多元线性回归的提出背景 在信息分析研究中,研究对象的变化往往和多个因素有在信息分析研究中,研究对象的变化往往和多个因素有关,是多个因素的同时作用导致研究对象的变化,而不是只关,是多个因素的同时作用导致研究对象的变化,而不是只受一个因素的影响。在某些情况下,这多个因素的作用能够受一个因素的影响。在某些情况下,这多个因素的作用能够分出明显的主次,这样我们就可以找出一个主要因素,而忽分出明显的主次,这样我们就可以找出一个主要因素,而忽略其他次要因素,进而研究该对象和该主要因素之间的定量略其他次要因素,进而研究该对象和该主要因素之间的定量关系并预测对象的发展。但在许多实际问题中,一元线性回关系并预测对象的发展。但在许多实际问题中,一元线性回归分析只不过是回归分析中的一种特例,它通常是我们对影归分析只不过是回归分析中的一种特例,它通常是我们对影响某种现象的许多因素进行了简化考虑的结果。在实践活动响某种现象的许多因素进行了简化考虑的结果。在实践活动过程中,我们更多遇到的是,一个因变量往往与多个自变量过程中,我们更多遇到的是,一个因变量往往与多个自变量有关。有关。第七章回归分析法第七章回归分析法n 案例引入案例引入 某公司管理人员要预测来年该公司的销售额某公司管理人员要预测来年该公司的销售额y y时,研究时,研究认为影响销售额的因素不只是广告宣传费认为影响销售额的因素不只是广告宣传费x1x1,还有个人可支,还有个人可支配收入配收入x2x2、价格、价格x3x3、研究与开发费用、研究与开发费用x4x4、各种投资、各种投资x5x5、销售、销售费用费用x6x6等。这样因变量等。这样因变量y y就与多个自变量就与多个自变量x1 x1,x2 x2,x3 x3,x4 x4,x5 x5,x6x6有关。有关。因此,我们就需要进一步讨论因此,我们就需要进一步讨论多元线性回归问题。多元线性回归问题。第七章回归分析法第七章回归分析法n 多元线性回归例题多元线性回归例题1 1 土地问题是当今世界令人瞩目的重大经济问题,人口和土地问题是当今世界令人瞩目的重大经济问题,人口和经济发展都和土地之间存在着密不可分的联系。人口数经济发展都和土地之间存在着密不可分的联系。人口数(X1X1)、粮食总产量()、粮食总产量(X2X2)和粮食作物面积()和粮食作物面积(X3X3)是影响土)是影响土地面积(地面积(Y Y)的重要因素。因变量土地面积与三个自变量之)的重要因素。因变量土地面积与三个自变量之间呈线形相关,因此用三元线形回归方程来分析。某地区的间呈线形相关,因此用三元线形回归方程来分析。某地区的基本数据见基本数据见 第七章回归分析法第七章回归分析法n 用用SPSSSPSS进行求解进行求解(在变量窗口中建立变量在变量窗口中建立变量)第七章回归分析法第七章回归分析法n 用用SPSSSPSS进行求解进行求解(在数据窗口中输入数据在数据窗口中输入数据)第七章回归分析法第七章回归分析法n 用用SPSSSPSS进行求解进行求解(分析分析-回归分析回归分析-线性线性)第七章回归分析法第七章回归分析法n 用用SPSSSPSS进行求解进行求解(选择变量选择变量)第七章回归分析法第七章回归分析法n 用用SPSSSPSS进行求解进行求解回归系数回归系数相关系数相关系数第七章回归分析法第七章回归分析法n 多元线性回归例题多元线性回归例题2 2 某地区某地区19731973年到年到19901990年水稻产量和水稻播种面积、化肥年水稻产量和水稻播种面积、化肥使用量、生猪存栏数以及水稻扬花期降水量的数据资料,数使用量、生猪存栏数以及水稻扬花期降水量的数据资料,数据中有据中有1818个观测样本,代表了个观测样本,代表了19731973到到19901990共共1818个年份,有个年份,有7 7个属性变量:个属性变量:idid(序号)、(序号)、x1x1(水稻播种面积)、(水稻播种面积)、x2x2(化肥(化肥使用量)、使用量)、x3x3(生猪存栏数)、(生猪存栏数)、x4x4(水稻扬花期降水量)、(水稻扬花期降水量)、y y水稻产量、水稻产量、yearyear(年份)。(年份)。问题:用线性回归分析为该地区水稻产量寻求一个恰当的回问题:用线性回归分析为该地区水稻产量寻求一个恰当的回问题:用线性回归分析为该地区水稻产量寻求一个恰当的回问题:用线性回归分析为该地区水稻产量寻求一个恰当的回归模型,分析产量对它具有显著影响因素之间的关系。归模型,分析产量对它具有显著影响因素之间的关系。归模型,分析产量对它具有显著影响因素之间的关系。归模型,分析产量对它具有显著影响因素之间的关系。第七章回归分析法第七章回归分析法第七章回归分析法第七章回归分析法均值均值标准差标准差观测量总数观测量总数n 描述性统计量解读:描述性统计量解读:第七章回归分析法第七章回归分析法从表中看到从表中看到Y Y(水稻总产量)与自变量(水稻总产量)与自变量X1X1,X2X2,X3X3之间相关系数一次为之间相关系数一次为0.7980.798,0.9130.913,0.8870.887,反映水稻总产量与,反映水稻总产量与播种面积播种面积、化肥施用量化肥施用量、生猪生猪存栏数存栏数之间之间存在显著的相关关系存在显著的相关关系。化肥使用量(。化肥使用量(X2X2)对粮食作物产量的)对粮食作物产量的增长有显著的作用;自变量增长有显著的作用;自变量X4X4与因变量与因变量Y Y之间的相关系数为之间的相关系数为0.2930.293,它与,它与其他几个自变量之间的相关系数也很小,说明他们之间的其他几个自变量之间的相关系数也很小,说明他们之间的线性相关不显著线性相关不显著。这反映降水过程作为完全随机自然现象,与生产活动中人为控制的自变量这反映降水过程作为完全随机自然现象,与生产活动中人为控制的自变量之间的关系本来就应该是相互独立的。之间的关系本来就应该是相互独立的。n 相关系数矩阵解读:相关系数矩阵解读:第七章回归分析法第七章回归分析法此外,此外,播种面积播种面积X1X1与与化肥施用量化肥施用量X2X2、生猪存栏数生猪存栏数X3X3之间的相关系数分别为之间的相关系数分别为0.7740.774和和0.7820.782,说明它们之间存在较为显著的相关关系,这也符合常识。,说明它们之间存在较为显著的相关关系,这也符合常识。化肥施用量化肥施用量X2X2与与生猪存栏数生猪存栏数X3X3之间的相关系数为之间的相关系数为0.8260.826,说明两者关系也,说明两者关系也是显著的。是显著的。第七章回归分析法第七章回归分析法该表说明模型整体拟合效果,模型的拟合优度系数为该表说明模型整体拟合效果,模型的拟合优度系数为0.9560.956,反映了因变量与自变量之间具有高度显著的线反映了因变量与自变量之间具有高度显著的线性关系。性关系。n 模型表解读:模型表解读:调整后的调整后的R R2 2调整后调整后R R值估计值估计标准误差标准误差第七章回归分析法第七章回归分析法n 本章重点本章重点1.1.什么是回归分析法?它与相关分析有何联系和什么是回归分析法?它与相关分析有何联系和区别区别2.2.回归分析法主要解决哪两个问题?回归分析法主要解决哪两个问题?3.3.简述回归分析法的工作步骤。简述回归分析法的工作步骤。4.4.以一元线性回归分析为例,说明为何及如何进以一元线性回归分析为例,说明为何及如何进行相关性检验。行相关性检验。第七章回归分析法第七章回归分析法n 实践问题讨论实践问题讨论请同学结合自己的课题请同学结合自己的课题,分析是否可以采用分析是否可以采用回归分析的方法回归分析的方法?自变量和因变量分别是什自变量和因变量分别是什么么?