第十二章相关和回归分析课件.ppt
第十二章相关和回归分析第十二章相关和回归分析第十二章相关和回归分析第一节相关分析概述第一节相关分析概述一、一、 相关分析的概念相关分析的概念 客观世界中的许多现象都存在着一定的联系客观世界中的许多现象都存在着一定的联系,它它们互相依赖、互相制约、互相作用。们互相依赖、互相制约、互相作用。 离开周围的现象而孤立存在的现象几乎是没有离开周围的现象而孤立存在的现象几乎是没有的。的。 现象之间的这种数量联系现象之间的这种数量联系,归纳起来归纳起来,可以分为两可以分为两种类型种类型:一种是确定性关系一种是确定性关系,也称函数关系也称函数关系,另一种另一种是非确定性关系是非确定性关系,则称为相关关系则称为相关关系。 函数关系是现象间存在的确定的依存关系函数关系是现象间存在的确定的依存关系,即对自变量的即对自变量的任何一个值任何一个值,因变量都有唯一确定的值与之相对应。函数因变量都有唯一确定的值与之相对应。函数关系通常可以用数学公式确切地表示出来。如圆的面积:关系通常可以用数学公式确切地表示出来。如圆的面积: S=R2, 相关关系一般是不确定的相关关系一般是不确定的,当一个现象发生变化时当一个现象发生变化时,另另一个现象也相应地发生变化一个现象也相应地发生变化,但其变化的数值是不固定的但其变化的数值是不固定的,往往会出现几个不同的数值与其对应往往会出现几个不同的数值与其对应,这些数值分布在它这些数值分布在它们的平均数周围。例如们的平均数周围。例如,当取身高为当取身高为1.70米进行调查时米进行调查时,凡凡是身高为是身高为1.70米的人的体重却不完全相等。米的人的体重却不完全相等。 在统计上在统计上,把现象之间存在的这种不确定的关系称为相把现象之间存在的这种不确定的关系称为相关关系关关系,从数量上研究现象之间相关关系的理论和方法称从数量上研究现象之间相关关系的理论和方法称为相关分析。为相关分析。 二、相关关系的种类二、相关关系的种类相关关系按分类依据不同相关关系按分类依据不同,可作不同的分类。可作不同的分类。(一一)按相关的程度不同可分为:按相关的程度不同可分为: 不相关不相关 不完全相关不完全相关 完全相关完全相关 如果如果两个现象互不影响两个现象互不影响,彼此的数量变化互相独立彼此的数量变化互相独立,这种这种关系称为不相关。关系称为不相关。 如果如果一个现象的数量变化由另一个现象的数量变化所唯一个现象的数量变化由另一个现象的数量变化所唯一确定一确定,这时两个现象间的关系称为完全相关。这种情况这时两个现象间的关系称为完全相关。这种情况下下,相关关系实际是函数关系相关关系实际是函数关系.所以所以,函数关系是相关关系的函数关系是相关关系的一种特殊情况。一种特殊情况。 如果如果两个现象之间的关系介于不相关和完全相关之间两个现象之间的关系介于不相关和完全相关之间,就称为不完全相关。大多数相关现象都是不完全相关现象。就称为不完全相关。大多数相关现象都是不完全相关现象。(二二)按相关的方向不同可分为:按相关的方向不同可分为: 正相关正相关 负相关负相关 两个相关现象之间两个相关现象之间,呈现出同方向变化趋势时呈现出同方向变化趋势时,这种相关关系称为正相关。如这种相关关系称为正相关。如消费支出与工资收入之间就是正相关消费支出与工资收入之间就是正相关; 两个现象之间呈现出反方向变化趋势时两个现象之间呈现出反方向变化趋势时,这种相关关系称为负相关。如劳动这种相关关系称为负相关。如劳动生产率与单位产品成本之间的关系生产率与单位产品成本之间的关系,就是负相关。就是负相关。(三三)按相关的形式不同可分为:按相关的形式不同可分为: 直线相关直线相关 曲线相关曲线相关 当相关的一个变量的数值增加时当相关的一个变量的数值增加时,另一个变量的数值相应地发生大致均等的另一个变量的数值相应地发生大致均等的增加增加,如果将各对观测值画成散点图如果将各对观测值画成散点图,则各个观测点的分布近似地表现为直线则各个观测点的分布近似地表现为直线形式形式.这种相关关系称为直线相关这种相关关系称为直线相关; 当相关的一个变量变动时当相关的一个变量变动时,另一个变量也相应的发生变动另一个变量也相应的发生变动,但这种变动是不均但这种变动是不均等的等的,从散点图上看从散点图上看,各个观测点的分布近似地表现为各种不同的曲线各个观测点的分布近似地表现为各种不同的曲线,这种相这种相关关系就称为曲线相关。关关系就称为曲线相关。 (四四)按相关因素的多少不同可分为:按相关因素的多少不同可分为: 单相关单相关 复相关复相关 单相关是指两个变量之间的相关关系。单相关是指两个变量之间的相关关系。 一个变量和两个或两个以上变量之间的相一个变量和两个或两个以上变量之间的相关关系关关系,称为复相关。称为复相关。 三、相关分析的步骤三、相关分析的步骤(一一)根据对客观现象的根据对客观现象的定性认识定性认识来进行判断现来进行判断现象之间的相关性象之间的相关性(二二)绘制相关图绘制相关图(三三)计算相关系数计算相关系数(四四)进行回归分析进行回归分析确定回归直线确定回归直线(五五)计算估计标准误差计算估计标准误差(六六)进行回归估计或回归预测进行回归估计或回归预测第二节相关图和相关系数第二节相关图和相关系数一、一、 相关图相关图 相关图又叫散点图、散布图。它是利用直角坐相关图又叫散点图、散布图。它是利用直角坐标系标系,将其中一个变量的值放在横轴上将其中一个变量的值放在横轴上,另一变量另一变量的值放在纵轴上的值放在纵轴上,将两变量的对应值用坐标点画出将两变量的对应值用坐标点画出来来,通过观察相关点的分布情况通过观察相关点的分布情况,大致可以看出两大致可以看出两个变量之间有无相关关系及相关的类型和密切程个变量之间有无相关关系及相关的类型和密切程度。度。 两个变量之间相关关系的各种类型两个变量之间相关关系的各种类型,都可以用相都可以用相关图表示出来关图表示出来,如图如图12-1、图、图12-2、图、图12-3所示。所示。 图图12-1相关图相关图图图12-2正、负相关图正、负相关图图图123直线、非直线直线、非直线相关图相关图二、相关系数二、相关系数(一一)相关系数的概念相关系数的概念 从相关图可以判断两个现象之间是否相从相关图可以判断两个现象之间是否相关以及相关的类型关以及相关的类型,但但不能准确不能准确判断相关的判断相关的密切程度。要判断现象之间相关关系的密密切程度。要判断现象之间相关关系的密切程度切程度,需要计算相关系数。需要计算相关系数。 相关系数是在直线相关条件下说明两个相关系数是在直线相关条件下说明两个变量之间相关关系密切程度的统计指标。变量之间相关关系密切程度的统计指标。严格地讲严格地讲,应称为应称为直线直线相关系数相关系数,一般简称相一般简称相关系数。关系数。 (二二)相关系数的计算相关系数的计算 积差式积差式 简捷式简捷式22)()()(yyxxyyxxr2222)()()(yynxxnyxxynr(三三)相关系数密切程度的判断相关系数密切程度的判断 一般情况下一般情况下,通过相关系数判断相关关系密切程度的通过相关系数判断相关关系密切程度的标准如下标准如下:当当r=0时时,X和和Y不相关。或者不存在直线相关不相关。或者不存在直线相关,但可能存但可能存在其他类型的关系。在其他类型的关系。当当 0 r 0.3时时,X和和Y为微弱相关。为微弱相关。当当0.3 r 0.5时时,X和和Y为低度相关。为低度相关。当当0.5 r 0.8时时,X和和Y为中度相关。为中度相关。当当0.8 r 0.765,故认为故认为X和和Y之间的直线相关系数在之间的直线相关系数在=0.01水平上是显著的。水平上是显著的。这个结果与一般教材上采用这个结果与一般教材上采用t检验法是相一致的。检验法是相一致的。 四、等级相关系数及其检验四、等级相关系数及其检验 (一一)等级相关系数等级相关系数 前述采用前述采用积差法积差法计算的相关系数计算的相关系数r,它只适用于变量它只适用于变量X、Y的观测值的观测值(即即数量标志值数量标志值)都是基数的情况下都是基数的情况下,而且是属于而且是属于线性关系。如果两个变量线性关系。如果两个变量X和和Y是以是以品质标志品质标志出现的出现的,要研要研究它们之间是否具有相关关系究它们之间是否具有相关关系,则要用则要用等级等级相关系数进行相关系数进行计算。计算。 等级相关系数侧重于观测的现象的等级等级相关系数侧重于观测的现象的等级,就是把有关联就是把有关联的品质标志按其表现排列成等级次序的品质标志按其表现排列成等级次序(当然数量标志值更当然数量标志值更容易排成等级次序容易排成等级次序),形成形成X、Y的两个序数数列的两个序数数列,再测定这再测定这两个序数数列之间的相关程度两个序数数列之间的相关程度,用这种方法计算的相关指用这种方法计算的相关指标标,就叫等级相关系数。这里主要介绍统计学家斯皮尔曼就叫等级相关系数。这里主要介绍统计学家斯皮尔曼相关系数,用相关系数,用rs表示。表示。 斯皮尔曼相关系数公式:斯皮尔曼相关系数公式: 式中式中:n为样本容量为样本容量;D为序列等级之差。利用为序列等级之差。利用斯皮尔曼等级相关系数还可以判断多元线性斯皮尔曼等级相关系数还可以判断多元线性回归模型中是否存在异方差性回归模型中是否存在异方差性,) 1(6122nnDrs(二二)等级相关系数的显著性检验等级相关系数的显著性检验 等级相关系数的显著性检验在样本容等级相关系数的显著性检验在样本容量不大时量不大时,同样可以查询斯皮尔曼等级相关同样可以查询斯皮尔曼等级相关系数临界值表系数临界值表(见附表见附表5),若若|rs|的值超过了表的值超过了表中的监界值中的监界值,则认为总体等级相关系数不等则认为总体等级相关系数不等于零于零,变量变量X和和Y的等级之间具有一定的相关的等级之间具有一定的相关关系。关系。 五、计算相关系数应注意的问题五、计算相关系数应注意的问题(1) 变量变量Y与变量与变量X的相关系数的相关系数等于等于变量变量X与变量与变量Y的的相关系数。相关系数。(2) 简单相关系数只适用于两个变量之间的相关关系。简单相关系数只适用于两个变量之间的相关关系。若变量为三个或三个以上时若变量为三个或三个以上时,就要用复相关系数就要用复相关系数(或偏相关系系数或偏相关系系数)计算。计算。(3) 相关系数相关系数r只适用于简单直线相关只适用于简单直线相关,如果是非直线如果是非直线相关相关,就要用相关就要用相关指数指数。(4) 相关分析要以定性分析为前提相关分析要以定性分析为前提,不然就会出现不然就会出现“虚拟相关虚拟相关”。因为相关系数仅从统计上表明现。因为相关系数仅从统计上表明现象之间的数量关系象之间的数量关系,即使相关系数接近即使相关系数接近1也并不意也并不意味着数据之间存在着因果关系。味着数据之间存在着因果关系。 第三节回归分析第三节回归分析一、一、 回归分析的概念回归分析的概念 研究现象之间的一般关系求出关系方程式研究现象之间的一般关系求出关系方程式,由此对某变由此对某变量的一个值推断出另一变量的可能值量的一个值推断出另一变量的可能值,就称为就称为回归分析回归分析。 它实际上是将相关现象间不确定、不规则的数量关系它实际上是将相关现象间不确定、不规则的数量关系一般化、规则化。一般化、规则化。 采用的方法是配合直线或曲线,用这条直线或曲线来代采用的方法是配合直线或曲线,用这条直线或曲线来代表现象之间的一般数量关系。这条直线或曲线叫表现象之间的一般数量关系。这条直线或曲线叫回归直线回归直线或回归曲线或回归曲线,它们的方程式叫它们的方程式叫直线回归方程直线回归方程或曲线回归方或曲线回归方程。程。 二、回归分析与相关分析的联系与区别二、回归分析与相关分析的联系与区别 回归分析与相关分析有着密切的联系。回归分析与相关分析有着密切的联系。 一方面相关分析是回归分析的基础和前提一方面相关分析是回归分析的基础和前提,如果缺少相关如果缺少相关分析分析,没有从定性上说明现象间是否具有相关关系没有从定性上说明现象间是否具有相关关系,没有对没有对相关关系的密切程度作出判断相关关系的密切程度作出判断,就不能进行回归分析就不能进行回归分析,即使即使勉强进行了回归分析勉强进行了回归分析,也是没有意义的也是没有意义的; 另一方面另一方面,回归分析是相关分析的深入和继续回归分析是相关分析的深入和继续,仅仅说明仅仅说明现象间具有密切的相关关系是不够的现象间具有密切的相关关系是不够的,只有进行了回归分只有进行了回归分析析,拟合了回归方程拟合了回归方程,才可能进行有关的分析和预测才可能进行有关的分析和预测,相关分相关分析才有实际的意义。析才有实际的意义。 因此因此,如果仅有回归分析而缺少相关分析如果仅有回归分析而缺少相关分析,将会因为缺将会因为缺乏必要的基础和前提而影响回归分析的可靠性乏必要的基础和前提而影响回归分析的可靠性,如果仅有如果仅有相关分析而缺少回归分析相关分析而缺少回归分析,就犹如有头无尾就犹如有头无尾,没有实际结果没有实际结果而降低相关分析的意义。只有把两者结合起来而降低相关分析的意义。只有把两者结合起来,才能达到才能达到统计分析的目的。统计分析的目的。 回归分析与相关分析有如下区别回归分析与相关分析有如下区别:(1) 相关分析所研究的两个变量是对等关系相关分析所研究的两个变量是对等关系,不反映不反映任何自变量和因变量的关系任何自变量和因变量的关系;回归分析所研究的两回归分析所研究的两个变量不是对等关系个变量不是对等关系,必须根据研究目的必须根据研究目的,先确定先确定一个为自变量一个为自变量,另一个为因变量。另一个为因变量。(2) 对两个变量对两个变量X和和Y来说来说,相关分析只能计算出一个相关分析只能计算出一个反映两变量间相关密切程度的相关系数反映两变量间相关密切程度的相关系数;回归分析回归分析可分别建立两个不同的回归方程。以可分别建立两个不同的回归方程。以X为自变为自变量量,Y为因变量为因变量,可以得出可以得出Y关于关于X的回归方程。以的回归方程。以Y为自变量为自变量,以以X为因变量为因变量,可得出可得出X关于关于Y的回归方程。的回归方程。(3) 相关分析对资料的要求是相关分析对资料的要求是,两个变量都必须是随两个变量都必须是随机的机的;而回归分析对资料的要求是而回归分析对资料的要求是,自变量是给定自变量是给定的的,因变量是随机的。因变量是随机的。三、简单回归直线的确定三、简单回归直线的确定 (一一)简单直线回归的概念简单直线回归的概念 通过计算相关系数通过计算相关系数,可以判断两个变量之间直线相关的密切程度可以判断两个变量之间直线相关的密切程度,但但不能说明它们之间因果关系的数量表现。简单直线回归就是对具有不能说明它们之间因果关系的数量表现。简单直线回归就是对具有显著直线相关的两个变量间数量变化的一般关系进行测定显著直线相关的两个变量间数量变化的一般关系进行测定,配合一个配合一个直线回归方程直线回归方程,以便于估计或预测的统计方法。以便于估计或预测的统计方法。 进行简单直线回归之前进行简单直线回归之前,需根据研究目的需根据研究目的确定哪个变量是自变量确定哪个变量是自变量, ,哪哪个是因变量个是因变量。根据因果关系不同。根据因果关系不同,可以求得两个回归方程可以求得两个回归方程,它们的一般它们的一般形式如下形式如下: Y关于关于X的回归方程的回归方程: =a+bX X关于关于Y的回归方程的回归方程: =c+dY 式中式中:a、b、c、d都是待定系数都是待定系数;a和和c是两条直线的截距是两条直线的截距;b和和d是直是直线的斜率线的斜率,称为回归系数。称为回归系数。 必须注意的是必须注意的是,配合回归直线的前提条件是配合回归直线的前提条件是,两个变量之间确实存两个变量之间确实存在高度的直线相关关系。否则在高度的直线相关关系。否则,配合回归直线毫无意义。因此配合回归直线毫无意义。因此,在进行在进行回归分析之前回归分析之前,应先计算相关系数应先计算相关系数,在相关程度较高的条件下在相关程度较高的条件下,再配合再配合回归直线。回归直线。y Xy (二二)回归直线的配合方法回归直线的配合方法 对回归直线的要求:它能最好地代表已知散点的平均轨迹。对回归直线的要求:它能最好地代表已知散点的平均轨迹。 借助数学上的最小平方法借助数学上的最小平方法,将能得出一条最优的、唯一的回归直线。将能得出一条最优的、唯一的回归直线。设所求的回归直线方程为设所求的回归直线方程为: = a + bx 最小平方法要求各散点到该直线的垂直距离的平方和最小最小平方法要求各散点到该直线的垂直距离的平方和最小,即即 通过数学推导可得到两个方程式组成的标准方程组通过数学推导可得到两个方程式组成的标准方程组解这个方程组解这个方程组,得得将将a,b的值代入回归方程式的值代入回归方程式,即得所求回归方程。即得所求回归方程。 y 最小值2) (yyxbnay2xbxaxy22)(xxnyxxynbxbya(三三)回归系数回归系数b和弹性系数和弹性系数的关系的关系 回归系数回归系数b在宏观经济中称之为边际效用系数在宏观经济中称之为边际效用系数,它与弹性它与弹性系数有直接的关系。回归系数表明自变量每增加一个单位系数有直接的关系。回归系数表明自变量每增加一个单位时时,因变量平均增加多少个单位。弹性系数是因变量增长速因变量平均增加多少个单位。弹性系数是因变量增长速度与自变量增长速度的比率度与自变量增长速度的比率,表明自变量每增长表明自变量每增长1%时时,因变因变量平均来说增长的百分数。量平均来说增长的百分数。 在直线回归方程中在直线回归方程中,Y/X就是斜率就是斜率, 即即b=Y/XYXXYXXYY图图12-6回归直线图回归直线图四、估计标准误差四、估计标准误差 所谓估计值的代表性所谓估计值的代表性,就是回归直线的代表性。就是回归直线的代表性。 一般常用估计标准误差来说明回归直线代表性的大小。估计一般常用估计标准误差来说明回归直线代表性的大小。估计标准误差就是实际值和估计值的平均离差。标准误差就是实际值和估计值的平均离差。 若估计标准误差愈大若估计标准误差愈大,则回归直线的代表性愈小则回归直线的代表性愈小;若估计标准误若估计标准误差愈小差愈小,则回归直线的代表性愈大。因此则回归直线的代表性愈大。因此,只有估计标准误差小的只有估计标准误差小的情况下情况下,用回归方程作估计或预测才有实用价值。估计标准误差的用回归方程作估计或预测才有实用价值。估计标准误差的计算公式为计算公式为: 其中其中:SYX代表估计标准误差代表估计标准误差;Y是因变量实际值是因变量实际值; n-2称为自由度。称为自由度。 但当实际观测值甚多且数值较大时但当实际观测值甚多且数值较大时,根据上述公式计算估计标准根据上述公式计算估计标准误差十分麻烦误差十分麻烦,一般运用下述公式计算一般运用下述公式计算2) (2nyySyx22nXYbYaySyx 五、回归估计的置信区间五、回归估计的置信区间 根据回归方程和估计标准误差根据回归方程和估计标准误差,可以进一步对因变量可以进一步对因变量Y进进行估计或预测行估计或预测,其中应用最广泛的就是建立回归估计的置其中应用最广泛的就是建立回归估计的置信区间信区间,借以确定回归方程预测的范围。借以确定回归方程预测的范围。 由于由于Y和和X之间是一种相关关系之间是一种相关关系,当样本容量较大且当样本容量较大且X取取值在附近时值在附近时,我们可以认为我们可以认为,对于每一个给定的对于每一个给定的X=X0对应的对应的Y值有好多个值有好多个,从理论上讲从理论上讲,这些这些Y以以Y0为中心形成一个正态为中心形成一个正态分布分布,而对应每一个给定的而对应每一个给定的X的的Y值的形成的正态分布可假值的形成的正态分布可假定它们是同方差的。这样定它们是同方差的。这样,由样本数据求出估计值的标准由样本数据求出估计值的标准误差以后误差以后,就可以利用标准化正态分布曲线下的面积查对就可以利用标准化正态分布曲线下的面积查对表表,以一定的概率和精确度对总体回归值作出区间估计。以一定的概率和精确度对总体回归值作出区间估计。图图12-7回归直线的置信区间回归直线的置信区间 第四节样本的拟合优度第四节样本的拟合优度 前面我们虽然计算了样本相关系数前面我们虽然计算了样本相关系数,但由于因但由于因变量变量Y的观测值是随机变动的的观测值是随机变动的,它和回归直线之间它和回归直线之间总是存在一定的离差总是存在一定的离差,而相关系数并不能解释存在而相关系数并不能解释存在这种变差的原因这种变差的原因;另外另外,我们虽然估计了回归直线我们虽然估计了回归直线,但并没有说明这条回归直线与样本观测值拟合得但并没有说明这条回归直线与样本观测值拟合得怎么样怎么样,也就是说需要测量观测值与该回归直线的也就是说需要测量观测值与该回归直线的离差。离差。 如果观测值离直线越近如果观测值离直线越近,拟合的程度就越好。拟合的程度就越好。否则否则,拟合的程度就越差。拟合的程度就越差。图图12-8样本的拟合并不是最佳样本的拟合并不是最佳一、一、 变差分析变差分析图图129变差分析图变差分析图 二、拟合优度的度量二、拟合优度的度量可决系数可决系数 我们定义我们定义R2称为可决系数称为可决系数,它可以用来度量样本回归直线拟合的优劣它可以用来度量样本回归直线拟合的优劣程度。程度。可以证明可以证明,R2的取值一般在的取值一般在01之间。之间。当当R2=1时时,观测值和回归直线完全拟合观测值和回归直线完全拟合;当当R2=0时时,说明因变量说明因变量Y和自变量和自变量X之间完全没有直线相关关系之间完全没有直线相关关系,可能有可能有其他曲线相关关系其他曲线相关关系。在实际工作中在实际工作中,R2也可用下式计算也可用下式计算:222YY)()(总变差有解释的变差YYRii222YY1)()(YYRii三、相关系数、可决系数、回归系数以及估计标准误差之间三、相关系数、可决系数、回归系数以及估计标准误差之间的关系的关系如果变量如果变量X和和Y之间确实存在着相关关系且呈一元回归直之间确实存在着相关关系且呈一元回归直线形式线形式,可以证明可以证明,可决系数就是相关系数的平方可决系数就是相关系数的平方,即即R2=r2。也就是说也就是说,尽管尽管X和和Y的相关系数很高的相关系数很高,在前例中在前例中,r=0.956 5但但r2=0.91,说明说明X只能解释只能解释Y的总变差中的的总变差中的91%,而而R2=0.91也说明了这样的意思。所以也说明了这样的意思。所以,不论相关关系呈现为直线或不论相关关系呈现为直线或是曲线形式是曲线形式,我们都可用我们都可用R2的平方根来测定相关关系的密的平方根来测定相关关系的密切程度。其计算公式为切程度。其计算公式为: R习惯上称作相关指数。习惯上称作相关指数。(2) 可以证明相关系数可以证明相关系数r、回归系数、回归系数b、估计标准误差、估计标准误差SYX以及以及X的标准差的标准差X、Y的标准差的标准差Y之间在数值计算上有如下之间在数值计算上有如下的换算关系的换算关系:221yYXSRyxbr221yYXSR 第五节非线性回归分析第五节非线性回归分析 建立曲线回归方程时建立曲线回归方程时,关键的问题是要确定关关键的问题是要确定关系的类型和形式系的类型和形式,除根据一定的专业知识等判断外除根据一定的专业知识等判断外,通过描散点图通过描散点图,并观察散点图的形状和特点来进行并观察散点图的形状和特点来进行判断判断,也是一种重要的方法。也是一种重要的方法。 一元非线性回归方程的配合方法是一元非线性回归方程的配合方法是,确定回归方确定回归方程的类型和形式后程的类型和形式后,通过变量变换通过变量变换,将非线性模型将非线性模型转化为线性模型转化为线性模型,用最小平方法求出所得线性模型用最小平方法求出所得线性模型的待定系数的待定系数,再将原变量代回再将原变量代回,则得所求非线性回则得所求非线性回归方程。下面介绍几种常见的一元非线性回归模归方程。下面介绍几种常见的一元非线性回归模型。型。一、一、 指数曲线模型指数曲线模型Y=abx 式中式中a、b为待定系数。为待定系数。 对上式两边取对数对上式两边取对数,得得lnY=lna+Xlnb 作变量代换作变量代换,令令Y=lnY, a=lna, b=lnb 则得一元线性回归模型则得一元线性回归模型Y=a+bX再用最小平再用最小平方法求方法求a、b的值的值,再查反对数表求出再查反对数表求出a、b的值的值,即即可求得原指数曲线回归方程可求得原指数曲线回归方程=abx。二、双曲线回归模型二、双曲线回归模型1/Y=a+b/X 在上式中在上式中,令令Y=1/Y,X=1/X,则得到如下线性回则得到如下线性回归模型归模型Y=a+bX再用最小平方法求出再用最小平方法求出a、b的值的值,即可求得原双曲线回归方程。即可求得原双曲线回归方程。三、幂函数曲线三、幂函数曲线Y=dXb上式两边取对数上式两边取对数,得得lnY=lnd+blnX 令令Y=lnYa=lndX=lnX 则有则有Y=a+bX 再用最小平方法求出再用最小平方法求出a、b的值的值,再查反对数表再查反对数表求出求出d,同样可求得原幂函数曲线方程。同样可求得原幂函数曲线方程。四、龚伯茨四、龚伯茨(Gompertz)曲线曲线Y=debx(略略)五、逻辑斯蒂五、逻辑斯蒂(Logistic)曲线曲线Y=1/(a+be-x) (略略)第六节相关及回归分析的计算机实现第六节相关及回归分析的计算机实现下面我们根据表下面我们根据表12-1的数据运用的数据运用spss软件计算相关系数软件计算相关系数,绘绘制散点图制散点图,拟合回归方程拟合回归方程,实现相关和回归分析。实现相关和回归分析。一、一、 操作步骤操作步骤(一一)建立数据文件建立数据文件 定义变量可支配收入与储蓄存款余额定义变量可支配收入与储蓄存款余额,并相应输入表并相应输入表12-1的数据。的数据。(二二)计算相关系数计算相关系数 (1) AnalyzeCorrelateBivariate,弹出弹出 Bivariate Correlations对话框对话框,将变量添加到右侧的将变量添加到右侧的Variables栏内栏内,然后在下方选择相关系数的种类然后在下方选择相关系数的种类,软件默认为软件默认为Pearson相相关系数关系数,计算机显示界面见图计算机显示界面见图12-10。图图12-10Bivariate Correlations(两变量两变量相关相关)对话框对话框(2) 由表由表12-4可知可知,变量的变量的Pearson(皮尔逊皮尔逊)相关系数为相关系数为0.957。标记。标记*表示在表示在1的的显著水平下相关系数显著。表显著水平下相关系数显著。表12-4为二为二维相关系数表维相关系数表,变量可支配收入与储蓄存变量可支配收入与储蓄存款余额自身的相关系数为款余额自身的相关系数为1。(三三)作散点图作散点图,判断两变量是否存在线性关系判断两变量是否存在线性关系点击点击GraphScatter/Dot,弹出弹出Scatter/Dot菜单菜单,选择散点图的种类选择散点图的种类,此题此题可选择可选择Simple(简单散点图简单散点图)。图图12-11Scatter/Dot(散点类型选择散点类型选择)菜单菜单 (2) 点击点击Define,出现出现Graph Scatterplot对话框。确定散点图坐标轴对话框。确定散点图坐标轴,将储蓄存款余额添加到将储蓄存款余额添加到Y轴轴,可支配收入添加到可支配收入添加到X轴轴,点击点击OK,输出散点输出散点图。图。图图12-12Graph Scatterplot(散点图散点图变量选择变量选择)对话框对话框图图12-13散点图散点图 (四四)计算回归方程计算回归方程 由散点图与相关系数的计算结果可知由散点图与相关系数的计算结果可知,变量储蓄变量储蓄存款余额与可支配收入之间存在明显的线性关系。存款余额与可支配收入之间存在明显的线性关系。由此我们可以对模型进行估计。点击由此我们可以对模型进行估计。点击AnalyzeRegressionLinear,出现出现Linear Regression对话框对话框.将居民储蓄余额添加到因变将居民储蓄余额添加到因变量量(dependent)框中框中,将可支配收入添加到自变量将可支配收入添加到自变量(independent)框中。点击框中。点击OK,输出结果输出结果(表表12-5、表表12-6、表、表12-7)。 二、结果分析二、结果分析(一一)模型摘要模型摘要(model summary) 如表如表125所示所示,此模型可决系数此模型可决系数R2(R Square)=0.915,调整后的调整后的R2(Adjusted R Square)=0.904。估计标准误差。估计标准误差(Std. Error of the Estimate)为为0.1351。 (二二)方差分析方差分析(anova) 如表如表126所示所示,模型的回归模型的回归(Regression)平平方和方和(Sum of Squares)为为1.570,残差残差(Residual)平方和为平方和为0.146,Mean Square表表示平均方差。模型示平均方差。模型F检验的值为检验的值为86.035,伴伴随概率为随概率为0.000。由方差分析表可计算出。由方差分析表可计算出R2(R Square)=回归变差回归变差/总变差总变差=1.570/1.716=0.915(三三)模型系数模型系数(coefficients) 如表如表12-7所示所示,用用Y表示居民储蓄存款余表示居民储蓄存款余额额,用用X表示居民可支配收入表示居民可支配收入,模型形式模型形式为为:Y=0.065+1.146X 对模型各系数进行对模型各系数进行t检验的伴随概率等于检验的伴随概率等于或接近于或接近于0,证明在证明在95%的显著水平下的显著水平下,模型模型变量间存在线性相关关系。变量间存在线性相关关系。思考与练习思考与练习1. 简述相关关系与函数关系的区别。简述相关关系与函数关系的区别。2. 简述相关分析与回归分析的联系与区别。简述相关分析与回归分析的联系与区别。4. 举例说明什么是单相关举例说明什么是单相关,什么是复相关。什么是复相关。5. 举例说明什么是正相关举例说明什么是正相关,什么是负相关。什么是负相关。6. 什么叫相关系数?如何测定相定系数?什么叫相关系数?如何测定相定系数?7. 请问相关系数反映的是两个变量之间的相请问相关系数反映的是两个变量之间的相关程度关程度,还是反映变量值之间的相关程度?还是反映变量值之间的相关程度?8. 在直线回归方程在直线回归方程=a+bX中中,参数参数a、b怎样求怎样求得?它们的几何意义与经济意义是什么?得?它们的几何意义与经济意义是什么?9. 什么叫估计标准误差?它有什么作用?如什么叫估计标准误差?它有什么作用?如何计算?何计算?10. 相关系数和估计标准误差有何关系?相关系数和估计标准误差有何关系?11. 进行回归分析应注意什么问题?进行回归分析应注意什么问题?