(高职)第七章回归分析预测ppt课件.ppt
第七章 回归分析预测第七章 回归分析预测 3学习目标理解回归分析的基本原理;理解回归分析的基本原理;掌握一元线性回归预测法的思路、步骤及其掌握一元线性回归预测法的思路、步骤及其在经济活动中的应用;在经济活动中的应用; 了解多元线性回归预测模型,知道模型检验了解多元线性回归预测模型,知道模型检验方法,掌握二元线性回归预测模型的应用;方法,掌握二元线性回归预测模型的应用;会将非线性模型转化为线性模型,并能应用会将非线性模型转化为线性模型,并能应用于市场现象的分析预测;于市场现象的分析预测;知道数学软件在回归分析中的应用。知道数学软件在回归分析中的应用。4概述回归分析预测是一种常用的定量预测方法。回归分析预测是一种常用的定量预测方法。这种方法是依据事物内部因素变化的因果这种方法是依据事物内部因素变化的因果关系来预测事物未来的发展趋势,所以,关系来预测事物未来的发展趋势,所以,又称为因果分析法。在因果关系的分析预又称为因果分析法。在因果关系的分析预测中,不仅要确定前因与后果的一般依赖测中,不仅要确定前因与后果的一般依赖关系,而且要确定前因对后果的影响程度,关系,而且要确定前因对后果的影响程度,并作出量的估计。并作出量的估计。这里涉及到较多的数理统计知识,我们这里涉及到较多的数理统计知识,我们给出了建立和检验数学模型的一些思路,给出了建立和检验数学模型的一些思路,精简了过于繁琐的数学证明和推理过程,精简了过于繁琐的数学证明和推理过程,着眼于运用数学知识去分析和解决市场着眼于运用数学知识去分析和解决市场预测问题。预测问题。5目录1.回归分析的的基本原理回归分析的的基本原理2.一元线性回归预测法一元线性回归预测法3.多元线性回归预测法多元线性回归预测法4.非线性回归预测法非线性回归预测法67.1 回归分析的的基本原理一、回归分析的意义一、回归分析的意义现实世界中,任何客观事物都不是孤现实世界中,任何客观事物都不是孤立存在,而是与另一些事物相互联系、相立存在,而是与另一些事物相互联系、相互影响着的。市场的发展变化同影响其变互影响着的。市场的发展变化同影响其变化的各种因素之间存在一定的依存关系,化的各种因素之间存在一定的依存关系,一方面市场的发展变化是其影响因素影响一方面市场的发展变化是其影响因素影响的结果,另一方面,市场的发展变化也影的结果,另一方面,市场的发展变化也影响着其影响因素的发展变化。这种现象间响着其影响因素的发展变化。这种现象间存在的依存关系称为因果关系。存在的依存关系称为因果关系。 7经济现象间的因果关系与市场变量之经济现象间的因果关系与市场变量之间的关系形态,大致可分为两类:一类是间的关系形态,大致可分为两类:一类是变量之间存在着完全确定的关系,即一个变量之间存在着完全确定的关系,即一个变量能被一个或若干个其他变量按某一规变量能被一个或若干个其他变量按某一规律唯一确定,这种关系通常被称为函数关律唯一确定,这种关系通常被称为函数关系。系。 8例如,设某种商品的单价为例如,设某种商品的单价为a(元),销售(元),销售量为量为x(件),销售收入为(件),销售收入为y(元),显然(元),显然销售收入与销售量之间存在确定的函数关销售收入与销售量之间存在确定的函数关系系y=ax。9另一类是变量之间存在着一定关系,而这另一类是变量之间存在着一定关系,而这种关系具有某种不确定性。种关系具有某种不确定性。例如,商品的价格与商品销售量之间的关例如,商品的价格与商品销售量之间的关系,一般来说,价格提高,销售量就会减少;价系,一般来说,价格提高,销售量就会减少;价格降低,销售量就会增加。但是,我们不可能断格降低,销售量就会增加。但是,我们不可能断言,商品价格提高多少销售量就一定会减少多少,言,商品价格提高多少销售量就一定会减少多少,有时价格提高了,销售量反而会有所增加,这是有时价格提高了,销售量反而会有所增加,这是因为影响销售量的因素还有收入、个人爱好、季因为影响销售量的因素还有收入、个人爱好、季节变化等等。节变化等等。 10所以商品价格与销售量之间的关系不能用所以商品价格与销售量之间的关系不能用一个确定的函数关系来计算。这种非确定一个确定的函数关系来计算。这种非确定性的关系,称为相关关系。属于这类相关性的关系,称为相关关系。属于这类相关关系的现象,在自然界和社会生活中都是关系的现象,在自然界和社会生活中都是屡见不鲜的。屡见不鲜的。 例如,父母身高与子女身高的关系,居民消费支出与居民收入的关系,人口增长与能源消耗的关系等等。11具有相关关系的变量之间虽然具有某种不具有相关关系的变量之间虽然具有某种不确定性的关系,但是,通过对现象的不断确定性的关系,但是,通过对现象的不断观察可以探索出它们之间的统计规律,这观察可以探索出它们之间的统计规律,这种统计规律称为回归方程,回归方程可以种统计规律称为回归方程,回归方程可以用来近似表达相关变量间的平均关系。用来近似表达相关变量间的平均关系。 12有关寻求回归方程的理论、计算和分析称有关寻求回归方程的理论、计算和分析称为回归分析。表明相关变量密切程度的指为回归分析。表明相关变量密切程度的指标称为相关指标,其理论、计算和分析称标称为相关指标,其理论、计算和分析称为相关性分析。回归分析和相关分析两种为相关性分析。回归分析和相关分析两种方法往往是结合在一起使用。方法往往是结合在一起使用。13二、回归分析预测法的一般思路二、回归分析预测法的一般思路 回归分析预测法在实际应用中,一般可以回归分析预测法在实际应用中,一般可以分为四个步骤:分为四个步骤: 收集数据资料,绘制散点图收集数据资料,绘制散点图建立回归方程建立回归方程进行相关检验进行相关检验利用回归模型进行预测利用回归模型进行预测14收集数据资料,绘制散点图根据调查统计取得的一系列相互对应的数根据调查统计取得的一系列相互对应的数据,这些数据称为观察点或实际值,将它据,这些数据称为观察点或实际值,将它们编制成数据表。把预测目标确定为因变们编制成数据表。把预测目标确定为因变量,而自变量就是引起预测目标发生变化量,而自变量就是引起预测目标发生变化的一个或多个因素。当数据点是二维数组的一个或多个因素。当数据点是二维数组时,在平面直角坐标系中将每一组数据以时,在平面直角坐标系中将每一组数据以一个点表示,这样所得的图形称为散点图。一个点表示,这样所得的图形称为散点图。15建立回归方程根据散点的分布状况,选择适当的回归数根据散点的分布状况,选择适当的回归数学模型。如果点的分布呈直线趋势,则要学模型。如果点的分布呈直线趋势,则要求拟合成一条直线,作为描述散点分布直求拟合成一条直线,作为描述散点分布直线趋势的预测线,这就是一元线性回归预线趋势的预测线,这就是一元线性回归预测问题。如果点的分布不是直线趋势,根测问题。如果点的分布不是直线趋势,根据散点图的特点,选择相应的非线性回归据散点图的特点,选择相应的非线性回归模型,则要求拟合成一条曲线作为预测线,模型,则要求拟合成一条曲线作为预测线,这就是一元非线性回归预测问题这就是一元非线性回归预测问题 16建立回归方程研究两个变量之间的回归关系,称为一元研究两个变量之间的回归关系,称为一元回归问题;研究若干个变量与另一个变量回归问题;研究若干个变量与另一个变量之间的回归关系,称为多元回归问题。之间的回归关系,称为多元回归问题。 17进行相关检验相关检验就是选择恰当的相关指标,去判相关检验就是选择恰当的相关指标,去判定回归方程变量之间关系的密切程度。相定回归方程变量之间关系的密切程度。相关程度越高,就表明回归方程与实际值的关程度越高,就表明回归方程与实际值的偏差越小,拟合效果越好。如果回归方程偏差越小,拟合效果越好。如果回归方程变量间的相关关系不好,在此情况下所得变量间的相关关系不好,在此情况下所得的回归方程没有什么意义。的回归方程没有什么意义。 18利用回归模型进行预测如果回归方程拟合得好,我们就可以用它来作预如果回归方程拟合得好,我们就可以用它来作预测。所谓预测就是根据自变量取值来估计因变量测。所谓预测就是根据自变量取值来估计因变量(预测目标)的值。由于回归方程与实际值之间(预测目标)的值。由于回归方程与实际值之间存在误差,预测值不可能简单地表为由回归方程存在误差,预测值不可能简单地表为由回归方程计算所得的确定值,而应该是一个范围或区间,计算所得的确定值,而应该是一个范围或区间,一般要求实际值位于这个区间的可靠度应达到一般要求实际值位于这个区间的可靠度应达到95%以上,这个区间称为预测区间或预测值的置以上,这个区间称为预测区间或预测值的置信区间。置信区间说明回归模型的适用范围或精信区间。置信区间说明回归模型的适用范围或精确程度。确程度。 197.2 7.2 一元线性回归预测法一元线性回归预测法一元线性回归的数学模型设设x为自变量,为自变量,y为因变量,根据一系列数为因变量,根据一系列数据点作出散点图,它们的关系具有直线趋据点作出散点图,它们的关系具有直线趋势,则可用以下直线方程来拟合它们变量势,则可用以下直线方程来拟合它们变量间的关系:间的关系: bxayy 为y的估计值a为回归常数b为回归系数20式(式(7-1)就是一元线性回归的数学模型。)就是一元线性回归的数学模型。根据两个变量根据两个变量x、y现有的统计数据或实际现有的统计数据或实际数据(数据(xi,yi),(),(i=1,2,n),应),应用最小二乘法估计参数用最小二乘法估计参数a和和b,是确定回归,是确定回归方程的关键。方程的关键。 21我们将我们将xi代入(代入(7-1),则可求得估计值),则可求得估计值, (i= 1,2 ,),)实际值实际值yi与估计值与估计值 之差,称为估计误差之差,称为估计误差或残差,以或残差,以 ei 表示。表示。 (i=1,2,),)iibxayiy iiyeiiibxayy22为了避免误差求和时正负抵消,通常用误为了避免误差求和时正负抵消,通常用误差的平方差的平方 来表达误差,用误差平方和度来表达误差,用误差平方和度量全部量全部y与与 之间的偏差程度,设之间的偏差程度,设Q表示误表示误差平方和,则差平方和,则iy 2ienIiiniibxayeQ1212 (7-2)23要使式(要使式(7-2)所表示的误差平方和)所表示的误差平方和Q达达到最小值,根据多元微分学中的极值原理,到最小值,根据多元微分学中的极值原理,a和和b须满足下列方程组:须满足下列方程组: niiiiniiixbxaybQbxayaQ110)(20224经整理得:经整理得: (7-3)上式称为正规方程组。解此线性方程组可上式称为正规方程组。解此线性方程组可得关于参数得关于参数a和和b的计算公式:的计算公式: nininiiiiiniiniixbxayxxbnay11121125 xbynxbyaxnxyxnyxxnxyxnyxbniiniiniiniiiniiniininiiiniii112121211211111niixnx11(7-4) niiyny11其中 26【例【例1】 某地区某地区19972006年工业总年工业总产值和货运量的统计资料如表产值和货运量的统计资料如表7-1所示。所示。yx货运量工业总产值年份 (亿吨) (10亿元)19971998199920002001200220032004200520062.82.93.23.23.43.23.33.73.94.225272932343635394245表表7-1 货运量与工业总产值资料货运量与工业总产值资料27根据表根据表7-1资料作出的散点图如图资料作出的散点图如图7-1所示。所示。总产值(10亿元)亿吨24(54025303545货运量(图图7-1 货运量与工业总产值散点图货运量与工业总产值散点图28从散点图可知,散点大体上有直线趋势,从散点图可知,散点大体上有直线趋势,因此可用回归直线进行拟合。建立一元线因此可用回归直线进行拟合。建立一元线性模型:性模型:其中其中y表示货运量,表示货运量,x表示工业总产值。关表示工业总产值。关于参数于参数a、b的计算通常通过列表进行。的计算通常通过列表进行。bxay29表表7-27-2 货运量与工业总产值回归计算表货运量与工业总产值回归计算表2ix2iy序号货运量yi工业总产值xixiyi1 12 23 34 45 56 67 78 89 910102.82.82.92.93.23.23.23.23.43.43.23.23.33.33.73.73.93.94.24.22525272729293232343438383535393942424545707078.378.392.892.8102.4102.4115.6115.6115.2115.2115.5115.5144.3144.3163.8163.8189189625625729729841841102410241156115612961296152115211225122517641764202520257.847.848.418.4110.2410.2410.2410.2411.5611.5610.2410.2410.8910.8913.6913.6915.2115.2117.6417.6433.833.83443441186.91186.91220612206 115.96 115.9630由公式(由公式(7-4)及表)及表7-2中的数据可得中的数据可得 06493. 04 .37218.241/3441220610/8 .333449 .11861122112111oxnxyxnyxbniiniiniiniiniii1464. 11034406493. 0108 .33111nxbynaniinii31故回归方程为故回归方程为式中式中a=1.1464为估计的固定货运量,为估计的固定货运量,b=0.06493表示当工业总产值每增加表示当工业总产值每增加10亿元,货运总量平均增加亿元,货运总量平均增加0.06493亿吨。亿吨。xy06493. 01464. 132二、对预测模型进行检验从前面的例子中可以看到,计算回归方程从前面的例子中可以看到,计算回归方程的参数和时,并不需要一定知道两个变量的参数和时,并不需要一定知道两个变量是否具有线性相关性,由散点图仅能作一是否具有线性相关性,由散点图仅能作一个粗略的直观判断,不能作定量分析。也个粗略的直观判断,不能作定量分析。也就是说,就方法本身而言,即使对平面上就是说,就方法本身而言,即使对平面上一堆完全杂乱无章的散点,也可以由这些一堆完全杂乱无章的散点,也可以由这些数据点计算参数数据点计算参数a和和b,从而配一个直线方,从而配一个直线方程表示程表示y和和x之间的关系。之间的关系。33显然,此时所配的直线是毫无意义的,因显然,此时所配的直线是毫无意义的,因此,需要用一个数量指标检验回归方程拟此,需要用一个数量指标检验回归方程拟合的合的“优良性优良性”。模型检验常用的方法有。模型检验常用的方法有相关系数检验和估计标准差检验。其它如相关系数检验和估计标准差检验。其它如t检验法、检验法、F检验法在下一节作介绍。检验法在下一节作介绍。341. 相关系数及显著性检验 相关系数是描述两个变量间线性相关密切相关系数是描述两个变量间线性相关密切程度的一个数量性指标,常用字母程度的一个数量性指标,常用字母r表示。表示。相关系数的公式为:相关系数的公式为: 3521122112111111niiniiniiniiniiniiniiiynyxnxyxnyxr2122121ynyxnxyxnyxniiniiniii(7-5) 36为简便起见,我们令:为简便起见,我们令:211221221121212niiniiniiniiniiniixxxnxxnxxnxxxxxL2112212121niiniiniiniiyyynyynyyyLniiniiniiiniiiniiixyyxnyxyxnyxyyxxL11111137于是关于参数于是关于参数a、b的计算公式(的计算公式(7-4)可简化为:)可简化为: 相关系数的计算公式(相关系数的计算公式(7-5)可以简化为:)可以简化为: xbyaLLbxxxyyyxxxyLLLr (7-6)38显然,回归系数显然,回归系数b与相关系数与相关系数r有以下关系:有以下关系: 可以证明可以证明 ,而且,而且r的值反映了的值反映了y与与x之间的之间的内在联系,如图内在联系,如图7-2所示,有以下结论:所示,有以下结论:xxyyxxxxyyxxyyxxxyxxxyLLLrLLLLLLLLb(7-7)1r39(1)当)当r=0时,由公式(时,由公式(7-7)可得回)可得回归系数归系数b=0,故回归直线是与,故回归直线是与x轴平行的轴平行的直线,它表明直线,它表明y的变化与的变化与x无关,此时称无关,此时称y与与x毫无线性关系。在通常的情况下,这毫无线性关系。在通常的情况下,这时散点的分布是不规则的。时散点的分布是不规则的。40(2)当)当0|x|1时,这是绝大多数的情形,时,这是绝大多数的情形,即即y与与x存在一定的线性相关性。当存在一定的线性相关性。当0r0,此时,此时y随随x的增加而的增加而增加,称增加,称y与与x正相关;当正相关;当-1r0时,时,有有b0,此时,此时y随随x的增加而减少,称的增加而减少,称y与与x负相关。负相关。41当当|x|越小,接近于越小,接近于0时,散点偏离回归直时,散点偏离回归直线的程度越大,即线的程度越大,即y与与x的线性关系越差;的线性关系越差;当当|x|越大,接近于越大,接近于1时,散点就越靠近回时,散点就越靠近回归直线,即归直线,即y与与x的线性关系越好。的线性关系越好。42(3)当)当r=1时,所有散点完全在回归直时,所有散点完全在回归直线上。此时称线上。此时称y与与x完全线性相关。当完全线性相关。当r=1时,称完全正相关;当时,称完全正相关;当r=-1时,称完全负时,称完全负相关。相关。43图7-2 线性相关性示意图-1r00rr0.05,它表明有,它表明有95%以以上的概率保证两个变量具有线性关系;若上的概率保证两个变量具有线性关系;若取显著性水平取显著性水平a=0.01,查表可得临界值,查表可得临界值r0.01=0.7649,亦有,亦有rr0.01 ,它表明有,它表明有99%以上的概率保证两个变量具有线性关以上的概率保证两个变量具有线性关系。系。48一般情况下,当一般情况下,当|r|0.8时,认为时,认为y与与x高度高度线性相关;当线性相关;当0.5|x|0.8时,认为时,认为y与与x中度线性相关;当中度线性相关;当0.3|x|0.5时,认为时,认为y与与x低度线性相关;当低度线性相关;当|x|0.3时,认为时,认为y与与x不相关。不相关。492估计标准差检验在回归分析中,因变量的实际值在回归分析中,因变量的实际值yi与估计与估计值之间值之间 的误差平方和的误差平方和可以度量实际值与回归直线的离散程度,可以度量实际值与回归直线的离散程度,再取其平均值,可以去掉求和项数对误差再取其平均值,可以去掉求和项数对误差平方和的影响。平方和的影响。 iibxaynIiiniiiniibxayyye12121250估计标准差是误差平方和的算术平均数的估计标准差是误差平方和的算术平均数的平方根,计算公式为平方根,计算公式为:由数理统计可知,由数理统计可知, 是总体方是总体方差差2 2的无偏估计量。的无偏估计量。221212nyyneSniiiniiy(7-8) 21222nyySniiy51上式计算上式计算Sy比较繁琐比较繁琐,通常引入通常引入a、b,采用,采用下式计算下式计算:21112nyxbyaySniiiniiniiy(7-9) 52显然,显然, Sy越大,实际值越大,实际值yi与回归直线的离散程度与回归直线的离散程度越大;反之,越大;反之, Sy越小,实际值越小,实际值yi与回归直线的离与回归直线的离散程度越小。一般要求:散程度越小。一般要求:%15/ySy53本节例1中 Sy/ =0.029 15%故认为该一元线性回归预测模型有较好的精度。故认为该一元线性回归预测模型有较好的精度。212nyySniiiy21112nyxbyayniiiniinii89 .118606493. 08 .331464. 196.115=0.135238. 3yy54三、一元线性回归问题的预测回归模型回归模型 经检验通过后,便可用于经检验通过后,便可用于预测。当预测。当x=x0时,预测对象对应的点预测值时,预测对象对应的点预测值为为 。例如,本节例。例如,本节例1中已求得货运中已求得货运量与工业总产值的回归模型量与工业总产值的回归模型那么,当工业总产值那么,当工业总产值x0=50(10亿元)时,货亿元)时,货运量的点预测值为运量的点预测值为 bxay00bxayxy06493. 01464. 1)(393. 45006493. 01464. 10亿吨y55由于实际存在误差,预测值不可能是一个由于实际存在误差,预测值不可能是一个确定值,而应该是一个范围或区间,一般确定值,而应该是一个范围或区间,一般要求实际值位于这个区间范围的可靠程度要求实际值位于这个区间范围的可靠程度应达到应达到95%以上。以上。若给定可靠度若给定可靠度1-a,可以证明的预测区间,可以证明的预测区间为:为: 000022StySty(7-10)56其中:其中:2112210011niiniiniiyxxnnxxnnSS 由由t分布表查得分布表查得x0为预测点为预测点x的值的值Sy是估计标准差,其计算公式见(是估计标准差,其计算公式见(7-8)xi为统计数据为统计数据222ntt57利用(利用(7-10)式来确定预测区间,在计)式来确定预测区间,在计算上颇为麻烦,在实际应用中可以作一些算上颇为麻烦,在实际应用中可以作一些简化。事实上,当简化。事实上,当n很大时,很大时,t分布趋近于分布趋近于正态分布,上式中正态分布,上式中S0的也趋近于估计标准的也趋近于估计标准差差 ;当;当n不是很大时,由于实际过程中往不是很大时,由于实际过程中往往只需要获得近似估计,在这种情况下,往只需要获得近似估计,在这种情况下,y的实际发生值也可以看作按正态分布的规的实际发生值也可以看作按正态分布的规律波动,波动的标准差为律波动,波动的标准差为Sy ,根据正态分,根据正态分布的理论,可以证明:布的理论,可以证明:58预测值预测值 的可靠度的可靠度68.3%的的预测区间的的预测区间为为预测值预测值 的可靠度的可靠度95.4%的的预测区间的的预测区间为为预测值预测值 的可靠度的可靠度99.7%的的预测区间的的预测区间为为yySySy00yySySy22000 y0 yyySySy33000 y59预测区间的长度直接关系到预测的准确性。预测区间的长度直接关系到预测的准确性。显然,预测区间愈长,精度愈差,反之则显然,预测区间愈长,精度愈差,反之则好。通常取可靠度为好。通常取可靠度为95%的的预测区间的的预测区间如图如图7-3所示,预测值所示,预测值 以以95%的可靠度的可靠度落 在 直 线落 在 直 线 和和 之间。之间。 yySySy22000 yySyy2 ySyy2 60图7-3 预测区间示意图oy=a+bx-xyxoy=a+bx2syy=a+bx+ys261本节例本节例1中,已求得中,已求得 =4.393(亿吨亿吨),Sy=0.135,则预测值的可靠度为,则预测值的可靠度为95%的预测区间是的预测区间是:( 4 . 3 9 3 - 2 0 . 1 3 5 4.393+20.135)即即 (4.123 4.663)0 y62四、应用实例【例【例2】社会商品零售总额预测某地区居民的收】社会商品零售总额预测某地区居民的收入与社会商品零售总额近入与社会商品零售总额近10年的统计资料如表年的统计资料如表7-3所示。所示。年序年序居民收入居民收入社会商品零社会商品零售总额售总额年序年序居民收入居民收入社会商品零社会商品零售总额售总额1 1646456566 610710788882 2707060607 71251251021023 3777766668 81431431181184 4828270709 91651651361365 5929278781010189189155155表表7-3 社会商品零售总额与居民收入统计资料社会商品零售总额与居民收入统计资料 单位:亿元 63试讨论社会商品零售总额与居民收入的关试讨论社会商品零售总额与居民收入的关系。并以此预测下一年若居民收入达到系。并以此预测下一年若居民收入达到213亿元时的社会商品零售总额。亿元时的社会商品零售总额。解解 第一步,因为预测目标是社会商品零售第一步,因为预测目标是社会商品零售总额,所以令社会商品零售总额为总额,所以令社会商品零售总额为y,居民,居民收入为收入为x。依据统计资料,作出散点图。见。依据统计资料,作出散点图。见图图7-4。64图7-4 统计资料散点图06080100120140160180200 x6080100120140160y65第二步,建立数学模型。从图第二步,建立数学模型。从图7-4可见,可见,y与与x呈直线关系,故设预测模型为呈直线关系,故设预测模型为 第三步,估计参数第三步,估计参数a、b。为了便于计算,。为了便于计算,列出计算表,如表列出计算表,如表7-4所示。所示。bxay66表7-4 线性回归计算表序号序号xiyixi yixi2yi2123456789106470778292107125143165189566066707888102118136155358442005082574071769416127501687422440292954096490059296724846411449156252044927225357213136360043564900608477441040413924184962402511149291165571405829666967代入公式(代入公式(7-4)可得)可得7927. 04 .164824 .1306610/111414058210/92911141165571122112111niiniiniiniiniiixnxyxnyxb593. 41011147927. 010929111nxbynaniinii68由此,得回归预测方程式:由此,得回归预测方程式:这个模型表明:居民的平均收入每增加到这个模型表明:居民的平均收入每增加到1元,平均就有约元,平均就有约0.79元用于商品消费。元用于商品消费。xy7927. 0593. 469第四步,进行相关性检验。首先,求相关系数:首先,求相关系数:显然,显然,y与与x具有高度线性相关性。具有高度线性相关性。9997. 011121122112111niiniiniiniininiiniiiiyyxxxyynyxnxyxnyxLLLr70其次,再用估计标准差验证。因为估计标准差其次,再用估计标准差验证。因为估计标准差 =92.9Sy/ =0.01 ra(n-m-1),认为,认为因变量因变量y与与x1、x2 、xm之间的多元线性之间的多元线性相关程度显著,否则不显著。相关程度显著,否则不显著。1022偏相关系数检验偏相关系数是指在多个具有线性相关关系偏相关系数是指在多个具有线性相关关系的变量中,固定其它自变量,只测定某一的变量中,固定其它自变量,只测定某一个自变量与因变量之间线性相关密切程度个自变量与因变量之间线性相关密切程度的指标。偏相关系数需要用单相关系数来的指标。偏相关系数需要用单相关系数来表达,一元线性回归方程的相关系数表达,一元线性回归方程的相关系数r是单是单相关系数,这里记为相关系数,这里记为ryx。在多元线性关系。在多元线性关系中,单相关系数是忽略其它自变量的变化中,单相关系数是忽略其它自变量的变化来反映某一自变量与因变量的线性相关程来反映某一自变量与因变量的线性相关程度。度。 103事实上,其它自变量的变化也会影响因变事实上,其它自变量的变化也会影响因变量的变化,因此,单相关系数是不能真正量的变化,因此,单相关系数是不能真正反映多元线性关系中,某一自变量与因变反映多元线性关系中,某一自变量与因变量的线性相关程度,而需要用偏相关系数量的线性相关程度,而需要用偏相关系数来反映。来反映。104以二元线性回归方程为例,偏相关系数的以二元线性回归方程为例,偏相关系数的计算公式为:计算公式为:22212212111xxyxxxyxyxrrrrr21, xyxr22211211211xxyxxxyxyxrrrrr12, xyxr(7-18) (7-19) 105式中ryx1,x2表示固定表示固定x2后,自变量后,自变量x1与因变量与因变量y的一的一阶偏相关系数;阶偏相关系数;ryx2,x1表示固定表示固定x1后,自变量后,自变量x2与因变量与因变量y的一的一阶偏相关系数。阶偏相关系数。ryx1表示自变量表示自变量x1与因变量与因变量y的单相关系数;的单相关系数;ryx2表示自变量表示自变量x2与因变量与因变量y的单相关系数;的单相关系数;rx1x2表示自变量表示自变量x1与自变量与自变量x2的单相关系数。的单相关系数。106三元线性回归方程的回归系数需要用二阶三元线性回归方程的回归系数需要用二阶偏相关系数来检验。例如用偏相关系数来检验。例如用 表示固定表示固定x2、x3后,后,x1与与y的二阶偏相关系数,则的二阶偏相关系数,则321,xxyxr2,2,23123231232311xxxxyxxxxxyxxyxrrrrr321,xxyxr107m元线性回归方程的回归系数需要用元线性回归方程的回归系数需要用m-1阶偏相关系数来检验。例如:阶偏相关系数来检验。例如:式中式中 表示固定表示固定x2至至xm后,后,x1与与y的的m-1阶偏相关系数。阶偏相关系数。2,2,121121211212311mmmmmmmmmxxxxxxyxxxxxxxyxxxyxrrrrrmxxyxr21,mxxyxr21,108偏相关系数的数值介于偏相关系数的数值介于-1与与+1之间,其之间,其绝对值越大,说明在固定其它变量的条件绝对值越大,说明在固定其它变量的条件下,某一自变量与因变量的线性关系越密下,某一自变量与因变量的线性关系越密切切, 该自变量对因变量有较强的影响作用;该自变量对因变量有较强的影响作用;其绝对值越小,说明二变量间越不相关,其绝对值越小,说明二变量间越不相关,该自变量对因变量的影响作用较小。经检该自变量对因变量的影响作用较小。经检验,对因变量无显著影响的自变量,应从验,对因变量无显著影响的自变量,应从回归方程中剔出,重新建立回归方程。回归方程中剔出,重新建立回归方程。1093F检验F检验是关于回归方程的显著性检验,即检检验是关于回归方程的显著性检验,即检验所有自变量作为一个整体与因变量之间验所有自变量作为一个整体与因变量之间是否有显著的线性相关性。是否有显著的线性相关性。检验假设检验假设 H0 :F统计量的计算公式为:统计量的计算公式为:021mbbb 1/22mnyymyyFiii110给定显著性水平给定显著性水平,由,由F分布表查临界值分布表查临界值 ,当,当F 时,时,认为认为y与与x1、x2 、xm之间有显著的线性相关性,之间有显著的线性相关性,即认为即认为m元线性回归方程元线性回归方程(7-14)有显著意义。有显著意义。反之,则认为反之,则认为y与与x1、x2 、xm之间不存在显著之间不存在显著的线性相关关系。的线性相关关系。) 1,(mnmF) 1,(mnmF111当回归方程的显著性检验未通过,可能是当回归方程的显著性检验未通过,可能是因变量与自变量之间的关系是非线性的,因变量与自变量之间的关系是非线性的,也可能是选择自变量时漏掉了重要的影响也可能是选择自变量时漏掉了重要的影响因素,应考虑重新建立回归模型。因素,应考虑重新建立回归模型。F检验也适用于一元线性回归方程的检验,检验也适用于一元线性回归方程的检验,在在F统计量中取统计量中取m=1即得。即得。1124 t检验 t检验是关于回归系数的显著性检验,即检验是关于回归系数的显著性检验,即检验回归方程中每个自变量与因变量之间检验回归方程中每个自变量与因变量之间的线性关系是否显著。的线性关系是否显著。检验假设检验假设 H0 : t统计量的计算公式为:统计量的计算公式为: mibi, 2, 10iibibSbtmi, 2, 1113式中式中 称为回归系数称为回归系数bi的标准差,的标准差,其中其中Sy是估计标准差:是估计标准差:cii是是(7-16)式中矩阵式中矩阵 主对角主对角线上的第个元素。线上的第个元素。 ibSyiibScSi12mnyySiiy1XXCT114给定显著性水平给定显著性水平,由,由t分布表查临界值分布表查临界值 ,当,当 时,认为回归系数时,认为回归系数bi与与0有显著差异,即自变量有显著差异,即自变量xi对因变量对因变量y有显有显著影响;反之,接受著影响;反之,接受bi=0,即自变量,即自变量xi对对因变量因变量y无显著影响,无显著影响,xi应从回归方程中剔应从回归方程中剔出。出。12mnt2ttib115t检验也适用于一元线性回归方程回归系数检验也适用于一元线性回归方程回归系数的检验。这时,的检验。这时,t统计量的计算公式为:统计量的计算公式为: ,其中回归系数,其中回归系数b的标准差。的标准差。bbSbtxnxSSiyb2116四、应用实例【例【例4】某商品的人均需求量受多种因素】某商品的人均需求量受多种因素的影响,经分析,认为商品价格和居民人的影响,经分析,认为商品价格和居民人均收入与需求量的相关程度最高,且呈线均收入与需求量的相关程度最高,且呈线性关系,其资料如表性关系,其资料如表7-7所示。试建立二所示。试建立二元线性回归方程,预测当商品价格为元线性回归方程,预测当商品价格为8元,元,居民人均收入为居民人均收入为1000元时的需求量。元时的需求量。117表7-7 某商品需求量及价格、居民收入统计资料编号编号需求量(公斤)需求量(公斤)价格(元)价格(元)居民收入(居民收入(10元)元)1234567891056 .06.577.58910101189767654583030405060120130110100120118解解 1求回归方程求回归方程设设y表示需求量,表示需求量,x1表示价格,表示价格, x2表示需表示需求量,回归方程为:求量,回归方程为:22110 xbxbby119表7-8 二元线性回归方程参数计算表y1x2xyx1yx221xx21x22x序号12345678910566.577.58910101189767654533030405060120130110100130405445.54252.5484540503315018026035045096011701100100014302402702803004207206504405003906481493649362516259900900160025003600144001690012100100001690080608004507050421039079800120从而有:从而有:由正规方程由正规方程(7-12),得,得b0,b1,b2满足满足的线性方程组:的线性方程组:880nnyy6106011nxx801080022nxx1217050798004210800450421039060808006010210210210bbbbbbbbb解此线性方程组,得: 1692.110b7188. 01b0143. 02b则二元元线性回归预测方程为: 210143. 07188. 01692.11xxy122预测方程中,预测方程中, 表示若居民收入不表示若居民收入不变,价格每上涨一元,该商品的需求量将变,价格每上涨一元,该商品的需求量将人均减少人均减少0.7188公斤;公斤; 表示表示若商品价