最新多元线性回归模型及其参数估计多元线性回归的显著性ppt课件.ppt
2.1 2.1 多元线性回归模型及其参数估计多元线性回归模型及其参数估计一、线性回归模型的一般形式一、线性回归模型的一般形式如果因变量(被解释变量)与各自变量(解释变量)如果因变量(被解释变量)与各自变量(解释变量)之间有线性相关关系,那么它们之间的线性总体回归之间有线性相关关系,那么它们之间的线性总体回归模型可以表示为:模型可以表示为:01 122kkyxxx对每一组观测值对每一组观测值01 122iiikkiiyxxx1,2,in所以多元线性回归方程的矩阵形式为YXXXXBXYTT1)(一元回归的参数估计是多元回归参数估计的特例。一元回归的参数估计是多元回归参数估计的特例。min12niieQXBXBYXBXBYYYXBYXBYXBYXBY)()()(根据:根据:1(),( )22(0)ABB AY XBB X YY XBBXYQX YXXBBBXXXY 所所以以:与与是是同同值值四、最小二乘估计量(OLSE)的统计性质0,1,2,jk()212()()TjjjjjVarX XC其中, 是 主对角线上的元素。jjC1()TX X可以证明, 具有最小方差的特性。(证明略)j与一元线性回归相比, k元线性回归的参数估计量也 有类似的性质.例如: k,10都是 nyyy,21的线性组合; k,10分别是 k,10的无偏估计; )(,(12XXBNBT等.且和一元线性回归类似有平方和分解 21()nieiyyQS回2211()()nnTiiiiiSyyyy22(1)eQnk而五、随机误差项的方差的估计量从而 12knQEe21 knQEe2的无偏估计为 221()11niieiyyQnknk它的算术方根称为估计标准误差,记为:21()11niieiyyQnknk 此时,估计量的标准差可表示为:()jjjSVar221()1niiijjujjyyCCnk 是 主对角线上的元素(j=0,1,k)。jjC1()TX X六、回归系数的置信区间由于 ; ;()jjE2var()jjjC故可得的置信度为 的置信区间为:12222(1),(1)jjjjjjtnkCtnkC统计软件自动给出各回归系数的上下限七、例2.1 已知某地区的相关数据如右表所示,试求该回归方程。解:使用Eviews实现回归,得到的方程为 这说明,该地区收入每增加1万元,消费增加0.497万元,人口每增加1万人消费增加0.665万元。iiix.x.y年份消费收入人口1994913.148.219959.513.948.919961013.849.54199710.614.850.25199813.416.451.02199916.220.951.84200017.724.253.76200120.128.153.69200221.830.154.55200325.335.855.35200431.348.556.1620053654.856.982.2 2.2 多元线性回归的显著性检验多元线性回归的显著性检验一、经济检验一、经济检验二、拟合优度检验二、拟合优度检验三、回归方程的显著性检验三、回归方程的显著性检验四、回归系数的显著性检验四、回归系数的显著性检验五、序列相关检验五、序列相关检验一、经济检验(逻辑检验)一、经济检验(逻辑检验)1. 1. 检验内容:参数估计值的符号和大小是否与检验内容:参数估计值的符号和大小是否与经济理论和经济实际相符合。经济理论和经济实际相符合。2. 2. 回归系数的估计值与实际相反的原因回归系数的估计值与实际相反的原因(1 1)某些变量的取值范围太窄;)某些变量的取值范围太窄;(2 2)模型中遗漏了某些重要因素;)模型中遗漏了某些重要因素;(3 3)模型中自变量之间有较强的线性关系。)模型中自变量之间有较强的线性关系。二、拟合优度检验二、拟合优度检验1.1.判定系数判定系数 与修正判定系数与修正判定系数 判定系数的大小还取决于包含在模型中的自变量判定系数的大小还取决于包含在模型中的自变量的个数。的个数。RR22222()()1()()iiiiiYYYYRYYYY 在样本容量一定得情况下,增加解释变量必定使在样本容量一定得情况下,增加解释变量必定使得自由度减少,所以调整的思路是将残差平方和与得自由度减少,所以调整的思路是将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。记为调整的可决系数。个数对拟合优度的影响。记为调整的可决系数。2111SSE nkRSST n 其中其中n-k-1n-k-1为残差平方和的自由度,为残差平方和的自由度,n-1n-1为总离差平方为总离差平方和的自由度。显然,如果增加的解释变量没有解释能和的自由度。显然,如果增加的解释变量没有解释能力,则对残差平方和的减少没有多大帮助,却增加待力,则对残差平方和的减少没有多大帮助,却增加待估参数的个数,从而使估参数的个数,从而使 有较大幅度的下降。有较大幅度的下降。2R2.2.修正判定系数修正判定系数 的计算的计算R2211 (1)1nRRnk 注:注:(1 1)如果)如果k=0k=0,则,则(2 2)如果)如果k0k0,则,则(3 3) 有可能为负值。有可能为负值。2RR RR2R三、回归方程的显著性检验 检验内容:检验因变量和所有自变量的线性关系。2. 建立原假设和备择假设:0不全为ik:H:H3. 构造统计量(1)1MSRSSR kF F k,nkMSESSE nk -4. 在显著性水平 条件下的临界值(1)Fk,nk5. 判断:如果采用样本数据计算的结果 , 则拒绝原假设,认为因变量和该自变量之间的线性关系显著。(2)FF k,nkF F检验通不过的可能原因检验通不过的可能原因(1 1)选择自变量时漏掉了某些有重要影响)选择自变量时漏掉了某些有重要影响 的因素;的因素;(2 2)自变量与因变量的关系是非线性的。)自变量与因变量的关系是非线性的。四、回归系数的显著性检验 检验内容:检验因变量和每个自变量的线性关系。2. 建立原假设和备择假设:01:0:01 2iiHHi, ,k3. 构造统计量(1)()iiit t nkS 4.在显著性水平 条件下的临界值21tnk()5.判断:如果采用样本数据计算的结果 , 则拒绝原假设,认为因变量和该自变量之间的线性关系显著。)k(nttit t检验通不过的可能原因检验通不过的可能原因(1 1)选择的自变量对因变量事实上并无显著影响;)选择的自变量对因变量事实上并无显著影响;(2 2)选择的自变量具有多重共线性。)选择的自变量具有多重共线性。五、序列相关检验(DW检验)检验内容:检验随机误差项的无序列相关假设 是否成立。2. 方法:与一元回归相同。六、多元回归的显著性检验小结拟合优度的检验需要采用修正判定系数;回归方程的显著性检验和回归系数的显著性检验不再一致,需要分别进行;序列相关检验与一元回回归是一致的。七、续例2.2,给定显著性水平 ,进行检验解:根据运行结果(1)方程的拟合优度较高;(2)方程通过显著性检验;(4)回归系数的显著性检验 ,均大于临界值3.201,所以回归系数均显著。(3) 在2附近,不存在序列相关。.R7),(FF.9226. 4948.188805. 0956. 1DW.t.t2.3 利用多元线性回归方程进行预测一、点预测当给定自变量的某一特定值为对因变量进行点估计为用矩阵表示为 。二、区间预测 给定置信水平 ,置信区间为其中, 是自由度为年n-k-1的t分布临界值。010200(1,)kXxxx001 100kkyxx00YX B21000(1)1()TTYtnkXX XX1t2.4 2.4 解释变量的选择解释变量的选择一、因素分析一、因素分析 因素分析是一种定性分析。它是预测时选择自变量的第一步。凭借对预测对象的熟悉、了解,分析找到影响预测对象的所有因素,从中选择。二、简单相关分析二、简单相关分析 分别计算预测对象与各影响因素的简单相关系数,选择那些与预测对象相关程度高者作为自变量。 三、逐个剔除法(后退法)三、逐个剔除法(后退法) 首先将与预测对象有关的全部因素引入方程,建立模型,然后依据每个回归系数的t值大小,逐个剔除那些不显著的变量,直到模型中包含的变量都是影响预测对象的显著因素为止。(1)当不显著的变量较多时,不能同时剔除,要从最小的那个系数所对应的变量开始逐一删除。注意:(2)删除一个变量后腰观察其他统计量的变化,如果有所改善,认为剔除是适宜的;否则应保留在模型中。四、前进法四、前进法1、基本思想:由少到多,每次增加一个自变量,直至没有可引入的变量为止。2. 具体做法:(1)对于全部k个自变量,分别对因变量Y建立k个一元线性回归方程,并分别计算这k个一元回归方程回归系数的t值,选择最显著的一个引入。(2)因变量Y分别与 ,建立k-1个二元线性回归方程,对这k-1个回归方程中的回归系数 进行t检验,选择最显著的一个引入。1213141( ,) ( ,) ( ,)( ,)kx xx xx xx x, ,,2,3,jxjk(3)依上述方法接着做下去。直至所有未被引入方程的自变量t检验通过不了时,得到的回归方程就是最终确定的方程。五、五、 逐步回归法逐步回归法 基本思想:有进有出。2.具体做法 将变量一个一个引入,引入变量的条件是其t统计量经检验是显著的。即每引入一个自变量后,对已经被选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。 这个过程反复进行,直到既无显著的自变量选入,也无不显著自变量从回归方程中剔除为止。这样就保证了最后所得的回归子集是“最优”回归子集。 尽管数学方法对变量的正确选择可能有一些帮尽管数学方法对变量的正确选择可能有一些帮助,但在处理具体问题时,变量的正确选择在根本助,但在处理具体问题时,变量的正确选择在根本上还是要依赖于所研究问题本身的上还是要依赖于所研究问题本身的专业知识和实践专业知识和实践经验经验。 当应用某种准则和方法选出的当应用某种准则和方法选出的“最优最优”变量组变量组明显地与实际问题本身的专业理论不一致时,需要明显地与实际问题本身的专业理论不一致时,需要首先重新考虑我们的统计结论。首先重新考虑我们的统计结论。 不能把自变量选择方法看成僵死不能把自变量选择方法看成僵死的的“教条教条”机械搬用。机械搬用。2.5 多重共线性多重共线性 多重共线性即自变量之间的线性约束,是由两多重共线性即自变量之间的线性约束,是由两个或更多个自变量具有高度线性相关而致。个或更多个自变量具有高度线性相关而致。 如在如在居民家庭的消费支出居民家庭的消费支出回归分析中,选择回归分析中,选择家家庭收入庭收入、家庭储蓄家庭储蓄及及家庭人口家庭人口,这三个自变量之间,这三个自变量之间也表现为较高度的相关。也表现为较高度的相关。一、多重共线性出现的原因一、多重共线性出现的原因(1)各经济变量之间存在内在联系)各经济变量之间存在内在联系如生产函数表示为如生产函数表示为QAK LQ表示产值,表示产值,K是资金,是资金,L是劳动。是劳动。一般来说大企业有雄厚的资金和充足的劳动力,而一般来说大企业有雄厚的资金和充足的劳动力,而小企业的资金和劳动力都较小。这说明资金和劳动小企业的资金和劳动力都较小。这说明资金和劳动力之间有内在的联系。因而存在多重共线性。力之间有内在的联系。因而存在多重共线性。(2)各经济变量在时间上有共同增长的趋势)各经济变量在时间上有共同增长的趋势经济、人民群众收入、消费支出、储蓄经济、人民群众收入、消费支出、储蓄(3 3)在建模时引入了一些解释变量的滞后值作)在建模时引入了一些解释变量的滞后值作为新的解释变量。为新的解释变量。如,在研究消费函数时,不仅把现期收入而且把如,在研究消费函数时,不仅把现期收入而且把上期的收入都作为解释变量,这就明显地出现多上期的收入都作为解释变量,这就明显地出现多重共线性。重共线性。二、多重共线性的基本性质二、多重共线性的基本性质1 1、改变回归系数、改变回归系数以两个自变量完全相关为例以两个自变量完全相关为例如果如果 , 则则 11220a Xa X1212aXXa 即即21XaX11211111122212121211111111Xnnnnxxxaxxxxaxxxxax最小二乘法,回归系数最小二乘法,回归系数()T1TBX XX Y1X当当 和和 完全相关时,显然,完全相关时,显然, . .2XTX X =0()T1X X不存在,回归系数也不存在不存在,回归系数也不存在.()T1X X不存在,回归系数也不存在不存在,回归系数也不存在.1X当当 和和 不是完全相关,而是高度相关时,不是完全相关,而是高度相关时,2XTX X接近于零。这时接近于零。这时1().() .()T1TTTTBX XX YX XX YX XB表现出不确定性。表现出不确定性。多重共线性的存在,改变了回归系数多重共线性的存在,改变了回归系数b b,并因,并因此使其标准差增大,以致使该参数的此使其标准差增大,以致使该参数的t t检验通检验通不过。不过。有兴趣参阅有兴趣参阅p57 2-D p57 2-D 当多重共线性存在时,任何一个自变量的回归系数,当多重共线性存在时,任何一个自变量的回归系数,依赖于包括在模型中的其他自变量。所以,回归系依赖于包括在模型中的其他自变量。所以,回归系数并不反映方程中任何一具体自变量对因变量的影数并不反映方程中任何一具体自变量对因变量的影响。响。2、不降低模型的拟合能力、不降低模型的拟合能力 回归方程的回归方程的F F检验和拟合优度检验和拟合优度R R2 2,在某种意义,在某种意义上都反映变量上都反映变量Y Y与诸与诸X X之间的线性回归关系,或者说之间的线性回归关系,或者说反映回归模型对因变量实际观测值的拟合能力。反映回归模型对因变量实际观测值的拟合能力。多重共线性的存在不妨碍这种拟合能力。多重共线性的存在不妨碍这种拟合能力。3 3、对回归平方和的影响、对回归平方和的影响 存在多重共线性时,一个自变量引起总离差存在多重共线性时,一个自变量引起总离差的减少必须看作是与包括在同一方程中的其他自的减少必须看作是与包括在同一方程中的其他自变量相关连。变量相关连。因此,没有一个唯一的平方和能属于某一自变量因此,没有一个唯一的平方和能属于某一自变量作为反映作为反映Y Y总离差的减少。总离差的减少。 同一回归方程中,二个自变量不相关时,一同一回归方程中,二个自变量不相关时,一个自变量在降低剩余平方和中的边际作用和它单个自变量在降低剩余平方和中的边际作用和它单独在该方程中的作用完全相等。独在该方程中的作用完全相等。 121()()SSR X XSSR X121()()SSR X XSSR X三、多重共线性的识别和消除三、多重共线性的识别和消除 预测时,遇到下列情况往往表明有多重共线预测时,遇到下列情况往往表明有多重共线性的存在性的存在.1 1、回归模型的、回归模型的F F检验通过,而有的回归系数的检验通过,而有的回归系数的t t检检验未通过。验未通过。2 2、模型中增加或删除一个自变量,回归系数的估、模型中增加或删除一个自变量,回归系数的估计值有较大的变化。计值有较大的变化。3 3、回归系数估计值的符号与实际经验判断的相反。、回归系数估计值的符号与实际经验判断的相反。4、简单相关系数矩阵中,两个自变量之间的相关系、简单相关系数矩阵中,两个自变量之间的相关系数值较大。通常,简单相关系数数值较大。通常,简单相关系数r0.7,应考虑有多,应考虑有多重共线性存在。重共线性存在。消除共线性最简单的办法是:删除共线性组中自消除共线性最简单的办法是:删除共线性组中自变量与因变量的简单相关系数最小者。变量与因变量的简单相关系数最小者。消除多重共线性是采用最小二乘估计所必须得。消除多重共线性是采用最小二乘估计所必须得。2.6 2.6 预测实例预测实例影响因素:影响因素:预测对象:蔬菜销售量预测对象:蔬菜销售量Y消费人口消费人口1X蔬菜年平均价格蔬菜年平均价格2X瓜果年人均消费量瓜果年人均消费量3X副食年人均消费量副食年人均消费量4X粮食年人均消费量粮食年人均消费量5X人均月生活费收入人均月生活费收入6X47 结束语结束语