第九章-面板数据模型.pptx
第一节第一节 面板数据与面板数据模型面板数据与面板数据模型第二节第二节 固定影响模型固定影响模型第三节第三节 随机影响模型随机影响模型第四节第四节 SURSUR模型模型第五节第五节 随机系数模型随机系数模型第六节第六节 动态面板数据模型动态面板数据模型第1页/共83页关于关于Panel Data ModelPanel Data Model独立的计量经济学分支独立的计量经济学分支 比较多地用于宏观经济分析比较多地用于宏观经济分析统计数据统计数据 也可以用于微观经济分析也可以用于微观经济分析调查数据调查数据几种翻译几种翻译 面板数据模型面板数据模型 综列数据模型综列数据模型 平行数据模型平行数据模型第2页/共83页本课程包括内容本课程包括内容变截矩模型变截矩模型(Variable-Intercept Models)(Variable-Intercept Models)固定影响固定影响(Fixed-Effects)(Fixed-Effects)随机影响随机影响(Random-Effects)(Random-Effects)变系数模型变系数模型(Variable-Coefficient Models)(Variable-Coefficient Models)动态变截矩模型动态变截矩模型(Dynamic Models with Variable(Dynamic Models with Variable Intercepts)Intercepts)第3页/共83页第一节第一节 面板数据与面板数据模型面板数据与面板数据模型一、面板数据一、面板数据 混合数据混合数据(pooled data)是指将横截面数据和时间序列数据结合是指将横截面数据和时间序列数据结合在一起的数据。在一起的数据。混合数据包含不同横截面个体不同时期的数据,或者说,混合数据混合数据包含不同横截面个体不同时期的数据,或者说,混合数据包含既跨越时间又跨越空间的数据。包含既跨越时间又跨越空间的数据。如果混合数据包含的观测值来自同一批地区、公司、人员或其它横如果混合数据包含的观测值来自同一批地区、公司、人员或其它横截面个体的不同时期数据,则此类混合数据称为截面个体的不同时期数据,则此类混合数据称为面板数据面板数据(panel data)。第4页/共83页 如果混合数据包含的观测值来自从一个大总体中随机抽样如果混合数据包含的观测值来自从一个大总体中随机抽样的主体不同时期的数据,则此类混合数据称为的主体不同时期的数据,则此类混合数据称为非面板混合数据非面板混合数据。例如,我们每年对北京市固定的一万户家庭消费的观测记例如,我们每年对北京市固定的一万户家庭消费的观测记录所得到的数据集就是面板数据;而我们每年对北京市居民家录所得到的数据集就是面板数据;而我们每年对北京市居民家庭随机抽样一万户家庭消费的观测记录所得到的数据集就是非庭随机抽样一万户家庭消费的观测记录所得到的数据集就是非面板混合数据。在实践中,面板数据通常比非面板混合数据更面板混合数据。在实践中,面板数据通常比非面板混合数据更有用,这是因为面板数据中的地区、公司、人员等横截面个体有用,这是因为面板数据中的地区、公司、人员等横截面个体在各时期中一直保持不变,这使得我们更易于对这类个体随着在各时期中一直保持不变,这使得我们更易于对这类个体随着时间的推移所发生的变动进行比较和分析。时间的推移所发生的变动进行比较和分析。第5页/共83页 相应地,我们将基于面板数据的回归模型称为相应地,我们将基于面板数据的回归模型称为面板数据面板数据模型模型(panel data modelpanel data model)。面板数据模型可以分为)。面板数据模型可以分为单方程单方程面板数据模型和联立方程面板数据模型面板数据模型和联立方程面板数据模型;也可以分为;也可以分为线性面线性面板数据模型和非线性面板数据模型板数据模型和非线性面板数据模型(如离散被解释变量面板(如离散被解释变量面板数据模型、受限被解释变量面板数据模型)。数据模型、受限被解释变量面板数据模型)。二、面板数据模型的优点二、面板数据模型的优点1 1利用面板数据进行的经济分析更全面利用面板数据进行的经济分析更全面2 2利用面板数据能够改进估计的有效性利用面板数据能够改进估计的有效性第6页/共83页三、分析面板数据的一般模型框架三、分析面板数据的一般模型框架 分析面板数据的基本框架是形如下式的回归模型:分析面板数据的基本框架是形如下式的回归模型:其中第7页/共83页 中有中有k k个解释变量,不包括常数项。个解释变量,不包括常数项。异质性或个体异质性或个体影响影响 由由 表示,其中表示,其中 包含一个常数项和一组体现横包含一个常数项和一组体现横截面个体影响但不随时间变化的变量,例如可观测的种族、截面个体影响但不随时间变化的变量,例如可观测的种族、性别等,或无法观测的家庭特征、偏好等,所有这些变量性别等,或无法观测的家庭特征、偏好等,所有这些变量都只体现横截面个体特征,而不随时间变化。如果所有横都只体现横截面个体特征,而不随时间变化。如果所有横截面个体的截面个体的 都可以观测到,那么整个模型可被视为一个都可以观测到,那么整个模型可被视为一个普通线性模型,并可用最小二乘法来拟合。但在大多数应普通线性模型,并可用最小二乘法来拟合。但在大多数应用中,用中,不可观测,处理起来就要复杂得多。不可观测,处理起来就要复杂得多。第8页/共83页分析的主要目标是偏效应(分析的主要目标是偏效应(partial effectspartial effects)的一致和有效)的一致和有效估计:估计:是否能达到这个目标取决于有关不可观测的影响的假是否能达到这个目标取决于有关不可观测的影响的假设。我们以自变量的严格外生性假设作为起点设。我们以自变量的严格外生性假设作为起点,该假设为:该假设为:即当期扰动项与过去、现在和未来的每一期中的自变量都即当期扰动项与过去、现在和未来的每一期中的自变量都无关。无关。第9页/共83页模型关注的重要方面是异质性,这方面特别方便的一个假模型关注的重要方面是异质性,这方面特别方便的一个假设是所谓的设是所谓的均值独立均值独立(mean independencemean independence):):如果该假设成立,即不可观测的变量与包括在模型中的如果该假设成立,即不可观测的变量与包括在模型中的变量无关,那么下面将看到,可以将它们包括在模型的扰动变量无关,那么下面将看到,可以将它们包括在模型的扰动项中,这正是随机影响模型的基础假设。可是,这是一个很项中,这正是随机影响模型的基础假设。可是,这是一个很强的假设,很多情况下无法满足。弱一些的假设是:强的假设,很多情况下无法满足。弱一些的假设是:假设条件放宽了,模型的适应面也宽了,但复杂性也大假设条件放宽了,模型的适应面也宽了,但复杂性也大大增加了,因为需要有关函数性质的假设。大增加了,因为需要有关函数性质的假设。第10页/共83页四、模型结构四、模型结构 我们将研究分析面板数据的各类模型,它们大致可分为我们将研究分析面板数据的各类模型,它们大致可分为如下几种类型:如下几种类型:1 1混合回归(混合回归(pooled regressionpooled regression)若若 中仅包含常数项,则模型形式如下:中仅包含常数项,则模型形式如下:这类模型假设所有的横截面个体在各个不同时期的斜这类模型假设所有的横截面个体在各个不同时期的斜率和截距都是相同的,这样就可以直接把面板数据混合在率和截距都是相同的,这样就可以直接把面板数据混合在一起,用一起,用OLSOLS估计参数,得到一致和有效估计量。估计参数,得到一致和有效估计量。由于混合回归模型假设解释变量对被解释变量的影响由于混合回归模型假设解释变量对被解释变量的影响与横截面个体无关,这在现实中是很难成立的,所以应用与横截面个体无关,这在现实中是很难成立的,所以应用不广。不广。第11页/共83页2 2固定影响(固定影响(fixed effectsfixed effects)如果如果 不可观测,但与不可观测,但与 相关,则由于遗漏了有关变量,相关,则由于遗漏了有关变量,的的OLSOLS估计量是有偏和不一致的。可是在这种情况下,模型估计量是有偏和不一致的。可是在这种情况下,模型包含了所有可观测的影响,并且设定了一个可估计的条件包含了所有可观测的影响,并且设定了一个可估计的条件均值。这就是固定影响模型。均值。这就是固定影响模型。其中其中 。固定影响模型将。固定影响模型将 视为回归模型中每一个体各视为回归模型中每一个体各自不同的常数项。注意,这里使用的自不同的常数项。注意,这里使用的“固定固定”一词是表明一词是表明 和和 的相关,并不表明的相关,并不表明 是非随机的。是非随机的。第12页/共83页固定影响模型可分为三类,即个体固定影响固定影响模型可分为三类,即个体固定影响模型(模型(Entity fixed effects modelEntity fixed effects model)、时点固)、时点固定影响模型(定影响模型(Time fixed effects modelTime fixed effects model)和个)和个体时点固定影响模型(体时点固定影响模型(Entity and time fixed Entity and time fixed effects modeleffects model)。在本章中,我们只介绍个体固)。在本章中,我们只介绍个体固定影响模型。定影响模型。第13页/共83页 这是一个带复合扰动项的线性回归模型。可用这是一个带复合扰动项的线性回归模型。可用OLSOLS法估计,法估计,得到一致但非有效的估计量。(得到一致但非有效的估计量。(9.49.4)称为随机影响模型。)称为随机影响模型。这里这里 是一个反映横截面个体影响的随机元素。是一个反映横截面个体影响的随机元素。固定影响模型和随机影响模型的关键区别是未观测到的固定影响模型和随机影响模型的关键区别是未观测到的个体影响是否包含与模型中解释变量相关的元素,而不在于个体影响是否包含与模型中解释变量相关的元素,而不在于这些影响是否随机。这些影响是否随机。3 3随机影响(随机影响(random effectsrandom effects)如果未观测到的个体异质性可以被假定与包括在模型如果未观测到的个体异质性可以被假定与包括在模型中的变量无关,则模型可设定为中的变量无关,则模型可设定为第14页/共83页4.4.随机系数(随机系数(random coefficientsrandom coefficients)随机影响模型可看成是一个带有随机常数项的回归模型。随机影响模型可看成是一个带有随机常数项的回归模型。如果数据集足够丰富,我们可以将此思路扩展到其它系数如果数据集足够丰富,我们可以将此思路扩展到其它系数也随着个体随机变动的模型,从而得到随机系数模型:也随着个体随机变动的模型,从而得到随机系数模型:其中其中 是一个引起参数跨个体变动的随机向量是一个引起参数跨个体变动的随机向量。第15页/共83页第二节 固定影响模型一、固定影响模型的设定一、固定影响模型的设定 上一节给出了分析面板数据的一般模型上一节给出了分析面板数据的一般模型固定影响模型源于一般模型中被遗漏的影响固定影响模型源于一般模型中被遗漏的影响 与包括的变与包括的变量量 相关的假设,此假设的一般形式是:相关的假设,此假设的一般形式是:(9.6)由于上式中的条件均值在所有时期中都相同,我们可将模由于上式中的条件均值在所有时期中都相同,我们可将模型写成型写成:第16页/共83页 这就是固定影响模型。从模型的设定可知,固定影响模这就是固定影响模型。从模型的设定可知,固定影响模型假设横截面个体之间的差异为截距不同,而斜率系数相同,型假设横截面个体之间的差异为截距不同,而斜率系数相同,即允许不同的横截面个体的截距是不同的,但每一个体的截即允许不同的横截面个体的截距是不同的,但每一个体的截距在各个不同时期则保持不变。换句话说,固定影响模型假距在各个不同时期则保持不变。换句话说,固定影响模型假定不同横截面个体的差异可用不同的常数项定不同横截面个体的差异可用不同的常数项 来描述,在来描述,在此模型中,此模型中,被作为要估计的未知参数。被作为要估计的未知参数。如果进一步假设如果进一步假设 为常数,则在此假设下,为常数,则在此假设下,(9.79.7)变成经典线性回归模型。)变成经典线性回归模型。括号项可通过构造使其与括号项可通过构造使其与 不相关,因而可将其吸收到不相关,因而可将其吸收到扰动项中,模型可写为扰动项中,模型可写为(9.7)第17页/共83页二、固定影响模型的参数估二、固定影响模型的参数估计计固定影响模型参数的估计方法有两种,一种固定影响模型参数的估计方法有两种,一种是是最小二乘虚拟变量(最小二乘虚拟变量(LSDVLSDV)估计法)估计法,另一种是,另一种是组内估计(组内估计(Within EstimatorWithin Estimator)或称协方差估计)或称协方差估计(The Analysis of Covariance EstimationThe Analysis of Covariance Estimation,ANCOVAANCOVA)。下面介绍这两种参数估计方法。)。下面介绍这两种参数估计方法。第18页/共83页1.LSDV估计法估计法 设设 和和 为第为第i i个横截面单元的个横截面单元的T T个观测值,个观测值,是一个是一个元素全为元素全为1 1的的 列向量,列向量,为相应的扰动项为相应的扰动项 列向列向量,则量,则:(9.8)将全部将全部i i个单元汇集在一起,给出个单元汇集在一起,给出 第19页/共83页或(9.9)这里这里 是第是第i i个单元为个单元为1 1其它单元为其它单元为0 0的虚拟变量。设的虚拟变量。设 矩阵矩阵 ,则将所有,则将所有 行组合在一起,有行组合在一起,有此模型通常称为最小二乘虚拟变量模型此模型通常称为最小二乘虚拟变量模型(least(least squares dummy variable modelsquares dummy variable model,LSDVM)LSDVM)。此模型是一个。此模型是一个经典线性回归模型。如果经典线性回归模型。如果n n足够小,模型就可用足够小,模型就可用OLSOLS法估计,法估计,y y对对X X中中K K个解释变量和个解释变量和D D中的中的n n列回归,共列回归,共 个参数。个参数。第20页/共83页实际应用中,实际应用中,n n 通常很大,数以千计,模型很可能超出通常很大,数以千计,模型很可能超出任何计算机的存储容量。可考虑使用分块回归技术以减少计任何计算机的存储容量。可考虑使用分块回归技术以减少计算量。有关分块回归技术的详细讨论参见算量。有关分块回归技术的详细讨论参见GreeneGreene(20082008)。)。另一方面,运用另一方面,运用LSDVLSDV估计固定影响模型,需要加入估计固定影响模型,需要加入n n个个虚拟变量,当模型中的虚拟变量的个数虚拟变量,当模型中的虚拟变量的个数n n很大时,回归中会很大时,回归中会损失大量的自由度。解决这个问题的思路是对模型进行变换,损失大量的自由度。解决这个问题的思路是对模型进行变换,消去常数项消去常数项 ,再用变换后的模型回归。,再用变换后的模型回归。为表达方便起见,不失一般性,我们用双变量模型来说为表达方便起见,不失一般性,我们用双变量模型来说明。在这种情况下,模型(明。在这种情况下,模型(9.79.7)简化成:)简化成:第21页/共83页(9.10)我们对第我们对第i i个横截面个体在时间上求均值,则有个横截面个体在时间上求均值,则有(9.109.10)()(9.119.11),得),得这样在模型(这样在模型(9.129.12)中,常数项就被去掉了。令)中,常数项就被去掉了。令则模型转换为则模型转换为对模型(对模型(9.139.13)运用)运用OLSOLS进行回归,就得到进行回归,就得到 的的OLSOLS估计值。估计值。第22页/共83页再令再令定义定义 ,称为组内均值。组内平方和及交叉乘积和为:称为组内均值。组内平方和及交叉乘积和为:2.组内估计法组内估计法为表达方便起见,先考虑双变量模型为表达方便起见,先考虑双变量模型,假定假定 。第23页/共83页参数和的估计值由关于和最小化得到。我们有第24页/共83页第25页/共83页不难看出,上式中不难看出,上式中1 1、3 3两项分别是两项分别是 ;而;而2 2、4 4两项内层求和号中都是离差和,内层对两项内层求和号中都是离差和,内层对t t求和恒等于求和恒等于0 0。因。因此我们得到此我们得到被称为组内估计量,记为被称为组内估计量,记为 或或 。为了使组内估计量是一致估计量,必须满足为了使组内估计量是一致估计量,必须满足 ,而满足此条件的充分条件是,而满足此条件的充分条件是 与与 不相关,则不相关,则 与与 也不相关。即满足也不相关。即满足第26页/共83页也就是说也就是说 是严格外生的。是严格外生的。在多个解释变量的情况下,在多个解释变量的情况下,前面的结果变为前面的结果变为第27页/共83页三、检验个体影响的显著性三、检验个体影响的显著性 如果我们对不同横截面个体的差异感兴趣,我们可以用如果我们对不同横截面个体的差异感兴趣,我们可以用F F检验来检验每个横截面个体的常数项是否都相等。即假设检验来检验每个横截面个体的常数项是否都相等。即假设 ,检验的,检验的F F统计量为:统计量为:F(n-1,nT-n-K)或F(n-1,nT-n-K)式中,式中,为最小二乘虚拟变量模型的决定系数,为最小二乘虚拟变量模型的决定系数,为受约束模型(即混合回归模型)的决定系数;为受约束模型(即混合回归模型)的决定系数;受约受约束模型的残差平方和,束模型的残差平方和,为最小二乘虚拟变量模型的残为最小二乘虚拟变量模型的残差平方和。差平方和。在给定的显著性水平下,如果拒绝了原假设,则将模型在给定的显著性水平下,如果拒绝了原假设,则将模型设定为固定影响模型;如果接受原假设,则模型设定为混设定为固定影响模型;如果接受原假设,则模型设定为混合回归模型。合回归模型。第28页/共83页例例9.1 9.1 我们搜集我国我们搜集我国2001200120072007年我国内地年我国内地3131个省市自治区个省市自治区城镇居民家庭人均年可支配收入、城镇居民家庭人均年消费城镇居民家庭人均年可支配收入、城镇居民家庭人均年消费支出和各地区城镇居民消费价格指数的数据,建立消费收入支出和各地区城镇居民消费价格指数的数据,建立消费收入模型,以研究城镇居民的消费行为。模型,以研究城镇居民的消费行为。模型中用到的变量是:模型中用到的变量是:C Citit=i=i省市第省市第t t年城镇居民人均消费,单位:元年城镇居民人均消费,单位:元Y Yitit=i=i省市第省市第t t年城镇居民人均收入,单位:元年城镇居民人均收入,单位:元P Pitit=i=i省市第省市第t t年城镇居民消费价格指数(年城镇居民消费价格指数(19851985100100)事实上,对于这事实上,对于这3 3个变量中的每一个,都有个变量中的每一个,都有217217个观测值个观测值(3131个省市乘以个省市乘以7 7年)。由于在每个时期(每一年)都是这年)。由于在每个时期(每一年)都是这3131个省市,因此这些混合数据是面板数据。个省市,因此这些混合数据是面板数据。现实中,即使每个时期中每个省市的消费与收入之间的现实中,即使每个时期中每个省市的消费与收入之间的关系都相同,但经济发达的省市与经济落后的省市的城镇居民关系都相同,但经济发达的省市与经济落后的省市的城镇居民的消费模式、消费理念肯定是有差别的。因此,为简单起见,的消费模式、消费理念肯定是有差别的。因此,为简单起见,我们假定采用固定影响模型,模型形式如下:我们假定采用固定影响模型,模型形式如下:第29页/共83页 此模型的回归我们不采用此模型的回归我们不采用LSDVLSDV法,这会损失很多的自法,这会损失很多的自由度,因而采用组内估计法。由度,因而采用组内估计法。应用应用EViews6EViews6,估计模型参数,结果为:,估计模型参数,结果为:3131个省市自治个省市自治区城镇居民家庭人均年边际消费倾向均为区城镇居民家庭人均年边际消费倾向均为0.5520.552,自主性消,自主性消费(截距项)有很大差异,见表费(截距项)有很大差异,见表9.19.1。第30页/共83页打开一个对象:打开一个对象:PoolPool,输,输入横截面个体标识。入横截面个体标识。在在poolpool窗口中点击工具栏窗口中点击工具栏SheetSheet,在弹出的窗口中,在弹出的窗口中输入变量名,各变量之间输入变量名,各变量之间以空格隔开。以空格隔开。第31页/共83页第32页/共83页cpcp和和ypyp的数据可用公式产生。在的数据可用公式产生。在PoolPool窗口中点击工具栏窗口中点击工具栏PoolGenrPoolGenr,在弹出的窗口中输入,在弹出的窗口中输入cp?=c?/p?*100cp?=c?/p?*100,点击,点击OKOK即可。即可。第33页/共83页在在PoolPool窗口中点击菜单窗口中点击菜单ProcProcEstimateEstimate:第34页/共83页在在Pool EstimationPool Estimation窗口中,在窗口中,在Dependent variableDependent variable中输中输入入cp?cp?,在,在Common coefficientsCommon coefficients中输入中输入c yp?c yp?(c c表示截表示截距项),在距项),在CrossCrosssectionsection中选择中选择FixedFixed,其他选择项按,其他选择项按默认选项,点击确定,则得到固定影响模型的估计结果:默认选项,点击确定,则得到固定影响模型的估计结果:第35页/共83页第36页/共83页地区地区自主性消费自主性消费水平(元)水平(元)地区地区自主性消自主性消费水平费水平(元)(元)地区地区自主性消费自主性消费水平(元)水平(元)广东省广东省3066.09 福建省福建省1776.53 安徽省安徽省1486.75 北京市北京市3050.22 湖北省湖北省1753.70 青海省青海省1457.59 上海市上海市2955.21 甘肃省甘肃省1705.62 贵州省贵州省1412.96 重庆市重庆市2501.59 吉林省吉林省1659.79 山东省山东省1393.78 浙江省浙江省2470.95 宁夏回族自宁夏回族自治区治区1657.24 河北省河北省1388.96 西藏自治区西藏自治区2265.71 云南省云南省1647.26 广西壮族自广西壮族自治区治区1377.02 天津市天津市2218.72 内蒙古自治内蒙古自治区区1620.24 黑龙江省黑龙江省1333.89 陕西省陕西省1964.33 新疆维吾尔新疆维吾尔自治区自治区1580.79 山西省山西省1284.16 辽宁省辽宁省1947.03 海南省海南省1561.05 江西省江西省1109.25 湖南省湖南省1914.40 江苏省江苏省1493.19 河南省河南省1082.78 四川省四川省1864.45 表表9.1 全国全国31省市自治区自主性消费水平省市自治区自主性消费水平第37页/共83页从表从表9.19.1可看出,我国各地区城镇居民的自主性消费水平存可看出,我国各地区城镇居民的自主性消费水平存在较大的差异,广东、北京、上海等居民自主性消费水平几乎在较大的差异,广东、北京、上海等居民自主性消费水平几乎是江苏、安徽、青海等居民的两倍,江西、河南居民的三倍。是江苏、安徽、青海等居民的两倍,江西、河南居民的三倍。我们可以利用回归结果来检验我们可以利用回归结果来检验3131个省市的截距是否相同,个省市的截距是否相同,原假设和备择假设是:原假设和备择假设是:检验的具体做法与我们在第二章中介绍的涉及多个系检验的具体做法与我们在第二章中介绍的涉及多个系数的联合假设检验类似,即首先进行约束回归和无约束回数的联合假设检验类似,即首先进行约束回归和无约束回归,然后用得到的两个残差平方和计算归,然后用得到的两个残差平方和计算F F检验量,进行检验。检验量,进行检验。第38页/共83页 本例中约束回归就是混合回归模型;而无约束回归就是本例中约束回归就是混合回归模型;而无约束回归就是固定影响模型,因为它允许不同省市的截距取不同值。固定影响模型,因为它允许不同省市的截距取不同值。本例中本例中F F检验量计算如下:检验量计算如下:查表,查表,5 5显著性水平下,显著性水平下,F(30,185)=1.46F(30,185)=1.46,因为因为F F10.55 Fc10.55 Fc1.461.46,故拒绝原假设,故拒绝原假设H H0 0。结论:结论:3131个省市的截距不全相等。个省市的截距不全相等。第39页/共83页第三节 随机影响模型固定影响模型允许未观测到的个体影响与包括的变固定影响模型允许未观测到的个体影响与包括的变量相关。如果个体影响与解释变量严格不相关,那么在模量相关。如果个体影响与解释变量严格不相关,那么在模型中将个体的常数项设定为跨横截面单元随机分布,可能型中将个体的常数项设定为跨横截面单元随机分布,可能是恰当的。如果横截面个体是随机地被选择出来以代表一是恰当的。如果横截面个体是随机地被选择出来以代表一个较大的总体,则采用随机影响模型(个较大的总体,则采用随机影响模型(random effects random effects modelmodel)比较合适。随机影响模型与固定影响模型一样,)比较合适。随机影响模型与固定影响模型一样,通过允许截距变动来处理横截面个体之间的差异,但截距通过允许截距变动来处理横截面个体之间的差异,但截距变动的量是随机的。变动的量是随机的。采用随机影响模型的好处是它大大减少了要估计的参数,采用随机影响模型的好处是它大大减少了要估计的参数,代价是,如果我们关于随机常数项的假设被证明不恰当的话,代价是,如果我们关于随机常数项的假设被证明不恰当的话,得到的估计值可能是不一致的。得到的估计值可能是不一致的。第40页/共83页假设:假设:由于是一个随机变量,则模型(由于是一个随机变量,则模型(9.149.14)的扰动项有两个)的扰动项有两个分量,一个是分量,一个是 ,一个是,一个是 ,令,令 ,其中满足,其中满足OLSOLS关于扰动项的假设条件,代表每个横截面个体的截距与截关于扰动项的假设条件,代表每个横截面个体的截距与截距均值之间的差异,这个分量不随时间改变,但对于每个横距均值之间的差异,这个分量不随时间改变,但对于每个横截面个体都不同。截面个体都不同。一、随机影响模型的设定一、随机影响模型的设定 为简单起见,我们在此仅介绍一元随机影响模型,所得为简单起见,我们在此仅介绍一元随机影响模型,所得到的结果不难推广到多元的一般情形。一元随机影响模型可到的结果不难推广到多元的一般情形。一元随机影响模型可表示为表示为第41页/共83页 由于扰动项的这个分量不随时间而变,因此随机影响模由于扰动项的这个分量不随时间而变,因此随机影响模型中的扰动项将不满足型中的扰动项将不满足OLSOLS关于各期扰动项互不相关的假设关于各期扰动项互不相关的假设条件,事实上,我们有条件,事实上,我们有 由上可见,尽管模型的扰动项在不同横截面个体之间是由上可见,尽管模型的扰动项在不同横截面个体之间是独立的,但在同一个横截面个体内是存在自相关的,因此模独立的,但在同一个横截面个体内是存在自相关的,因此模型(型(9.149.14)的估计就不能采用)的估计就不能采用OLSOLS,而需采用广义最小二乘,而需采用广义最小二乘法(法(GLSGLS)进行估计。)进行估计。第42页/共83页二、随机影响模型的参数估二、随机影响模型的参数估计计对模型(对模型(9.149.14)采用)采用GLSGLS进行估计,其进行估计,其GLSGLS估计量为:估计量为:其中其中 、和和 分别是前面介绍过的组内平方和和交分别是前面介绍过的组内平方和和交叉积,而叉积,而 、和和 分别为组间平方和和交叉积,其计分别为组间平方和和交叉积,其计算公式如下:算公式如下:第43页/共83页其中为总平方和及总交叉乘积。第44页/共83页现在我们来考虑两种极端的情况:(1)当为0时,则为1。若为1,则GLS估计量就等价于OLS估计量,模型为经典回归模型。(2)当为0时,为0。若为0,则GLS估计量就等价于固定影响模型中的虚拟变量估计量。这是因为为0时,不同个体之间的全部差异都来自于不同的,而由于在不同时期是保持不变的,这就等同于我们在固定影响背景下所用的虚拟变量。第45页/共83页在实际应用GLS估计时,是未知的,所以必须先对进行估计,即估计。Fuller和Battese(1973)提出了下面的估计方法。对模型(9.14)两边在时间上取均值,则(9.14)(9.15),得对(9.16)进行OLS估计,用得到的残差来估计,即第46页/共83页模型(9.15)中,令,则(9.17)对(9.15)回归,用得到的残差来估计,即然后根据(9.17)用和来估计,得到第47页/共83页最终得到的估计值当模型中有多个解释变量时,广义最小二乘估计量为第48页/共83页三、随机影响的检验Breusch和Pagan(1980)基于拉格朗日乘数(Lagrangemultiplier)法提出了随机影响的检验方法。其原假设和备择假设分别为:原假设表示横截面个体的随机影响不存在,则模型为混合回归模型,其参数可用OLS进行估计。检验统计量如下:第49页/共83页其中例例9.2 仍采用例9.1的数据,假设截距差异是随机的,建立随机影响模型,模型如下:第50页/共83页应用EViews6,估计模型参数,得到31个省市自治区城镇居民家庭的随机影响模型如下:人均年边际消费倾向均为0.585,截距的均值为1499.78,各个省市与截距均值的差异见表9.2。第51页/共83页在Pool Estimation窗口中,在Dependent variable中输入cp?,在Common coefficients中输入c yp?(c表示截距项),在Crosssection中选择Random,其他选择项按默认选项,点击确定,则得到随机影响模型的估计结果:第52页/共83页第53页/共83页表表9.2 随机影响模型中各省市截距与截距均值的差异随机影响模型中各省市截距与截距均值的差异广东省+947.57 湖北省-5.72 青海省-237.66 北京市+869.94 甘肃省-28.77 贵州省-277.98 上海市+758.99 宁夏回族自治区-72.45 江苏省-313.65 重庆市+600.81 吉林省-80.12 河北省-323.20 浙江省+405.36 福建省-85.95 广西壮族自治区-342.78 西藏自治区+401.90 云南省-114.59 黑龙江省-349.45 天津市+286.50 内蒙古自治区-124.96 山东省-366.20 陕西省+179.61 新疆维吾尔自治区-144.96 山西省-410.53 辽宁省+144.45 海南省-175.43 江西省-550.98 湖南省+109.89 安徽省-228.70 河南省-567.76 四川省+96.83 第54页/共83页我们可以利用回归结果来检验31个省市截距随机影响是否存在,原假设和备择假设是:检验统计量如下:第55页/共83页查表,5显著性水平下,=3.84因为LM98.7653.84,故拒绝原假设H0。结论:31个省市的截距存在随机影响,模型应设定为随机影响模型。第56页/共83页四、豪斯曼检验(Hausman Test)豪斯曼检验的思路是在随机影响模型中,如果,即随机影响与解释变量之间没有正交性,则GLS估计量是有偏和非一致的。但是,正交性并不影响固定影响模型的组内估计量的性质。于是,通过检验模型误差项与解释变量的正交性就可解决面板数据模型的设定问题,如果模型误差项与解释变量之间是正交的,即GLS估计量是无偏的,则应将模型设为随机影响模型,否则设为固定影响模型。其原假设与备择假设分别为:第57页/共83页检验统计量为:其中可见,拒绝原假设时,模型设定为固定影响模型;否则,模型应设定为随机影响模型。第58页/共83页例例9.3在例9.1及例9.2中,我们分别假定模型为固定影响模型和随机影响模型,在本例中,我们应用豪斯曼检验来判别我国31个省市的消费模型中的截距差异是确定的还是随机的。应用EViews6,对例9.2随机影响模型进行豪斯曼检验,结果如下表9.3。第59页/共83页表9.3豪斯曼检验结果Test SummaryChi-Sq.StatisticChi-Sq.d.f.Prob.Cross-section random39.37033310.0000从表9.3可知,豪斯曼检验统计量m39.37,其p值小于显著性水平0.05,则拒绝原假设,即城镇消费模型应设定为固定影响模型。第60页/共83页第四节 SUR模型泽尔纳(Zellner)提出的表面不相关回归表面不相关回归(Seeminglyunrelatedregression,SUR)是另一种可供选择的分析面板数据的方法。在SUR模型中,各个方程的扰动项在时间上是独立的,但在横截面单元间相关,GLS法被应用来利用这种扰动项中跨横截面单元的相关:第61页/共83页一、表面不相关回归模型表面不相关回归模型的一般形式为:模型有n个方程,每个横截面单元一个。每个方程都有自己的斜率系数,即每个横截面个体的解释变量对被解释变量的影响是不随时间变化的确定性关系,但随着横截面个体的不同而不同。模型的扰动项满足下列条件:第62页/共83页则模型扰动项的方差协方差矩阵为:,其中第63页/共83页的维数是。第64页/共83页 由假设条件可知,各个回归方程之间实际上由假设条件可知,各个回归方程之间实际上确实有关联。表面不相关回归容许各个回归方程确实有关联。表面不相关回归容许各个回归方程的扰动项之间存在跨方程相关,方程中的诸的扰动项之间存在跨方程相关,方程中的诸u在在任何一个时期中不必相互独立,即不同方程的扰任何一个时期中不必相互独立,即不同方程的扰动项之间可以存在同期相关。动项之间可以存在同期相关。这样,这样,SUR估计程序就可以使用扰动项的相关估计程序就可以使用扰动项的相关来改善估计值。各个回归之间任何的相关都是有来改善估计值。各个回归之间任何的相关都是有价值的信息,它可能是告诉我们某时期中发生了价值的信息,它可能是告诉我们某时期中发生了某些影响不止一个个体的变化或事件,这一变化某些影响不止一个个体的变化或事件,这一变化并没有被任何一个自变量捕捉到,而只能反映在并没有被任何一个自变量捕捉到,而只能反映在扰动项中。扰动项中。第65页/共83页 事实上,在经济活动中,有许多问题具有同期事实上,在经济活动中,有许多问题具有同期相关性,例如,在各种资产定价模型中,由于资产相关性,例如,在各种资产定价模型中,由于资产处于同一个市场环境中,会共同受到政策、市场环处于同一个市场环境中,会共同受到政策、市场环境等不易观测或度量的因素的共同影响,则其扰动境等不易观测或度量的因素的共同影响,则其扰动项会表现出显著的同期相关性。因此,在研究这些项会表现出显著的同期相关性。因此,在研究这些问题时,就可将模型设定为表面不相关模型。问题时,就可将模型设定为表面不相关模型。第66页/共83页二、表面不相关回归模型的参数估计SUR模型的参数估计按以下三个步骤进行:1用OLS法分别估计每个方程,计算和保存回归中得到的残差;2用这些残差来估计扰动项方差和不同回归方程扰动项之间的协方差,即矩阵中各元素:于是得到了和