面板数据模型.总结.doc
Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date面板数据模型.总结第四节 面板数据模型第十讲 经典面板数据模型一、面板数据(panel data)一维数据:时间序列数据(cross section data):变量在时间维度上的数据截面数据(time series data):变量在截面空间维度上的数据)。二维数据: 面板数据(同时在时间和截面空间上取得的,也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据=截面数据+时间序列数据。面板数据用双下标变量表示。例如yi t, i = 1, 2, , N; t = 1, 2, , TN表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,yi ., ( i = 1, 2, , N)是随机变量在横截面上的N个数据;若固定i不变,y. t, (t = 1, 2, , T)是纵剖面上的一个时间序列(个体)。平衡面板数据(balanced panel data)。非平衡面板数据(unbalanced panel data)。例1998-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1。人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。表1.中国部分省级地区的居民数据(不变价格,元)居民家庭人均消费(y)居民家庭人均收入(x)地区1998 1999 2000 2001 2002 1998 1999 2000 2001 2002 AH(安徽)3777 3990 4204 4495 4784 4770 5179 5257 5641 6093 BJ(北京)6807 7454 8206 8654 10473 8273 9128 10000 11230 12692 FJ(福建)5197 5315 5523 6094 6665 6505 6922 7279 8423 9236 HB(河北)3897 4104 4362 4457 5120 5167 5469 5678 5955 6747 HLJ(黑龙江)3290 3597 3891 4159 4494 4251 4747 4998 5383 6144 JL(吉林)3478 3736 4078 4282 4999 4241 4571 4878 5272 6292 JS(江苏)4919 5077 5318 5489 6091 6054 6624 6793 7317 8244 JX(江西)3234 3532 3613 3914 4545 4209 4788 5088 5534 6329 LN(辽宁)3918 4047 4360 4654 5402 4650 4968 5363 5797 6597 NMG(内蒙古)3128 3476 3877 4171 4850 4384 4780 5063 5503 6039 SD(山东)4169 4547 5012 5160 5636 5413 5850 6477 6976 7668 SH(上海)6866 8126 8652 9336 10412 8773 10770 11432 12883 13184 SX(山西)3314 3507 3794 4131 4788 4157 4360 4547 5402 6336 TJ(天津)5499 5917 6146 6904 7221 7146 7735 8173 8852 9375 ZJ(浙江)6237 6601 6951 7968 8792 7860 8530 9187 10486 11822 二、面板数据模型及其作用1.经典面板数据模型建立在古典假定基础上的线性面板数据模型.2.非经典面板数据模型 (1)非平稳时间序列问题的面板数据模型(面板数据协整模型)(2)非线性面板数据模型(如面板数据logit模型, 面板数据计数模型模型)(3)其他模型(如面板数据分位数回归模型)3.面板数据模型作用 (1)描述个体行为差异。 (2)Panel Data能够提供更多信息、更多变化性、更少共线性、更多自由度和更高效率。反观时间序列经常受多重共线性的困扰。 (3)Panel Data能够更好地研究动态调节,横截面分布看上去相对稳定但却隐藏了许多变化,Panel Data由于包含较长时间,能够弄清诸如经济政策变化对经济状况的影响等问题。 (4)Panel Data能更好地识别和度量纯时间序列和纯横截面数据所不能发现的影响因素。 (5)相对于纯横截面和纯时间序列数据而言,Panel Data能够构造和检验更复杂的行为模型。 (6)通常,Panel Data可以收集到更准确的微观单位(个人、企业、家庭)的情况。由此得到的总体数据可以消去测量误差的影响。 尽管Panel Data研究的理论和应用发展很快,但目前仍然存在一些问题需要解决。例如,变量设计和收集数据困难;存在测量误差;存在选择性困难;时间序列较短;等等。 4.目前有关Panel Data的学术专著主要有: 1Analysis of panel data / Cheng Hsiao. 1986. 2Econometric analysis of panel data / Badi H.Baltagi. 1995. 3The Econometrics of panel data : a handbook of the theory with applications / Matyas & Sevestre. 1996. 应用程序软件:stata、 EViews。三、经典面板数据模型的参数估计不变系数模型:yit+xit+uit变截距模型:yiti+xit +uit(时间变截距模型?双变模型?)变系数模型:yiti+ixit +uit(时间变截距模型?双变模型?)(一)不变系数模型(混合估计模型)如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,即各回归系数不随个体或截面的变化而变化,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数,建立不变系数模型(混合估计模型)。 yit = a +b xit +uit, i = 1, 2, , N; t = 1, 2, , T a 和b不随i,t变化。称模型为混合估计模型。数据形式变为:地区年份YX安徽省199847703777199951793990200052574204200156414495200260934784浙江省19987860623719998530660120009187695120011048679682002118228792例以表1中15个地区1996和2002年数据建立关于消费的混合估计模型,得结果如下:输出结果1Dependent Variable: Y?Method: Pooled Least SquaresIncluded observations: 5Number of cross-sections used: 15Total panel (balanced) observations: 75VariableCoefficientStd. Errort-StatisticProb. C73.8196084.483510.8737750.3851X?0.7614650.01171065.028950.0000R-squared0.983030 Mean dependent var5291.773Adjusted R-squared0.982798 S.D. dependent var1745.640S.E. of regression228.9535 Sum squared resid3826637.F-statistic4228.764 Durbin-Watson stat0.864366Prob(F-statistic)0.000000 15个省级地区的人均支出平均约占收入的76%,自发消费为73.82。(二)变截距模型(variable intercept model)即自变量对因变量的效应(斜率)随个体或时间的变化而变化,而截距项却在不同的个体或时间上有所不同,此时可以建立变截距模型。按照样本数据性质的不同,具体分为固定效应模型和随机效应模型。 1.固定效应模型(fixed effects regression model)在面板数据散点图中,如果对于不同的截面或不同的时间序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型。3种类型:1.个体固定效应模型2.时刻固定效应模型3.时刻个体固定效应模型下面只以个体固定效应模型为例进行介绍。个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型。其中,Zi是不随时间变化的潜在变量,不可观察,但与x相联系。上式可以变化为:由于与每一个个体中一个确实存在(但不可观测)的变量有关,所以称为个体固定效应模型。等价于每一个个体有一个方程: y1t =1 +bx1t +u1t, i = 1(对于第1个个体,或时间序列), y2t =2 +bx2t +u2 t, i = 2(对于第2个个体,或时间序列), yN t =N +bxN t +u N t, i = N(对于第N个个体,或时间序列),t = 1, 2, , T 其中eit, i = 1, 2, , N; t = 1, 2, , T,表示随机误差项。yit, xit, i = 1, 2, , N; t = 1, 2, , T分别表示被解释变量和解释变量。引入虚拟变量Wi =写为:yit = b1 xit +1 W1 +2 W2 + +N WN +uit, ( t = 1, 2, , T ) 如果满足如下4个假定条件,上述面板数据模型可以用OLS方法估计:(1)E(uit|xi1, xi2, , xiT, ai) = 0。以xi1, xi2, , xiT, ai为条件的uit的期望等于零。(2)xit,和 uit不相关。(3)不同解释变量之间不存在完全共线性。(4)Cov(uit, uis|xit,xis, ai) = 0, t ¹ s。在固定效应模型中随机误差项uit在时间上是非自相关的。数据结构:地区年份YXDAHDZJ安徽省199847703777100199951793990100200052574204100200156414495100200260934784100000浙江省19987860623700119998530660100120009187695100120011048679680012002118228792001对模型进行OLS估计,全部参数估计量都是无偏的和一致的。模型的自由度是N TN K (k是解释变量个数)例:表1的固定效应模型EViews估计结果:输出结果2Dependent Variable: Y?Method: Pooled Least SquaresDate: 02/14/06 Time: 17:18Sample: 1998 2002Included observations: 5Number of cross-sections used: 15Total panel (balanced) observations: 75VariableCoefficientStd. Errort-StatisticProb. X?0.7041200.01959835.928060.0000Fixed EffectsAH-C456.2010BJ-C1091.289FJ-C356.0866HB-C301.8503HLJ-C291.9486JL-C558.2303JS-C445.4530JX-C113.4984LN-C621.1425NMG-C271.5059SD-C344.3550SH-C645.5164SX-C414.0827TJ-C524.0437ZJ-C566.4419R-squared0.993390 Mean dependent var5291.773Adjusted R-squared0.991709 S.D. dependent var1745.640S.E. of regression158.9451 Sum squared resid1490550.Durbin-Watson stat2.100731= 安徽+ x1t = 456.2 + 0.704 x1t = 北京+x2t = 1091.3 + 0.704 x2t = 浙江+x15t = 566.4 + 0.704 x15t 北京、上海、浙江是消费函数截距(自发消费)最大的3个地区。相对于既定的面板数据样本来说,是否有必要建立个体固定效应模型可以通过约束条件的F检验完成。约束条件的F检验在同一样本数据下,记无约束样本回归方程为 记无约束样本回归方程的残差平方和为RSS无记有约束样本回归方程为有约束样本回归方程残差平方和为RSS约,可以证明RSS约RSS无。这意味着,通常情况下,对模型施加约束条件会降低模型的解释能力。但是,如果约束条件为真,则受约束回归模型与无约束回归模型具有相同的解释能力,RSS约 与 RSS无的差异变小。于是我们可以构造如下统计量: 其中,df约、df无分别为受约束回归模型与无约束回归模型的残差自由度(即样本容量减去待估计参数个数)。根据数理统计学知识,当约束条件为真时, 可以利用这个统计量检验约束条件是否成立。不变系数模型和变截距模型哪一个是受约束模型?原假设H0:不同个体的模型截距项相同(建立混合估计模型)。备择假设H1:不同个体的模型截距项不同(建立个体固定效应模型)。F统计量定义为:F= 其中RSS混,RSS固分别表示约束模型(混合估计模型)和非约束模型(个体固定效应模型)的残差平方和。非约束模型比约束模型多了N-1个被估参数。在原假设H0下,F服从自由度为(N-1,NT-N-k)的F分布。接上例,已知RSS混= 3866659,RSS固= 1490550,k1F= 6.718F0.05(14, 59) = 1.899因为F= 6.718> F0.05(14, 59) = 1.899,所以,拒绝原假设。结论是应该建立个体固定效应模型。注:如果确知对于不同的时间截面,模型的截距显著不同,但是对于不同的时间序列(个体)截距是相同的,那么应该建立时刻固定效应模型;如果确知对于不同的截面、不同的时间序列(个体)模型的截距都显著地不相同,那么应该建立时刻个体效应模型,时刻个体固定效应模型就是对于不同的时间截面(时刻点)、不同个体的时间序列都有不同截距的模型。2.随机效应模型(random effects model)在固定效应模型中采用虚拟变量的原因是解释变量的信息不够完整(无法观测)。也可以通过对误差项的分解来描述这种信息的缺失。yit = a + bxit + uit 其中误差项在时间上和截面上都是相关的,用3个分量表示如下:uit = ui + vt + wit 其中ui N(0, su2)表示截面随机误差分量;vt N(0, sv2)表示时间随机误差分量;wit N(0, sw2)表示混和随机误差分量。同时还假定ui,vt,wit之间互不相关,各自分别不存在截面自相关、时间自相关和混和自相关。上述模型称为随机效应模型。为了容易理解,假定模型中只存在个体随机误差项ui,不存在时间随机误差分量(vt),即 yit = a + bxit + (ui +wit) = a + b xit +uit = (a + ui) + b xit + wit=ai+ b xit + wit (a为均值截距,ui为个体截距与均值截距的差异)这种随机效应模型又称为误差分量模型(error component model)。截面随机误差项ui是属于第i个体的随机波动分量,与时间变化无关。随机误差项ui, wit与X无关,且满足如下条件:E(ui) = E(wit) = 0,E(wit 2) = sw2, E(ui 2)= su2,E(wit uj) =0(包括所有的i, t, j),E(wit wjs) =0( i ¹ j, t ¹ s),E(ui uj) =0, i ¹ j如果不考虑其他因素,uj也可以用OLS进行估计。方法如下:地区年份YX eui的估计安徽省199847703777199951793990200052574204200156414495200260934784浙江省19987860623719998530660120009187695120011048679682002118228792 但由于cov(uit,uis)E(uituis)E(ui +wit)·(ui +wis)var(ui)0,即存在误差项的系列相关,所以随机效应模型一般采用广义最小二乘法(GLS)估计参数,如果随机误差分量服从已知分布(如正态分布),模型的参数还可以用极大似然法估计。仍以表1为例,随机效应模型估计结果如下:= +安徽+ x1t = (261.565 -28.01)+ 0.734x1t = +北京+x2t = (261.565+439.65)+ 0.734x2t = +浙江+x15t = (261.565+15.21) + 0.734 x15t (注意:随机效应模型中应该含有公共截距项)检验个体随机效应的原假设与检验统计量是H0:var(ui)=su2 = 0。(混合估计模型,即不存在个体效应ui)H1:var(ui)su2 ¹ 0。(个体随机效应模型,即存在效应ui)LM= 其中RSS随表示由个体随机效应模型计算的残差平方和。RSS混表示由混合估计模型计算的残差平方和。统计量LM服从1个自由度的c2分布。 以例1为例,用个体随机效应模型和混合模型计算的统计量的值是LM =847.21F0.05 (1) = 3.84因为F= 847.21 > F0.05 (1) = 3.84,所以拒绝原假设,结论是应该建立个体随机效应模型。3.随机效应的检验:WuHausman Test随机效应模型和固定效应模型都是变截距的模型,究竟哪一个更好些?不好一概而论,因为各有优缺点。至于在实际应用中具体采用哪一种,需要通过检验。最常用的是Wu-Hausman 检验。WU-Hausman检验原理:如果cov(i,xi)0,随机效应模型(GLS)产生斜率系数的一致有效估计量,而固定效应模型(OLS)产生一致但无效估计量,所以应该采用随机效应模型; 如果cov(i,xi)0,随机效应模型斜率系数的估计量非一致,而固定效应模型产生一致有效估计量,所以应该采用固定效应模型。H0:cov(i,xi)0(采用随机效应模型); H1:cov(i,xi)0(采用固定效应模型)Wald统计量:在H0下,WH在为一个标量时,Wald统计量退化为:本例中, 显著性水平0.05下,自由度为1的卡方临界值7.88,所以,不拒绝H0;应用随机效应模型。(EV5.1以上版本给出了hausman test程序)(三)变系数模型当认为对于不同个体(或时间),解释变量的回归系数存在显著性差异时,还可以建立回归系数(包括截距系数和斜率系数)不同的面板数据模型。如果各个体(或时间)的误差项不相关,可以直接将某一个个体(或时间)作为一个独立的样本,利用OLS分别估计N个(或T个)方程。方法如下:地区年份YXOLS安徽省199847703777199951793990200052574204200156414495200260934784浙江省19987860623719998530660120009187695120011048679682002118228792若如果各个体(或时间)的误差项相关,需要似无相关回归(Seemingly Unrelated Regression, SUR)估计参数。似无相关回归(SUR)的基本思想:假定研究山东省、河南省的人均收入x与消费支出y的关系年份河南省山东省XYXY2001440035006976516020025200435476685636 .2009120208940142001240201013200953515421354如果我们确认二者的自发消费(截距项)与边际消费倾向(斜率)均不同,即:u鲁和u豫满足所有古典假定,分别对两个方程做OLS是不是一个最好的选择呢? 否!因为有一个条件我们没有用到:COV(u鲁t,u豫t)0!所以最好的办法是联合估计:省年XYD ui河南省2001440035001u12002520043541u2120091202089401u920101320095351u10山东省2001697651600u10+12002766856360u10+2.020091420012400u10+92010154213540u10+10由于方程中的随机项违背无序列相关假定,即COV(u t,u t+10)0所以参数估计应该使用GLS:1.用OLS法分别估计2个省份方程,计算和保存回归中得到的残差eit;(2×10) 2用这些残差来估计不同回归方程扰动项之间的协方差矩阵中的各元素:如(本例中,是一个2×2的正定对称方阵,且。非主对角线上的元素不为0,说明两个省份方程随机项存在相关性,即存在Seemingly Unrelated问题。)3.使用求参数的可行广义最小二乘估计值(FGLS)。4.重复23,直到扰动项之间的协方差矩阵收敛为止。得到的估计量称为似无相关回归估计量(SURE)。SURE是一致的,并可以增加估计量的有效性(对比OLS)。尤其是在个体较少、时间较长的面板数据模型中。在下面两种情况下,SUR与分别运行OLS回归的结果相同:(1)若各方程的扰动项之间的协方差都等于0;(2)若各方程的自变量都相同,并且每个自变量的每个观测值亦相同。 例 利用表1,参数估计结果如下: 输出结果3Dependent Variable: Y?Method: Pooled Least SquaresCross-section SUR (PCSE) standard errors & covariance (d.f. corrected)VariableCoefficientStd. Errort-StatisticProb. AH-C3.501315382.86000.0091450.9927BJ-C230.1863864.51820.2662600.7913FJ-C1612.139246.44976.5414500.0000HB-C-74.53229250.1053-0.2980040.7671HLJ-C561.1775319.54891.7561550.0859JL-C408.6956198.25452.0614690.0451JS-C1571.233350.25114.4860180.0000JX-C572.9500290.93421.9693460.0551LN-C245.5651273.64910.8973720.3743NMG-C-1392.275297.3780-4.6818360.0000SD-C836.5258305.71432.7362990.0089SH-C422.75071163.3840.3633800.7180SX-C754.8215290.89092.5948610.0127TJ-C-261.5625439.7527-0.5947950.5550ZJ-C980.8890234.00454.1917520.0001AH-XAH0.7881400.07081311.129800.0000BJ-XBJ0.7880110.0832689.4635100.0000FJ-XFJ0.5404220.03184516.970400.0000HB-XHB0.7689780.04291417.919060.0000HLJ-XHLJ0.6513780.06211910.485940.0000JL-XJL0.7337260.03887218.875340.0000JS-XJS0.5434410.04971510.931190.0000JX-XJX0.6155870.05553811.084140.0000LN-XLN0.7727190.04960015.578900.0000NMG-XNMG1.0269460.05734617.907760.0000SD-XSD0.6281300.04684613.408340.0000SH-XSH0.7236470.1009977.1650410.0000SX-XSX0.6354280.05788010.978410.0000TJ-XTJ0.7992740.05302115.074560.0000ZJ-XZJ0.6608450.02417027.341220.0000R-squared0.996057 Mean dependent var5291.773Adjusted R-squared0.993516 S.D. dependent var1745.640S.E. of regression140.5613 Akaike info criterion13.01834Sum squared resid889086.4 Schwarz criterion13.94533Log likelihood-458.1877 F-statistic392.0088Durbin-Watson stat3.075291 Prob(F-statistic)0.000000 = 安徽+ x1t = 3.501 + 0.788 x1t = 北京+x2t = 230.186 + 0.788 x2t = 浙江+x15t = 980.889 + 0.661 x15t 如何确定需要使用变系数模型? 在已经拒绝不变系数模型假定的前提下,检验方法是:原假设H0:不同个体的模型截距项不同,斜率系数相同(建立变截距模型)备择假设H1:不同个体的模型截距项不同,斜率系数不同(建立变系数模型)。F统计量定义为:其中RSS固,RSS变分别表示约束模型(变截距模型中的固定效应模型)和无约束模型(变系数模型)的残差平方和。 用上例计算,已知RSS固 =1490550,RSS变=889086.4,n15,T=5,k=1F= 2.174453查表知,F0.01(14, 45) =2.563因为F= 2.174453 F0.01(14, 45)= 2.563,所以,在0.01的显著性水平线,不拒绝原假设。结论是应该建立变截距(个体固定效应)模型,变系数模型不适合于本例。四、非经典面板数据模型 我们以上研究都是在经典计量经济学框架下进行的线性均值模型。潜在的不足是:第一,没有考虑到由于数据非平稳性造成的虚假回归问题;第二,没有考虑到非线性模型问题;第三,没有考虑其他分布特征建模问题。目前,在Panel Data理论和应用研究中,围绕上述问题形成了主要有三个热点领域,最近10年理论发展均产生这三个领域:1.面板数据单位根检验和协整模型该领域开创性研究工作可以追溯到Levin和Lin(1992,1993)及Quah(1994)。Panel Data的单位根和协整理论是对时间序列的单位根和协整理论研究的继续和发展,由于面板数据中的时间序列数据在回归过程中容易发生伪回归问题,所以又发展出面板数据单位根检验和面板数据协整模型。Panel Data的单位根和协整综合了时间序列和横截面的特性,通过加入横截面能够更加直接、更加精确地推断单位根和协整的存在,尤其是在时间序列不长、可能获得类似国家、地区、企业等单位截面数据的情况下,Panel Data单位根和协整的应用更有价值。这些方法本质上是时间序列分析方法在面板数据模型中的应用。2.非线性面板数据模型即将微观计量经济学方法引入到面板数据分析。如面板数据Logit(Probit)模型、面板数据计数模型等。3.非均值面板数据模型如面板数据分位数回归模型、面板数据ARCH族模型。-书是我们时代的生命别林斯基书籍是巨大的力量列宁书是人类进步的阶梯高尔基书籍是人类知识的总统莎士比亚书籍是人类思想的宝库乌申斯基书籍举世之宝梭罗