stata上机实验第五讲面板数据的处理ppt课件.ppt
面板数据一些面板数据教材 面板数据分析 (美)萧政 著 横截面与面板数据的经济计量分析 伍德里奇著,王忠玉译 Baltagi. Econometric Analysis of Panel Data 最新动态可关注期刊: Journal of Econometrics面板数据一些前沿问题 面板向量自回归模型(Panel VAR) 面板单位根检验(Panel Unit Root test) 面板协整分析(Panel Cointegeration) 门槛面板数据模型(Panel Threshold) 面板联立方程组 面板空间计量静态面板数据 静态面板数据模型,是指解释变量中不包含被解释变量的滞后项(通常为一阶滞后项) 的情形。但严格地讲,随机干扰项服从某种序列相关的模型,如AR(1), AR(2), MA(1) 等,也不是静态模型。静态面板数据主要有两种模型-固定效应模型和随机效应模型。面板数据的格式companycompanyyearyearinvestinvestmvaluemvalue11951755.9483311952891.24924.9119531304.46241.7119541486.75593.621951588.22289.521952645.52159.4219536412031.321954459.32115.531951135.21819.431952157.32079.731953179.52371.631954189.62759.9面板数据模型 考虑如下模型: Yit=Xitb+Uit uit=ai+it其中, i=1,2, N ; t=1, 2,T(既有i又有t的情况则一般是用面板数据)uit称为复合扰动项。固定效应模型 对于特定的个体i而言,ai 表示那些不随时间改变的影响因素,如个人的消费习惯、国家的社会制度、地区的特征、性别等,一般称其为“个体效应” (individual effects)。如果把“个体效应”当作不随时间改变的固定性因素, 相应的模型称为“固定效应”模型。固定效应模型 固定效应模型的公式变为: Yit=ai+Xitb+it 回归结果是每个个体都有一个特定的截距项。(ai在这里就独立出来了)随机效应模型 随机效应模型将个体效应ai视为随机因素,即把个体效应设定为干扰项的一部分。公式将变为: Yit=Xitb+(ai+it) 回归的结果是随机效应模型的所有的个体具有相同的截距项,个体的差异主要反应在随机干扰项的设定上。 怎样选择固定效应和随机效应? 随机效严格要求个体效应与解释变量不相关,即 Cov(ai,XitB)=0 而固定效应模型并不需要这个假设条件。 这是两种模型选择的关键。面板数据基本命令 1、指定个体截面变量和时间变量:xtset( 2、对数据截面个数、时间跨度的整体描述:xtdes。分组内、组间和样本整体计算各个变量的基本统计量xtsum。采用列表的方式显示某个变量的分布xttab,较少使用。 3、list、sum、des、tabstat、histogram、kdensity等命令都可以用。 4、对每个个体分别显示该变量的时间序列图: xtline。 5、静态面板数据基本回归命令:xtreg,系统默认GLS估计(广义最小二乘法)。 use grunfeld,clear xtset company year xtdes xtline invest混合回归:reg invest mvalue kstock(pool回归,其会扩大样本量,)固定效应:xtreg invest mvalue kstock ,fe随机效应:xtreg invest mvalue kstock ,re用F值或P值进行判断,如果p值较大,则应该用pool回归) xtreg Fixed-, between- and random-effects, and population-averaged linear models xtregar Fixed- and random-effects linear models with an AR(1) disturbance xtgls Panel-data models using GLS xtpcse OLS or Prais-Winsten models with panel-corrected standard errors xtrchh Hildreth-Houck random coefficients models xtivreg Instrumental variables and two-stage least squares for panel-data models xtabond Arellano-Bond linear, dynamic panel data estimator (动态面板估计) xtabond2 Arellano-Bond system dynamic panel data estimator(需要从网上下载) xttobit Random-effects tobit models xtintreg Random-effects interval data regression models xtreg Fixed-, between- and random-effects, and population-averaged linear models xtregar Fixed- and random-effects linear models with an AR(1) disturbance xtgls Panel-data models using GLS xtpcse OLS or Prais-Winsten models with panel-corrected standard errors xtrchh Hildreth-Houck random coefficients models xtivreg Instrumental variables and two-stage least squares for panel-data models xtabond Arellano-Bond linear, dynamic panel data estimator xtabond2 Arellano-Bond system dynamic panel data estimator(需要从网上下载) xttobit Random-effects tobit models xtintreg Random-effects interval data regression models 结果解读 固定效应 随机效应 特别注意: 1、三个R2哪个重要? 组内、组间、总体拟合优度。 2、固定效应为什么有两个F检验? 3、corr(u_i, Xb) 的含义。 4、 sigma_u、sigma_e、rho的含义。 sigma_u是固定效应模型估计中的个体效应的方差估计值 sigma_e随机干扰项的方差估计值 rho:rho= sigma_u 2/(sigma_u2+ sigma_e2) ,是两者之间的关系(u-i)以及针对u_i显著性的联合检验统计量(F值和p值)。 corr(u_i, Xb) 个体效应与解释变量的相关系数,相关系数为0或者接近于0,可以使用随机效应模型;相关系数不为0,需要使用固定效应模型。u-i不表示残差,表示个体效应。模型选择 固定效应还是混合OLS? 可以直接观测F值 随机效应还是混合OLS? 先用随机效应回归,然后运行xttest0 固定效应还是随机效应? Hausman检验 Hausman检验 基本思想:如果 Corr(a_i,x_it) = 0, Fe 和 Re 都是一致的,但Re更有效。 如果 Corr(a_i,x_it)!= 0, Fe 仍然一致,但Re是有偏的。 因此原假设是Corr(a_i,x_it) = 0,即应该采用随机效应。 Hausman检验步奏 Step1:估计固定效应模型,存储估计结果; Step2:估计随机效应模型,存储估计结果; Step3:进行Hausman检验; xtreg invest mvalue kstock ,fe est store fixed xtreg invest mvalue kstock ,re est store random hausman fixed random本题接受原假设,即应该用随机效应。几个常见问题 1、既然固定效应每个个体都有单独的截距项,如何获得每个个体的截距项? xi:reg invest mvalue kstock pany 即LSDV方法或者添加虚拟变量法。 2、非平衡面板如何处理? use nlswork,clear xtset idcode year xtdes 这是一份典型的大n小t型非平衡面板数据。 方法一:下载命令xtbalance提取成一个平衡面板数据,但不推荐使用,因为会损失大量样本。 方法二:利用算法填补缺失值,需要经济理论和算法的支撑。 3、面板数据格式不符合要求的处理。 例如如下表格格式该如何处理? 处理方法: 扁平数据变长条数据的命令:reshape use invest2,clear edit reshape long invest kstock, i(company) j(year)companycompanyinvest2002invest2002invest2003invest2003invest2004invest2004kstock2002kstock2002kstock2003kstock2003kstock2004kstock20041 118.918.919.119.119.619.619.619.616.816.816.716.72 217.417.418.418.418.818.818.118.117.417.417173 3191919.619.620.120.120.220.2171717.117.14 4202020.420.420.320.320.420.417.517.517.317.35 518.118.118.318.318.418.418.518.516.416.416.116.16 619.719.7202019.919.917.217.216.316.316.316.3其他回归方法 1、聚类稳健的标准差 通常可以假设不同个体之间的扰动项相互独立,但同一个体在不同时期的扰动项之间往往存在自相关。故须采用聚类稳健的标准差。 use grunfeld,clear xtset company year reg invest mvalue kstock,vce(cluster company) 同理有: xtreg invest mvalue kstock,fe vce(cluster company) xtreg invest mvalue kstock,re vce(cluster company) GLS的缺点就是要满足一些特定的条件 2、对于固定效应模型,可采用虚拟变量法。 基本思想:固定效应模型实质上就是在传统的线性回归模型中加入 N-1 个虚拟变量,使得每个截面都有自己的截距项。由于固定效应模型假设存在着“个体效应”,每个个体都有其单独的截距项。这就相当于在原方程中引入n1个虚拟变量(如果省略常数项,则引入n个虚拟变量)来代表不同的个体,获得每个个体的截据项。 tab company,gen(dum)(批量生成变量) drop dum1 reg invest mvalue kstock dum*( *表示未知数) 与上述方法比较一下: xi:reg invest mvalue kstock pany 结果完全一样。组间估计法 对于随机效应模型,还可以采用“组间估计量”。对于那些每个个体的时间序列数据较不准确或“噪音”较大的数据,可对每个个体取时间平均值,然后用平均值来回归。 xtreg invest mvalue kstock ,be 由于损失了较多信息量,组间估计法并不常用。极大似然估计 如果随机效应模型中假设扰动项服从正态分布,则可以使用最大似然估计法(MLE)来进行估计。 xtreg invest mvalue kstock ,mle 与随机效应模型的估计比较结果几乎完全一致。双向固定效应模型 固定效应模型: Yit=ai+XitB+it 双向固定效应模型:Yit=ai+ft+XitB+it(既固定时间也固定个体的效应) 实际上添加了t-1个时间虚拟变量。主要反应随着时间变化的一些特征。 tab year,gen(yr) edit drop yr1 xtreg invest mvalue kstock yr*,fe 大部分时间虚拟变量显著,说明随着时间的变动,invest有不断变动的趋势。 检验:可以使用似然比检验。 原假设:时间虚拟变量不显著。 xtreg invest mvalue kstock ,fe est store fe1 xtreg invest mvalue kstock yr*,fe est store fe2 lrtest fe1 fe2 整体来看时间虚拟变量不够显著。异方差、序列相关和截面相关 大n小T 重点关注异方差 大T小n 重点关注序列相关 由于面板数据中每个截面(公司、个人、地区)之间还可能存在内在的联系,因此,截面相关性是面板数据的一个特有的特征。 三个假设: 1、Vare_it = sigma2 同方差假设 2、Corre_it, e_it-s = 0 序列无关假设 3、Corre_it, e_jt = 0 截面不相关假设 1、异方差的检验(组间): findit xttest3 或者直接 ssc install xttest3 xtreg invest mvalue kstock ,fe xttest3 2、序列相关的检验: 基本思想:若无序列相关,则一阶差分后残差相关系数应为-0.5。 findit xtserial xtserial invest mvalue kstock xtserial invest mvalue kstock,output 3、截面相关的检验: ssc install xttest2 xtreg invest mvalue kstock ,fe xttest2FGLS估计 1、xtgls命令 xtgls invest mvalue kstock, panels(iid) Pooled OLS xtgls invest mvalue kstock, panel(het) 截面异方差 xtgls invest mvalue kstock, corr(ar1) 所有个体具有相同的自相关系数 xtgls invest mvalue kstock, corr(psar1) 每个个体有自己的自相关系数 xtgls invest mvalue kstock, panel(corr) 截面间相关且异方差 xtgls invest mvalue kstock, panel(corr) corr(ar1) 异方差、序列相关和截面相关 2、 xtpcse命令 xtpcse invest mvalue kstock OLS估计,面板稳健性标准差 xtpcse invest mvalue kstock, corr(ar1) Prais_Winsten估计,个体具有共同的自相关系数 xtpcse invest mvalue kstock, corr (psar1) 每个截面有自己的自相关系数 xtpcse invest mvalue kstock, corr (ar1) hetonly 不考虑截面相关