STATA与面板数据回归(中文好).pdf
《STATA与面板数据回归(中文好).pdf》由会员分享,可在线阅读,更多相关《STATA与面板数据回归(中文好).pdf(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Estimation with STATA 连玉君 (西安交通大学金禾经济研究中心) 2005.10 目录 第八章面板数据模型2 8.1简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 8.2静态面板数据模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3 8.2.1固定效应模型 . . . . . . . . . . . . . . . . . . . .
2、 . . . . . . . . . . . . . . .4 8.2.2随机效应模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7 8.2.3假设检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11 8.2.4STATA 实现. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13 8.3非均齐方差 .
3、 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 8.3.1异方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21 8.3.2序列相关 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .25 8.3.3方差形式未知时的稳健性估计 . . . . . . . . . . .
4、 . . . . . . . . . . . . . . .30 8.3.4STATA 实现. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .30 8.4参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32 1 第八章面板数据模型 8.1简介 面板数据,简言之是时间序列和截面数据的混合。严格地讲是指对一组个体(如居民、国 家、公司等)连续观察多期得到的资料。所以很多时候我们也称
5、其为“追踪资料”。近年来, 由于面板数据资料获得变得相对容易,使得其应用范围也不断扩大。而关于面板数据的计量理 论也几乎涉及到了以往截面分析和时间序列分析中所有可能出现的主题,如近年来发展出的 面板向量自回归模型(Panel VAR)、面板单位根检验(Panel Unit Root test)、面板协整分析 (Panel Cointegeration)、门槛面板数据模型(Panel Threshold)等,都是在现有截面分析和时 间序列分析中的热点主题的基础上发展起来的。 采用面板数据模型进行分析的主要目的在于两个方向:一是控制不可观测的个体异质性; 二是描述和分析动态调整过程,处理误差成分。
6、 使用面板数据主要有以下几方面的优点: 便于控制个体的异质性。比如,我们在研究全国 30 个省份居民人均消费青岛啤酒的数量 时。可以选取居民的收入、当地的啤酒价格、上一年的啤酒消费量等变量作为解释变量。 但同时我们认为民族习惯、1风俗文化、2广告投放等因素也会显著地影响居民的啤酒消 费量。对于特定的个体而言,前两种因素不会随时间的推移而有明显的变化,通常称为个 体效应。而广告的投放往往通过电视或广播,我们可以认为在特定的年份所有省份所接受 的广告投放量是相同的,通常称为时间效应。这些因素往往因为难以获得数据或不易衡量 而无法进入我们的模型,在截面分析中者往往会引起遗漏变量的问题。而面板数据模型
7、的 主要用途之一就在于处理这些不可观测的个体效应或时间效应。 包含的信息量更大,降低了变量间共线性的可能性,增加了自由度和估计的有效性。 便于分析动态调整。 1如宁夏属于回族自治区,那里的回民因为信仰伊斯兰教,所以不允许饮酒的,而生活在宁夏的许多汉民也往往 因为自己的回民朋友无法饮酒而无形中减少了啤酒的消费量。 2如中国南部地区啤酒的消费量比较大,而北方很多地区只有在夏天才会饮用较多的啤酒,冬天他们一般是只喝 白酒的。 2 8.2. 静态面板数据模型3 8.2静态面板数据模型 我们一般所说的静态面板数据模型,是指解释变量中不包含被解释变量的滞后项(通 常为一阶滞后项)的情形。但严格地讲,随机干
8、扰项服从某种序列相关(如 AR(1), AR(2), MA(1)等)的模型也不是静态模型。动态模型和静态模型在处理方法上往往有较大的差异。本 节中我们重点介绍两种最为常用的静态模型固定效应模型和随机效应模型。 考虑如下模型: yit=x0it + uit(8.1) uit=ai+ it(8.2) 其中, i = 1,2, , N , t = 1,2, ,T ;xit为 K 1 列向量, K 为解释变量的个数, 为 K 1 系数列向量。对于特定的个体 i 而言, ai表示那些不随时间改变的影响因素,而这些因 素在多数情况下都是无法直接观测或难以量化的,如个人的消费习惯、国家的社会制度等,我 们一
9、般称其为“个体效应”(individual effects)。对“个体效应”的处理主要有两种方式:一种是 视其为不随时间改变的固定性因素,相应的模型称为“固定效应”模型;另一种是视其为随机 因素,相应的模型称为“随机效应”模型。 这两种模型的差异主要反映在对“个体效应”的处理上。固定效应模型中的个体差异反映 在每个个体都有一个特定的截距项上;随机效应模型则假设所有的个体具有相同的截距项,个 体的差异主要反应在随机干扰项的设定上,因此该模型通常也称为“误差成分模型”。基于 此,一种常见的观点认为,当我们的样本来自一个较小的母体时,我们应该使用固定效应模 型,而当样本来自一个很大的母体时,应当采用
10、随机效应模型。比如在研究中国地区经济增长 的过程中,我们以全国 28 个省区为研究对象,可以认为这 28 个省区几乎代表了整个母体。同 时也可以假设在样本区间内,各省区的经济结构、人口素质等不可观测的特质性因素是固定不 变的,因此采用固定效应模型是比较合适的。而当我们研究西安市居民的消费行为时,即使样 本数为 10000 人,相对于西安市 600 万人口的母体而言仍然是个很小的样本。此时,可以认为 不同的居民在个人能力、消费习惯等方面的差异是随机的,此时采用随机效应模型较为合适。 遗憾的是,很多情况下,我们并不能明确地区分我们的样本来自一个较大母体还是较小的 母体。因此有些学者认为,区分固定效
11、应模型和随机效应模型应当看使用二者的假设条件是否 满足。由于随机效应模型把个体效应设定为干扰项的一部分,所以就要求解释变量与个体效应 不相关,而固定效应模型并不需要这个假设条件。所以如果我们的检验结果表明该假设满足, 那么就应该采用随机效应模型,因为它更为有效,反之,就需要采用固定效应模型。 另外,有些学者认为具体采用哪一种模型主要决定于我们的分析目的。如果主要目的在于 8.2. 静态面板数据模型4 估计模型的参数,而模型中个体的数目又不是很大的情况下,采用固定效应模型是个不错的选 择,因为它非常容易估计。但当我们需要对模型的误差成分进行分析时(通常分解为长期效果 和短期效果),就只能采用随机
12、效应模型。在这种情况下,即使模型中的部分解释变量与个体 效应相关,我们仍然可以通过工具变量法对模型进行估计。 简言之,两种模型有各自的优缺点和适用范围,在实证分析的过程中,我们一方面要根据 分析的目的选择合适的模型,同时也要以 8.2.3 节中介绍的假设检验方法为基础进行模型筛选。 8.2.1固定效应模型 模型的基本设定和假设条件 若视 ai为固定效应,模型 (8.1) 可以采用向量的形式表示为: yi= ai1T+ xi + i(8.3) 其中, yi= (yi1, yi2, , yiT)0, xi= (xi1,xi2, ,xiT)0, i= (i1,i2, ,iT)0, 1T是一个所有元
13、素都为 1 的 T 1 列向量。 我们有如下两个基本假设:3 假设 1 : E i|xi,ai = 0(8.4) 假设 2 : Var i|xi,ai = 2IT(8.5) 假设 1 表明干扰项 与解释变量 x 的当期观察值、前期观察值以及未来的观察值均不相关,也 就是说我们的模型中所有的解释变量都是严格外生的。假设 2 就是一般的同方差假设,在此假 设下模型 (8.1) 的 OLS 估计是 BLUE 的。当此假设无法满足时,我们就需要处理异方差或序列 相关以便得到稳健性估计量。 组内估计量 上面我们已经提到,在假设 1 和假设 2 同时成立的情况下,模型 (8.1) 的 OLS 估计是 BL
14、UE 的。但在实际操作的过程中,如果 N 比较大,那么我们的模型中将包含 (N+K) 个解释变 量,4计算的工作量往往很大,对于 N 相当大的情况(如 N=10000 ),一般的计算机都无法胜 3一般应用中,我们也常采用如下两个相对较弱的假设。假设 10 : E i|xi = 0 和假设 20: Var i|xi = 2IT。 4此时,我们可以将模型 (8.1) 视为一个包含 N 个虚拟变量, X 中不包含常数项的普通 OLS 模型。当然,我们也 可以在 X 中包含常数项,但此时只需加入 N-1 个虚拟变量,参见脚注 6 。 8.2. 静态面板数据模型5 任。所以我们有必要先进行一些变换以消除
15、固定效应,进而对简化的模型进行估计,本小节和 下一小节介绍的这两种方法都是基于此目的进行的。 我们首先将所有观察值进行堆叠,于是模型 (8.1) 可用矩阵形式表示为: y = Da + X + (8.6) 其中, y = (y01,y02, ,y0N)0, = ( 1, 2, , N)0, 均为 NT 1 向量, D = IN1T, a = (a1,a2, ,aN)0。考虑到 D 矩阵的构造形式,它事实上对应着 N 个虚拟变量。因此,模型 (8.6) 等价于给混合 OLS 模型 y = X + 加入 N 个虚拟变量。 在正式估计模型之前,我们先定义一些有用的矩阵运算,它们将在后面的分析中反复
16、使用。定义 DD0= IN JT, 其中, JT= 1T10T为 T T 维矩阵,每个元素均为 1。同时, 我们定义 P = D(D0D)1D0= INJT, JT= (1/T)JT是 T T 维矩阵,每个元素均为 1/T ; Q = INT D(D0D)1D0= INT P 。矩阵 P 和 Q 都具有如下性质: (1) 对称、幂等性: P0= P , 且 P2= P ; (2) 正交性: PQ = 0 ; (3) 和为单位矩阵: P + Q = INT. 我们可以从上述三个性质中的任意两个推导出第三个。易于证明, QD = 0 ,因此,我们可以 通过在等式 (8.6) 两边同时左乘 Q 以消
17、除固定效应: Qy = QX + Q (8.7) 变换后的模型的 OLS 估计量为:5 WG= (X0QX)1X0Qy(8.8) 方差估计量为: Var( WG) = 2(X0QX)1(8.9) 显然, 2的一致估计量为: 2= 1 NT NK (Qy QX WG)0(Qy QX WG)(8.10) 5事实上,模型 (8.7) 并不满足 OLS 的经典假设,因为 E(Q )(Q )0 = 2Q 6= 2I,但其 GLS 估计量与 (8.8) 式相 同。具体推导过程留给读者。 8.2. 静态面板数据模型6 个体效应的估计值为: ai= yi xi WG(8.11) 该估计量通常称为“组内估计量”
18、,因为上述变换实质上是从每个观察值中减去其组内平 均值,以去除组内不随时间变化的个体效应。变换后的模型 (8.8) 的特定元素为: (yit yi) = (x0it xi) + (it i)(8.12) 其中, yi= (1/T) PT t=1yit , xi和 i的定义方式与此相同。所以,要得到 WG,我们只需要从原 始数据中间去其组内平均,然后对变换后的模型执行 OLS 估计即可。 需要注意的是,在模型 (8.6) 中, Da 项实际上对应着 N 个虚拟变量,所以为了避免共线性 问题,解释变量 X 中不应再包含常数项。6 一阶差分估计量 除了上述通过“组内去心”的办法消除固定效应外,我们还
19、可以通过一阶差分的方式去除 固定效应。对 (8.1) 式取一阶差分,得到 4yi2=4xi2 + 4 i2 . . . 4yiT=4xiT + 4 iT (8.13) 采用矩阵形式可表示为 Byi= Bxi+ B i(8.14) 其中, B = 11000 01100 . . . . . . . . 00011 (T1)T (8.15) 对所有观察值进行堆叠,得到 (IN B)y = (IN B)X + (IN B) (8.16) 设 QB= IN B ,则相应的 OLS 的估计量为: OLS= (X0QBX)1X0QBy(8.17) 6当然,我们也可以在 X 中加入常数项,但此时要同时加入约
20、束条件: PN i=1ai = 0 。这样我们估计出的个体效 应 ai就应当解释为个体 i 的相对截距项,而不是前面得到的绝对截距项。STATA8.0 就采取了在 X 中包含常数项的 处理方式。 8.2. 静态面板数据模型7 根据假设 1 可知,E X = 0 ,所以 OLS是 的无偏估计量,在 N 较大的情况下, OLS也 是一致的。由假设 2 可知, 满足同方差假设,且不存在序列相关。但变换后的干扰项 B 却 并不满足同方差的假设, Var(QB ) = 2QBQ0B(8.18) 但此时模型 (8.16) 的 GLS 估计量是 BLUE 的, GLS= XQB(QBQ0B)1QBX1XQB
21、(QBQ0B)1QBy.(8.19) 易于证明 QB(QBQ0B)1QB= Q 。7因此, GLS WG 也就是说,我们采用一阶差分去除“固定效应”后,再用 GLS 估计差分后的模型以消除由于差 分而导致的干扰项的序列相关问题得到的 GLS 估计量与我们前面介绍的组内估计是等价的。由 于 GLS满足经典 OLS 的基本假设,所以 WG是 BLUE 的。 8.2.2随机效应模型 模型的基本设定和 GLS 估计 当 N 很大时,采用固定效应模型往往会使参数的个数迅速增加,自由度的损失往往较大。 另一方面,固定效应模型的基本目的是在控制个体效应的前提下估计模型的参数,而我们采用 面板数据模型的另一个
22、重要的目的在于分离出方差中的长期成分和短期成分。此时,随机效应 模型可能更为适用。模型的基本设定同 (8.1) : yit=xit + uit(8.20) uit=ai+ it(8.21) 随机效应模型可以视为固定效应模型的一个扩展,这需要我们在上一节中假设 1 和假设 2 的基础上再增加如下假设: 7利用矩阵直乘的性质: (A F)(C D) = (AC) (FD) , 我们可以得到 QB(QBQ0 B)1QB = IN B0(BB0)1B 。 进一步,我们可以证明 B0(BB0)1B = IT JT:由于矩阵 H = T1/210T (BB0)1/2B 满足 HH0= IT, 所以 H0H
23、 = IT, 即 10T1T/T + B0(BB0)1B = IT 因此, QB(QBQ0B)1QB= IN (IT JT) = INT P = Q . 8.2. 静态面板数据模型8 假设 3 : ai IID(0,2 a) (8.22) 假设 4 : Cov(ai,xit) = 0(8.23) 假设 5 : ui|xi IID(0,2IT+ 2 a1T1 0 T) (8.24) 其中,假设 1 将个体效应设定为服从均值为 0 ,方差为 2 a 的随机数,而我们在固定效应模型中 没有对 Eai 作任何限制;假设 2 非常显然,因为此时我们将 ai视为随机干扰项的一部分,所 以它不能与解释变量相
24、关;假设 3 表明 ai与 it相互独立。 基于以上设定,我们可以写出模型的方差-协方差矩阵: ? ? ? = Euu0 = IN (2IT+ 2 a1T1 0 T) = IN 6 6 6(8.25) 其中,6 6 6 = 2IT+ 2 a1T1 0 T ,具体形式为: 6 6 6 = 2 a + 22 a 2 a 2 a 2 a + 22 a . . . . . . . . 2 a 2 a 2 a + 2 .(8.26) 那么, 的 GLS 估计量为: GLS= X0? ? ?1X1X0? ? ?1y(8.27) 方差估计量为: Var( GLS) = X0? ? ?1X1(8.28) 这里
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- stata 面板 数据 回归 中文
限制150内