第九讲面板数据回归ppt课件.ppt
《第九讲面板数据回归ppt课件.ppt》由会员分享,可在线阅读,更多相关《第九讲面板数据回归ppt课件.ppt(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、时间序列数据或截面数据都是一维数据。时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。据;截面数据是变量在截面空间上的数据。面板数据是同时在时间和截面上取得的二面板数据是同时在时间和截面上取得的二维数据。所以,维数据。所以,面板数据面板数据(panel data)也称也称时间序列截面数据时间序列截面数据(time series and cross section data)或)或混合数据混合数据(pool data)。)。 面板数据,简言之是时间序列和截面数据的面板数据,简言之是时间序列和截面数据的
2、混合。严格地讲是指对一组个体混合。严格地讲是指对一组个体(如居民、如居民、国家、公司等国家、公司等) 连续观察多期得到的资料。连续观察多期得到的资料。所以很多时候我们也称其为所以很多时候我们也称其为“追踪资料追踪资料”。近年来,由于面板数据资料的获得变得相对近年来,由于面板数据资料的获得变得相对容易,使其应用范围也不断扩大。容易,使其应用范围也不断扩大。1996-2002年中国年中国15个省级地区的居民家庭人均消费数个省级地区的居民家庭人均消费数据(不变价格)据(不变价格) (例一)(例一)地区人均消费地区人均消费1996199719981999200020012002CP-AH(安徽)(安徽
3、) 3282.466 3646.150 3777.410 3989.581 4203.555 4495.174 4784.364CP-BJ(北京)(北京) 5133.978 6203.048 6807.451 7453.757 8206.271 8654.433 10473.12CP-FJ(福建)(福建) 4011.775 4853.441 5197.041 5314.521 5522.762 6094.336 6665.005CP-HB(河北)(河北) 3197.339 3868.319 3896.778 4104.281 4361.555 4457.463 5120.485CP-HLJ(黑
4、龙江)(黑龙江) 2904.687 3077.989 3289.990 3596.839 3890.580 4159.087 4493.535CP-JL(吉林)(吉林) 2833.321 3286.432 3477.560 3736.408 4077.961 4281.560 4998.874CP-JS(江苏)(江苏) 3712.260 4457.788 4918.944 5076.910 5317.862 5488.829 6091.331CP-JX(江西)(江西) 2714.124 3136.873 3234.465 3531.775 3612.722 3914.080 4544.775C
5、P-LN(辽宁)(辽宁) 3237.275 3608.060 3918.167 4046.582 4360.420 4654.420 5402.063CP-NMG(内蒙古)(内蒙古) 2572.342 2901.722 3127.633 3475.942 3877.345 4170.596 4850.180CP-SD(山东)(山东) 3440.684 3930.574 4168.974 4546.878 5011.976 5159.538 5635.770CP-SH(上海)(上海) 6193.333 6634.183 6866.410 8125.803 8651.893 9336.100 10
6、411.94CP-SX(山西)(山西) 2813.336 3131.629 3314.097 3507.008 3793.908 4131.273 4787.561CP-TJ(天津)(天津) 4293.220 5047.672 5498.503 5916.613 6145.622 6904.368 7220.843CP-ZJ(浙江)(浙江) 5342.234 6002.082 6236.640 6600.749 6950.713 7968.327 8792.210面板数据的格式(例二)面板数据的格式(例二)companycompanyyearyearinvestinvestmvaluemval
7、ue11951755.9483311952891.24924.9119531304.46241.7119541486.75593.621951588.22289.521952645.52159.4219536412031.321954459.32115.531951135.21819.431952157.32079.731953179.52371.631954189.62759.9当描述截面数据时,我们用下标表示个体,当描述截面数据时,我们用下标表示个体,如如Yi表示第表示第i个个体的变量个个体的变量Y。当描述面板数。当描述面板数据时,我们需要其他符号来同时表示个体和据时,我们需要其他符号来同
8、时表示个体和时期。为此我们采用双下标而不是单下标,时期。为此我们采用双下标而不是单下标,其中第一个下标其中第一个下标i表示个体,第二个下标表示个体,第二个下标t表表示观测时间。示观测时间。于是于是Yit表示表示n个个体中第个个体中第i个个体在个个体在T期中的期中的第第t个时期内变量个时期内变量Y的观测值。的观测值。面板数据用双下标变量表示。例如面板数据用双下标变量表示。例如 Yit, i = 1, 2, , N; t = 1, 2, , TN表示面板数据中含有表示面板数据中含有N个个体。个个体。T表示时表示时间序列的最大长度间序列的最大长度。 对于样本点来说:对于样本点来说:Stata中面板数
9、据的表示中面板数据的表示companycompanyyearyearinvestinvestmvaluemvalue11951755.9483311952891.24924.9119531304.46241.7119541486.75593.621951588.22289.521952645.52159.4219536412031.321954459.32115.531951135.21819.431952157.32079.731953179.52371.631954189.62759.9在在stata中,首先使用中,首先使用xtset命令指定命令指定个个体特征体特征和和时间特征时间特征,然
10、后可以用,然后可以用xtdes命命令显示面板数据的结构。令显示面板数据的结构。 use fatality,clear xtset state year xtdes短面板和长面板短面板和长面板如果面板数据如果面板数据 T 较小,而较小,而n 较大较大,这种,这种面板数据被称为面板数据被称为“短面板短面板”(short panel)。(大)。(大n小小T)如)如fatality.dta 反之,如果反之,如果T 较大,而较大,而n 较小较小,则被称,则被称为为“长面板长面板”(long panel)。)。 (大(大T小小n)如)如Grunfeld.dta 面板数据的优势面板数据的优势(1)可以解决遗
11、漏变量问题:遗漏变量偏差是一)可以解决遗漏变量问题:遗漏变量偏差是一个普遍存在的问题。虽然可以用工具变量法解决,个普遍存在的问题。虽然可以用工具变量法解决,但有效的工具变量常常很难找。遗漏变量常常是由但有效的工具变量常常很难找。遗漏变量常常是由于不可观测的个体差异或于不可观测的个体差异或“异质性异质性”(heterogeneity)所造成,如果这种个体差异)所造成,如果这种个体差异“不随时间而改变不随时间而改变”(time invariant),则面板),则面板数据提供了解决遗漏变量问题的又一利器。数据提供了解决遗漏变量问题的又一利器。(2)提供更多个体动态行为的信息:由于面板数)提供更多个体
12、动态行为的信息:由于面板数据同时有截面与时间两个维度,有时它可以解决单据同时有截面与时间两个维度,有时它可以解决单独的截面数据或时间序列数据所不能解决的问题。独的截面数据或时间序列数据所不能解决的问题。比如,如何区分规模效应与技术进步对企业生产效比如,如何区分规模效应与技术进步对企业生产效率的影响。在截面数据中,由于没有时间维度,故率的影响。在截面数据中,由于没有时间维度,故无法观测到技术进步。然而,对于单个企业的时间无法观测到技术进步。然而,对于单个企业的时间序列数据来说,我们无法区分其生产效率的提高究序列数据来说,我们无法区分其生产效率的提高究竟有多少是由于规模扩大,有多少是由于技术进步。
13、竟有多少是由于规模扩大,有多少是由于技术进步。(3)样本容量较大:由于同时有截面维度与时间)样本容量较大:由于同时有截面维度与时间维度,通常面板数据的样本容量更大,可以提高估维度,通常面板数据的样本容量更大,可以提高估计的精确度。计的精确度。面板数据的建模方法主要有三种:面板数据的建模方法主要有三种:固定效应回归模型固定效应回归模型随机效应回归模型随机效应回归模型混合回归模型混合回归模型实例实例:交通事故死亡人数和酒精税交通事故死亡人数和酒精税由此我们就能得出增加啤酒税收会导致更多的交通由此我们就能得出增加啤酒税收会导致更多的交通事故死亡人数吗?不一定,这是因为这些回归中可事故死亡人数吗?不一
14、定,这是因为这些回归中可能存在着巨大的遗漏变量偏差。能存在着巨大的遗漏变量偏差。影响死亡率的因素有很多,包括:影响死亡率的因素有很多,包括:1。州内驾驶的汽车质量;。州内驾驶的汽车质量;2。高速公路的维修情况是否良好;。高速公路的维修情况是否良好;3。大部分驾驶的路程是在乡下还是市内;。大部分驾驶的路程是在乡下还是市内;4。路上的汽车密度;。路上的汽车密度;5。社会文化能否接受酒后驾车等。社会文化能否接受酒后驾车等。这些因素都有可能与酒精税有关。这些因素都有可能与酒精税有关。若相关,则会导致遗漏变量偏差。一种解决这若相关,则会导致遗漏变量偏差。一种解决这些导致遗漏变量偏差潜在根源的方法是收集这
15、些导致遗漏变量偏差潜在根源的方法是收集这些变量的数据,并把它们加入到上式中。不幸些变量的数据,并把它们加入到上式中。不幸的是,我们很难或不可能度量诸如酒后驾车的的是,我们很难或不可能度量诸如酒后驾车的文化接受度等变量。文化接受度等变量。解决方法:固定效应解决方法:固定效应OLS回归回归具有两个时期的面板数据:具有两个时期的面板数据:“前后前后”比较比较特别注意:特别注意:Zi不随时间变化不随时间变化结论:结论: 两期的变化(差分)表示的回归消除了随两期的变化(差分)表示的回归消除了随时间不变的不可观测变量时间不变的不可观测变量Zi的效应。换言之,分析的效应。换言之,分析Y和和X的变化可以控制随
16、时间不变的变量,于是就的变化可以控制随时间不变的变量,于是就消除了这种产生遗漏变量偏差的来源。消除了这种产生遗漏变量偏差的来源。当数据是在两个不同年份里观测得到的时当数据是在两个不同年份里观测得到的时候,这种候,这种“前后前后”分析很有效。但我们的分析很有效。但我们的数据集中包含数据集中包含7个不同年份里的观测值,即个不同年份里的观测值,即当当T2时不能直接应用这种时不能直接应用这种“前后前后”比较比较方法。为了分析该面板数据集中的所有观方法。为了分析该面板数据集中的所有观测值,我们使用测值,我们使用固定效应回归方法固定效应回归方法。固定效应模型固定效应模型对于特定的个体对于特定的个体i而言,
17、而言,ai 表示那些不随时间表示那些不随时间改变的影响因素,如个人的消费习惯、国家改变的影响因素,如个人的消费习惯、国家的社会制度、地区的特征、性别等,一般称的社会制度、地区的特征、性别等,一般称其为其为“个体效应个体效应” (individual effects)。如。如果把果把“个体效应个体效应”当作不随时间改变的固定当作不随时间改变的固定性因素,性因素, 相应的模型称为相应的模型称为“固定效应固定效应”模型。模型。对于固定效应模型,可采用对于固定效应模型,可采用虚拟变量法虚拟变量法。基本思想:固定效应模型实质上就是在传统基本思想:固定效应模型实质上就是在传统的线性回归模型中加入的线性回归
18、模型中加入 N-1 个虚拟变量,使个虚拟变量,使得每个截面都有自己的截距项。得每个截面都有自己的截距项。由于固定效应模型假设存在着由于固定效应模型假设存在着“个体效应个体效应”,每个个体都有其单独的截距项。这就相当于每个个体都有其单独的截距项。这就相当于在原方程中引入在原方程中引入n1个虚拟变量(如果省略个虚拟变量(如果省略常数项,则引入常数项,则引入n个虚拟变量)来代表不同的个虚拟变量)来代表不同的个体,获得每个个体的截据项。个体,获得每个个体的截据项。如何理解个体效应、个体截距项的不同以及如何理解个体效应、个体截距项的不同以及虚拟变量的引入?虚拟变量的引入?我们用一份模拟的数据来分析:我们
19、用一份模拟的数据来分析: use example,clear xtset company year xtdes 1。 画出散点图和拟合线,并建立画出散点图和拟合线,并建立OLS回归回归方程。方程。2。加入虚拟变量,并重新画出建立。加入虚拟变量,并重新画出建立OLS回回归方程。归方程。010203040-2-1012xyFitted valuesreg y x010203040-2-1012xyFitted valuesFitted valuesFitted valuesFitted valuesgen d1=0gen d2=0gen d3=0replace d1=1 if id=1replac
20、e d2=1 if id=2replace d3=1 if id=3reg y x d1 d2固定效应模型的估计算法固定效应模型的估计算法“个休中心化个休中心化”OLS算法或者组内离差估计法算法或者组内离差估计法假设原方程为:假设原方程为:(式式1)给定第给定第i 个个体,将个个体,将(式式1)两边对时间取平均可得,两边对时间取平均可得,(式式2)(式式1) (式式2),得:,得:可以用可以用OLS方法一致地估计方法一致地估计 ,称为,称为“固定效应估计固定效应估计量量”(Fixed Effects Estimator),记为),记为FE由于由于 主要使用了每个个体的组内离差信息,故主要使用了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九 面板 数据 回归 ppt 课件
限制150内