《番茄花园-五章经典单方程计量经济学模型专门问题.ppt》由会员分享,可在线阅读,更多相关《番茄花园-五章经典单方程计量经济学模型专门问题.ppt(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、番茄花园-五章经典单方程计量经济学模型专门问题 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望5.1 5.1 虚拟变量模型虚拟变量模型Dummy Variables Regression Models 一、虚拟变量的基本含义一、虚拟变量的基本含义 二、虚拟变量的引入二、虚拟变量的引入 三、虚拟变量的设置原则三、虚拟变量的设置原则一、虚拟变量的基本含义一、虚拟变量的基本含义1 1、虚拟变量、虚拟变量(dummy variables)许多经济变量是许多经济变量是可以定
2、量度量可以定量度量。一些影响经济变量的因素是一些影响经济变量的因素是无法定量度量。无法定量度量。为了在模型中能够反映这些因素的影响,并提高为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们模型的精度,需要将它们“量化量化”。这种这种“量化量化”通常是通过引入通常是通过引入“虚拟变量虚拟变量”来完来完成的。根据这些因素的属性类型,成的。根据这些因素的属性类型,构造只取构造只取“0”或或“1”的人工变量的人工变量,通常称为,通常称为虚拟变量虚拟变量,记为,记为D。虚拟变量只作为解释变量。虚拟变量只作为解释变量。一般地,在虚拟变量的设置中:一般地,在虚拟变量的设置中:基础类型、肯定类型
3、取值为基础类型、肯定类型取值为1;比较类型,否定类型取值为比较类型,否定类型取值为0。例如,反映文程度的虚拟变量可取为例如,反映文程度的虚拟变量可取为:D=1,本科学历,本科学历D=0,非本科学历,非本科学历虚拟变量能否取虚拟变量能否取1 1、0 0以外的数值?以外的数值?2 2、虚拟变量模型、虚拟变量模型同时含有一般解释变量与虚拟变量的模型称为同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(虚拟变量模型或者方差分析(analysis-of variance:ANOVA)模型。)模型。例如,一个以性别为虚拟变量考察企业职工薪金的模型:其中:Yi为企业职工的薪金;Xi为工龄;D
4、i=1,若是男性,Di=0,若是女性。二、虚拟变量的引入二、虚拟变量的引入1 1、加法方式、加法方式虚拟变量作为解释变量引入模型有两种基本方虚拟变量作为解释变量引入模型有两种基本方式:式:加法方式加法方式和和乘法方式乘法方式。上述企业职工薪金模型中性别虚拟变量的引入上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。采取了加法方式。在该模型中,如果仍假定E(i)=0,则企业男、企业男、女职工的平均薪金为:女职工的平均薪金为:假定20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差2。可以通过对2的统计显著性进行检验,以判断企业
5、男女职工的平均薪金水平是否有显著差异。02将上例中的性别换成教育水平,教育水平考虑三个层次:高中以下、高中、大学及其以上。高中以下高中大学及以上在上例中同时引入性别和教育水平:女职工本科以下学历的平均薪金:女职工本科以上学历的平均薪金:男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:2 2、乘法方式、乘法方式加法方式引入虚拟变量,考察:截距的不同。加法方式引入虚拟变量,考察:截距的不同。许多情况下,斜率发生变化,或斜率、截距同时许多情况下,斜率发生变化,或斜率、截距同时发生变化。发生变化。斜率的变化可通过以乘法的方式引入虚拟变量来斜率的变化可通过以乘法的方式引入虚拟变量来测度测度。
6、例如,例如,根据消费理论,收入决定消费。但是,农村居民和城镇居民的边际消费倾向往往是不同的。这种消费倾向的不同可通过在消费函数中引入虚拟变量来考察。农村居民:城镇居民:例如,例如,根据消费理论,收入决定消费。但是,在自然灾害、战争等反常年份,消费倾向往往发生变化。这种消费倾向的变化可通过在消费函数中引入虚拟变量来考察。例如,例如,根据消费理论,收入决定消费。但是,从某一个时点开始,消费倾向发生变化。这种消费倾向的变化也可通过在消费函数中引入虚拟变量来考察。3 3、同时引入加法与乘法形式的虚拟变量、同时引入加法与乘法形式的虚拟变量当截距与斜率发生变化时,则需要同时引入加当截距与斜率发生变化时,则
7、需要同时引入加法与乘法形式的虚拟变量。法与乘法形式的虚拟变量。对于一元模型,有两组样本,则有可能出现下述四种情况中的一种:1=1,且2=2,即两个回归相同,称为重重合合回回归归(Coincident Regressions);11,但2=2,即两个回归的差异仅在其截距,称为平行回归平行回归(Parallel Regressions);1=1,但22,即两个回归的差异仅在其斜率,称为汇合回归汇合回归(Concurrent Regressions);11,且22,即两个回归完全不同,称为相相异异回归回归(Dissimilar Regressions)。例如,以1978-2009年的数据为样本,以G
8、DP作为解释变量,建立居民消费函数。根据分析,1992年前后,自发消费和消费率都可能发生变化。通过统计检验,判断两个时期中消费函数的截距和斜率是否发生变化。例5.1.1以中国2007年各个地区城镇居民家庭人均可支配收入与人均生活消费支出,以及农村居民家庭人均纯收入与人均生活消费支出的相关数据,建立居民消费函数模型。可以采用邹氏稳定性检验来考察农村居民与城镇居民边际消费倾向是否有差异。也可以建立虚拟变量模型,考察农村居民与城镇居民边际消费倾向是否有差异。估计得到由变量显著性检验得到:由变量显著性检验得到:2007年农村居民与城年农村居民与城镇居民的边际消费倾向并无显著差异,他们有镇居民的边际消费
9、倾向并无显著差异,他们有着共同的消费函数。着共同的消费函数。三、虚拟变量的设置原则三、虚拟变量的设置原则每一每一定性变量定性变量(qualitative variable)所需的虚拟所需的虚拟变量个数要比该定性变量的变量个数要比该定性变量的状态类别数状态类别数(categories)少少1。即如果有。即如果有m种状态,只在模型种状态,只在模型中引入中引入m-1个虚拟变量。个虚拟变量。例如,季节定性变量有春、夏、秋、冬例如,季节定性变量有春、夏、秋、冬4种状种状态,只需要设置态,只需要设置3个虚变量:个虚变量:如果设置第如果设置第4个虚变量,则出现个虚变量,则出现“虚拟变量陷井虚拟变量陷井”(D
10、ummy Variable Trap),为什么?),为什么?包含季节变量的正确模型:解释变解释变量完全量完全共线性共线性如果在服装需求函数模型中必须包含如果在服装需求函数模型中必须包含3个定性个定性变量:季节(变量:季节(4种状态)、性别(种状态)、性别(2种状态)、种状态)、职业(职业(5种状态),种状态),应该设置多少虚变量?应该设置多少虚变量?模型含常数项模型含常数项模型不含常数项模型不含常数项讨论:定序定性变量可否按照状态赋值?讨论:定序定性变量可否按照状态赋值?例如:表示居民对某种服务的满意程度,分例如:表示居民对某种服务的满意程度,分5种状态:种状态:非常不满意、一般不满意、无所谓
11、、一般满意、非常非常不满意、一般不满意、无所谓、一般满意、非常满意。在模型中按照状态分别赋值满意。在模型中按照状态分别赋值0、1、2、3、4或者或者2、1、0、1、2。被经常采用,尤其在管理学、社会学研究领域。被经常采用,尤其在管理学、社会学研究领域。正确的方法:正确的方法:设置多个虚拟变量,理论上正确,带来自由度损失。设置多个虚拟变量,理论上正确,带来自由度损失。以定性变量为研究对象,构造多元排序离散选择模型,然后以定性变量为研究对象,构造多元排序离散选择模型,然后以模型结果对定性变量的各种状态赋值。但需要更多的信息以模型结果对定性变量的各种状态赋值。但需要更多的信息支持。支持。赋值的方法等
12、于是对虚变量方法中的各个虚变量的参赋值的方法等于是对虚变量方法中的各个虚变量的参数施加了约束,而这种约束经常被检验为错误的。数施加了约束,而这种约束经常被检验为错误的。讨论:虚变量与状态的不同对应关系对估讨论:虚变量与状态的不同对应关系对估计结果有无影响?计结果有无影响?例例3.2.2中引入经济区位因素:东、中、西中引入经济区位因素:东、中、西Y=9.198829575-249.8125832*DD1-95.22159634*DD2 +0.6090284838*X1+0.2032206892*X2Y=-240.6137536+249.8125832*D1+154.5909868*D2 +0.6
13、090284838*X1+0.2032206892*X2从上述从上述2个得到:东部与中部自发性消费相差个得到:东部与中部自发性消费相差154.6,中部与西部相差,中部与西部相差95.2。虚变量与状态的不同对应关系对估计结果无影虚变量与状态的不同对应关系对估计结果无影响。响。5.2 5.2 滞后变量模型滞后变量模型Lagged Variables Regression Models 一、滞后变量模型一、滞后变量模型 二、分布滞后模型的参数估计二、分布滞后模型的参数估计 三、自回归模型的参数估计三、自回归模型的参数估计四、格兰杰因果关系检验四、格兰杰因果关系检验 一、滞后变量模型一、滞后变量模型1
14、 1、滞后变量、滞后变量滞后被解释变量(滞后被解释变量(Lagged explained variable)和滞后解释变量()和滞后解释变量(Lagged explanatory variable)作为模型的解释变量。)作为模型的解释变量。一般出现在时间序列数据样本的模型中。一般出现在时间序列数据样本的模型中。模型中出现滞后变量的原因模型中出现滞后变量的原因:心理原因心理原因技术原因技术原因制度原因制度原因2 2、滞后变量模型、滞后变量模型 以滞后变量作为解释变量,就得到滞后变量模型,滞后变量模型,也称动态模型也称动态模型。自自回回归归分分布布滞滞后后模模型型(Autoregressive D
15、istributed Lag Model,ADL):既含有Y对自身滞后变量的回归,还包括着X分布在不同时期的滞后变量。有限自回归分布滞后模型:有限自回归分布滞后模型:滞后期长度有限 无限自回归分布滞后模型:无限自回归分布滞后模型:滞后期无限 分布滞后模型(分布滞后模型(distributed-lag model):模型中没有滞后被解释变量,仅有解释变量X的当期值及其若干期的滞后值。0:短期短期(short-run)或即期乘数即期乘数(impact multiplier),表示本期X变化一单位对Y平均值的影响程度。i(i=1,2,s):动态乘数动态乘数或延迟系数延迟系数,表示各滞后期X的变动对Y
16、平均值影响的大小。如果各期的X值保持不变,则X与Y间的长期或均衡关系即为称为长期长期(long-run)或均衡乘数均衡乘数(total distributed-lag multiplier),表示X变动一个单位,由于滞后效应而形成的对Y平均值总影响的大小。自回归模型自回归模型(autoregressive model):模型中的解释变量仅包含X的当期值与被解释变量Y的一个或多个滞后值。称为一阶自回归模型一阶自回归模型(first-order autoregressive model)。二、分布滞后模型的参数估计二、分布滞后模型的参数估计1 1、分布滞后模型估计的困难、分布滞后模型估计的困难无限
17、期的分布滞后模型无限期的分布滞后模型,由于样本观测值的有,由于样本观测值的有限性,使得无法直接对其进行估计。限性,使得无法直接对其进行估计。有限期的分布滞后模型有限期的分布滞后模型,OLSOLS会遇到如下问题:会遇到如下问题:没有先验准则确定滞后期长度;没有先验准则确定滞后期长度;如如果果滞滞后后期期较较长长,将将缺缺乏乏足足够够的的自自由由度度进进行行估估计计和和检验;检验;同名变量滞后值之间可能存在高度线性相关,即模同名变量滞后值之间可能存在高度线性相关,即模型存在高度的多重共线性。型存在高度的多重共线性。2 2、分布滞后模型的修正估计方法、分布滞后模型的修正估计方法通过对各滞后变量加权,
18、组成线性合成变量而通过对各滞后变量加权,组成线性合成变量而有目的地减少滞后变量的数目,以缓解多重共有目的地减少滞后变量的数目,以缓解多重共线性,保证自由度。线性,保证自由度。经验加权法:经验加权法:根据实际问题的特点和实际经验给各滞后变量指定权数,滞后变量按权数线性组合,构成新的变量。权数据的类型有:递减型、递减型、矩型、倒矩型、倒V V型等。型等。经验权数法经验权数法的优点优点是:简单易行;缺点缺点是:设置权数的随意性较大。阿尔蒙(阿尔蒙(Almon)多项式法)多项式法 主要思想:主要思想:针对有限滞后期模型,通过阿尔蒙针对有限滞后期模型,通过阿尔蒙变换,定义新变量,以减少解释变量个数,然变
19、换,定义新变量,以减少解释变量个数,然后用后用OLSOLS法估计参数。法估计参数。主要步骤为:主要步骤为:第一步,阿尔蒙变换第一步,阿尔蒙变换i=0,1,s 例如取m=2 第二步,模型的第二步,模型的OLS估计估计对变换后的模型进行对变换后的模型进行OLS估计,得估计,得的估计值;的估计值;计算滞后分布模型参数计算滞后分布模型参数的估计值。的估计值。在实际估计中,阿尔蒙多项式的阶数m一般取2或3,不超过4,否则达不到减少变量个数的目的。由于m+1F(m,n-k),则拒绝原假设。,则拒绝原假设。能否说能否说“X X是是Y Y的格兰杰原因的格兰杰原因”?为什么?为什么?如果如果FF(m,n-k),
20、则不拒绝原假设。,则不拒绝原假设。综合上述检验:综合上述检验:X X是是Y Y的格兰杰原因。的格兰杰原因。格兰杰因果关系检验对于滞后期长度的选择有格兰杰因果关系检验对于滞后期长度的选择有时很敏感。不同的滞后期可能会得到完全不同时很敏感。不同的滞后期可能会得到完全不同的检验结果。的检验结果。一般首先以模型随机误差项不存在序列相关为一般首先以模型随机误差项不存在序列相关为标准选取滞后期,然后进行因果关系检验。标准选取滞后期,然后进行因果关系检验。3、例例5.2.4 检验19782006年间中国当年价GDP(X)与居民消费(Y)之间的因果关系。数据数据选择选择Granger检验检验选择检验的序列选择
21、检验的序列确定滞后阶数(确定滞后阶数(1阶)阶)检验结果检验结果 由相伴概率知,在5%的显著性水平下,既拒绝“X不是Y的格兰杰原因”的假设,也拒绝“Y不是X的格兰杰原因”的假设。因此,从1阶滞后的情况看,可支配收入X的增长与居民消费支出Y增长互为格兰杰原因。从检验模型随机干扰项1阶序列相关的LM检验看,以Y为被解释变量的模型的LM=0.897,对应的伴随概率P=0.343,表明在5%的显著性水平下,该检验模型不存在序列相关性;但是,以X为被解释变量的模型的LM=11.37,对应的伴随概率P=0.001,表明在5%的显著性水平下,该检验模型存在严重的序列相关性。检验结果检验结果 从2阶滞后期开始
22、,检验模型都拒绝了“X不是Y的格兰杰原因”的假设,而不拒绝“Y不是X的原因”的假设。滞后阶数为2或3时,两类检验模型都不存在序列相关性。由赤池信息准则,发现滞后2阶检验模型拥有较小的AIC值。可判断:可支配收入可支配收入X是居民消费支出是居民消费支出Y的格兰杰原因,而不是相反,的格兰杰原因,而不是相反,即国民收入的增加更大程度地影响着消费的增加。即国民收入的增加更大程度地影响着消费的增加。对于同阶单整的非平稳序列:对于同阶单整的非平稳序列:理论上讲不能直接采用。理论上讲不能直接采用。经过差分以后采用,经济意义发生变化。经过差分以后采用,经济意义发生变化。模拟试验表明,当模拟试验表明,当2个序列
23、逐渐由平稳过程向非平稳过个序列逐渐由平稳过程向非平稳过程过渡时,检验存在因果关系的概率出现一定程度的程过渡时,检验存在因果关系的概率出现一定程度的上升。但上升幅度远小于上升。但上升幅度远小于2个序列之间因果关系的显著个序列之间因果关系的显著性增强时所引起的上升幅度。性增强时所引起的上升幅度。同阶单整非平稳序列的同阶单整非平稳序列的Granger因果检验结果具有一定因果检验结果具有一定的可靠性。的可靠性。Granger因果检验是必要条件,不是充分条件。因果检验是必要条件,不是充分条件。数据数据检验结果检验结果统计检验必须建立在经济关系分析的基础之上,统计检验必须建立在经济关系分析的基础之上,结论
24、才有意义。结论才有意义。5.3 5.3 模型设定偏误问题模型设定偏误问题 Model Specification Error(Bias)一、模型设定偏误的类型一、模型设定偏误的类型 二、模型设定偏误的后果二、模型设定偏误的后果 三、模型设定偏误的检验三、模型设定偏误的检验 一、模型设定偏误的类型一、模型设定偏误的类型Types of Specification errors(bias)Omission of a relevant variable(s)Inclusion of an unnecessary variable(s)Adopting the wrong functional for
25、mErrors of measurementIncorrect specification of the stochastic error termTo distinguish between model specification errors and model mis-specification errors 1、相关变量的遗漏(、相关变量的遗漏(omitting relevant variables)例如例如,如果“正确”的模型为而我们将模型设定为 即设定模型时漏掉了一个相关的解释变量。这类错误称为遗漏相关变量遗漏相关变量。2、无关变量的误选、无关变量的误选 (including ir
26、revelant variables)例如例如,如果“真”的模型为 Y=0+1X1+2X2+但我们将模型设定为 Y=0+1X1+2X2+3X3+即设定模型时,多选了一个无关解释变量多选了一个无关解释变量。3、错误的函数形式、错误的函数形式(wrong functional form)例如,如果“真实”的回归函数为 但却将模型设定为 二、模型设定偏误的后果二、模型设定偏误的后果1、遗漏相关变量偏误遗漏相关变量偏误(omitting relevant variable bias)如如果果X X2 2与与X X1 1相相关关,1 1的的估估计计量量在在小小样样本本下下有有偏偏,在大样本下非一致。在大
27、样本下非一致。如果如果X X2 2与与X X1 1不相关,则不相关,则 1 1的估计量满足无偏性的估计量满足无偏性与一致性;但这时与一致性;但这时 0 0的估计却是有偏的。的估计却是有偏的。随机扰动项的方差估计也是有偏的。随机扰动项的方差估计也是有偏的。1 1估计量的方差是有偏的。估计量的方差是有偏的。2、包含无关变量偏误、包含无关变量偏误(including irrelevant variable bias)对包含无关变量的模型进行估计,参数估计量对包含无关变量的模型进行估计,参数估计量是无偏的,但不具有最小方差性。是无偏的,但不具有最小方差性。3、错误函数形式偏误、错误函数形式偏误(wro
28、ng functional form bias)产生的偏误是全方位的。产生的偏误是全方位的。三、模型设定偏误的检验三、模型设定偏误的检验1、检验是否含有无关变量、检验是否含有无关变量检验的基本思想检验的基本思想:如果模型中误选了无关变量,则其系数的真值应为零。因此,只须对无关变量系数的显著性进行检验。t t检验检验:检验某1个变量是否应包括在模型中;F F检验检验:检验若干个变量是否应同时包括在模型中。2 2、检验是否有相关变量的遗漏或函数形、检验是否有相关变量的遗漏或函数形式设定偏误式设定偏误残差图示法残差图示法 残差序列变化图残差序列变化图(a)趋势变化)趋势变化:模型设定时可能遗漏了一随
29、着时间的推移而持续上升的变量(b)循环变化:)循环变化:模型设定时可能遗漏了一随着时间的推移而呈现循环变化的变量 模型函数形式设定偏误时残差序列呈现正负交替模型函数形式设定偏误时残差序列呈现正负交替变化变化 图示:图示:一元回归模型中,真实模型呈幂函数形式,但却选取了线性函数进行回归。一般性设定偏误检验一般性设定偏误检验 拉姆齐拉姆齐(Ramsey)于于1969年提出的年提出的RESET 检验检验(regression error specification test)。RESET 检验基本思想:检验基本思想:如果事先知道遗漏了哪个变量,只需将此变量引入如果事先知道遗漏了哪个变量,只需将此变量
30、引入模型,估计并检验其参数是否显著不为零即可;模型,估计并检验其参数是否显著不为零即可;问题是不知道遗漏了哪个变量,需寻找一个替代变问题是不知道遗漏了哪个变量,需寻找一个替代变量量Z,来进行上述检验。,来进行上述检验。RESET检验中,采用所设定模型中被解释变量检验中,采用所设定模型中被解释变量Y的的估计值估计值 的若干次幂来充当该的若干次幂来充当该“替代替代”变量。变量。RESET 检验步骤检验步骤估计原模型,得到残差和被解释变量的估计量;估计原模型,得到残差和被解释变量的估计量;根据它们的图形判断应该引入根据它们的图形判断应该引入 的若干次幂;的若干次幂;对增加变量的模型进行估计,并进行对
31、增加变量的模型进行估计,并进行F F检验或者检验或者t t检检验来判断是否增加这些验来判断是否增加这些“替代替代”变量。变量。RESET检验也可用来检验函数形式设定偏误的问检验也可用来检验函数形式设定偏误的问题。题。将非线性模型设定为线性可以近似认为遗漏了解释将非线性模型设定为线性可以近似认为遗漏了解释变量的变量的2 2次、次、3 3次项;次项;引入模型,再进行检验。引入模型,再进行检验。RESET 检验例题检验例题根据19782006年间中国当年价GDP(X)与居民消费(Y)之间的因果关系检验结果,以Y为被解释变量,X为解释变量,建立中国总量消费函数模型。下面仅演示如何进行RESET检验,其它内容见教科书例5.3.1。原模型估计原模型估计随机项具有强烈的随机项具有强烈的1阶自相关性,阶自相关性,是否遗漏了重要的相关变量?是否遗漏了重要的相关变量?选择选择RESETRESET检验检验选择引入的变量数选择引入的变量数检验结果检验结果拒绝原模型与引入新变量的模型可决系数无显著差异的假拒绝原模型与引入新变量的模型可决系数无显著差异的假设,表明原模型确实存在遗漏相关变量的设定偏误。设,表明原模型确实存在遗漏相关变量的设定偏误。线性模型与双对数线性模型的选择线性模型与双对数线性模型的选择(仅供有兴趣的同学自学)
限制150内