《虚拟解释变量》PPT课件.ppt
第五章第五章 经典单方程计量经济学经典单方程计量经济学模型:专门问题模型:专门问题 5.1 虚拟变量虚拟变量 5.2 滞后变量滞后变量 5.3 设定误差设定误差 5.4 建模理论建模理论5.1 虚拟变量模型虚拟变量模型 一、虚拟变量的基本含义一、虚拟变量的基本含义 二、虚拟变量的引入二、虚拟变量的引入 三、虚拟变量的设置原则三、虚拟变量的设置原则虚拟变量将经济现象中的一些定性因素引虚拟变量将经济现象中的一些定性因素引入到可以进行定量分析的回归模型,拓展入到可以进行定量分析的回归模型,拓展了回归模型的功能。了回归模型的功能。本专题的重点是如何引入不同类型的虚拟本专题的重点是如何引入不同类型的虚拟变量来解决相关的定性因素影响的分析问变量来解决相关的定性因素影响的分析问题,主要介绍了引入虚拟变量的加法方式、题,主要介绍了引入虚拟变量的加法方式、乘法方式以及二者的组合方式。在引入虚乘法方式以及二者的组合方式。在引入虚拟变量时有两点需要注意,一是明确虚拟拟变量时有两点需要注意,一是明确虚拟变量的对比基准,二是避免出现变量的对比基准,二是避免出现“虚拟变虚拟变量陷阱量陷阱”。一、虚拟变量的基本含义一、虚拟变量的基本含义许多经济变量是许多经济变量是可以定量度量可以定量度量的,的,如:如:商商品需求量、价格、收入、产量等品需求量、价格、收入、产量等但也有一些影响经济变量的因素但也有一些影响经济变量的因素无法定量无法定量度量度量,如:如:职业、性别对收入的影响,战职业、性别对收入的影响,战争、自然灾害对争、自然灾害对GDP的影响,季节对某些的影响,季节对某些产品(如冷饮)销售的影响等等。产品(如冷饮)销售的影响等等。为了在模型中能够反映这些因素的影响,为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们并提高模型的精度,需要将它们“量化量化”,这种这种“量化量化”通常是通过引入通常是通过引入“虚拟变虚拟变量量”来完成的。根据这些因素的属性类型,来完成的。根据这些因素的属性类型,构造只取构造只取“0”或或“1”的人工变量,通常称的人工变量,通常称为为虚拟变量虚拟变量(dummy variables),记为,记为D。例如例如,反映文程度的虚拟变量可取为:,反映文程度的虚拟变量可取为:1,本科学历本科学历 D=0,非本科学历非本科学历 一般地,在虚拟变量的设置中:一般地,在虚拟变量的设置中:基础类型、肯定类型取值为基础类型、肯定类型取值为1;比较类型,否定类型取值为比较类型,否定类型取值为0。概念:概念:同同时时含含有有一一般般解解释释变变量量与与虚虚拟拟变变量量的的模模型型称称为为虚虚拟拟变变量量模模型型或或者者方方差差分分析析(analysis-of variance:ANOVA)模型模型。一一个个以以性性别别为为虚虚拟拟变变量量考考察察企企业业职职工工薪薪金金的的模型:模型:其中:其中:Yi为企业职工的薪金,为企业职工的薪金,Xi为工龄,为工龄,Di=1,若是男性,若是男性,Di=0,若是女性,若是女性。二、虚拟变量的引入二、虚拟变量的引入 虚拟变量做为解释变量引入模型有两种基虚拟变量做为解释变量引入模型有两种基本方式:本方式:加法方式加法方式和和乘法方式乘法方式。企业男职工的平均薪金为:企业男职工的平均薪金为:上述企业职工薪金模型中性别虚拟变量的上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。引入采取了加法方式。在该模型中,如果仍假定在该模型中,如果仍假定E(i)=0,则,则 企业女职工的平均薪金为:企业女职工的平均薪金为:1 1、加法方式、加法方式几何意义:几何意义:假定假定 20,则两个函数有相同的斜率,但有不同,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差率是一样的,但两者的平均薪金水平相差 2。可以通过可以通过传统的回归检验传统的回归检验,对对 2的统计显著性进的统计显著性进行检验,行检验,以判断企业男女职工的平均薪金水平是以判断企业男女职工的平均薪金水平是否有显著差异。否有显著差异。又例又例:在横截面数据基础上,考虑个人保:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。健支出对个人收入和教育水平的回归。教育水平考虑三个层次:高中以下,教育水平考虑三个层次:高中以下,高中,高中,大学及其以上大学及其以上 模型可设定如下:模型可设定如下:这时需要引入两个虚拟变量:这时需要引入两个虚拟变量:在在E(i)=0 的初始假定下,高中以下、高中、的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:大学及其以上教育水平下个人保健支出的函数:高中以下:高中以下:高中:高中:大学及其大学及其以上:以上:假定假定 3 2,其几何意,其几何意义:义:还可将多个虚拟变量引入模型中以考察还可将多个虚拟变量引入模型中以考察多多种种“定性定性”因素的影响。因素的影响。如如在在上上述述职职工工薪薪金金(男男1,女女0)的的例例中中,再再引入代表学历的虚拟变量引入代表学历的虚拟变量D2:本科及以上学历本科及以上学历本科以下学历本科以下学历职工薪金的回归模型可设计为:职工薪金的回归模型可设计为:女职工女职工本科以下学历本科以下学历的平均薪金:的平均薪金:女职工女职工本科以上学历本科以上学历的平均薪金:的平均薪金:于是,不同性别、不同学历职工的平均薪金分别为于是,不同性别、不同学历职工的平均薪金分别为男职工男职工本科以下学历本科以下学历的平均薪金:的平均薪金:男职工男职工本科以上学历本科以上学历的平均薪金:的平均薪金:2 2、乘法方式、乘法方式加法方式加法方式引入虚拟变量,考察:引入虚拟变量,考察:截距的不同截距的不同,许多情况下:往往是许多情况下:往往是斜率斜率就就有变化有变化,或斜率、或斜率、截距截距同时发生变化同时发生变化。斜率斜率的变化可通过以的变化可通过以乘法乘法的方式引入虚拟变量的方式引入虚拟变量来测度。来测度。例例:根据消费理论,消费水平根据消费理论,消费水平C主要取决于收主要取决于收入水平入水平Y,但在一个较长的时期,人们的消费倾,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种常年份,消费倾向往往出现变化。这种消费倾消费倾向的变化可通过在收入的系数向的变化可通过在收入的系数中中引入虚拟变量引入虚拟变量来考察。来考察。这里,虚拟变量这里,虚拟变量D以与以与X相乘的方式引入了模型相乘的方式引入了模型中,从而可用来考察消费倾向的变化。中,从而可用来考察消费倾向的变化。假定假定E(i)=0,上述模型所表示的函数可化为:上述模型所表示的函数可化为:正常年份:正常年份:反常年份:反常年份:如,设如,设消费模型可建立如下:消费模型可建立如下:当当截距截距与与斜率斜率发生变化时,则需要同时引发生变化时,则需要同时引入入加法加法与与乘法乘法形式的虚拟变量。形式的虚拟变量。例例,考考察察1990年年前前后后的的中中国国居居民民的的总总储储蓄蓄-收入关系是否已发生变化。收入关系是否已发生变化。表表中中给给出出了了中中国国19792001年年以以城城乡乡储储蓄蓄存存款款余余额额代代表表的的居居民民储储蓄蓄以以及及以以GNP代代表表的的居民收入的数据。居民收入的数据。YXn1n2检验模型结构稳定性检验模型结构稳定性1990年前:年前:Yi=1 +2 Xi+1i i=1,2,n1 1990年后:年后:Yi=1 +2 Xi+2i i=1,2,n2 则有可能出现下述四种情况中的一种:则有可能出现下述四种情况中的一种:(1)1=1,且且 2=2,即即两两个个回回归归相相同同,称称为为重重合合回归回归(Coincident Regressions););(2)11,但但 2=2,即即两两个个回回归归的的差差异异仅仅在在其其截截距距,称为称为平行回归平行回归(Parallel Regressions);(3)1=1,但但 22,即即两两个个回回归归的的差差异异仅仅在在其其斜斜率,称为率,称为汇合回归汇合回归(Concurrent Regressions);(4)11,且且 22,即即两两个个回回归归完完全全不不同同,称称为为相相异回归异回归(Dissimilar Regressions)。以以Y为储蓄,为储蓄,X为收入,可令:为收入,可令:可以运用可以运用邹氏结构变化的检验邹氏结构变化的检验。这一问题也。这一问题也可通过引入可通过引入乘法形式乘法形式的虚拟变量来解决。的虚拟变量来解决。将将n1与与n2次观察值合并,并用以估计以下回归:次观察值合并,并用以估计以下回归:Di为引入的虚拟变量:为引入的虚拟变量:于是有于是有可分别表示可分别表示1990年年后后期与期与前期前期的储蓄函数。的储蓄函数。后后前前在统计检验中,如果在统计检验中,如果 4=0的假设被拒绝,的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。则说明两个时期中储蓄函数的斜率不同。具体的回归结果为:具体的回归结果为:(-6.11)(22.89)(4.33)(-2.55)由由 3与与 4的的t检验可知:参数显著地不等于检验可知:参数显著地不等于0,强烈示出两个时期的回归是相异的,强烈示出两个时期的回归是相异的,1990年前:年前:1990年后:年后:=0.9836储蓄函数分别为:储蓄函数分别为:3 3、临界指标临界指标的虚拟变量的引入的虚拟变量的引入(分段回归分段回归)在在经经济济发发生生转转折折时时期期,可可通通过过建建立立临临界界指指标标的虚拟变量模型来反映。的虚拟变量模型来反映。例例如如,进进口口消消费费品品数数量量Y主主要要取取决决于于国国民民收收入入X的的多多少少,中中国国在在改改革革开开放放前前后后,Y对对X的的回回归关系明显不同。归关系明显不同。这这时时,可可以以t*=1979年年为为转转折折期期,以以1979年年的的国民收入国民收入Xt*为临界值,设如下虚拟变量:为临界值,设如下虚拟变量:则进口消费品的回则进口消费品的回归模型可建立如下归模型可建立如下 OLS法得到该模型的回归方程为法得到该模型的回归方程为则两时期进口消费品函数分别为:则两时期进口消费品函数分别为:当当tt*=1979年,年,当当t t*=1979年,年,反映国民反映国民收入提高收入提高程度程度例如,公司奖金与职工销售量有关,并且例如,公司奖金与职工销售量有关,并且规定销售量超过某个水平时(如规定销售量超过某个水平时(如120件),件),将大幅度提高奖金将大幅度提高奖金分段模型设置成分段模型设置成反映奖金反映奖金提高程度提高程度三、虚拟变量的设置原则三、虚拟变量的设置原则 虚拟变量的个数须按以下原则确定:虚拟变量的个数须按以下原则确定:每一定性变量所需的虚拟变量个数要比该每一定性变量所需的虚拟变量个数要比该定性变量的类别数少定性变量的类别数少1,即如果有,即如果有m个定性变个定性变量,只在模型中引入量,只在模型中引入m-1个虚拟变量。个虚拟变量。例例。例:例:已知冷饮的销售量已知冷饮的销售量Y除受除受k种定量变量种定量变量Xk的影响外,还受的影响外,还受春、夏、秋、冬四季春、夏、秋、冬四季变化的变化的影响,要考察该四季的影响,只需引入影响,要考察该四季的影响,只需引入三个三个虚拟变量即可:虚拟变量即可:则冷饮销售量的模型为:则冷饮销售量的模型为:在上述模型中,若再引入第四个虚拟变量在上述模型中,若再引入第四个虚拟变量则冷饮销售模型变量为:则冷饮销售模型变量为:其矩阵形式为:其矩阵形式为:如果只取六个观测值,其中春季与夏季取了如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:两次,秋、冬各取到一次观测值,则式中的:显然,显然,(X,D)中的第中的第1列可表示成后列可表示成后4列的线性列的线性组合组合,从而从而(X,D)不满秩不满秩,参数无法唯一求出参数无法唯一求出。这就是所谓的这就是所谓的“虚拟变量陷井虚拟变量陷井”,应避免。应避免。以本例总结来看:以本例总结来看:不能在含有常数项的回归模型中,同时使不能在含有常数项的回归模型中,同时使用反映不同季度的用反映不同季度的4个虚拟变量,以避免共个虚拟变量,以避免共线性线性但不含有常数项的回归模型中可以同时使但不含有常数项的回归模型中可以同时使用用4个虚拟变量个虚拟变量在含有常数项的回归模型中使用在含有常数项的回归模型中使用3个虚拟变个虚拟变量,常数项代表量,常数项代表“冬季冬季”D1、D2、D3代表比代表比D4平均高出多少平均高出多少虚拟变量思考题虚拟变量思考题1、回归模型中引入虚拟变量的作用是什么?有哪、回归模型中引入虚拟变量的作用是什么?有哪几种基本的引入方式,它们各适用于什么情况?几种基本的引入方式,它们各适用于什么情况?2、一项对某大学学生月消费支出的研究中,认为、一项对某大学学生月消费支出的研究中,认为学生的消费支出除受到家庭月收入水平影响外,学生的消费支出除受到家庭月收入水平影响外,还受在学校中是否得到奖学金、农村还是城市、还受在学校中是否得到奖学金、农村还是城市、所处地区是发达还是欠发达地区、以及性别等因所处地区是发达还是欠发达地区、以及性别等因素的影响。试设定适当的模型,并导出如下情形素的影响。试设定适当的模型,并导出如下情形下学生消费支出的平均水平:下学生消费支出的平均水平:(1)来自欠发达地区的农村女生,未得到奖学金)来自欠发达地区的农村女生,未得到奖学金(2)来自欠发达地区的城市男生,得到奖学金)来自欠发达地区的城市男生,得到奖学金(3)来发达地区的农村女生,得到奖学金)来发达地区的农村女生,得到奖学金(4)来发达地区的城市男生,未得到奖学金)来发达地区的城市男生,未得到奖学金1回答:模型中引入虚拟变量,主要是为了寻找某些定性因素对解释变量的影响。加法方式、乘法方式是主要的引入方式。前者适用于定性因素对截距项产生影响的情况,后者适用于定性因素对斜率项产生影响的情况。此外,还可采用加法与乘法组合的方式引入虚拟变量,这是可度量定性因素对截距项与斜率项同时产生影响的情况。