《虚拟变量模型.pptx》由会员分享,可在线阅读,更多相关《虚拟变量模型.pptx(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1虚拟变量模型虚拟变量模型5.1 虚拟变量模型一、虚拟变量的含义二、虚拟变量的设置三、虚拟变量的引入第1页/共30页一、虚拟变量的含义一种人为构造的、取值仅为“1”或“0”的变量第2页/共30页1.1.1.1.定量变量和定性变量定量变量和定性变量定量变量和定性变量定量变量和定性变量n n定量变量定量变量定量变量定量变量:测度等级为间距(:测度等级为间距(:测度等级为间距(:测度等级为间距(intervalintervalintervalinterval)或比率()或比率()或比率()或比率(ratioratioratioratio)尺度的变量,)尺度的变量,)尺度的变量,)尺度的变量,如
2、需求量、价格、收入、产量等如需求量、价格、收入、产量等如需求量、价格、收入、产量等如需求量、价格、收入、产量等n n其取值为具有实际含义的数据其取值为具有实际含义的数据其取值为具有实际含义的数据其取值为具有实际含义的数据n n可以在建模过程中直接使用这些变量及其数据可以在建模过程中直接使用这些变量及其数据可以在建模过程中直接使用这些变量及其数据可以在建模过程中直接使用这些变量及其数据n n定性变量定性变量定性变量定性变量:测度等级名义(:测度等级名义(:测度等级名义(:测度等级名义(nominalnominalnominalnominal)或顺序()或顺序()或顺序()或顺序(ordinalo
3、rdinalordinalordinal)尺度的变)尺度的变)尺度的变)尺度的变量,如性别、教育程度等量,如性别、教育程度等量,如性别、教育程度等量,如性别、教育程度等n n其取值为类别或顺序,可用数值表示,但数值不具有实际含义,仅是表其取值为类别或顺序,可用数值表示,但数值不具有实际含义,仅是表其取值为类别或顺序,可用数值表示,但数值不具有实际含义,仅是表其取值为类别或顺序,可用数值表示,但数值不具有实际含义,仅是表示类别或序次的代码示类别或序次的代码示类别或序次的代码示类别或序次的代码n n性别(性别(性别(性别(1 1 1 1男;男;男;男;0 0 0 0女)、教育程度(女)、教育程度(
4、女)、教育程度(女)、教育程度(1 1 1 1小学、小学、小学、小学、2 2 2 2初中、初中、初中、初中、3 3 3 3高中、高中、高中、高中、4 4 4 4大学)大学)大学)大学)n n实际建模中,考虑定性变量的影响是必要的,但实际建模中,考虑定性变量的影响是必要的,但实际建模中,考虑定性变量的影响是必要的,但实际建模中,考虑定性变量的影响是必要的,但直接使用定性变量的取直接使用定性变量的取直接使用定性变量的取直接使用定性变量的取值则具有不合理性值则具有不合理性值则具有不合理性值则具有不合理性第3页/共30页2.2.2.2.直接使用定性变量的不合理性直接使用定性变量的不合理性直接使用定性变
5、量的不合理性直接使用定性变量的不合理性【例例例例】:考虑教育程度(考虑教育程度(考虑教育程度(考虑教育程度(E E E E)、工龄()、工龄()、工龄()、工龄(X X X X)和收入()和收入()和收入()和收入(Y Y Y Y)的关系。)的关系。)的关系。)的关系。模型中系数 2 的经济意义是什么?注意到 2 是一个常数,这意味着什么?教育程度的变化对收入的影响是固定不变的,即:教育程度每提升一个 等级,所带来的收入的变动均为2显然,对于大多数实际情况而言,这种假定存在明显的不合理性问题:建模过程中如何使用定性变量?其中:E:1本科;2硕士;3博士第4页/共30页【例】:对于上例,设置如下
6、两个变量:3.3.3.3.正确应用定性变量的方式正确应用定性变量的方式正确应用定性变量的方式正确应用定性变量的方式 硕士 其它 博士 其它这意味着:对于某个硕士生:E1=1 E2=0 对于某个博士生:E1=0 E2=1 对于某个本科生:E1=0 E2=0建立如下模型:于是:对于本科生,其收入为:对于硕士生,其收入为:对于博士生,其收入为:教育程度的变动带来的影响分别是2(本硕)和(32)(硕博),模型合理性得到改进!第5页/共30页 虚拟变量(dummy variable):一种人为构造的、取值仅为“1”或“0”的变量,又称示性变量(indicator variable)。“1”表示属于某个类
7、别或具备某种属性“0”表示不属于该类别或不具备该属性 实质上,虚拟变量是定性变量的一种“量化”工具,用以反映观测在定性变量上所属的类别或所具有的属性。虚拟变量可以类似于定量变量一样直接引入模型,而不丧失模型的合理性,因此:正确应用定性变量的一种方式是通过设置“虚拟变量”引入定性变量。由此,包含虚拟变量的模型称之为虚拟变量模型4.4.4.4.虚拟变量的含义虚拟变量的含义虚拟变量的含义虚拟变量的含义 问题:如何正确地设置虚拟变量?第6页/共30页二、虚拟变量的设置 虚拟变量的个数为定性变量类别数1 注意参照类的设置 注意虚拟变量陷阱第7页/共30页【思考】:上例中,为什么不用三个虚拟变量表示三种教
8、育程度?对例题的思考对例题的思考对例题的思考对例题的思考 硕士 其它 博士 其它 本科 其它这意味着:对于某个硕士生:E1=1 E2=0 E3=0对于某个博士生:E1=0 E2=1 E3=0对于某个本科生:E1=0 E2=0 E3=1相应的模型:第8页/共30页【分析分析分析分析】:n n假定我们有假定我们有假定我们有假定我们有6 6个观测值,其中个观测值,其中个观测值,其中个观测值,其中2 2个硕士、个硕士、个硕士、个硕士、1 1个博士、个博士、个博士、个博士、3 3个本科生个本科生个本科生个本科生n n考虑模型的考虑模型的考虑模型的考虑模型的设计矩阵设计矩阵设计矩阵设计矩阵X X:显然,矩
9、阵X是不满秩的,产生了“完全的多重共线性”!此即所谓的“虚拟变量陷阱”!第9页/共30页对每个定性变量而言,所引入的虚拟变量的个数应该比该变量的类别数少1,即:如果某个定性变量具有m个类别,则只需在模型中引入(m-1)个虚拟变量。1.1.1.1.虚拟变量的设置原则虚拟变量的设置原则虚拟变量的设置原则虚拟变量的设置原则定性变量:性别男女虚拟变量:男女例1:定性变量:教育程度E:1本科;2硕士;3博士 硕士 其它 博士 其它E1=1 E2=0:硕士E2=0 E2=1:博士E1=0 E2=0:本科虚拟变量:例2:第10页/共30页(1)这一规则适用于模型中包含一个或多个定性变量的情形。即如果模型存在
10、多个定性变量,则需要设置多组虚拟变量,每组虚拟变量的个数取决于对应的定性变量所具有的类别数。(2)定性变量的分类中,不指定其虚拟变量的类别(组)称为基准组(base)或参照组(reference)。如上例:本科教育程度组即为基准组或参照组 在基准组上,所有对应的虚拟变量的取值均为0 实际问题中,基准组或参照组的选择完全取决于研究者。一旦选定基准组,分析中,所有其它组都将与基准组进行比较。2.2.2.2.虚拟变量的设置说明虚拟变量的设置说明虚拟变量的设置说明虚拟变量的设置说明第11页/共30页(3)这一设置原则仅指对于包含截距项的回归模型而言,此时如果违背这一原则则将陷入所谓的“虚拟变量陷阱”。
11、如果模型不包含截距项,那么即使引入与类别数相同数量的虚拟变量也不会造成多重共线性。硕士 其它 博士 其它 本科 其它大多数研究者认为,在一个含有截距的方程中,他们能更容易地处理他们通常感兴趣的问题,是否有某个组与基准组有所不同以及有多大不同,所以在方程中包括截距更方便。肯尼迪(Kennedy)第12页/共30页三、虚拟变量的引入虚拟变量做为解释变量引入模型有两种基本方式:加法方式和乘法方式。注意不同方式下应用的目的第13页/共30页(一)加法方式(一)加法方式(一)加法方式(一)加法方式【例1】考虑性别(男、女)、工龄(X)和薪金(Y)的关系。模型中将虚拟变量以相加的方式引入模型 可以直接考察
12、定性变量不同类别的变化对模型因变量的影响 本质上,可以考察不同回归模型的截距项是否存在差异设置虚拟变量:建立如下模型:注意:参照组是什么?第14页/共30页假定E(i)=0,则:对于女职工(D=0),其平均薪金为:对于男职工(D=1),其平均薪金为:可以看出,虚拟变量对应的回归系数2表示:虚拟变量取值为1所代表的类别(男)相对于参照类别(取值为0,女)在因变量上的平均差异,反映出定性变量取值的变化对因变量的影响 从回归模型上看,两个组上的回归模型的差异主要在于截距的不同 其差异为:第15页/共30页 回归模型为:教育程度需要引入两个虚拟变量:注意:参照组是哪一类?【例2】:在横截面数据基础上,
13、考虑个人收入和教育水平对个人保健支出的影响,其中教育水平考虑三个层次:高中以下、高中、大学及其以上 第16页/共30页 在在在在E(E(E(E(i i i i)=0=0=0=0 的初始假定下,不同教育层次的个人保健支出的函数:的初始假定下,不同教育层次的个人保健支出的函数:的初始假定下,不同教育层次的个人保健支出的函数:的初始假定下,不同教育层次的个人保健支出的函数:高中以下:高中以下:高中以下:高中以下:高中:大学及其以上:2表示:高中组与高中以下组在平均支出上的差异;3表示:大学组与高中以下组在平均支出上的差异;第17页/共30页【例例例例3 3 3 3】:在上述职工薪金的例中,再引入代表
14、学历的虚拟变量在上述职工薪金的例中,再引入代表学历的虚拟变量在上述职工薪金的例中,再引入代表学历的虚拟变量在上述职工薪金的例中,再引入代表学历的虚拟变量DDDD2 2 2 2 职工薪金的回归模型可设计为:多个定性变量的例子多个定性变量的例子多个定性变量的例子多个定性变量的例子 模型中的虚拟变量本科及以上学历本科以下学历注意:参照组是哪一类?第18页/共30页女职工、本科以下学历(D1=0,D2=0)的平均薪金:女职工、本科以上学历(D1=0,D2=1)的平均薪金:不同性别、不同学历职工的平均薪金分别为:男职工、本科以下学历(D1=1,D2=0)的平均薪金:男职工、本科以上学历(D1=1,D2=
15、1)的平均薪金:第19页/共30页n n22表示:在教育水平相同的情况下,性别差异的影响表示:在教育水平相同的情况下,性别差异的影响表示:在教育水平相同的情况下,性别差异的影响表示:在教育水平相同的情况下,性别差异的影响 33表示:在性别属性相同的情况下,教育水平差异的影响表示:在性别属性相同的情况下,教育水平差异的影响表示:在性别属性相同的情况下,教育水平差异的影响表示:在性别属性相同的情况下,教育水平差异的影响 22、33、(、(、(、(2233)表示了其他组与基准组的差异)表示了其他组与基准组的差异)表示了其他组与基准组的差异)表示了其他组与基准组的差异工龄薪金D1=0,D2=0D1=1
16、,D2=0D1=0,D2=1D1=1,D2=1第20页/共30页例:根据消费理论,消费水平C主要取决于收入水平Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。(二)乘法方式 模型中将虚拟变量以与其它解释变量相乘构成一个新的变量的方式引入模型加法方式引入虚拟变量,可以考察截距的不同,而在许多情况下往往是斜率就有变化,或斜率、截距同时发生变化。斜率的变化可通过以乘法方式引入虚拟变量来测度。第21页/共30页n n这里,虚拟变量这里,虚拟变量这里,虚拟变量这里,虚拟变量DDDD以与以与
17、以与以与X X X X相乘的方式引入了模型中,从而可用来考察相乘的方式引入了模型中,从而可用来考察相乘的方式引入了模型中,从而可用来考察相乘的方式引入了模型中,从而可用来考察消费倾向的变化。消费倾向的变化。消费倾向的变化。消费倾向的变化。n n假定假定假定假定E(E(E(E(i i i i)=0=0=0=0,上述模型所表示的函数可化为:上述模型所表示的函数可化为:上述模型所表示的函数可化为:上述模型所表示的函数可化为:正常年份:反常年份:设消费模型可建立如下:第22页/共30页特别地,当截距与斜率发生变化时,则需要同时引入加法特别地,当截距与斜率发生变化时,则需要同时引入加法特别地,当截距与斜
18、率发生变化时,则需要同时引入加法特别地,当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。与乘法形式的虚拟变量。与乘法形式的虚拟变量。与乘法形式的虚拟变量。【例例例例5.1.15.1.15.1.15.1.1】考察考察考察考察1990199019901990年前后的中国居民的总储蓄年前后的中国居民的总储蓄年前后的中国居民的总储蓄年前后的中国居民的总储蓄-收入关系是否已发收入关系是否已发收入关系是否已发收入关系是否已发 生变化。生变化。生变化。生变化。n n表表表表5.1.15.1.15.1.15.1.1中中中中给给给给出出出出了了了了中中中中国国国国1979197919791979
19、2001200120012001年年年年以以以以城城城城乡乡乡乡储储储储蓄蓄蓄蓄存存存存款款款款余余余余额额额额代代代代表表表表的的的的居民储蓄以及以居民储蓄以及以居民储蓄以及以居民储蓄以及以GNPGNPGNPGNP代表的居民收入的数据。代表的居民收入的数据。代表的居民收入的数据。代表的居民收入的数据。第23页/共30页第24页/共30页以以以以Y Y Y Y为储蓄,为储蓄,为储蓄,为储蓄,X X X X为收入,可令:为收入,可令:为收入,可令:为收入,可令:1990199019901990年前:年前:年前:年前:Y Y Y Yi i i i=1 1 1 1+2 2 2 2X X X Xi i
20、 i i+1i1i1i1i i=1,2,n i=1,2,n i=1,2,n i=1,2,n1 1 1 1 1990199019901990年后:年后:年后:年后:Y Y Y Yi i i i=1 1 1 1+2 2 2 2X X X Xi i i i+2i2i2i2i i=1,2,n i=1,2,n i=1,2,n i=1,2,n2 2 2 2 则有可能出现下述四种情况中的一种:则有可能出现下述四种情况中的一种:则有可能出现下述四种情况中的一种:则有可能出现下述四种情况中的一种:(1)(1)(1)(1)1 1 1 1=1 1 1 1 ,且且且且 2 2 2 2=2 2 2 2 ,即即即即 两两
21、两两 个个个个 回回回回 归归归归 相相相相 同同同同,称称称称 为为为为 重重重重 合合合合 回回回回 归归归归(Coincident RegressionsCoincident RegressionsCoincident RegressionsCoincident Regressions);(2)(2)(2)(2)1 1 1 11 1 1 1 ,但但但但 2 2 2 2=2 2 2 2 ,即即即即两两两两个个个个回回回回归归归归的的的的差差差差异异异异仅仅仅仅在在在在其其其其截截截截距距距距,称称称称为为为为平平平平行行行行回回回回归归归归(Parallel RegressionsPara
22、llel RegressionsParallel RegressionsParallel Regressions);(3)(3)(3)(3)1 1 1 1=1 1 1 1 ,但但但但 2 2 2 22 2 2 2 ,即即即即两两两两个个个个回回回回归归归归的的的的差差差差异异异异仅仅仅仅在在在在其其其其斜斜斜斜率率率率,称称称称为为为为汇汇汇汇合合合合回回回回归归归归(Concurrent Regressions)(Concurrent Regressions)(Concurrent Regressions)(Concurrent Regressions);(4)(4)(4)(4)1 1 1
23、11 1 1 1,且且且且 2 2 2 22 2 2 2 ,即即即即 两两两两 个个个个 回回回回 归归归归 完完完完 全全全全 不不不不 同同同同,称称称称 为为为为 相相相相 异异异异 回回回回 归归归归(Dissimilar RegressionsDissimilar RegressionsDissimilar RegressionsDissimilar Regressions)。)。)。)。第25页/共30页 这一问题通过同时以加法和乘法方式引入虚拟变量来解决。这一问题通过同时以加法和乘法方式引入虚拟变量来解决。这一问题通过同时以加法和乘法方式引入虚拟变量来解决。这一问题通过同时以加法
24、和乘法方式引入虚拟变量来解决。将将将将n n n n1 1 1 1与与与与n n n n2 2 2 2次观察值合并,并用以估计以下回归:次观察值合并,并用以估计以下回归:次观察值合并,并用以估计以下回归:次观察值合并,并用以估计以下回归:D为引入的虚拟变量:于是有:可分别表示1990年前期与后期的储蓄函数。第26页/共30页在统计检验中,如果在统计检验中,如果在统计检验中,如果在统计检验中,如果 4 4 4 4=0=0=0=0的假设被拒绝,则说明两个时期中储蓄函数的假设被拒绝,则说明两个时期中储蓄函数的假设被拒绝,则说明两个时期中储蓄函数的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。的斜率
25、不同。的斜率不同。的斜率不同。具体的回归结果为:具体的回归结果为:具体的回归结果为:具体的回归结果为:(-6.11)(22.89)(4.33)(-2.55)由3与4的t检验可知:参数显著地不等于0,强烈显示出两个时期的回归是相异的,1990年前:1990年后:储蓄函数分别为:第27页/共30页(三)临界指标的虚拟变量的引入(三)临界指标的虚拟变量的引入(三)临界指标的虚拟变量的引入(三)临界指标的虚拟变量的引入n n在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。则进口消费品的回归模型可建立如下:例:进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后,Y对X的回归关系明显不同。这时,可以t*=1979年为转折期,以1979年的国民收入Xt*为临界值,设如下虚拟变量:第28页/共30页OLSOLSOLSOLS法得到该模型的回归方程为法得到该模型的回归方程为法得到该模型的回归方程为法得到该模型的回归方程为则两时期进口消费品函数分别为:则两时期进口消费品函数分别为:则两时期进口消费品函数分别为:则两时期进口消费品函数分别为:当tt*=1979年,当tt*=1979年,第29页/共30页
限制150内