《虚拟变量问题.ppt》由会员分享,可在线阅读,更多相关《虚拟变量问题.ppt(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2.9 虚拟变量问题虚拟变量问题虚拟变量的基本含义虚拟变量的基本含义虚拟变量的引入虚拟变量的引入虚拟变量的设置原则虚拟变量的设置原则一、一、虚拟变量的基本含义虚拟变量的基本含义n可以定量度量可以定量度量的经济变量;的经济变量;n无法定量度量无法定量度量的经济变量;的经济变量;n“量化量化”问题问题 这种这种“量化量化”通常是通过引入通常是通过引入“虚拟变量虚拟变量”来完成的。根据这些因素的属性类型,构造只来完成的。根据这些因素的属性类型,构造只取取“0”或或“1”的人工变量,通常称为的人工变量,通常称为虚拟变虚拟变量量(dummy variables),),记为记为D。例如,例如,反映文化程度
2、的虚拟变量可取为:反映文化程度的虚拟变量可取为:企业薪金模型企业薪金模型:其中:其中:Yi为企业职工的薪金为企业职工的薪金,Xi为工龄为工龄,Di=1,若是男性,若是男性,Di=0,若是女性。若是女性。一般地,在虚拟变量的设置中:一般地,在虚拟变量的设置中:基础类型、肯定类型取值为基础类型、肯定类型取值为1;比较类型,否定类型取值为比较类型,否定类型取值为0。概念:概念:一个回归模型所包含的解释变量都是虚拟变量或一个回归模型所包含的解释变量都是虚拟变量或定性变量,这种模型称为定性变量,这种模型称为方差分析(方差分析(analysis-of variance:ANOVA)模型)模型。同时含有。同
3、时含有一般定量解一般定量解释变量释变量与与虚拟变量虚拟变量的模型称为的模型称为协方差分析模型协方差分析模型(analysis-of covariance:ANCOVA),也可称之为,也可称之为虚虚拟变量模型拟变量模型。二、虚拟变量的引入二、虚拟变量的引入 虚拟变量虚拟变量做为做为解释变量解释变量引入模型有两种基本引入模型有两种基本方式:方式:加法方式加法方式和和乘法方式乘法方式。企业男职工的平均薪金为:企业男职工的平均薪金为:1.加法方式加法方式 在企业职工薪金模型在企业职工薪金模型 中,如果中,如果仍假定仍假定E(i)=0,则,企业女职工的平均薪金为:,则,企业女职工的平均薪金为:几何意义:
4、几何意义:企业男职工的平均薪金为:企业男职工的平均薪金为:企业女职工的平均薪金为:企业女职工的平均薪金为:20 可将可将多个虚拟变量多个虚拟变量引入模型中以考察多种引入模型中以考察多种“定定性性”因素的影响。因素的影响。如在企业职工薪金的例中,再引入代表学历的如在企业职工薪金的例中,再引入代表学历的虚拟变量虚拟变量D2:职工薪金的回归模型可设计为:职工薪金的回归模型可设计为:女职工本科以下学历的平均薪金:女职工本科以下学历的平均薪金:女职工本科以上学历的平均薪金:女职工本科以上学历的平均薪金:不同性别、不同学历职工的平均薪金分别为:不同性别、不同学历职工的平均薪金分别为:男职工本科以下学历的平
5、均薪金:男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:男职工本科以上学历的平均薪金:2.乘法方式乘法方式n加法方式引入虚拟变量,考察:加法方式引入虚拟变量,考察:截距的不同截距的不同,n许多情况下:往往是斜率有变化,许多情况下:往往是斜率有变化,或斜率、截或斜率、截距同时发生变化。距同时发生变化。例:例:根据消费理论,消费水平根据消费理论,消费水平C主要取决于收主要取决于收入水平入水平Y,C=+Y+消费倾向的变化可通过在收入的系数中引入虚消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。拟变量来考察。假定假定E(t)=0,上述模型所表示的函数可化为:上述模型所表示的函数可化为
6、:正常年份:正常年份:反常年份:反常年份:可建立如下消费模型:可建立如下消费模型:其中:其中:当截距与斜率发生变化时,则需要同时引入当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。加法与乘法形式的虚拟变量。例例,考考察察1990年年前前后后的的中中国国居居民民的的总总储储蓄蓄-收收入入关关系是否已发生变化。系是否已发生变化。以以Y表示储蓄,表示储蓄,X表示收入,可令:表示收入,可令:n1990年前:年前:Yi=1+2Xi+1i i=1,2,n1 n1990年后:年后:Yi=1+2Xi+2i i=1,2,n2 则有可能出现下述四种情况中的一种:则有可能出现下述四种情况中的一种:(
7、1)1=1,且且 2=2,即即两两个个回回归归相相同同,称称为为重重合合回归回归(Coincident Regressions););(2)1 1,但但 2=2,即即两两个个回回归归的的差差异异仅仅在在其其截截距距,称为称为平行回归平行回归(Parallel Regressions);(3)1=1,但但 2 2,即即两两个个回回归归的的差差异异仅仅在在其其斜斜率,称为率,称为汇合回归汇合回归(Concurrent Regressions);(4)1 1,且且 2 2,即即两两个个回回归归完完全全不不同同,称称为为相相异回归异回归(Dissimilar Regressions)。)。可通过引入加
8、法和乘法形式的虚拟变量来可通过引入加法和乘法形式的虚拟变量来解决这一问题。解决这一问题。将将n1与与n2次观察值合并,估计以下回归:次观察值合并,估计以下回归:于是有:于是有:分别表示分别表示1990年年后期后期与与前期前期的储蓄函数。的储蓄函数。Di为引入的虚拟变量为引入的虚拟变量:DependentVariable:SAVEMethod:LeastSquaresSample:19802001VariableCoefficientStd.Errort-StatisticProb.C1535.0301094.9211.4019550.1779GNP0.0747100.0167904.44962
9、70.0003D1-1981.8661433.745-1.3823000.1838D1*GNP0.0319220.0854630.3735150.7131R-squared0.862854 Meandependentvar3340.064AdjustedR-squared0.839996 S.D.dependentvar3335.840S.E.ofregression1334.353 Akaikeinfocriterion17.39325Sumsquaredresid32048977 Schwarzcriterion17.59162Loglikelihood-187.3257 Hannan-Q
10、uinncriter.17.43998F-statistic37.74888 Durbin-Watsonstat1.155555Prob(F-statistic)0.0000001.虚拟变量模型估计结果(虚拟变量模型估计结果(90年前后)年前后)series d1=0smpl 1980 1990d1=1smpl all 在统计检验中,如果在统计检验中,如果 4=0的假设被拒绝,则说的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。明两个时期中储蓄函数的斜率不同。n具体的回归结果为:具体的回归结果为:由由 3与与 4的的t 检验可知:参数并非显著地不等检验可知:参数并非显著地不等于于0,显示两个
11、时期的回归是,显示两个时期的回归是相同相同的。的。重新估计的共同的储蓄函数为:重新估计的共同的储蓄函数为:DependentVariable:SMethod:LeastSquaresSample:19802001VariableCoefficientStd.Errort-StatisticProb.C-102.0413440.6968-0.2315450.8192GNP0.0975120.00942310.348480.0000R-squared0.842633 Meandependentvar3340.064AdjustedR-squared0.834764 S.D.dependentvar
12、3335.840S.E.ofregression1355.993 Akaikeinfocriterion17.34896Sumsquaredresid36774336 Schwarzcriterion17.44815Loglikelihood-188.8386 Hannan-Quinncriter.17.37233F-statistic107.0911 Durbin-Watsonstat0.920219Prob(F-statistic)0.0000002.模型重新估计结果(模型重新估计结果(90年前后)年前后)于是有:于是有:分别表示分别表示1997年年前期前期与与后期后期的储蓄函数。的储蓄函
13、数。Di为引入的虚拟变量为引入的虚拟变量:DependentVariable:SMethod:LeastSquaresSample:19802001VariableCoefficientStd.Errort-StatisticProb.C-913.4075338.0093-2.7023150.0146GNP0.1479910.01192012.415060.0000D25344.9524440.3981.2037100.2443D2*GNP-0.1163310.054654-2.1285120.0474R-squared0.935379 Meandependentvar3340.064Adju
14、stedR-squared0.924608 S.D.dependentvar3335.840S.E.ofregression915.9398 Akaikeinfocriterion16.64074Sumsquaredresid15101023 Schwarzcriterion16.83912Loglikelihood-179.0482 Hannan-Quinncriter.16.68747F-statistic86.84846 Durbin-Watsonstat2.044984Prob(F-statistic)0.0000003.虚拟变量模型估计结果虚拟变量模型估计结果1(97年前后)年前后)
15、在统计检验中,如果在统计检验中,如果 4=0的假设被拒绝,则说明的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。两个时期中储蓄函数的斜率不同。n具体的回归结果为:具体的回归结果为:由由t 检验可知,参数检验可知,参数 3并非显著地不等于并非显著地不等于0,而而参数参数 4显著地不等于显著地不等于0:显示两个时期的回归:显示两个时期的回归斜斜率是不同的,截距项相同率是不同的,截距项相同。重新估计得:。重新估计得:DependentVariable:SMethod:LeastSquaresSample:19802001VariableCoefficientStd.Errort-Statistic
16、Prob.C-882.4364340.9869-2.5878900.0180GNP0.1471680.01204012.222810.0000D2*GNP-0.0517650.010606-4.8808010.0001R-squared0.930177 Meandependentvar3340.064AdjustedR-squared0.922827 S.D.dependentvar3335.840S.E.ofregression926.6972 Akaikeinfocriterion16.62725Sumsquaredresid16316587 Schwarzcriterion16.7760
17、3Loglikelihood-179.8998 Hannan-Quinncriter.16.66230F-statistic126.5580 Durbin-Watsonstat1.974813Prob(F-statistic)0.0000003.虚拟变量模型估计结果虚拟变量模型估计结果2(97年前后)年前后)97年前后的储蓄函数为:年前后的储蓄函数为:1997年前:年前:1997年后:年后:3.临界指标的虚拟变量的引入临界指标的虚拟变量的引入 在在经经济济发发生生转转折折时时期期,可可通通过过建建立立临临界界指指标标的的虚虚拟变量模型来反映。拟变量模型来反映。例例如如,进进口口消消费费品品数数
18、量量Y主主要要取取决决于于国国民民收收入入X的的多多少少,中中国国在在改改革革开开放放前前后后,Y 对对X的的回回归归关关系系明明显显不同。不同。这这时时,可可以以t*=1979年年为为转转折折期期,以以1979年年的的国国民收入民收入Xt*为临界值,设如下虚拟变量:为临界值,设如下虚拟变量:进口消费品的回归模型建立如下进口消费品的回归模型建立如下:OLS法得到该模型的回归方程为法得到该模型的回归方程为则两时期进口消费品函数分别为:则两时期进口消费品函数分别为:当当t t*=1979年,年,当当t t*=1979年,年,三、虚拟变量的设置原则三、虚拟变量的设置原则 每一定性变量所需的虚拟变量个
19、数要比该定性变每一定性变量所需的虚拟变量个数要比该定性变量的类别数少量的类别数少1,即,即如果有如果有m个定性变量,只在模型个定性变量,只在模型中引入中引入m-1个虚拟变量个虚拟变量。例,已知冷饮的销售量例,已知冷饮的销售量Y 除受除受k 种定量变量种定量变量Xk的的影响外,还受春、夏、秋、冬四季变化的影响,要考影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可:察该四季的影响,只需引入三个虚拟变量即可:冷饮销售量的模型:冷饮销售量的模型:若再引入第四个虚拟变量:若再引入第四个虚拟变量:冷饮销售模型变量为:冷饮销售模型变量为:其矩阵形式为:其矩阵形式为:如果只取六个观测值,其中春季与夏季取了两如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:次,秋、冬各取到一次观测值,则式中的:显然,显然,(X,D)中的第中的第1列可表示成后列可表示成后4列的线性组合,列的线性组合,从而从而(X,D)不满秩,参数无法唯一求出。不满秩,参数无法唯一求出。这就是所谓的这就是所谓的“虚拟变量陷井虚拟变量陷井”,应避免。,应避免。
限制150内