《第6章 包含虚拟变量的回归模型.ppt》由会员分享,可在线阅读,更多相关《第6章 包含虚拟变量的回归模型.ppt(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第6章包含虚拟变量的回归模型 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望26.1 虚拟变量的性质虚拟变量虚拟变量(dummy variable),又称哑变量,是其值,又称哑变量,是其值只取只取1或或0的变量,一般在回归模型中用的变量,一般在回归模型中用D表示。表示。现实中的很多定性的因素,往往不能用具体的数值现实中的很多定性的因素,往往不能用具体的数值表示出来,而使用哑变量则可以更好的描述。表示出来,而使用哑变量则可以更好的描述。比如,性别、种族、肤色、结婚与
2、否、是否是基地比如,性别、种族、肤色、结婚与否、是否是基地班、是否是班干部、是否是党员、是否有男女朋友班、是否是班干部、是否是党员、是否有男女朋友等等。诸如此类的定性因素,一般可以用哑变量来等等。诸如此类的定性因素,一般可以用哑变量来进行描述。进行描述。例如:定义性别变量例如:定义性别变量female,如果是女性,如果是女性,female=1,如果是男性,如果是男性,female=0。那么,那么,female就是一个虚就是一个虚拟变量。拟变量。36.1 虚拟变量的性质:例子工资决定的例子工资决定的例子wage=b b0+b b1female+u假设假设E(u)=0E(wage|female=1
3、)=b b0+b b1 表示的是女性的平均工资水平表示的是女性的平均工资水平E(wage|female=0)=b b0表示的是男性的平均工资水平表示的是男性的平均工资水平b b1代表了女性与男性之间的平均工资差别。代表了女性与男性之间的平均工资差别。4虚拟变量:工资决定模型使用使用wage.raw(wooldridge),估计结果如下:估计结果如下:wge=7.0997.099 2.512female (0.21)(0.30)n=526 R2=0.1157 F=68.54所以,所以,女性的平均小时工资女性的平均小时工资(female=1)为为7.099-2.5124.588美元。美元。男性的平
4、均小时工资男性的平均小时工资(female=0)为为7.099则女性比男性的平均小时工资低则女性比男性的平均小时工资低2.512美元(即对应虚拟美元(即对应虚拟变量的回归系数)。变量的回归系数)。56.2包含一个定量变量,一个虚拟变量的回归模型wage=b b0+b b1female+b b2educ+ufemale仍然是一个性别虚拟变量,取值同前仍然是一个性别虚拟变量,取值同前E(wage|female=0,educ)=b b0 +b b2educ给定受教育水平,男性的平均小时工资给定受教育水平,男性的平均小时工资E(wage|female=1,educ)=b b0+b b1+b b2edu
5、c 给定受教育水平,女性的平均小时工资给定受教育水平,女性的平均小时工资b b1 1仍然是男女之间的平均小时工资差别。仍然是男女之间的平均小时工资差别。男女的平均小时工资对教育男女的平均小时工资对教育(educ)具有相同的斜率,具有相同的斜率,不同的截距。表明,无论男女都有相同的教育收益,不同的截距。表明,无论男女都有相同的教育收益,即工资对教育的变动都为即工资对教育的变动都为b b2。66.2工资决定模型:例子wge=0.6230.623-2.273female+0.5060.506educSe =(0.673)(0.279)(0.050)p =(0.355)(0.000)(0.000)n=
6、526 R2=0.2588 Adj-R2=0.2560 F=91.32 7educwageb0+b1=-1.651wge=-1.651+0.506educslope=b1female=1b0=0.623wge=0.623+0.506educfemale=08虚拟变量的性质1、如果一个定性变量只有两个取值,那么在模型中,我们、如果一个定性变量只有两个取值,那么在模型中,我们只需加入一个虚拟变量即可。比如性别变量,我们可以设定只需加入一个虚拟变量即可。比如性别变量,我们可以设定个虚拟变量个虚拟变量D,当性别为男时,当性别为男时D1,性别为女是,性别为女是D0。不需。不需要设置两个虚拟变量,否则则会
7、出现完全共线性,无法进行要设置两个虚拟变量,否则则会出现完全共线性,无法进行估计。因此,估计。因此,一个基本的原则是,如果定性变量有一个基本的原则是,如果定性变量有一个基本的原则是,如果定性变量有一个基本的原则是,如果定性变量有mm个类别,个类别,个类别,个类别,我们则需要取我们则需要取我们则需要取我们则需要取m-1m-1个虚拟变量。个虚拟变量。个虚拟变量。个虚拟变量。2、虚拟变量的赋值是任意的,根据各个研究偏好。、虚拟变量的赋值是任意的,根据各个研究偏好。3、取值为、取值为0的一类一般常为基准类或对比类等。比如,前文的一类一般常为基准类或对比类等。比如,前文的例子中的例子中female=0,
8、即男性是基准类。即模型估计结果得到即男性是基准类。即模型估计结果得到的截距直接代表基准类男性的平均工资水平。的截距直接代表基准类男性的平均工资水平。4、虚拟变量、虚拟变量D的系数称为差别截距系数,它表明了的系数称为差别截距系数,它表明了D1与与基准类截距的差别。因此前文的基准类截距的差别。因此前文的b b1 1表示女性与男性的平均工表示女性与男性的平均工资差别。资差别。9刚才估计的例子wge=0.6230.623-2.273female+0.5060.506educSe =(0.673)(0.279)(0.050)p =(0.355)(0.000)(0.000)n=526 R2=0.2588
9、Adj-R2=0.2560 F=91.32 当性别固定时,受教育程度每增加当性别固定时,受教育程度每增加1年,其平均小时年,其平均小时工资水平将增加工资水平将增加0.506美元。美元。当受教育程度固定不变时,女性的平均小时工资比当受教育程度固定不变时,女性的平均小时工资比男性的少男性的少2.273美元。美元。男性的平均小时工资男性的平均小时工资wge=0.623+0.506educ女性的平均小时工资女性的平均小时工资wge=-1.651+0.506educ106.3虚拟变量有多种分类的情况有时我们所考察的定性变量会超过有时我们所考察的定性变量会超过2个值,这时我们个值,这时我们不能单纯的用数字
10、的形式表示,也无法用刚才不能单纯的用数字的形式表示,也无法用刚才0或或1的数值形式表示。要用多个虚拟变量来进行分解。的数值形式表示。要用多个虚拟变量来进行分解。比如对于受教育程度,我们现在不是用具体的受教育年比如对于受教育程度,我们现在不是用具体的受教育年限来反应,而是用下列三类来反应不同的受教育的程度:限来反应,而是用下列三类来反应不同的受教育的程度:未达到中学水平,中学水平及大学水平。这时我们不能未达到中学水平,中学水平及大学水平。这时我们不能用令未达到中学水平为用令未达到中学水平为0,中学水平为,中学水平为1,大学水平为,大学水平为2的的形式形式(?)。我们可以使用两个虚拟变量来分解受教
11、育程度这一因素,我们可以使用两个虚拟变量来分解受教育程度这一因素,比如定义比如定义D21表示为中学水平,表示为中学水平,D20表示非中学水平;同样用表示非中学水平;同样用D31表示大学水平,而表示大学水平,而D30表示非大学水平。表示非大学水平。11例子:工资决定wage=b b0+b b1exper+b b2D2+b b3D3+u其中其中则则E(wage|exper,D2=0,D3=0)=b b0+b b1exper 表示小学水平的人的平均小时工资表示小学水平的人的平均小时工资E(wage|exper,D2=1,D3=0)=b b0+b b1exper+b b2表示中学水平的人的平均小时工资
12、表示中学水平的人的平均小时工资E(wage|exper,D2=0,D3=1)=b b0+b b1exper+b b3表示大学以上水平的人的平均小时工资表示大学以上水平的人的平均小时工资12例子:工资决定(续)估计结果估计结果wge=1.6751.675+0.187exper+1.363D2+3.8303.830D3se =(1.180)(0.020)(1.212)(1.181)p =(0.156)(0.000)*(0.261)(0.001)*n=526 R2=0.2047 Adj-R2=0.2001 F=44.7813educwagewge=1.675+0.187exper D2=0,D3=0
13、,小学wge=1.675+0.187exper+3.830D31,D20大学wge=1.675+0.187exper+1.363D21,D30中学0146.4 包含一个定量变量,两个定性变量的回归模型wage=b b0+b b1educ+b b2female+b b3married+u其中,其中,E(wage|educ,female=0,married=0)=b b0+b b1educ表示未婚男性的平均小时工资水平表示未婚男性的平均小时工资水平E(wage|educ,female=1,married=0)=b b0+b b1educ+b b2表示未婚女性的平均小时工资水平表示未婚女性的平均小时
14、工资水平E(wage|educ,female=0,married=1)=b b0+b b1educ+b b3 3表示已婚男性的平均小时工资水平表示已婚男性的平均小时工资水平E(wage|educ,female=1,married=1)=b b0+b b1educ+b b2+b b3 3表示已婚女性的平均小时工资水平。表示已婚女性的平均小时工资水平。15模型估计结果:工资决定wge=-0.401+0.495educ-2.087female+1.1821.182married se=(0.681)(0.0497)(0.278)(0.285)p=(0.952)(0.000)(0.000)(0.000
15、)n=526 R2=0.2826 Adj-R2=0.2784 F=68.5116模型的推广:一般形式有多个定量变量和定性变量的情形有多个定量变量和定性变量的情形wge=-1.602+0.555educ+0.019exper+0.139tenure-Se =(0.731)(0.020)(0.012)(0.021)p =(0.029)(0.000)(0.120)(0.000)1.742female-0.066nonwhite+0.557married(0.267)(0.427)(0.287)(0.000)(0.877)(0.053)n=526 R2=0.3682 Adj-R2=0.3609 F=5
16、0.41176.5 结构稳定性:虚拟变量法假设假设19701981年:年:Y=A1+A2X+u假设假设19821995年:年:Y=B1+B2X+uY储蓄,储蓄,X收入。收入。是否存在结构变化呢?是否存在结构变化呢?Dummy variable18YXA1=B1A2=B2YXA1B1B2A2YXA1=B1B2A2YXA1B2A2B1一致回归平行回归并行回归相异回归19结构变化的虚拟变量检验方法假设模型假设模型YC1+C2D+C3X+C4(DX)+uE(Y|D=0,X)=C1+C3XE(Y|D=1,X)=(C1+C2)+(C3+C4)X所以,所以,A1C1,A2C3B1C1C2,B2C3C4。C2
17、是差别截距,是差别截距,C4是差别斜率。所以,只要检验这两个系数是差别斜率。所以,只要检验这两个系数是否是显著的,即可判断是否存在结构变化了。是否是显著的,即可判断是否存在结构变化了。20美国的储蓄结构变化(19701995)1.002+151.97D0.080X-0.653DXSe=(20.15)(33.13)(0.080)(0.160)P=(0.961)(0.000)*(0.000)*(0.000)*n=26 R2=0.8821 Adj-R2=0.8660 F=54.88差别截距与差别斜率都是显著的,说明存在差别截距与差别斜率都是显著的,说明存在着结构变化。着结构变化。21美国的储蓄结构变
18、化(19701995)1.002+0.080X=1.002+151.970.080X-0.653X=152.99-0.573X226.6 虚拟变量在季节分析中的应用时间序列往往表现出一定的季节性和周期性的变化。比如冰激凌的消费,每天的夏季消费量往往比其他3个季度的消费量更大。在节假日,人们对出行的需求也会增加,比如每年春节,人们回家对做火车、汽车、飞机的需要往往会比平时多。因此,在使用这些时间序列分析时,必须将这些季节性波动的因素剔除到,才能更好的反映经济变量之间的内在联系。消除季节性的方法有多种,我们下面仅看虚拟变量法。23例6.5 冰箱的销售量与季节性(p148)24例6.5 冰箱的销售量
19、与季节性(p148)Y=B1+B2 D2+B3D3+B4D4+uY代表个人消费支出(千万澳元)X代表个人可支配收入25例6.5 冰箱的销售量与季节性(p148)=1222.12+245.38 D2+347.53D3-62.13D4 (59.99)(84.84)(84.84)(84.84)(20.37)(2.89)(4.10)(-0.73)(0.000)(0.007)(0.000)(0.470)R2=0.5318 Adj-R2=0.4816 F=10.60季季节调节调整序列整序列Ybar+e266.7 线性概率模型(LPM)因变量是定性变量是否批准房贷;是否竞选成功;Y=B1+B2 X+uY=1 表示房贷批准,Y=0表示未批准E(Y|X)=P(Y=1|X)*1+P(Y=0|X)*0=P(Y=1|X)因此,这种模型称为线性概率模型(LPM)。=-0.9456+0.0255 X (-7.698)(12.515)R2=0.8047仍然可能用OLS估计,但估计值不一定在0、1之间误差项是异方差的。通常的R squared无意义summary虚拟变量的表示包含虚拟变量的回归模型,系数的经济含义27
限制150内