【教学课件】第八章虚拟变量回归.ppt
《【教学课件】第八章虚拟变量回归.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第八章虚拟变量回归.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、经典线性回归模型默认回归系数为常数,没有考虑不同类别不同类别观测值对应的回归系数可能是有差别的,即没有把相关的定性影响因素定性影响因素引入到模型中来。例如,研究居民的消费行为时,构建如下模型:其中,Y为消费支出;X为收入。该模型默认城镇居民和农村居民的消费行为是无差异的,但如果城乡居民的消费行为存在差异,则对上述模型直接采用OLS估计,结果将是不精确的。为了有效的将定性影响因素定性影响因素反映到回归模型中,就需要采用虚拟变量方法。第八章 虚拟变量回归第一节 虚拟变量第二节 虚拟解释变量的回归第三节 虚拟被解释变量的回归第四节 案例第一节 虚拟变量一、虚拟变量(一、虚拟变量(Dummy Vari
2、ablesDummy Variables)定义)定义定义:定义:就是用一个取值为0和1的变量来表示定性变量中的一个属性类别一个属性类别,1表示出现该属性,0表示没有出现该属性。虚拟变量也叫设计变量(Design Variables,Hosmer&Lemeshow,1989)、代理变量(Proxy Variables,Kennedy,1981)等。作用:作用:回归分析中,虚拟变量方法可有效的衡量诸如性别、战争、地震、政治动乱、经济政策变化及季节等定性变量对因变量的影响。二、虚拟变量设置规则如果研究的定性变量包含M个类别,将构建个M-1个虚拟变量,省略的那个类别可视为参照组。如在消费模型中,考虑区
3、域因素(东部,中部,西部)影响,可构建2个虚拟变量:注:如果针对包含M个类别的定性因素构造M个虚拟变量,则会陷入虚拟变量陷阱(Dummy Variable Trap),即由于而带来了完全的多重共线性。在没有截距项的模型中,对于包含M个类别的定性因素,构建M个虚拟变量虽不会产生虚拟变量陷阱,但此时检验截距的差值将变的更困难,而且没有截距项时怎样计算 也没有一个一致同意的方法,所以该方法很少人使用(Jeffrey M.Wooldridge,2000)。第二节 虚拟解释变量模型采用虚拟变量可有效的衡量不同观测类别对采用虚拟变量可有效的衡量不同观测类别对应回归参数的差异性,其中以加法方式引入应回归参数
4、的差异性,其中以加法方式引入虚拟变量可以反映不同类别对应截距的不同,虚拟变量可以反映不同类别对应截距的不同,以乘法方式引入虚拟变量可以反映不同类别以乘法方式引入虚拟变量可以反映不同类别对应斜率的不同。对应斜率的不同。一、加法模型一、加法模型以加法方式引入虚拟变量,即将虚拟变量当以加法方式引入虚拟变量,即将虚拟变量当作自变量直接引入模型作自变量直接引入模型。研究居民的消费行为时,考虑居民来源(城镇、农村)这个因素,则需构建虚拟变量:加法模型:如果该模型设定正确,则有 ,此时有:可见,截距虚拟变量D的系数 反映了城乡居民之间自发性消费水平的差异。二、乘法模型以乘法方式引入虚拟变量,即将虚拟变量与解
5、释变量乘积项当作自变量直接引入模型。在消费模型中以乘法方式引入虚拟变量,即引入虚拟变量和自变量的交互乘积项DX:如果该模型设定正确,此时有:可见,城镇居民的边际消费倾向为 ,农村居民的边际消费倾向为 。如果不同属性类别对应的截距项和斜率项都是有差异的,可在回归模型中同时引入虚拟变量的加法方式和乘法方式,结果如下:对于城镇居民和农村居民这两个类别,有总体回归函数如下:可见,和 分别表示城镇居民与农村居民的消费函数在截距和斜率上的差异。注:对于包含多个类别(M个)的属性变量,构建M-1个虚拟变量,如在消费模型中,考虑区域因素(东部,中部,西部)影响,可构建2个虚拟变量:若考虑不同区域居民对应回归模
6、型截距的不同,可构建模型如下:则有:如果模型中包含不止一个定性变量,利用虚拟变量还可以研究定性变量对因变量的交互影响。如在消费模型中,同时考虑性别(男,女)和来源(城镇,农村)两个因素,构建虚拟变量如下:可以加法方式引进两个虚拟变量的交互乘积项 ,构建模型如下:则有:可见,反映性别的影响,反映了居民来源影响,而 反映了性别和来源的交互影响。对于定序尺度的定性变量,如果所分等级不多,也可根据虚拟变量个数比分类数少一的原则引进虚拟变量。例如,考虑教育背景(大学以下,大学,大学以上)因素对居民消费的影响,可构建2个虚拟变量:如果定序变量所分等级过多,则很难对每个水平都包括进来一个虚拟变量。此时,可将
7、定序变量分为几个类别,再构建虚拟变量(Jeffrey M.Wooldridge,2000)。虚拟变量不仅可以代表质的因素,还可以代表数量因素。在经济关系中常有这样的现象:当自变量X的值达到某一水平X*之前,与因变量Y存在某种线性关系;当自变量X的值达到某一水平X*之后,与因变量Y的关系就会发生变化。这就是所谓的分段线性回归(Piecewise Linear Regression)。此时,可设定虚拟变量:构建包含门槛水平 X*的分段线性回归模型:于是有两个不同阶段的回归函数:显然,虚拟变量方法可有效的实现分段回归,其中两阶段的截距分别为 和 ,斜率分别为 和 。实际应用中,如果分为K个阶段时,则
8、需构建K-1个虚拟变量。采用虚拟变量方法衡量不同属性类别对应回归参数的差异性,相对于将各属性类别的样本各自做回归,至少可以体现以下几个优点:个别的回归能容易推导出来;增加了自由度,参数估计的相对精度也有所改进;可采用各种假设检验,如采用t统计量检验单个虚拟变量D或交互乘积项D1D2、DX的显著性;采用F检验对多个虚拟变量的显著性做联合检验。使用t统计量检验虚拟变量的显著性时,在OLS的操作和统计理论方面都没有任何改变。采用F检验对多个虚拟变量显著性做联合检验时,需构建F统计量:其中,RSSR表示不含虚拟变量回归模型的残差平方和;RSSU表示含有虚拟变量回归模型的残差平方和;j表示约束条件的个数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教学课件 教学 课件 第八 虚拟 变量 回归
限制150内