虚拟变量回归.pptx
很多研究认为,影响商品房价格的因素有多个方面,例如:1.成本费用因素成本费用因素:包括土地、建筑物建造成本、其他费用;2.房地产供求因素房地产供求因素:包括住房需求量、房地产开发量等;3.经济因素经济因素:包括宏观经济状况、物价状况、居民收入状况等;4.人口因素人口因素:包括人口密度、家庭结构等;5.社会因素社会因素:包括社会治安、城市化水平、消费心理等;6.行政行政(政策政策)因素因素:包括土地与住房制度、房地产价格政策等;7.区域因素区域因素:包括所处地段的市政基础设施、交通状况等;8.个别因素个别因素:包括朝向、结构、材料、功能设计、施工质量等;9.房地产投机因素房地产投机因素:投机者在房地产市场中的投机活动;10.自然因素自然因素:包括自然环境、地质、地形、地势及气候等。(资料来源:徐静;武乐杰,房地产价格影响因素的解释结构模型分析,金融经济,2009年 10期)1引子1 影响房地产价格的复杂因素影响房地产价格的复杂因素第1页/共54页2在影响房地产价格的众多因素中,有定量的因素:成本因素、房地产供求因素、经济因素、人口因素等;也有定性的因素:社会因素、行政因素、区位因素、个别因素、投机因 素、自然因素等。在研究房地产价格影响机理时,需要分析那些不易量化的定性因素对房地产价格是否真的有显著影响。能否把定性的因素也引入计量经济模型中呢?怎样才能在模型中有效地表示这些定性因素的作用呢?第2页/共54页引子2 男女大学生的消费真的有差异吗男女大学生的消费真的有差异吗?当代大学生在消费结构呈现出多元化趋势。大学生除了日当代大学生在消费结构呈现出多元化趋势。大学生除了日常生常生活费开支以外,还有人际交往、网络通讯、书报、衣着、活费开支以外,还有人际交往、网络通讯、书报、衣着、化妆化妆品、电脑、旅游、食品、学习用品、各种考证等消费。不品、电脑、旅游、食品、学习用品、各种考证等消费。不同性同性别大学生的消费结构有所不同,专科生、本科生、研究生别大学生的消费结构有所不同,专科生、本科生、研究生的消的消费结构更有差异。不同年级之间,男女同学之间,消费水费结构更有差异。不同年级之间,男女同学之间,消费水平、平、消费结构、消费方式上都存在着差异。消费结构、消费方式上都存在着差异。(注:来源于新华网等:共青团中央、全国学联共同发布的中国大学生消费与生活形态研究报告)为了研究为了研究男女男女大学生、大学生、不同层次不同层次大学生、大学生、不同年级不同年级大学生大学生的消的消费结构是否有差异,需要将这些定性的因素引入计量模型,费结构是否有差异,需要将这些定性的因素引入计量模型,怎怎样才能在模型中有效地表示这类定性因素的作用呢?样才能在模型中有效地表示这类定性因素的作用呢?3第3页/共54页 第一节 虚拟变量 一、什么是虚拟变量 4数量变量与属性变量 可用数量表现的连续变量 只表明属性的不连续变量 属性变量:不能精确计量的说明某种属性或状态的定性变量,如性别、民族、战争、政治事件 本身是定性的二分类变量(非此即彼)本来是连续变量也可转换为定性变量(如上线/不上线)虚拟变量:人工构造的取值为0和1的作为属性变量代表的变量称虚拟变量,一般常用D(dummy)表示 D=0 表示某种属性或状态不出现或不存在 D=1 表示某种属性或状态出现或存在第4页/共54页虚拟变量的作用作为属性因素的代表,如性别作为某些非精确计量的数量因素的代表,如受教育程度(高中及以下、专科、本科及以上)作为某些偶然因素或政策因素的代表,如伊拉克战争、“911事件”、四川汶川大地震时间序列分析中作为季节(月份)的代表分段回归研究斜率、截距的变动比较两个回归模型的差异虚拟被解释变量模型:被解释变量本身是定性变量5第5页/共54页 二、虚拟变量模型 虚拟变量模型:包含有虚拟变量的模型称虚拟变量模型 三种类型:1、解释变量中只包含虚拟变量作用:假定其他因素都不变,只研究某种定性因素在某定量变量上是否表现出显著差异2、解释变量中既含定量变量,又含虚拟变量 作用:研究定量变量和虚拟变量同时对被解释变量的影响 3、虚拟被解释变量模型:被解释变量本身取值为0或1作用:对某社会经济现象进行“是”与“否”判断研究 (离散选择模型)6第6页/共54页 三、虚拟变量的设置规则 1、虚拟变量取值 虚拟变量D取值为0,还是取值为1,要根据研究的目的去决定 D取值为0的类型基础类型,作为比较的基准 D取值为1的类型与基础类型相比较的类型 例如:D=0 如果是女性(基础类型)D=1 如果是男性(比较类型)D=0 为“911事件”以前(基础类型)D=1 为“911事件”以后(比较类型)D=0 不是大学毕业生(基础类型)D=1 是大学毕业生(比较类型)7第7页/共54页8虚拟变量的设置规则 和 取值均为0的类型基础类型:是比较的基准,代表了基准组(西部地区)的截距 或 分别取值为1的类型是与基础类型比较的类型和 为差异截距系数为东部地区为中部地区为其他为其他又如,研究东、中、西部地区收入X与消费支出Y的关系:第8页/共54页虚拟变量的设置原则虚拟变量的设置原则 虚拟变量的个数须按以下原则确定:每一定性变量所需的虚拟变量个数要比该定性变量的类别数少1,即如果有m个属性类别,只在模型中引入m-1个虚拟变量。例子:已知冷饮的销售量例子:已知冷饮的销售量Y除受除受k种定量变量种定量变量Xk的影响外,的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可:只需引入三个虚拟变量即可:第9页/共54页则冷饮销售量的模型为:在上述模型中,若再引入第四个虚拟变量则冷饮销售模型变为则冷饮销售模型变为:其矩阵形式为:其矩阵形式为:第10页/共54页如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。这就是所谓的“虚拟变量陷阱”,应避免。第11页/共54页使用虚拟变量需注意的问题使用虚拟变量需注意的问题虚拟变量陷阱:若定性变量有m个类别,则引入m个虚拟变量将会产生完全多重共线性问题,避免方法:只引入(m-1)个虚拟变量引入m个虚拟变量但去掉截距项哪种方法更好:包含截距项更方便,可以很容易地检验某个组与基准组之间是否存在显著差异以及差异程度。第12页/共54页13(1)在有截距的模型中如果模型中每个定性因素有m个相互排斥的类型,模型中只能引入m-1个虚拟变量,否则会出现完全多重共线性例如:一个定性因素有三种类型,若设三个虚拟变量若 ;若 ,等等。显然此时 ,而截距 对应的变量为1,再次生成了截距项,则导致了完全的多重共线性2、避免落入“虚拟变量陷阱”第13页/共54页14模型为此时虽然有 ,若 ,若 ,且 ,但因为没有截距项,不会出现完全的多重共线性。注意:此时 等参数不再是差异截距系数,而分别是相应类型的截距。(2)若模型中无截距项第14页/共54页 第二节 虚拟解释变量回归 定性变量作为解释变量,可以影响模型的截距,也可以影 响模型的斜率,还可以同时影响截距和斜率 只使截距变动 只使斜率变动 使截距与斜率都变动 一、用虚拟变量表示不同截矩的回归 加法类型 虚拟变量以加法方式引入模型的作用:改变模型中截距,可分为各种情况去设置虚拟变量15第15页/共54页虚拟变量的引入虚拟变量的引入 企业男职工的平均薪金为:企业男职工的平均薪金为:企业职工薪金模型中性别虚拟变量的引入采取了加法方式。企业职工薪金模型中性别虚拟变量的引入采取了加法方式。1 1、加法方式、加法方式企业女职工的平均薪金为:企业女职工的平均薪金为:在该模型中,如果仍假定在该模型中,如果仍假定E(i)=0,则,则第16页/共54页几何意义:假定20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对教龄的变化率是一样的,但两者的平均薪金水平相差2。可以通过传统的回归检验,对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。02第17页/共54页 又例:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。教育水平考虑三个层次:高中以下,高中,大学及其以上 模型可设定如下:模型可设定如下:这时需要引入两个虚拟变量:这时需要引入两个虚拟变量:第18页/共54页 在E(i)=0 的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:高中以下:高中:高中:大学及其以上大学及其以上:假定假定 3 2,其几何意义,其几何意义:第19页/共54页还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。如在上述职工薪金的例中,再引入代表学历的虚拟变量D2:本科及以上学历本科以下学历职工薪金的回归模型可设计为:职工薪金的回归模型可设计为:第20页/共54页女职工本科以下学历的平均薪金:女职工本科以下学历的平均薪金:女职工本科以上学历的平均薪金:女职工本科以上学历的平均薪金:于是,不同性别、不同学历职工的平均薪金分别为于是,不同性别、不同学历职工的平均薪金分别为:男职工本科以下学历的平均薪金:男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:男职工本科以上学历的平均薪金:第21页/共54页221.解释变量只有一个分为两种类型的定性变量无定量变量的回归这种模型又称方差分析模型其中:为公立学校教师工资,=0为农村学校;D=1为城镇学校分析条件期望:基础类型:比较类型:为差异截距系数,通过对系数 的 t 检验:可检验在其他因素不变的条件下,城乡教师的工资是否有显著差别22第22页/共54页 2、解释变量包含一个定量变量和一个分为两种类型的定性变量的回归 例如:为服装消费 为收入,=0为男性 D=1为女性分析条件期望:基础类型:比较类型:为差异截距系数 对系数 的 t 检验:可检验定性因素对截距是否有显著影响注意:应服从基本假定 这里一个定性变量具有两种类型,只使用了一个虚拟变量(为什么?)23第23页/共54页 3、解释变量包含一个定量变量和一个两种以上类 型的定性变量的回归 类型:高中以下、高中毕业、大学毕业及以上三种类型模型例如 年工资 工龄 =1 只是高中毕业 =1 大学毕业及以上 =0 其他 =0 其他 基础类型:(高中以下)比较类型:(高中)(大学及以上)差异截距系数为 和问题:如果还要区分“专科”“本科”、“硕士”、“博士”应怎么办?24第24页/共54页注意:应服从基本假定一个定性变量有三种类型,使用了两个虚拟变量,和 代表的是同一个定性变量的两种不同类型两个差异截距系数 和 表示的都是与基础类型的差异一个定性变量有多种类型时,虚拟变量可同时取值为0,但不能同时取值为1,因同一定性变量的各类型间“非此即彼”25第25页/共54页 4、解释变量包含一个定量变量和两个定性变量 模型 这里的 和 代表的是两个不同的定性变量,各分为两种类型 例如:为文化支出,为收入 用t检验分别检验 和 的统计显著性:验证两个定性变量对截距是否有显著影响 高中及以上文化程度农村居民城镇居民高中以下文化程度26对比类型:基础类型:第26页/共54页注意:应服从基本假定两个定性变量分别有两种类型,用了两个虚拟变量(为什么?)两个定性变量和一个定性变量三种类型都用了两个虚拟变量,但其性质是不同的K个定性变量可选用K个虚拟变量去表示,这不会出现“虚拟变量陷阱”代表不同定性变量的虚拟变量,可以同时为0,也可同时为1,因为不同定性变量间没有“非此即彼”的关系。27第27页/共54页二、用虚拟变量表示不同斜率的回归 模型中斜率系数的差异,可用以乘法形式引入的虚拟变量去表示。28乘法类型第28页/共54页乘法方式乘法方式加法方式引入虚拟变量,考察:截距的不同,许多情况下:往往是斜率就有变化,或斜率、截距同时发生变化。斜率的变化可通过以乘法的方式引入虚拟变量来测度。例例:根根据据消消费费理理论论,消消费费水水平平C主主要要取取决决于于收收入入水水平平Y,但但在在一一个个较较长长的的时时期期,人人们们的的消消费费倾倾向向会会发发生生变变化化,尤尤其其是是在在自自然然灾灾害害、战战争争等等反反常常年年份份,消消费费倾倾向向往往往往出出现现变变化化。这这种种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。第29页/共54页这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察消费倾向的变化。如设如设消费模型可建立如下:消费模型可建立如下:第30页/共54页假定E(i)=0,上述模型所表示的函数可化为:正常年份:正常年份:反常年份:反常年份:第31页/共54页 当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。例:考察1990年前后的中国居民的总储蓄-收入关系是否已发生变化。下表给出了中国19792001年以城乡储蓄存款余额代表的居民储蓄以及以GNP代表的居民收入的数据。第32页/共54页以Y 为储蓄,X 为收入,可令:1990年前:Yi=1+2Xi+1i i=1,2,n1 1990年后:Yi=1+2Xi+2i i=1,2,n2 则有可能出现下述四种情况中的一种:则有可能出现下述四种情况中的一种:1.1=1,且,且 2=2,称为,称为重合回归。重合回归。2.11,但但 2=2,差异仅在其截距,称为,差异仅在其截距,称为平行回归。平行回归。3.1=1,但,但 22,差异仅在其斜率,称为,差异仅在其斜率,称为同截距回归同截距回归4.11,且,且 22,两个回归完全不同,称为,两个回归完全不同,称为非相似回归。非相似回归。第33页/共54页虚拟变量模型的应用虚拟变量模型的应用虚拟变量是一个能处理一系列有趣问题的灵活工具。虚拟变量模型的应用包括:结构变化的检验虚拟变量的交互效应分段线性回归时间序列数据中的季节调整第34页/共54页35 1.回归模型比较结构变化的检验回顾:邹氏参数稳定性检验可以检验模型结构是否发生了变化:结构无变化 作受约束模型;结构变化 作无约束模型邹氏检验只能检验模型结构是否发生变化,不能说明具体变化了多少,也不能说明究竟是截距变化还是斜率变化。例如:怎样说明以下变化呢?重合回归平行回归同截距(共点)回归 非相似(不同)回归35第35页/共54页36结构变化的检验 模型 基础类型:对比类型:可看出:以加法引入虚拟变量D的系数是截距的差异系数,以乘法引入虚拟变量D的系数是斜率的差异系数 用t检验分别检验 和 的显著性:可检验此定性变量对截距和斜率是否有显著影响,即检验两个回归的结构是否有差异 优点:用一个回归替代了多个回归,简化了分析过程 可方便地检验各种假设 合并回归增加了自由度,提高参数估计的精确性 注意:所比较的方程应是同方差,否则会出现异方差 应服从基本假定第36页/共54页 2.交互效应分析 基本思想:分析两个定性变量对被解释变量影响的虚拟变量模型,暗含着假定:两个定性变量是分别独立影响被解释变量的。但在实际经济活动中,两个定性变量对被解释变量的影响可能存在交互作用。为描述这种交互作用,可把代表两个定性因素的虚拟变量的乘积以加法形式引入模型。模型:其中:代表第一个定性变量的虚拟变量 代表第二个定性变量的虚拟变量 ()描述二者交互效应的虚拟变量 因为 是交互效应的截距差异系数,可以通过对 的显著性的检验,判断是否存在交互效应37第37页/共54页例如其中:种油菜籽和养蜂的收入 投入资金 代表是否种油菜籽的虚拟变量 =1 种油菜籽 =0 不种油菜籽 代表是否养蜂的虚拟变量 =1 养蜂 =0 不养蜂 ()描述种油菜籽与养蜂的交互效应38第38页/共54页 3.分段线性回归 基本思想:有的社会经济现象的变动,会在解释 变量达到某个临界值时发生突变,为了区分不同阶段的截距和斜率可 利用虚拟变量进行分段回归 第一段回归,当 时(是临界值)第二段回归,当 时 整理得 例如:不同销售业绩的奖励方式不同 39第39页/共54页具体作法:模型形式其中:1若0若第一段回归第二段回归注意:第一、二段回归不仅截距不同,而且斜率也不同分为两段回归时用了一个虚拟变量推理:分为K段回归时,可用K1个虚拟变量40第40页/共54页 4.季节变动分析中的应用思想:时间序列数据可分解为四个因素:长期趋势;季节变动;循环变动;随机(不规则)变动为消除季节变动影响,常用修匀方法。为预测某季度变量又需加入季节因素。也可利用虚拟变量方法区分季节因素。方法:例如某商品销售量Q与价格P有关,可能还与季节有关(1)引入四个季度影响因素 其中:销售量 价格 为二季度 为三季度 为四季度 为其它 为其它 为其它 注意:一年分为四季,使用三个虚拟变量(为什么?)41第41页/共54页(2)显著性检验对 作 t 检验,若显著不为0,表明该季度有季节变化影响;若显著为0,表明不存在季节变动影响(3)重建季节变动模型如只是二季度有明显季节性变动,可省略 重建模型D=1为二季度;D=0为一、三、四季度在一、三、四季度时在二季度时42第42页/共54页43第三节 虚拟被解释变量有时所研究的经济现象本身可能是定性变量。例如:是否购买住房?是否购买汽车?是否参加保险?是否按期归还贷款?定性的被研究对象作为被解释变量,也可用虚拟变 量0或1表示,其取值可能受多种因素影响。虚拟被解释变量模型的估计和检验会产生一些特殊的 问题。将在高级计量经济学(二)“离散选择模型”中 讨论。43第43页/共54页 第四节第四节 案例分析案例分析一、问题提出一、问题提出:为了考察改革开放以来中国居民的储蓄存款增长与收入的关系是否发生变化,以城乡居民人民币储蓄存款年底余额代表居民储蓄(Y),以国民总收入GNI代表城乡居民收入,分析居民收入对储蓄存款影响的数量关系。二、数据:二、数据:1978-2003年中国的国民总收入和城乡居民人民币储蓄存款年底余额及增加额的数据。(数据见P234表8.1)44第44页/共54页45第45页/共54页 城乡居民储蓄存款、国民总收入随时间的变化情况,如图(1)所示。看不出居民的储蓄行为发生明显改变的信息。若取居民储蓄的增量(YY),作时序图(2),并作城乡居民储蓄存款增量与国民总收入之间关系的散布图(3)。(2)(3)均表现出明显的阶段特征。三、分析变动情况(1)(2)(3)46第46页/共54页四、建立模型四、建立模型为了分析居民储蓄行为在1996年前后和2000年前后三个阶段的数量关系,引入虚拟变量D1和D2 YY城乡居民储蓄存款增量;GNI 国民总收入 66850.50是1996年的国民总收入 88254.00是2000年的国民总收入47其中:第47页/共54页48484848对于第48页/共54页五、估计参数与检验五、估计参数与检验se=(172.1626)(0.0057)(0.0272)(0.0401)t=(-4.8234)(25.1700)(-10.7192)(13.9581)各解释变量的系数显著地不等于0,居民人民币储蓄存款年增加额的回归模型分别为:表明三个时期居民储蓄增加额的回归方程其截距和斜率在统计意义上确实有变化。(见下图)49第49页/共54页50回归结果的图形第50页/共54页51若分析居民储蓄行为在1992年前后、1996年前后和2000年前后四个阶段的数量关系,再引入虚拟变量D3D3=0为1992年前,D3=1为1992年后 第51页/共54页52 本 章 作 业 练习题8.6 52第52页/共54页第八章结束了!53第53页/共54页感谢您的观看!第54页/共54页