【教学课件】第8章虚拟变量模型.ppt
第第8 8章章 虚拟变量模型虚拟变量模型 一、虚拟变量的基本含义一、虚拟变量的基本含义 二、虚拟变量的设置原则二、虚拟变量的设置原则 三、虚拟变量作用三、虚拟变量作用 四、虚拟变量的引入四、虚拟变量的引入 五、虚拟变量的特殊应用五、虚拟变量的特殊应用 六、虚拟被解释变量模型六、虚拟被解释变量模型一、虚拟变量的基本含义一、虚拟变量的基本含义l许多经济变量是许多经济变量是可以定量度量可以定量度量的,其取值可用数的,其取值可用数值表示,值表示,如:如:商品需求量、价格、收入、产量等商品需求量、价格、收入、产量等l但也有一些影响经济变量的因素但也有一些影响经济变量的因素无法定量度量无法定量度量,如:如:职业、性别对收入的影响,战争、自然灾害职业、性别对收入的影响,战争、自然灾害对对GDP的影响,季节对某些产品(如冷饮)销售的影响,季节对某些产品(如冷饮)销售的影响等等,反映这些的影响等等,反映这些定性因素定性因素的变量被称为的变量被称为品品质变量质变量,这些变量由于各种原因不能计量,这些变量由于各种原因不能计量。l为了在模型中能够反映这些因素的影响,并提高为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们模型的精度,需要将它们“量化量化”.这这种种“量量化化”通通常常是是通通过过人人为为地地虚虚构构出出来来一一种种特特殊殊的的变变量量来来完完成成的的。即即根根据据这这些些因因素素的的属属性性类类型型,构构造造只只取取“0”或或“1”的的人人工工变变量量,通通常常称称为为虚虚拟拟变量变量(dummy variables),),文献中习惯用文献中习惯用 表示表示。例如例如,反映性别这个属性的虚拟变量可取为,反映性别这个属性的虚拟变量可取为:一般地,在虚拟变量的设置中:用一般地,在虚拟变量的设置中:用1表示这种属表示这种属性或特征存在,用性或特征存在,用0表示这种属性或特征不存在。表示这种属性或特征不存在。或者说,设置虚拟变量时或者说,设置虚拟变量时,将将比较类型、肯定类型比较类型、肯定类型取值为取值为1;而将基础类型、否定类型取值为;而将基础类型、否定类型取值为0。再如:虚拟变量模型概念:虚拟变量模型概念:把把 包包 含含 虚虚 拟拟 变变 量量 的的 模模 型型 称称 为为 虚虚 拟拟 变变 量量 模模 型型(Dummy Variable Model),若若仅仅有有解解释释变变量量中中包包含含虚虚拟拟变变量量,称称为为虚虚拟拟解解释释变变量量模模型型;若若被被解解释释变变量量是是虚虚拟拟变变量量,称称为为虚虚拟拟被被解解释释变变量量模模型型,或或称称为为离离散散选择模型。选择模型。一个以性别为虚拟变量考察企业职工薪金的模型:一个以性别为虚拟变量考察企业职工薪金的模型:其中:其中:Yi为企业职工的薪金,为企业职工的薪金,Xi为工龄,为工龄,Di=1,若是男性,若是男性,Di=0,若是女性。,若是女性。l研究居民住房消费支出研究居民住房消费支出 和居民可支配收入和居民可支配收入 之间的之间的数量关系。回归模型的设定为:数量关系。回归模型的设定为:l现在要考虑城镇居民和农村居民之间的差异,如何办?现在要考虑城镇居民和农村居民之间的差异,如何办?l为了对为了对“城镇居民城镇居民”、“农村居民农村居民”进行区分,分析进行区分,分析各自在住房消费支出各自在住房消费支出 上的差异,设上的差异,设 为城镇为城镇;为农村为农村,则模型为则模型为l(模型有截距,模型有截距,“居民属性居民属性”定性变量只有两个相互排斥定性变量只有两个相互排斥的属性状态(的属性状态(),故只设定一个虚拟变量。),故只设定一个虚拟变量。)虚拟变量陷阱虚拟变量陷阱 (一个例子一个例子)l若对两个相互排斥的属性若对两个相互排斥的属性“居民属性居民属性”,仍然,仍然引入引入 个虚拟变量,则有个虚拟变量,则有则模型(则模型(1 1)为)为l则对任一家庭都有:则对任一家庭都有:,即产生完全共线,陷入了即产生完全共线,陷入了“虚拟变量陷阱虚拟变量陷阱”。l“虚拟变量陷阱虚拟变量陷阱”的实质是:的实质是:完全多重共线性完全多重共线性。虚拟变量陷阱虚拟变量陷阱二、虚拟变量的设置原则二、虚拟变量的设置原则 虚拟变量的个数须按以下原则确定:虚拟变量的个数须按以下原则确定:每一定性变量所需的虚拟变量个数要比该定性变每一定性变量所需的虚拟变量个数要比该定性变量的类别数少量的类别数少1,即如果定性变量有,即如果定性变量有m个类型,只在个类型,只在模型中引入模型中引入m-1个虚拟变量个虚拟变量。每个虚拟变量定义为:每个虚拟变量定义为:当第当第i种属性种属性类类型出型出现时现时,第,第i个虚个虚拟变拟变量取量取1,其它其它都取都取0时时,则则表示出表示出现现第第种属性种属性类类型型。虚拟变量皆取虚拟变量皆取0,而当所有,而当所有 例例:虚拟变量反映季节变动的影响虚拟变量反映季节变动的影响 已已知知冷冷饮饮的的销销售售量量Y除除受受k种种定定量量变变量量Xk的的影影响响外外,还还受受春春、夏夏、秋秋、冬冬四四季季变变化化的的影影响响,要要考考察该四季的影响,只需引入三个虚拟变量即可:察该四季的影响,只需引入三个虚拟变量即可:则冷饮销售量的模型为:则冷饮销售量的模型为:在上述模型中,若再引入第四个虚拟变量在上述模型中,若再引入第四个虚拟变量则冷饮销售模型变量为:则冷饮销售模型变量为:其矩阵形式为:其矩阵形式为:如果只取六个观测值,其中春季与夏季取了如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:两次,秋、冬各取到一次观测值,则式中的:显然,显然,(X,D)中的第中的第1列可表示成后列可表示成后4列的线性组合,列的线性组合,从而从而(X,D)不满秩,参数无法唯一求出。不满秩,参数无法唯一求出。这就是所谓的这就是所谓的“虚拟变量陷虚拟变量陷阱阱”,应避免。1.可以检验和度量用文字所表示的定性因可以检验和度量用文字所表示的定性因素的影响素的影响例如,例如,为了反映甲、乙两种不同的工艺过程对产为了反映甲、乙两种不同的工艺过程对产量的影响,可以在生产函数中引入描述甲、乙两量的影响,可以在生产函数中引入描述甲、乙两种不同的工艺过程的虚拟变量:种不同的工艺过程的虚拟变量:通过对模型中通过对模型中 的显著性检验来确定甲、乙两的显著性检验来确定甲、乙两种不同的工艺过程是否对产量有显著影响。种不同的工艺过程是否对产量有显著影响。三、虚拟变量的作用三、虚拟变量的作用2.2.可以测量变量在不同时期的影响可以测量变量在不同时期的影响l例例如如:研研究究我我国国国国民民生生产产总总值值Y随随时时间间X而而增增长长的的过过程程,需需要要考考虑虑反反常常年年份份这这一一特特殊殊因因素素的的影响。若定义影响。若定义 l则引入虚拟变量的模型为则引入虚拟变量的模型为l通通过过对对参参数数 进进行行 检检验验,可可以以检检验验反反常常年年份份对对社社会会总总产产值值有有无无显显著著影影响响,就就把把受受反反常常年年份份影响的时期从总过程中区分出来影响的时期从总过程中区分出来 3.3.可以用来处理异常数据的影响。可以用来处理异常数据的影响。l例如,变量例如,变量Y和和X在长期中基本满足线性回归在长期中基本满足线性回归模型的各个假设,但在时刻有一个突发情况,模型的各个假设,但在时刻有一个突发情况,使得使得Y出现一个出现一个k单位的暂时性波动。如果用线单位的暂时性波动。如果用线性回归模型性回归模型 分析这两个变量的分析这两个变量的关系,其误差项的均值是关系,其误差项的均值是l解决的办法是引进一个针对性解决的办法是引进一个针对性 的虚拟变量,其定义为的虚拟变量,其定义为 l新的回归模型为:新的回归模型为:l解决了均值非解决了均值非0的问题的问题 其中其中 四、虚拟变量的引入方式四、虚拟变量的引入方式 在计量经济模型中引入虚拟解释变量,一般地有在计量经济模型中引入虚拟解释变量,一般地有三种方式:三种方式:加法方式、乘法方式加法方式、乘法方式和和混合方式混合方式。1.1.加法方式:加法方式:所谓加法方式,即将虚拟变量直接作为一个解释所谓加法方式,即将虚拟变量直接作为一个解释变量引入模型,它同其他解释变量之间是相加的关变量引入模型,它同其他解释变量之间是相加的关系。当不同类型模型的斜率相同,系。当不同类型模型的斜率相同,截距截距不相同时,不相同时,可考虑以加法形式引入虚拟变量。可考虑以加法形式引入虚拟变量。以加法方式引入虚拟变量时,主要考虑的问题是以加法方式引入虚拟变量时,主要考虑的问题是定性因素的属性和引入虚拟变量的个数。定性因素的属性和引入虚拟变量的个数。(1 1)解)解释变释变量只有一个定性量只有一个定性变变量而无定量量而无定量变变量,而量,而且定性且定性变变量量为为两种相互排斥的属性;两种相互排斥的属性;(2 2)解解释释变变量量分分别别为为一一个个定定性性变变量量(两两种种属属性性)和和一个定量解一个定量解释变释变量;量;(3 3)解解释释变变量量分分别别为为一一个个定定性性变变量量(两两种种以以上上属属性性)和一个定量解和一个定量解释变释变量;量;(4 4)解)解释变释变量分量分别为别为两个定性两个定性变变量(各自分量(各自分别别是两是两种属性)和一个定量解种属性)和一个定量解释变释变量;量;加法方式分为四种情形讨论:加法方式分为四种情形讨论:(1 1)一个两种属性定性解释变量而无定量)一个两种属性定性解释变量而无定量变量的情形变量的情形农村(2)2)一个定性解释变量(两种属性)和一个一个定性解释变量(两种属性)和一个定量解释变量的情形定量解释变量的情形城市农村几何意义:几何意义:两个函数有相同的斜率,但有不同的截距两个函数有相同的斜率,但有不同的截距YX(3 3)一个定性解释变量(三种属性)和一)一个定性解释变量(三种属性)和一个定量解释变量的情形个定量解释变量的情形 在工资模型中如果我们考虑的是员工的受教在工资模型中如果我们考虑的是员工的受教育程度,比如可以将员工的分为:高中以下,育程度,比如可以将员工的分为:高中以下,高中毕业和大学及其以上三种。如果虚拟变量高中毕业和大学及其以上三种。如果虚拟变量设为设为 高中以下高中以下 其他其他 高中毕业高中毕业 其他其他 大学及其以上大学及其以上 其他其他 则则 将会出现将会出现多重共线性多重共线性,因此需要去掉一个虚拟变量。,因此需要去掉一个虚拟变量。假设模型为:假设模型为:高中高中其他其他大学及其以上大学及其以上其他其他模型变为:模型变为:估计出的回归方程为:估计出的回归方程为:高中以下:高中以下:高中:高中:大学及其以上:大学及其以上:假定假定 3 3 2 2,其几何意义:其几何意义:(3 3)一个定性解释变量(四种属性)和一个)一个定性解释变量(四种属性)和一个定量解释变量的情形定量解释变量的情形四个季节对某些商品的需求量分别为:四个季节对某些商品的需求量分别为:模模型型中中系系数数 、分分别别反反映映了了四四、一一、二二、三三、一一季季度度对对该该商商品品的的平平均均影影响响程程度度,根根据据这这些些系系数数的的统统计计检检验验就就可可以以判判断断季季度度因因素素对对该该商商品品的的需需求求量是否存在着显著影响。量是否存在着显著影响。(4 4)两个定性解释变量(均为两种属性)和一个定)两个定性解释变量(均为两种属性)和一个定量解释变量的情形量解释变量的情形 运用运用OLS得到回归结果,再用得到回归结果,再用t检验讨论因素检验讨论因素是否对模型有影响。是否对模型有影响。男性、农村居民女性、农村居民各类型居民香烟消费量分别为:各类型居民香烟消费量分别为:几何意义几何意义 加法方式引入虚拟变量的一般表达式加法方式引入虚拟变量的一般表达式:基本分析方法基本分析方法:条件期望。条件期望。加法方式引入虚拟变量的主要作用为:加法方式引入虚拟变量的主要作用为:1.在有定量解释变量的情形下,主要改变方程在有定量解释变量的情形下,主要改变方程 截距;截距;2.在没有定量解释变量的情形下,主要用于在没有定量解释变量的情形下,主要用于方方 差分析。差分析。基本思想基本思想:以乘法方式引入虚以乘法方式引入虚拟变拟变量量时时,是在所,是在所设设立的模型立的模型中,将中,将虚虚拟拟解解释变释变量与其它解量与其它解释变释变量量 的乘的乘积积,作,作为为新的解新的解释变释变量出量出现现在模型中,以达到其在模型中,以达到其调调整整设设模模型型斜率斜率系数的目的。或者将模型斜率系数表示系数的目的。或者将模型斜率系数表示为为虚虚拟变拟变量的函数,以达到相同的目的。量的函数,以达到相同的目的。乘法引入方式的特点乘法引入方式的特点:(1 1)截距不)截距不变变;(2 2)斜率)斜率发发生生变变化;化;2.2.乘法方式乘法方式例:研究文化用品消费支出例:研究文化用品消费支出Y Y受收入受收入X X、居民身份、居民身份D D的的影响,影响,模型形式:模型形式:截距不变但斜率发生变化的情形:截距不变但斜率发生变化的情形:图8-5 农村和城市的文化用品消费O3.3.混合方式:截距和斜率均发生变化混合方式:截距和斜率均发生变化 例例:同样研究消费支出同样研究消费支出Y 、收入、收入X 、居民身份、居民身份D 间的影响关系。模型形式:间的影响关系。模型形式:几何意义:几何意义:在计量经济学中,通常引入虚拟变量的方式分为在计量经济学中,通常引入虚拟变量的方式分为加法方式加法方式和和乘法方式乘法方式以及以及混合方式混合方式三种:即三种:即实质实质:加法方式引入虚拟变量改变的是截距;加法方式引入虚拟变量改变的是截距;乘法方式引入虚拟变量改变的是斜率;乘法方式引入虚拟变量改变的是斜率;混合方式引入虚拟变量既改变截距又改变斜率混合方式引入虚拟变量既改变截距又改变斜率 虚拟变量的引入小结:虚拟变量的引入小结:五、虚拟解释变量特殊应用五、虚拟解释变量特殊应用 所谓特殊应用是指将引入虚拟解释变量所谓特殊应用是指将引入虚拟解释变量的加法方式、乘法方式进行综合使用。的加法方式、乘法方式进行综合使用。基本分析方式:仍然是条件期望分析。基本分析方式:仍然是条件期望分析。本课主要讨论本课主要讨论(1 1)分段回归分析;)分段回归分析;(2 2)交互效应分析;)交互效应分析;(3 3)结构变化分析)结构变化分析 在在经经济济发发生生转转折折时时期期,可可通通过过建建立立临临界界指指标标的的虚虚拟变量模型来反映数量因素的不同阶段。拟变量模型来反映数量因素的不同阶段。例例如如,进进口口消消费费品品数数量量Y主主要要取取决决于于国国民民收收入入X的的多多少少,中中国国在在改改革革开开放放前前后后,Y对对X的的回回归归关关系系明明显不同。显不同。这这时时,可可以以t*=1979年年为为转转折折期期,以以1979年年的的国国民收入民收入Xt*为临界值,设如下虚拟变量:为临界值,设如下虚拟变量:则进口消费品的回归模型可建立如下:则进口消费品的回归模型可建立如下:1.1.分段回归分析分段回归分析 用用OLSOLS法得到该模型的回归方程为:法得到该模型的回归方程为:几何意义:几何意义:1979年之前,回归模型的斜率为年之前,回归模型的斜率为 ;1979年之前,回归模型的斜率为年之前,回归模型的斜率为 ;若统计检验表明,若统计检验表明,显著不为零,则我国居民的消显著不为零,则我国居民的消费行为在费行为在1979年前后发生了明显改变。年前后发生了明显改变。图8-7 时间分段前后的进口消费品数量XOY例例:是否发展油菜籽生产与是否发展养蜂生产的是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响研究。差异对农副产品总收益的影响研究。模型设定为模型设定为:(1 1)式中)式中,以加法形式引入虚拟变量暗含何假设以加法形式引入虚拟变量暗含何假设?2.2.交互效应分析交互效应分析上式以加法形式引入,暗含的假设为:菜籽生产和上式以加法形式引入,暗含的假设为:菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。但养蜂生产是分别独立地影响农副品生产总收益。但是,在发展油菜籽生产时,同时也发展养蜂生产,是,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副产品生产总收益,可能会高于不发展所取得的农副产品生产总收益,可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量生产的虚拟变量 和和 间,很可能存在着一定间,很可能存在着一定的交互作用,且这种交互影响对被解释变量农副产的交互作用,且这种交互影响对被解释变量农副产品生产收益会有影响。品生产收益会有影响。(1)为了反映为了反映交互效应交互效应,将(,将(1 1)变为:)变为:同时发展油菜籽和同时发展油菜籽和养蜂生产:养蜂生产:发展油菜籽生产:发展油菜籽生产:发展养蜂生产:发展养蜂生产:基础类型:基础类型:基本思想基本思想:在模型中引入相关的两个变量的乘积在模型中引入相关的两个变量的乘积如何检验交互效应是否存在?如何检验交互效应是否存在?3.3.结构稳定性分析结构稳定性分析l模型结构的稳定性是指两个不同时期模型结构的稳定性是指两个不同时期(或不同空间或不同空间)研究同一性质的问题时所建立的同一形式的回归模研究同一性质的问题时所建立的同一形式的回归模型的参数之间有无显著差异,如果存在着差异,则型的参数之间有无显著差异,如果存在着差异,则认为模型结构不稳定。认为模型结构不稳定。l在现实经济生活中,往往由于某些重要因素的影响,在现实经济生活中,往往由于某些重要因素的影响,解释变量和被解释变量之间关系可能会发生解释变量和被解释变量之间关系可能会发生结构变结构变化;化;l如我国由于经济体制的变化,改革开放前后国民经如我国由于经济体制的变化,改革开放前后国民经济总量指标之间的关系都会发生变化;或者研究我济总量指标之间的关系都会发生变化;或者研究我国发达地区和不发达地区投资对经济增长的影响,国发达地区和不发达地区投资对经济增长的影响,也会因地区不同而产生结构差异等等。也会因地区不同而产生结构差异等等。l这一问题可通过引入乘法形式的这一问题可通过引入乘法形式的虚拟变量虚拟变量来解决来解决 例:例:以以Y为储蓄,为储蓄,X为收入,为反映为收入,为反映1992年前后年前后储蓄与收入之间的结构关系有无明显变化,可引储蓄与收入之间的结构关系有无明显变化,可引入虚拟变量进行检验。设根据两个样本估计的回入虚拟变量进行检验。设根据两个样本估计的回归模型分别为:归模型分别为:l1992年前:年前:Yi=1+1 Xi+1i i=1,2,n1 l1992年后:年后:Yi=2+2Xi+2i i=1,2,n2 l设置虚拟变量:设置虚拟变量:l将样本将样本1和样本和样本2的数据合并,估计以下模型:的数据合并,估计以下模型:l然后利用然后利用t检验判断检验判断 、的系数的显著性的系数的显著性.l 于是有:于是有:则有可能出现下述四种情况中的一种:则有可能出现下述四种情况中的一种:(1)1=2,且且 1=2,即即两两个个回回归归相相同同,说说明明两两个个回回归归模模型型之之间间没没有有显显著著差差异异,称称为为重重合合回回归归(Coincident Regressions);模型结构是稳定的);模型结构是稳定的.(2)1 2,但但 1=2,说说明明两两个个回回归归模模型型之之间间的的斜斜率率相相同同,两两个个回回归归模模型型结结构构的的差差异异仅仅在在其其截截距距,称称为为平行回归平行回归(Parallel Regressions);(3)1=2,但但 1 2,说说明明两两个个回回归归模模型型之之间间的的截截距距相相同同,两两个个回回归归模模型型结结构构的的差差异异仅仅在在其其斜斜率率,称称为为汇合回归汇合回归(Concurrent Regressions);(4)12,且且 12,即即两两个个回回归归完完全全不不同同,存存在在着着结构差异称为结构差异称为相异回归相异回归(Dissimilar Regressions)。)。不同截距、斜率的组合图形不同截距、斜率的组合图形重合回归:截距斜率均相同重合回归:截距斜率均相同平行回归:截距不同斜率相同平行回归:截距不同斜率相同共点回归:截距相同斜率不同共点回归:截距相同斜率不同交叉(不同)回归:截距斜率均不同交叉(不同)回归:截距斜率均不同结构变化小结结构变化小结 结结构构变变化化的的实实质质是是检检验验所所设设定定的的模模型型在在样样本本期期内内是是否否为为同同一一模模型型。显显然然,平平行行回回归归、共共点点回归、不同的回归三个模型均不是同一模型。回归、不同的回归三个模型均不是同一模型。平平行行回回归归模模型型的的假假定定是是斜斜率率保保持持不不变变(加加法法类类型,包括型,包括方差分析方差分析););共共点点回回归归模模型型的的假假定定是是截截距距保保持持不不变变(乘乘法法类类型,又被称为协方差分析);型,又被称为协方差分析);不不同同的的回回归归的的模模型型的的假假定定是是截截距距、斜斜率率均均为为变变动的(加法、乘法类型的组合)。动的(加法、乘法类型的组合)。邹氏结构变化的检验邹氏结构变化的检验l为了检验两个模型的结构是否相同,可提出原假为了检验两个模型的结构是否相同,可提出原假设:两个回归方程的结构相同,然后看看能否拒设:两个回归方程的结构相同,然后看看能否拒绝这个假设绝这个假设,这个检验称为这个检验称为Chow检验检验.l设两个样本待检验回归模型为设两个样本待检验回归模型为:l样本样本1(n1个)个)l样本样本2 (n2个个)l邹检验的基本假定邹检验的基本假定:将将n1与与n2个观察值合并,并用以估计以下回归:个观察值合并,并用以估计以下回归:(1).假设原假设为真假设原假设为真(2).用用OLSOLS对这两个方程分别进行估计,可得到各自对这两个方程分别进行估计,可得到各自的残差平方和的残差平方和 和和 ,并求和,并求和 计算合并后的模型的残差平方和计算合并后的模型的残差平方和(3).统计量统计量:(4).查查F分布表,得临界值分布表,得临界值(5).结论结论:F 的值的值,则拒绝回归相同的假设则拒绝回归相同的假设,即拒绝即拒绝结构稳定性假定结构稳定性假定;另外另外,若若F的的P值低值低,则拒绝结构稳则拒绝结构稳定性假定定性假定.检验步骤检验步骤:1.1.用虚拟变量只需做一个回归。用虚拟变量只需做一个回归。2.2.一个回归可以做各种检验。截距检验和斜率检一个回归可以做各种检验。截距检验和斜率检验都可以一次完成。验都可以一次完成。3.3.邹至庄检验没有明确告诉是哪一个系数发生变邹至庄检验没有明确告诉是哪一个系数发生变化,而虚拟变量模型则可以很清楚看出这一点。化,而虚拟变量模型则可以很清楚看出这一点。4.4.合并后样本容量变大,估计精度也有所提高合并后样本容量变大,估计精度也有所提高虚拟变量法相比邹至庄检验的优越性:虚拟变量法相比邹至庄检验的优越性:被被解解释释变变量量也也可可以以是是定定性性变变量量,因因此此,可可以以用用虚虚拟拟变变量量表表示示。虚虚拟拟被被解解释释变变量量在在日日常常经经济济活活动动中中常常表表现现在在人人们们的的决决策策行行为为上上,即即对对某某一一问问题题人人们们要要作作出出“是是”或或“否否”的的回回答答,如如是是否否购购买买家家用用汽汽车车,是否购买人寿保险,企业是否在某个地区投资等。是否购买人寿保险,企业是否在某个地区投资等。当当被被解解释释变变量量只只取取有有限限个个离离散散值值,特特别别是是只只取取两两个个值值时时,所所建建立立的的模模型型被被称称为为离离散散选选择择模模型型。离离散散选选择择模模型型的的目目的的是是对对被被解解释释变变量量取取值值的的概概率率建建模模,而而不不是是直直接接预预测测其其取取值值。常常用用的的模模型型有有线线性性概概率率模模型和非线性概率模型(包括型和非线性概率模型(包括Logit模型和模型和Probit模型)。模型)。六、虚拟被解释变量六、虚拟被解释变量1 1 线性概率模型(线性概率模型(LPM)LPM)即条件期望事实上可解释为条件期望事实上可解释为Y在给定在给定 X下事件下事件(家庭拥有住宅)的条件概率,该线性模型称(家庭拥有住宅)的条件概率,该线性模型称为线性概率模型为线性概率模型(LPM)前面假设干扰项服从正态分布。但在前面假设干扰项服从正态分布。但在线性概率模型中干扰的正态性不成立线性概率模型中干扰的正态性不成立后果后果l虽然虽然u不服从正态分布,不服从正态分布,l即对参数的估计不会产生影响,因为即对参数的估计不会产生影响,因为OLS估计估计的无偏性、有效性与的无偏性、有效性与u的概率分布无关。的概率分布无关。l但进行检验但进行检验t、F检验等统计推断时,却要求误检验等统计推断时,却要求误差项服从正态分布。差项服从正态分布。l根据中心极限定理可知,在大样本情况下二项根据中心极限定理可知,在大样本情况下二项分布趋近于正态分布,所以这时仍然可以在正分布趋近于正态分布,所以这时仍然可以在正态分布假定下进行统计推断。态分布假定下进行统计推断。概率 总和 1随机误差项的方差随机误差项的方差 线性概率模型:一个数值例子线性概率模型:一个数值例子我们用一个数值例子来说明线性概率模型的一我们用一个数值例子来说明线性概率模型的一些问题。表些问题。表8.18.1给出给出4040各家庭的住宅所有权各家庭的住宅所有权Y Y(1 1拥有住宅,拥有住宅,0 0不拥有住宅)和家庭收入不拥有住宅)和家庭收入X X(千美元)的虚构数据。根据这些数据,用(千美元)的虚构数据。根据这些数据,用OLSOLS估计的线性概率模型如下:估计的线性概率模型如下:(0.11280.1128)()(0.00820.0082)t t(-7.6984-7.6984)()(12.51512.515)(8.18.1)解释解释l首先我们来解释这一回归。截距值首先我们来解释这一回归。截距值-0.9457-0.9457给给出零收入的家庭拥有自己的住房的概率。由于出零收入的家庭拥有自己的住房的概率。由于是负值,而概率又不可能是负值,我们就把该是负值,而概率又不可能是负值,我们就把该值当作零看待,这样做在本例中是说得过去的。值当作零看待,这样做在本例中是说得过去的。斜率值斜率值0.10210.1021意味着收入每增加意味着收入每增加1 1单位,平均单位,平均地说拥有住宅的概率增加地说拥有住宅的概率增加0.10210.1021或约或约1010。l当然,对某一给定的收入水平,我们可以从当然,对某一给定的收入水平,我们可以从(8.18.1)估计出拥有住宅的实际概率。例如,)估计出拥有住宅的实际概率。例如,对于对于X X1212(1200012000美元),估计拥有住宅美元),估计拥有住宅 的概率是的概率是WLSWLS估计估计就是说,收入为就是说,收入为12000 12000 美元的家庭拥有住宅的美元的家庭拥有住宅的概率为概率为2828。对于上面的估计受异方差的影响,因此我们可对于上面的估计受异方差的影响,因此我们可以用以用WLSWLS来获得更有效的估计值。由于某些是来获得更有效的估计值。由于某些是负的,和某些负的,和某些 大于大于1 1,对于这些,对于这些 来说,来说,将将是负的,因此删去这些值是负的,因此删去这些值 。得到的。得到的WLSWLS回归为:回归为:(0.1206)(0.0069)t (-10.332)(17.454)4、拟和优度通常情况下,拟和优度不会太高,在0.2至0.6之间,当实际的散点非常密集在点A和B处时,才会高。.非线性概率模型非线性概率模型应当指出的是,应当指出的是,虽然我们可以采用虽然我们可以采用WLS解决异方差解决异方差性问题、增大样本容量减轻非正态性问题,通过约性问题、增大样本容量减轻非正态性问题,通过约束迫使所估的事件束迫使所估的事件Y发生的概率落入发生的概率落入0-1,但是,但是,LPM与经济意义的要求不符:随着与经济意义的要求不符:随着X的变化,的变化,X对对的的“边际效应边际效应”保持不变。即不论保持不变。即不论X的变化是在什的变化是在什么水平上发生的,参数都不发生变化,显然这与现么水平上发生的,参数都不发生变化,显然这与现实经济所发生的情况是不符的。实经济所发生的情况是不符的。2 2 对数单位模型(对数单位模型(Logit Model)Logit Model)因此,表现概率平均变化比较理想的模型应当具有这样的特因此,表现概率平均变化比较理想的模型应当具有这样的特征:征:(1 1)随着随着 增加,增加,也增加,但不超出也增加,但不超出0-10-1这个区间。这个区间。(2)随着)随着X变小变小,概率趋于零的速度越来越慢,而随着概率趋于零的速度越来越慢,而随着 X变变得很大,概率趋于得很大,概率趋于1的速度也越来越慢的速度也越来越慢”。P随随X变化而变化,变化而变化,且变化速率不是常数,且变化速率不是常数,P和和X之间是非线性关系。之间是非线性关系。这是一个(累积这是一个(累积)逻辑斯逻辑斯蒂蒂分布函数为名的模型分布函数为名的模型(对数单位模型对数单位模型)这些特征正好满足前面讨论的非线性概率模型的要求这些特征正好满足前面讨论的非线性概率模型的要求。即即一一个个家家庭庭拥拥有有住住房房的的概概率率对对不不拥拥有住房的概率之比。有住房的概率之比。现在现在 就是有利于拥有住房的机会比就是有利于拥有住房的机会比率率一个家庭将拥有住房的概率对不拥有住一个家庭将拥有住房的概率对不拥有住房的概率之比。房的概率之比。对对 取自然对数得:取自然对数得:即机会比率的对数即机会比率的对数 不仅对不仅对 为线性,而且对为线性,而且对参数也是线性。参数也是线性。被称为对数单位模型。被称为对数单位模型。3.对数单位模型对数单位模型1 1、从从0 0变到变到1 1,对数单位从,对数单位从 变到变到 2 2、虽然、虽然 对对 为线性,但概率本身却不然。为线性,但概率本身却不然。3 3、斜率系数给出、斜率系数给出 每单位变化的每单位变化的 的变化,它告的变化,它告知人们随着收入变化一单位,有利于拥有住房的知人们随着收入变化一单位,有利于拥有住房的对数对数机会比率是怎样变化的。截距是当收入为机会比率是怎样变化的。截距是当收入为零时的有利于拥有住房的对数零时的有利于拥有住房的对数机会比率的值。机会比率的值。4 4、对给定的某个收入水平,我们其实想估计的并、对给定的某个收入水平,我们其实想估计的并不是有利于拥有住房的机会比,而是拥有住房本不是有利于拥有住房的机会比,而是拥有住房本身的概率。身的概率。5 5、对数单位模型假定机会比率的对数与、对数单位模型假定机会比率的对数与 有线有线性关系。性关系。对数模型的特点:对数模型的特点:在这种情形下只有用最大似然估计求解,另外在这种情形下只有用最大似然估计求解,另外的一种估计方法,当我们拥有的数据如下表所的一种估计方法,当我们拥有的数据如下表所示时可以用示时可以用OLS求解。求解。用用OLSOLS求解求解1.数据构造 (收入以 的家庭个数)(其中拥有住房的家庭数)640885012106018402520 显然模型中存在异方差,因此我们考虑使用加权显然模型中存在异方差,因此我们考虑使用加权最小二乘法,权重取。用代替则可求出最小二乘法,权重取。用代替则可求出:为了解释二分应变量,有必要使用适为了解释二分应变量,有必要使用适当当CDFCDF。对数单位模型使用的是累积逻辑。对数单位模型使用的是累积逻辑斯蒂函数。在实际应用中发现正态斯蒂函数。在实际应用中发现正态CDFCDF效效果也不错。使用正态果也不错。使用正态CDFCDF的估计模型通常的估计模型通常称为概率单位模型。称为概率单位模型。引入概率单位模型有两种途径:一是引入概率单位模型有两种途径:一是模仿前面逻辑斯蒂函数的形式,直接用正模仿前面逻辑斯蒂函数的形式,直接用正态分布函数替换;二是依据态分布函数替换;二是依据麦克法登麦克法登的效的效用理论或行为的理性选择引入概率单位模用理论或行为的理性选择引入概率单位模型。型。3 3 概率单位模型概率单位模型(probit Model)(probit Model)直接用正态分布函数替换直接用正态分布函数替换l用正态分布函数去拟合用正态分布函数去拟合S曲线时,所得到的模曲线时,所得到的模型就是著名的型就是著名的Probit模型。模型。Probit模型的具体模型的具体形式为:形式为:l将其转化成线性模型:将其转化成线性模型:l对于模型上式,一般也是采用极大似然估计法对于模型上式,一般也是采用极大似然估计法 进行估计。进行估计。l Probit模型和模型和Logit模型都是对线性概率模型的模型都是对线性概率模型的改进,两者的区别在于趋于改进,两者的区别在于趋于0或或1的速率不同。逻的速率不同。逻辑分布函数趋于辑分布函数趋于0或或1的速率慢于正态分布函数的的速率慢于正态分布函数的速率。速率。LogitLogit模型与模型与ProbitProbit模型的比较模型的比较逻辑分布函数逻辑分布函数趋于趋于0 0和和1 1的速度慢于的速度慢于正态分布函数正态分布函数的速度的速度01LogitLogitProbitProbit1、几何形状、几何形状下面根据效用理论阐明使用概率单位模型的动机。下面根据效用理论阐明使用概率单位模型的动机。表示一种不可观测的效用指数,表示收入,表示一种不可观测的效用指数,表示收入,仍然研究家庭拥有住房的概率。仍然研究家庭拥有住房的概率。当越大时,认为拥有住房的概率越大。当越大时,认为拥有住房的概率越大。现在假定有这样一个临界值,当现在假定有这样一个临界值,当 时,时,该家庭拥有住房,否则不拥有。该家庭拥有住房,否则不拥有。在正态性假定下,的概率可由标准化正态在正态性假定下,的概率可由标准化正态CDFCDF算出。算出。t t是标准化正态变量,。是标准化正态变量,。根据获得关于效用函数以及和的信息,根据获得关于效用函数以及和的信息,可得到:可得到:如果我们掌握了的分组数据,便可由计如果我们掌握了的分组数据,便可由计算出,一旦有了,就可很轻松的估计和算出,一旦有了,就可很轻松的估计和在对数单位分析中,被称为正态等效离差在对数单位分析中,被称为正态等效离差(n.e.d.)(n.e.d.)。当时,将是负数,在实。当时,将是负数,在实际际中通常把中通常把5 5加到上,其结果称为概率单位加到上,其结果称为概率单位.现在估计和。通过下面的式子:现在估计和。通过下面的式子:概率单位模型的估计步骤:概率单位模型的估计步骤:1 1、从分组数据中估计出。、从分组数据中估计出。2 2、根据,从标准正态、根据,从标准正态CDFCDF中求出中求出n.e.d.n.e.d.3 3、用作为回归的应变量。、用作为回归的应变量。4 4、由于随机误差项存在异方差,因此还要进行数据转、由于随机误差项存在异方差,因此还要进行数据转换或用换或用WLSWLS估计出最后结果。估计出最后结果。5 5、用普通方式进行假设检验,但得到的结果只在大样、用普通方式进行假设检验,但得到的结果只在大样本下有效,同时已没有多大价值本下有效,同时已没有多大价值概率单位模型的例子概率单位模型的例子根据所给的数据,可以估计出如下结果。根据所给的数据,可以估计出如下结果。以以n.e.d.n.e.d.作为应变量:作为应变量:以概率单位作为应变量:以概率单位作为应变量:除截距外,两种回归结果没有差别。除截距外,两种回归结果没有差别。比较对数单位与概率单位的估计值比较对数单位与概率单位的估计值:虽然对数单位模型和概率单位模型给出性质虽然对数单位模型和概率单位模型给出性质相同的结果,但是两个模型参数的估计值不相同的结果,但是两个模型参数的估计值不可直接比较。一般两者参数有如下关系:可直接比较。一般两者参数有如下关系:另外,另外,LPMLPM的系数与对数单位模型的系数有如的系数与对数单位模型的系数有如下关系:下关系:不含截距项时不含截距项时含有截距项时含有截距项时 模型的检验与评价模型