《第八章__虚拟解释变量回归.docx》由会员分享,可在线阅读,更多相关《第八章__虚拟解释变量回归.docx(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第八章 虚拟变量回归 引子 男女大学生的消费真的有差异吗?在校大学生的消费行为越来越受到社会的关注,学生家长也很关心自己的子女上大学究竟要准备多少花费。由共青团中央、全国学联共同发布的中国大学生消费与生活形态研究报告显示,当代大学生在消费结构方面呈现出多元化趋势。大学生除了日常生活费开支以外,还有人际交往消费、网络通讯消费、书报消费、衣着类消费、化妆品类消费、电脑类消费、旅游类消费、食品类消费、学习用品类消费、各种考证类等消费。大学生时尚化、个性化消费增多已成为趋势与潮流。不同性别大学生的消费结构有所不同,专科生、本科生、研究生的消费结构更有差异。有的记者调查发现,不同年级之间,男女同学之间,
2、消费水平、消费结构、消费方式上都存在着差异。年级越高,消费水平也随之增长,随着阅历的增加,对自己形象的重视,精神享受的追求、学习的投入、配备手机电脑的需求也随之增长。同年级的男生的消费高于女生,虽然女生在化妆品、衣服饰品方面的投入明显高于男生。然而时代在变,对美的追求已不再限于女生,男生对于个人形象、装扮也已慢慢重视起来。此外男生在人际交往方面比女生投入了更多的本钱。请客吃饭、朋友聚会、节日送礼已不再罕见。所谓的人情消费已从社会向校园中扩张蔓延,而在乎面子的男同胞已成为追随这一潮流的先驱。高年级女生对于吃饭的投入相对较少,而在化妆品、服饰、零食方面的投入却增长不少。(注:来源于Solie教育网
3、、网易教育频道、新华网等)为了研究男女大学生、不同层次大学生、不同年级大学生的消费结构是否有差异,需要将这些定性的因素引入计量模型,怎样才能在模型中有效地表示这些定性因素的作用呢?第一节 虚拟变量一、虚拟变量的基本概念在前面的分析中,被解释变量主要受到一些可以直接度量的变量影响,如收入、产出、商品需求量、价格、成本、资金、人数等。但现实经济生活中,影响被解释变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些本质上为定性因素(或称属性因素)的影响,例如性别、种族、肤色、职业、季节、文化程度、战争、自然灾害、政府经济政策的变动等因素。在实际经济分析中,这些定性变量有时具有不可
4、忽视的重要影响。例如,研究某个企业的销售水平,产业部门(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、管理者素质的高低等是值得经常考虑的影响因素,这些因素有共同的特征,即都是表示某种属性的,不能直接用数据精确描述的因素。因此,被解释变量的变动经常是定量因素和属性因素共同作用的结果。在计量经济模型中,应当同时包含定量和属性两种因素对被解释变量的影响作用。定量因素是指那些可直接测度的数值型因素,如GDP、M2等。定性因素,或称为属性因素,是不能直接测度的、说明某种属性或状态存在与否的非数值型因素,如男性或女性、城市居民或非城市居民、气候条件正常或异常、政府经济政策不变与改革等
5、。在计量经济学的建模中应当将定量因素和定性因素同时纳入模型之内。为了在模型中反映定性因素,可以将定性因素转化为虚拟变量去表现。虚拟变量(或称为属性变量、双值变量、类型变量、定性变量、二元型变量等),是人工构造的取值为0和1的作为属性变量代表的变量,一般用字母D(或DUM,英文dummy的缩写)表示。属性因素通常具有若干类型或水平,通常虚拟变量的取值为0和1,当虚拟变量取值为0,即D=0时,表示某种属性或状态不出现或不存在,即不是某种类型;当虚拟变量取值为1,即D=1时,表示某种属性或状态出现或存在,即是某种类型。例如,构造政府经济政策人工变量,当经济政策不变时,虚拟变量取值为0,当经济政策改变
6、时,虚拟变量取值为1。这种做法实际上是一种变换或映射,将不能精确计量的定性因素的水平或状态变换为用 0 和 1 来定量描述。二、虚拟变量的设置规则在计量经济学模型中引入虚拟变量,可以使我们同时兼顾定量因素和定性因素的影响和作用。但是,在设置虚拟变量时应遵循一定的规则。1、虚拟变量数量的设置规则虚拟变量个数的设置规则是:若定性因素有m个相互排斥的类型(或属性、水平),在有截距项的模型中只能引入m1个虚拟变量,否则会陷入所谓“虚拟变量陷阱”,产生完全的多重共线性。在无截距项的模型中,定性因素有m个相互排斥的类型时,引入m个虚拟变量不会导致完全多重共线性,不过这时虚拟变量参数的估计结果,实际上是D=
7、1时的样本均值。例如,城镇居民和农村居民住房消费支出的模型可设定为: (8.1) 其中,为居民的住房消费支出,为居民的可支配收入,为虚拟变量,即当时为城镇居民;当时为其他(农村居民)。这里区分城镇居民和农村居民的定性变量的类型有m=2个,按虚拟变量的设置规则应引入m1=21=1个虚拟变量。但是,如果引入了m=2个虚假变量: , ,则有:(8.2)这时,当=1时同时有=0;反之,当=0时有=1。即对于任何被调查的居民家庭都有+=1,和存在完全的共线性,无法利用OLS估计其参数,从而陷入“虚拟变量陷阱”。由此,所谓的“虚拟变量陷阱”的实质是出现完全多重共线性。可见,虚拟变量有其积极作用的一面,也有
8、不良影响的一面,引入的虚拟变量适当,则发挥了积极的作用,引入的虚拟变量过度,则会带来负面的影响。 2、虚拟变量的“0”和“1”的选取原则虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以界定。从理论上讲,虚拟变量取“0”值通常代表为比较的基础类型;而虚拟变量取“1”值通常代表为被比较的类型。例如,引入政府经济政策的变动对被解释变量的影响时,由于此时的比较是在政府经济政策不变的基础上进行的,故虚拟变量确定为: 三、虚拟变量的作用在计量经济模型中,虚拟变量可以发挥多方面的作用:(1)可以作为属性因素的代表,如性别、所有制等;(2)作为某些非精确计量的数量因素的代表,如受教育程度、管理者素质
9、等;(3)作为某些偶然因素或政策因素的代表,如战争、灾害、改革前后等;(4)还可以作为时间序列分析中季节(月份)的代表;(5)可以实现分段回归,研究斜率、截距的变动,或比较两个回归模型的结构差异。在计量经济学中,把包含有虚拟变量的模型称为虚拟变量模型。常用的虚拟变量模型有三种类型:(1)解释变量中只包含虚拟变量,作用是在假定其他因素都不变时,只研究定性变量是否使被解释变量表现出显著差异;(2)解释变量中既含定量变量,又含虚拟变量,研究定量变量和虚拟变量同时对被解释变量的影响;(3)被解释变量本身为虚拟变量的模型,是被解释变量本身取值为0或1的模型,适于对某社会经济现象进行“是”与“否”的判断研
10、究。特别要注意的是,定型或属性变量,通常由1个以上的虚拟变量描述。例如,分析考证区域这样一个定性因素的影响时,若将区域因素划分为东、中、西三种属性时,在有截距项的回归模型中,只能引人2个虚拟变量,而这两个虚拟变量只是描述了1个定性因素(区域因素),而不是2个定性因素。当然,当定性因素为性别因素时,1个虚拟变量就描述了1个定性因素。第二节 虚拟解释变量的回归在计量经济模型中,加入虚拟解释变量的途径有两种基本类型:一是加法类型;二是乘法类型。不同的途径引入虚拟变量有不同的作用,加法方式引入虚拟变量改变的是截距;乘法方式引入虚拟变量改变的是斜率。一、用虚拟变量表示不同截矩的回归加法类型以加法类型引入
11、虚拟解释变量的模型,如(8.3)式那样, (8.3)在(8.3)所设定的计量经济模型中,虚拟解释变量与其他解释变量是相加关系。以加法形式引入虚拟解释变量,从计量经济模型的意义看,其作用是改变了设定模型的截距水平。以加法方式引入虚拟变量时,分为四种情形:(1)解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量;(2)解释变量包含一个定量变量和一个分为两种类型的定性变量;(3)解释变量包含一个定量变量和一个两种以上类型的定性变量;(4)解释变量包含一个定量变量和两个定性变量。1、解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量的回归这种情况的模型又被称为方差分析模型,例如(8.4
12、)式 (8.4)其中,为居民的年可支配收入,为虚拟解释变量,=1代表城镇居民;=0代表非城镇居民。(8.4)式的意义是,假设其他因素(包括文化程度、职业、性别等)保持不变的条件下,研究城镇居民和非城镇居民的收入是否存在差别。当满足古典假设时,由式(8.4)有:非城镇居民的年平均收入: (8.5)城镇居民的年平均收入: (8.6)即在(8.4)式中,截距项给出了非城镇居民的年平均可支配收入水平,而另一系数则表明城镇居民年平均可支配水平不同于非城镇居民年平均可支配收入的部分。由式(8.5)和(8.6)可知,虚拟解释变量的作用是改变设定模型的截距水平。为了检验城镇居民和非城镇居民的年均可支配收入是否
13、有显著差别,可构造假设H0:,即城镇与非城镇居民年均可支配收入无差别。对式(8.4)回归,依据估计值的t检验是否显著,可作出接受或不能接受H0假设的判断。2、解释变量包含一个定量变量和一个分为两种类型定性变量的回归例如 (8.7)模型(8.7)的意义在于描述收入和城乡差别对居民消费支出的影响。(8.7)式由一个定量解释变量X和一个分为两种类型的虚拟解释变量组成。注意这里一个定性变量具有两种类型,只使用了一个虚拟变量。当(8.7)式中的服从古典假定时,有:基础类型: (8.8)比较类型: (8.9) 其中为差异截距系数。(8.7)式可图示为8.1,表明非城镇居民与城镇居民两种类型收入函数的斜率相
14、同(均为),而截距水平不同。这说明,城镇居民和非城镇居民在消费支出水平上,存在着规模为的差异,而由收入因素而产生的平均消费支出水平变化却是相同的。 YY 0X 图8.1 城镇农村居民消费支出水平的差异在的假设下,对参数估计值的检验,可以进行消费支出是否存在城乡差异的检验。3、解释变量包含一个定量变量和一个两种以上类型的定性变量的回归考虑以下模型: (8.10)其中:为年医疗保健费用支出,为居民的年可支配收入,显然,模型(8.9)是描述居民的年医疗保健费用支出与居民可支配收入(定量变量)和受教育程度(定性变量)间的因果关系。这里,定性因素(受教育的程度)划分为三种类型;高中以下、高中、大专及大专
15、以上。注意这里的定性变量有3种类型,依据虚拟变量设置规则引入了m1=31=2个虚拟变量,而且一个定性变量多种类型时,虚拟变量可同时取值为0,但不能同时取值为1,因为同一定性变量的各种类型间“非此即彼”。当式(8.10)服从古典假定时,有:基础类型:高中以下教育: (8.11)比较类型:高中教育: (8.12)大专及大专以上: (8.13)这表明,三种不同教育程度居民的医疗保健费用年均支出的起点水平(截距)不同,差异截距系数为和。对式(8.10)进行回归,检验和的t检验可以发现与比较基准组(高中以下教育水平)相比,另两种类型截距的差异在统计上是否存在显著差异。关于的联合假设检验,也可由方差分析或
16、F检验完成。4、解释变量包含一个定量变量和两个定性变量的回归 以加法形式引入虚拟解释变量的作法,很容易扩展到处理一个以上定性变量的情形。例如依据某地区家庭调查资料所建立的卷烟需求模型:(8.14)其中,为卷烟需求量,为居民可支配收入,和是虚拟解释变量, ,一般认为,城镇居民的卷烟消费量高于非城镇居民,同时男性居民的吸烟量大于女性居民。为了分析城乡差别和性别差别对卷烟需求的影响,模型(8.14)以加法形式引入了两个虚拟解释变量。注意,这里有两个定性变量选用了两个虚拟变量去表示,这并不会出现“虚拟变量陷阱”,对比前面一个定性变量有三种类型时也用了两个虚拟变量,二者性质是不同的。而且注意这里的和是代
17、表不同定性变量的虚拟变量,可以同时为0,也可同时为1,因为不同定性变量间并没有“非此即彼”的关系。当式(8.14)满足古典假设时,有:基础类型:农村女性居民: (8.15)比较类型:农村男性居民: (8.16)城镇女性居民: (8.17)城镇男性居民: (8.18)显然,模型(8.14)是以农村女性居民为基础类型,并假设各种类型居民的卷烟需求函数只是有不同的截距,相对于收入的斜率系数相同。用t检验分别检验和的统计显著性,可验证两个定性变量对截距是否有显著影响。上述讨论的结果,可以推广到解释变量有多个定量变量和多个定性变量的情形。在推广过程中需要注意引入虚拟变量的个数应遵从前述的设置规则。例如,
18、在考虑季节因素对冷饮销售量影响时,有春、夏、秋、冬四个类型的季节,依据设置规则,可引入m1=41=3个虚拟解释变量。二、用虚拟变量表示不同斜率的回归乘法类型以乘法形式引入虚拟解释变量,是在所设定的计量经济模型中,将虚拟解释变量与其他解释变量相乘作为解释变量,以表示模型中斜率系数的差异。以乘法形式引入虚拟解释变量的主要作用在于:关于两个回归模型的比较;因素间的交互影响分析;提高模型对现实经济现象的描述精度。1、回归模型的比较结构变化检验以加法方式引入虚拟解释变量,属性因素仅影响不同类型模型的平均水平,而不会影响不同类型模型的相对变化。但是在现实经济生活中,属性因素也可能影响模型的斜率系数发生变化
19、。例如,随着可支配收入水平的提高,城乡居民的消费结构将出现较大的差异,这种差异会表现在定性因素对斜率的影响上。又如,研究我国改革开放前后储蓄收入总量间关系是否发生了变化时,也存在着经济结构变化而导致模型斜率发生变化的问题。这类问题可归结于两个回归模型的比较。例如,在研究改革开放前后储蓄收入总量关系时,所设定的模型为:改革开放前: t=1950,1951,1977 (8.19)改革开放后: t=1978,1979,2004 (8.20)其中:Y为储蓄总额(亿元),X为收入总额(亿元),、为随机扰动项。如果我们分别对式(8.19)和式(8.20)在不同的时间区间内回归,则可能得到以下四种结果:(1
20、),表明这两个回归模型是相同的,或称为重合回归;(2),表明这两个回归模型仅在位置水平上(即截距水平上)存在差异,或称为平行回归;(3),表明这两个回归模型具有相同的位置水平(或起点相同)而变化速率不等,或称为共点回归;(4),表明这两个回归模型完全不相同,或称为不同的回归。以上四种情形可用图示法描述(见图8.2):储蓄储蓄111收入收入 (b)平行回归(a)重合回归储蓄储蓄1111收入收入(d)不同的回归(c)共点回归图8.2储蓄收入回归模型现在的问题是,当我们运用样本数据对式(8.14)和式(8.15)进行回归后,如何界定所得结果在统计意义上属于哪一种类型呢?这时可采用以乘法形式引入虚拟变
21、量的方法。例如,对于改革开放前后储蓄收入模型,可设定为:(8.21)其中,Y为储蓄;X为收入;D为虚拟变量,显然在式(8.21)中,以乘法形式引入了虚拟变量所形成的解释变量为,以加法形式引入虚拟变量所形成的解释变量是。事实上,当式(8.21)满足古典假设时,有改革开放前:(8.22)改革开放后:(8.23)(8.22)式和(8.23)式分别是改革开放后和改革开放前的平均储蓄函数。与 (8.19) 式及 (8.20) 式相比,有:、。在 (8.21) 式中,称为截距差异系数,称为斜率差异系数,分别代表改革开放前后储蓄函数截距与斜率所存在的差异。当我们利用19502000年间的数据估计式(8.21
22、)时,等价于分别对 (8.19) 式和 (8.20) 式两个储蓄函数进行估计。假如对 (8.21) 式用OLS法估计得(0.3319) (0.4704) (0.0163) (0.0332)t=(-5.2733) (3.1545) (9.2270) (-3.1144)结果表明,截距和斜率差异系数、在统计意义下均为显著的,说明改革开放前后的储蓄收入行为确是不相同。即改革开放前改革开放后 以乘法形式引入虚拟变量作回归模型的比较和结构变化检验有一些优点:(1)用一个回归替代了多个回归,简化了分析过程;(2)可以方便地对模型结构的差异作各种假设检验;(3)合并了的回归增加了自由度,提高了参数估计的精确性
23、。但是,也应注意合并后模型的应服从基本假定,特别是所比较的方程的方差应相同,否则会出现异方差。2、交互效应分析当分析解释变量对变量的影响时,大多数情形只是分析了解释变量自身变动对被解释变量的影响作用,而没有深入分析解释变量间的相互作用对被解释变量的影响。前面讨论的分析两个定性变量对被解释变量影响的虚拟变量模型中,暗含着一个假定:两个定性变量是分别独立地影响被解释变量的。但是在实际经济活动中,两个定性变量对被解释变量的影响可能存在一定的交互作用,即一个解释变量的边际效应有时可能要依赖于另一个解释变量。为描述这种交互作用,可以把两个虚拟变量的乘积以加法形式引入模型。考虑下列模型:(8.24)其中:
24、为农副品生产总收益,X为农副产品生产投入,为代表油菜籽生产虚拟变量,为代表养蜂生产虚拟变量: ; 显然(8.22)式描述了是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响。虚拟解释变量和是以加法形式引入的,那么暗含着假设:油菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。但是,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副产品生产总收益,可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量和间,很可能存在着一定的交互作用,且这种交互影响对被解释变量农副产品生产收益会有影响。为了描述交互作用对被解释变量的效应,在(8.24)式中以加法形式引入两个虚
25、拟解释变量的乘积,即(8.25)(8.25)式中各变量的含义与(8.24)式相同。基础类型:为不发展油菜籽生产,也不发展养蜂生产时农副产品生产总收益的平均支出: (8.26)对比类型:为同时发展油菜籽生产和养蜂生产时,农副产品生产总收益的平均支出(8.27)这里的截距水平由四项组成,其中:为是否发展油菜籽生产对农副产品生产总收益的截距差异系数;为是否发展养蜂生产对农副产品生产总收益的截距差异系数;同时发展油菜籽生产和养蜂生产时对农副产品生产总收益的交互效应系数。关于交互效应是否存在,可借助于交互效应虚拟解释变量系数的显著性检验来加以判断。如果t检验表明交互效应虚拟变量在统计意义上是显著时,说明
26、交互效应对存在显著影响。3、分段线性回归有的社会经济现象的变动,会在解释变量达到某个临界值时发生突变,为了区分不同阶段的截距和斜率可利用虚拟变量进行分段回归。例如,某公司为了激励公司销售人员,按其销售额的一定比例计提奖励,但是销售额在某一目标水平以下和以上时计提奖励的方法不同。当销售额高于时,计提奖励额与销售额的比例要高于销售额低于时的比例,也就是高于时,奖励额与销售额的线性关系更为陡峭(如图8.3所示)。为了确切地描述奖励额度(Y)与销售额(X)间的关系,需要分两段进行回归。这种分段回归可以用虚拟变量来实现。Y0X 图8.3奖励额与销售额的关系设虚拟变量D为:则奖励额度()和销售额()间的关
27、系式可以统一地表示为: (8.28)其中,为奖励额,为销售额,为已知的销售目标临界水平。利用统计资料估计(8.28)式的参数,就可以得到不同斜率和截距的回归方程:销售额低于时: (8.29)销售额不低于: (8.30)整理得 (8.31)显然,是图8.3中第段回归直线的斜率,而则是第段回归直线的斜率。只要检验的统计显著性,就可以判断在所设定的临界水平处是否存在着“突变”。应当注意,在分段回归中,第一、二段回归不仅截距不同,而且斜率也不同。在分为两段回归时,使用了一个虚拟变量,容易推广,分为K段回归时,可用K1个虚拟变量。 *第三节 虚拟被解释变量本节内容本科教学中供选择使用。在计量经济学模型中
28、,虚拟变量除了可以作为解释变量外,还可以作为被解释变量。当虚拟变量作为被解释变量时,其作用是对某一经济现象或活动进行“是”与“否”的判断或决策。例如,研究是否购买商品住房、是否参加人寿或财产保险、是否能按期偿还贷款、新产品在市场上是否畅销、对某一改革措施所持的态度等。这些问题的特征是被研究的对象(即被解释变量)在受到多种因素影响时,其取值只有两种状态:“是”与“否”。这在计量经济学中被称为“二元型响应”现象,这种现象常在市场研究或社会问题研究中遇到。如何处理二元型响应被解释变量模型的估计、推断问题,是本节要解决的问题。一、线性概率模型(LPM)1、什么是线性概率模型假设住户是否购买商品房的决定
29、主要依赖于其收入水平。那么考虑下列模型: (8.32)其中,为住户的收入;Y为一虚拟变量表示的住户购买商品住房的情况:现在的问题是:我们前面讨论的回归分析主要是研究的问题,即研究条件均值的轨迹的问题,而在上述模型中,被解释变量是某种属性发生与否的状况,怎样把某种属性发生与否的问题同条件均值的轨迹研究联系起来?当然,在计量经济学中,研究被解释变量某种属性发生与否,通常是研究这种属性发生与否的概率。也就是说,上述问题可表述为:怎样把被解释变量某种属性发生与否的概率问题同条件均值的轨迹研究联系起来?另外,若概率问题与条件均值轨迹能够联系起来的话,那么,我们所讨论的线性回归分析会出现什么问题?分析 (
30、8.32) 式,其中,服从E()=0,有: (8.33)另一方面,是取值为0和1的随机变量,那么有下列分布(为=1的概率): 0 1概率1-根据数学期望的定义 (8.34)也就是说,等于取值为1时的概率,即: (8.35)注意事件Y=1发生是在给定收入X的条件下发生的,因此于是,比较 (8.33) 式和 (8.34) 式,则有: (8.36)表明购买商品用房的概率是收入的线性函数。像(8.32)式那样,以虚拟变量作为被解释变量的模型的条件期望实际上等于随机变量取值为1的条件概率。即当住户的收入水平为X时,其购买商品住房的概率可表示成X的线性函数,故 (8.32) 式也被称为线性概率模型(LPM
31、)。显然,只要得到 (8.32) 式中和和估计量后,就可以估计出不同收入水平住户购买商品住房的概率。由于购买商品住房的概率必须在0和1之间,故在估计式(8.32)式时必须满足约束条件 (8.37)2、线性概率模型的估计从形式上看, (8.32) 式与普通的线性计量经济模型相似,是否能够运用OLS法直接对其进行估计呢?答案是否定的。因为直接采用OLS法对(8.32)式那样的模型进行估计,将会遇到一些特殊的问题,使得估计结果失去了合理的经济解释,因而需要寻求相应的处理方法。(1)随机扰动项的非正态性在线性概率模型中,关于的正态性假设不再成立,因为(8.30)式的随机误差项为: (8.38)此时,当
32、=1时当=0时显然,这里的不遵从正态分布,而是服从二项分布。线性概率模型中的随机扰动项不遵从正态分布,对参数的估计并不产生影响,OLS法本身并不要求随机扰动项具备正态性,此时参数的OLS估计仍是最佳无偏估计量。但对参数的假设检验和区间估计要求随机扰动项遵从正态分布。不过,随着样本容量的无限增大,根据中心极限定理,OLS估计量的概率分布将会趋近于正态分布。因此,大样本条件下线性概率模型的统计推断,也可以按正态性假设条件下OLS的统计推断方式进行。这就是说,直接运用OLS法对线性概率模型进行估计,对参数的估计不会产生太大影响。(2)随机扰动项的异方差性根据的概率分布有:=1时,=的概率为;=0时,
33、=的概率为1-,即 概率 根据方差的定义 (8.39)这里利用了=。(8.39)式表示,当满足=0和=0(ij)时,的方差却是条件期望的函数,即,这表明是异方差的。这时利用OLS法所得的LPM的估计量不再具有最小方差的特性,且各参数估计量的标准差也不可信。也就是说,LPM参数的OLS估计量虽仍为线性无偏估计量,但不是最佳估计量。为了消除异方差性的影响,可利用第五章中有关修正异方差的方法,例如可用加权最小二乘法(WLS)修正异方差。根据前面的讨论,已知LPM中的方差是条件期望的函数,故选择权重的一种方法是: (8.40)其中,为权重。对 (8.32) 式两边加权,有: (8.41)(8.41)式
34、中权重是未知的,随机扰动项也是未知的,在实践中为了估计进而估计LPM模型,可采取以下步骤:第一步,不考虑异方差,用OLS法估计原模型(8.30),计算,取作为的估计值第二步,用按照(8.41)式对观察数据和进行变换,再用OLS法估计变换后的模型参数,得LPM的参数,从而消除异方差。(3)不满足的约束 在线性概率模型中,表示在给定X的条件下,事件Y发生的概率,从理论上,的取值范围必须在0和1之间,然而在实证分析中,的估计量并不一定介于0和1之间,也就是说,的值可能大于1,也可能小于0,这是LPM的OLS法估计存在的实际问题。解决这一问题的方法之一,是当1时,就认定=1;当0时,就认定=0。这是人
35、为的把大概率事件当作必然事件,把小概率事件当作不可能事件。另一类方法,是选择Logit模型或Probit模型等能够保证满足约束的非线性模型。3、非线性概率模型应当指出的是,虽然我们可以采用WLS解决异方差性问题、增大样本容量减轻非正态性问题,通过约束迫使所估的事件Y发生的概率落入0-1,但是,LPM与经济意义的要求不符:随着X的变化,X对的 “边际效应”保持不变。如在住户是否购买商品房的例子中,当时,表明X每变化一个单位(比如说1000元),拥有商品住房的概率恒等地增加0.1。这就是说,无论住户的收入水平为8000元,还是22000元,拥有商品住房的概率都以相同的增量增加。在线性概率模型中,不
36、论X的变化是在什么水平上发生的,参数都不发生变化,显然这与现实经济所发生的情况是不符的。因此,表现概率平均变化比较理想的模型应当具有这样的特征: (1)概率随X的变化而变化,但永远不超出01区间。(2)随着,;随着,;即随着变小,概率趋于零的速度越来越慢;而随着变大,概率趋于1的速度也越来越慢。随变化而变化,且变化速率不是常数,和之间是非线性关系。符合这些特征的函数可用图8.4形象地刻画。PCDF10X 图8.4 非线性概率函数的图形从图中可知,图8.4所示的模型满足,以及是非线性函数的假设,呈现出S型的曲线特征。因此可以设法找到符合这种S型曲线特征的函数形式来作为二元响应计量经济模型的设定形
37、式。原则上,任何适当的、连续的、定义在实轴上的概率分布都将满足上述两个条件。对于连续随机变量来说,密度函数的积分代表概率的大小,也就是说,连续随机变量的(累积)分布函数(CDF)可以满足上述两个要求。通常选择逻辑斯蒂分布函数和正态分布的累积分布函数去设定非线性概率模型。当选用逻辑斯蒂分布时,就生成了Logit模型(对数单位模型),本书只介绍Logit模型。二、对数单位模型(Logit 模型)1、Logit模型的基本概念如上所述,当选择用逻辑斯蒂分布函数(logistic distribution)去设定二元响应计量经济模型时,有 (8.42)其中, 。(8.42)式有以下特征: (1)随着,(
38、1为的饱和值);反之,时,;即,;时,。(2)(8.42)式有一个拐点,在拐点之前,随或增大,的增长速度越来越快;在拐点之后,随或增大,的增长速度越来越慢,逐渐趋近于1。这些特征正好满足前面讨论的非线性概率模型的要求。考虑在估计中便利,我们采用以下变换: (8.43)(8.43)中,比率通常被称为机会比率,即所研究的事件(或属性)“发生”与“没有发生”的概率之比。机会比率在市场调查民意测验等社会学以及流行病学方面有着广泛的应用。“机会比率的对数” 被称为对数单位,这里的对数单位不仅是的线性函数,而且也是的线性函数。所以,(8.43)也称为对数单位模型(或logit模型)。2、Logit模型的估
39、计虽然Logit模型(8.42)或(8.43)式满足非线性概率模型的要求,但由于不仅对是非线性关系,而且对和也是非线性关系,不能直接运用OLS法估计参数。必须设法把非线性关系转换为可以运用OLS估计的线性形式。若记为事件发生的概率,那么有: (8.44)由(8.43)和(8.44)式有: (8.45)对(8.45)式两边取自然对数: (8.46)模型(8.46)表明,变动一个单位,机会比率的对数(注意不是概率)平均变化个单位。需要注意对数单位模型的以下特点:(1)随着从0变化到1,或Z从变化到,对数单位从变化到,即概率在0与1之间,但对数单位并不一定在0与1之间。(2)虽然对数单位对是线性的,
40、但概率对并不是线性的,这与线性概率模型不同。(3)注意对数单位模型中参数的意义:是每变动一个单位时,对数单位(机会比率的对数)的平均变化,然而我们研究的目的并不是对数单位,而是概率。(4)如果设法估计出参数和,给定某一水平=,若欲估计,当和估计量已知时,可从(8.46)式中直接得到(),就可能计算出要估计的概率。从经济计量的角度引入随机扰动项,将式(8.46)改记为:(8.47)现在的问题是如何得到和的估计量?对(8.47)式直接估计会遇到以下困难:(1)当事件发生时,;当事件没有发生时,机会比率的对数都无意义,不能直接用OLS 法估计模型,而只能采用极大似然法(ML)估计参数。当样本容量N较
41、大,可选用加权最小二乘法进行估计。(2)估计参数需要的机会比率对数的数据无法观测。解决办法是对应于每个,样本观测值个数较大时,可利用整理汇总的数据,用相对频率作为对的估计,并估计机会比率对数。例如购商品房的模型,对于收入水平,家庭总数为,其中购商品房家庭数为,可计算相对频率。样本容量足够大时,可视为对的较好估计,并可用以估计机会比率对数:。(3)(8.47)式模型的随机项为异方差,可以证明,N足够大时 (8.48)为了估计的方差,可通过用相对频率代替去估计: (8.49)估计出的方差以后,可用加权最小二乘法去估计参数,权数为: (8.50) 可以看出,对数单位模型参数的估计程序是较为繁琐的,但
42、运用Eviews进行估计却较方便,具体的估计步骤在下一节的案例中介绍。另外,关于二元选择模型的模型设定检验、异方差性检验、拟合优度分析等内容,已超出本书的讨论范围,在此不作讨论。第四节 案例分析改革开放以来,随着经济的发展中国城乡居民的收入快速增长,同时城乡居民的储蓄存款也迅速增长。经济学界的一种观点认为,20世纪90年代以后由于经济体制、住房、医疗、养老等社会保障体制的变化,使居民的储蓄行为发生了明显改变。为了考察改革开放以来中国居民的储蓄存款与收入的关系是否已发生变化,以城乡居民人民币储蓄存款年底余额代表居民储蓄(Y),以国民总收入GNI代表城乡居民收入,分析居民收入对储蓄存款影响的数量关
43、系。表8.1为1978-2003年中国的国民总收入和城乡居民人民币储蓄存款年底余额及增加额的数据。表8.1 国民总收入与居民储蓄存款 单位:亿元年 份国民总收入(GNI)城乡居民人民币储蓄存款年底余额(Y)城乡居民人民币储蓄存款增加额(YY)年 份国民总收入(GNI)城乡居民人民币储蓄存款年底余额 (Y)城乡居民人民币储蓄存款增加额(YY)19783624.1 210.6NA199121662.5 9241.62121.80019794038.2 281.070.4199226651.9 11759.42517.80019804517.8 399.5118.5199334560.5 15203.53444.10019814860.3 532.7124.2199446670.0 21518.86315.30019825301.8 675.4151.7199557494.9 29662.38143.50019835957.4 892.5217.1199666850.5 38520.88858.50019847206.7 1214.7322.2199773142.7 46279.87759.00019858989.1 1622.6407.9199876967.2 53407.5
限制150内