计量经济学10说课讲解.ppt
10-1计量经济学1010-2一、虚拟变量的性质一、虚拟变量的性质l许多经济变量是许多经济变量是可以定量度量可以定量度量的,如:商品需求的,如:商品需求量、价格、收入、产量等量、价格、收入、产量等称之为定量变量,称之为定量变量,quantitative(numerical)explanatory variables。l但也有一些影响经济变量的因素但也有一些影响经济变量的因素无法定量度量无法定量度量,如:职业、性别对收入的影响等如:职业、性别对收入的影响等称之为定性称之为定性变量,变量,qualitative explanatory variables。l为了在模型中能够反映这些因素的影响,并提高为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们模型的精度,需要将它们“量化量化”。10-3l定性变量通常表示为具备或不具备某种性定性变量通常表示为具备或不具备某种性质,如男性或女性;白人或非白人;党员质,如男性或女性;白人或非白人;党员或非党员等。或非党员等。l把定性因素把定性因素“定量化定量化”的一个方法是建立的一个方法是建立人工变量(也称为虚拟变量,人工变量(也称为虚拟变量,Dummy variable),并赋值和:),并赋值和:不具备某种性质;:不具备某种性质;:具备某种性质。:具备某种性质。虚拟变量常用变量虚拟变量常用变量D表示。表示。10-4l例如例如,反映文化程度的虚拟变量可取为:,反映文化程度的虚拟变量可取为:1,本科学历本科学历 D=0,非本科学历非本科学历10-5l一般地,在虚拟变量的设置中:一般地,在虚拟变量的设置中:研究类型、肯定类型取值为研究类型、肯定类型取值为1;基准类型,否定类型取值为基准类型,否定类型取值为0。l称虚拟变量也为二元变量称虚拟变量也为二元变量binary variable10-6l方差分析模型方差分析模型(Analysis of variance models,ANOVA):仅包含定性变量或):仅包含定性变量或虚拟变量的回归模型,其形式如下:虚拟变量的回归模型,其形式如下:Yi=B0+B1Di+uil假定假定Y:每年食品支出(美元);:每年食品支出(美元);Di=1表示表示女性;女性;Di=0表示男性,则:表示男性,则:l男性食品支出的期望:男性食品支出的期望:E(Yi|Di=0)=B0l女性食品支出的期望:女性食品支出的期望:E(Yi|Di=0)=B0+B110-7l上述模型的含义:上述模型的含义:l截距截距B0表示男性平均食品支出,斜率系数表示男性平均食品支出,斜率系数B1表示女性平均食品支出与男性的差异,表示女性平均食品支出与男性的差异,B0+B1表示女性平均食品支出。表示女性平均食品支出。l对这类模型,零假设为:对这类模型,零假设为:H0:B1=0表示男女平均食品支出没有差异。我们可根据表示男女平均食品支出没有差异。我们可根据t检验判定是否统计显著。检验判定是否统计显著。10-8l例例10-1(P213):性别差异对食品消费支出的:性别差异对食品消费支出的影响影响公式:公式:104 or 10510-9l几个问题:几个问题:1.基准类基准类(benchmark group)(基础类(基础类base group,参照类或比较类):取值为,参照类或比较类):取值为0的那类变的那类变量量基准类的选择根据研究目的而定基准类的选择根据研究目的而定来自于社会学、心理学等研究的需要来自于社会学、心理学等研究的需要2.虚拟变量虚拟变量D的系数称为差别截距系数的系数称为差别截距系数(differential intercept coefficient),表明了取值为表明了取值为1的类的截距值与基准类截距值的类的截距值与基准类截距值的差距。的差距。10-10l几个问题:几个问题:3.虚拟变量陷阱(完全共线性)或多重共线性虚拟变量陷阱(完全共线性)或多重共线性l在解释变量存在完全共线性的情形下,不可能得到在解释变量存在完全共线性的情形下,不可能得到参数的惟一估计值。参数的惟一估计值。l例如前例:例如前例:Yi=B1+B2D2i+B3D3i+ui其中,其中,D2=0,D3=1;D2=1,D3=0l避免避免“陷阱陷阱”的一般原则:如果模型有共同的截距的一般原则:如果模型有共同的截距项,且定性变量有项,且定性变量有m种分类,则需引入种分类,则需引入m-1个虚拟个虚拟变量。变量。10-11l例例102(P215):工会化程度与工作权利法:工会化程度与工作权利法本例研究工作权利法(是否通过)对私营部分本例研究工作权利法(是否通过)对私营部分的工会化程度的影响的工会化程度的影响10-12二、二、协方差分析模型协方差分析模型(ANCOVA):包:包含一个定量变量和一个两分定性变量的回归含一个定量变量和一个两分定性变量的回归l例:考虑可支配收入(定量变量)与性别食例:考虑可支配收入(定量变量)与性别食品消费支出对的回归模型品消费支出对的回归模型回归模型如公式回归模型如公式108,109对模型的解释:对模型的解释:l虚拟变量的统计显著;虚拟变量的统计显著;l常数统计显著;常数统计显著;l对定量变量回归统计的解释。对定量变量回归统计的解释。对比没有虚拟变量的模型对比没有虚拟变量的模型10-13例例:一一个个以以性性别别虚虚拟拟变变量量考考察察企企业业职职工工薪薪水水的模型:的模型:Yi=B1+B2Xi+B3Di+ui其中:其中:Yi为企业职工的薪金,为企业职工的薪金,Xi为工龄,为工龄,Di=1,若是男性,若是男性,Di=0,若是女性。,若是女性。10-14三、包含一个定量变量、一个多分定性变三、包含一个定量变量、一个多分定性变量的回归量的回归l例:考查学生支出和地区差异(三个地区,例:考查学生支出和地区差异(三个地区,分别是东北和中北部(分别是东北和中北部(21)、南部()、南部(17)和西部(和西部(13)对教师薪水的影响)对教师薪水的影响先考虑地区差异模型如下:先考虑地区差异模型如下:AASi=B1+B2D2i+B3D3i+uil其中,其中,AAS为公立学校老师平均年薪水;为公立学校老师平均年薪水;Di为虚拟为虚拟变量,且变量,且D2=1表东北和中北部地区,表东北和中北部地区,D2=0为其它地区为其它地区;D3=1表南部地区,表南部地区,D3=0为其它地区为其它地区这是将西部地区看成是基准类。这是将西部地区看成是基准类。10-15再考虑政府机构用于每个学生的花费和地区对再考虑政府机构用于每个学生的花费和地区对教师平均年薪水的影响:教师平均年薪水的影响:AASi=B1+B2D2i+B3D3i+B4PPSi对模型的解释:对模型的解释:lD2显著,而显著,而D3不显著,表明原模型存在设定误差;不显著,表明原模型存在设定误差;lPPS的系数的含义的系数的含义10-16四、包含一个定量变量和多个定性变量的四、包含一个定量变量和多个定性变量的回归回归l例:考虑如下回归模型:例:考虑如下回归模型:lYi=B1+B2D2i+B3D3i+B4Xi+ui l其中:其中:Y=小时工资(美元)小时工资(美元)X=教育(受教育年限)教育(受教育年限)D2=1(女性),(女性),0(男性)(男性)D3=1(非白种人和非西班牙人),(非白种人和非西班牙人),0(其他)(其他)10-17l结果:结果:P221l对模型的解释:对模型的解释:本例的基准类是白种或西班牙男性;本例的基准类是白种或西班牙男性;两个虚拟变量回归系数的含义;两个虚拟变量回归系数的含义;不考虑性别和种族的影响,则受教育年限每增不考虑性别和种族的影响,则受教育年限每增加一年,平均小时工资提高约加一年,平均小时工资提高约80美元。美元。10-18l交互影响:即不同虚拟变量之间存在的交交互影响:即不同虚拟变量之间存在的交互影响互影响l对于上例而言,我们可以考虑如下模型:对于上例而言,我们可以考虑如下模型:lYi=B1+B2D2i+B3D3i+B4(D2iD3i)+B5Xi+uil其中,其中,B2:女性的差别效应;女性的差别效应;B3:非白种非白种/非西班牙人的差别效应;非西班牙人的差别效应;B4:非白种非白种/非西班牙女性的差别效应非西班牙女性的差别效应B2+B3+B4:非白种非白种/非西班牙女性的平均小时非西班牙女性的平均小时工资函数。工资函数。10-19l模型的一般化:模型的一般化:可以将模型扩展到包括多个定量变量和多个定性变量可以将模型扩展到包括多个定量变量和多个定性变量的情形。但对于每个定性变量,虚拟变量的个数要比的情形。但对于每个定性变量,虚拟变量的个数要比该变量的分类数少一。该变量的分类数少一。例例103:政党对竞选活动的资助:政党对竞选活动的资助应变量:应变量:lPARTY(政党对当地候选人的资助);(政党对当地候选人的资助);自变量:自变量:l定量变量:定量变量:GAP(资助)(资助),VGAP(以往获胜次数)(以往获胜次数),PU(政党(政党忠诚度)忠诚度)l定性变量:定性变量:OPEN(公开竞争否)(公开竞争否),DEMOCRAT(民主党)(民主党),COMM(共和党)(共和党)10-20回归的比较回归的比较l对于模型:对于模型:Yi=B1+B2Di+B3Xi+B4(DiXi)+uil给定给定Di=0,并对上式两端取均值,得男性,并对上式两端取均值,得男性平均食品支出函数:平均食品支出函数:E(Yi|D=0,Xi)=B1+B3Xil给定给定Di=1,并对上式两端取均值,得女性,并对上式两端取均值,得女性平均食品支出函数:平均食品支出函数:E(Yi|D=1,Xi)=(B1+B2)+(B3+B4)Xil我们称我们称B2为差别截距系数,为差别截距系数,B4为差别斜率为差别斜率系数系数10-21l根据差别截距系数和差别斜率系数的统计根据差别截距系数和差别斜率系数的统计显著性,可以辨别出女性和男性食品支出显著性,可以辨别出女性和男性食品支出函数是截距为同还是斜率不同,或是都不函数是截距为同还是斜率不同,或是都不同:同:10-22b)平行回归平行回归XYc)并发回归并发回归XYd)相异回归相异回归XYa)一致回归一致回归XY10-23l模型的选择:对于模型模型的选择:对于模型10-1;10-8;10-23模型类型模型类型自变量自变量系数系数T统计量统计量10-1CD(性别性别)-503.16-1.526710-8CD(性别性别)X(税后收入)税后收入)-288.980.0589-2.149.6410-23CDXDX-67.890.062-0.0063-0.1947.376-0.484实践中,应考虑最全面的模型,再经过适当实践中,应考虑最全面的模型,再经过适当的诊断检验后,简化成较小的模型。的诊断检验后,简化成较小的模型。10-24l例例10-4:美国:美国19701995储蓄收入关系。储蓄收入关系。由于由于1982年以来的经济衰退,有两种方法年以来的经济衰退,有两种方法可考查衰退对储蓄的影响。可考查衰退对储蓄的影响。法一:分两个时期来作回归;法一:分两个时期来作回归;法二:引入虚拟变量,将两个回归模型统一成法二:引入虚拟变量,将两个回归模型统一成一个。一个。10-25模型的比较模型的比较1970-1995CDXDX1.016152.480.0803-0.0650.054.615.54-4.0961970-1995CX62.4230.03764.898.891970-1981CX1.0160.08031982-1995CX153.49(1.016+152.479)0.0148(0.0803-0.0655)10-26六、虚拟变量在季节分析中的应用六、虚拟变量在季节分析中的应用l例:冰箱的销售量与季节性例:冰箱的销售量与季节性lYt=B1+B2D2t+B3D3t+B4D4t+utl其中,其中,Yt:冰箱销售量(千台)冰箱销售量(千台)D2,D3,D4分别表示每年的第二、第三和第四季分别表示每年的第二、第三和第四季度取值为度取值为1,第一季度值为,第一季度值为0,即第一季度作为,即第一季度作为基准季度。基准季度。10-27l关于公式关于公式1030的回归模型的说明:的回归模型的说明:第二季度和第三季度存在季节效应第二季度和第三季度存在季节效应(D2,D3的系的系数显著不为数显著不为0),第四季度则没有,第四季度则没有利用该模型获得经季节调整后冰箱销售量的时利用该模型获得经季节调整后冰箱销售量的时间序列:间序列:l用实际的用实际的Y减去从方程估计得到的减去从方程估计得到的Y,即回归式的残,即回归式的残差,再把这个残差加上差,再把这个残差加上Y的均值,得到的序列就是的均值,得到的序列就是经季节调整后的序列,该序列表现出时间序列的其经季节调整后的序列,该序列表现出时间序列的其他成分(周期、趋势和随机等)他成分(周期、趋势和随机等)10-28七、应变量也是虚拟变量的情形:线性概七、应变量也是虚拟变量的情形:线性概率模型(率模型(LPM)略略lLPM:应变量应变量Y的取值只有两种情形,的取值只有两种情形,0或或1.这样的这样的Y称为两分变量称为两分变量l这种以情形下,不宜用这种以情形下,不宜用OLS估计方法:估计方法:虽然虽然Y的值为的值为1或或0,但无法保证,但无法保证Y的估计值介于的估计值介于01之间,实际上,之间,实际上,可能为负或大于可能为负或大于1;由于由于Y是一个二分变量,是一个二分变量,u也是一个二分变量,也是一个二分变量,它不再服从正态分布,而是二项概率分布;它不再服从正态分布,而是二项概率分布;误差项将是异方差的;误差项将是异方差的;由于由于Y仅取值仅取值0和和1,惯用的,惯用的R2没有实际意义了没有实际意义了10-29l对上述问题的解决:对上述问题的解决:随着样本容量的扩大,二项分布收敛于正态分随着样本容量的扩大,二项分布收敛于正态分布;布;异方差有其处理方法;异方差有其处理方法;估计的估计的Y可能在可能在01区间之外:区间之外:l实践中有一个简单的处理方法(在实践中有一个简单的处理方法(在01区间之外的区间之外的Y值不太多时)值不太多时)为负则取为负则取0;大于大于1,则取,则取1.lLogit model&Probit model10-30l例:考虑食品支出与税后收入、性别和年例:考虑食品支出与税后收入、性别和年龄的关系(数据见表龄的关系(数据见表10-10)Yi=B1+B2Xi+u其中:其中:Y=1表示申表示申请到了房到了房贷,否,否则为0;X表表示年家庭收入示年家庭收入估估计结果:果:i=-0.9456+0.0255Xi(相相应的的t值和和R2见P232)对模型的解模型的解释:l收入每增加收入每增加1美元,美元,获得房得房贷的概率大的概率大约增加增加0.03l实际中:房中:房贷的概率随收入水平以固定增速的概率随收入水平以固定增速线性增性增加,与加,与实际不符不符10-31l例:借贷市场上的歧视例:借贷市场上的歧视应变量应变量Y为二分变量,通过贷款申请赋值为为二分变量,通过贷款申请赋值为1,否则为否则为0;研究目的是为了判断是否由于性别、种族和其研究目的是为了判断是否由于性别、种族和其他一些定性因素导致了贷款市场上的歧视行为。他一些定性因素导致了贷款市场上的歧视行为。回归的结果:回归的结果:10-32*:p值等于或低于值等于或低于5%;*:p值大于值大于5%解释变量解释变量系数系数t值值截距截距0.501未给出未给出AI(收入)(收入)1.4894.69*XMD(债务减抵押贷款支出)(债务减抵押贷款支出)-1.509-5.74*DF(性别)(性别)0.1400.78*DR(种族)(种族)-0.266-1.84*DS(婚否)(婚否)-0.238-1.75*DA(房屋年限)(房屋年限)-1.426-3.52*NNWP(领居中非的种人的比例)(领居中非的种人的比例)-1.7620.74*NMFI0.1500.23*NA(邻居房屋的平均年限)(邻居房屋的平均年限)-0.393-0.13410-33总结总结l虚拟变量的作用:虚拟变量的作用:“数据分类器数据分类器”l应用虚拟变量应注意的地方:应用虚拟变量应注意的地方:如果回归模型包含了一个常数项,则虚拟变量如果回归模型包含了一个常数项,则虚拟变量的个数必须比每个定性变量的分类数少一;的个数必须比每个定性变量的分类数少一;虚拟变量系数的解释与基准类有关;虚拟变量系数的解释与基准类有关;若模型包含多个定性变量,且每个定性变量有若模型包含多个定性变量,且每个定性变量有多种分类,则引入模型的虚拟变量将消耗大量多种分类,则引入模型的虚拟变量将消耗大量的自由度,故应权衡进入模型中虚拟变量的个的自由度,故应权衡进入模型中虚拟变量的个数以免超过样本观察值的个数。数以免超过样本观察值的个数。10-34l例:考考察察1990年年前前后后的的中中国国居居民民的的总总储储蓄蓄-收入关系是否已发生变化。收入关系是否已发生变化。下下表表给给出出了了中中国国19792001年年以以城城乡乡储储蓄蓄存存款款余余额额代代表表的的居居民民储储蓄蓄以以及及以以GNP代代表表的的居居民民收收入的数据。入的数据。10-35表:表:19792001中国储蓄与中国储蓄与GDP,单位:亿元,单位:亿元90年前年前储蓄储蓄GDP90年后年后储蓄储蓄GDP19792814038.21991910721662.51980399.54517.8199211545.426651.91981523.74860.3199314762.434560.51982675.45301.8199421518.8466701983892.55957.4199529662.357494.919841214.77206.7199638520.866850.519851622.68989.1199746279.873142.719862237.610201.4199853407.576967.219873073.311954.5199959621.880579.419883801.514922.3200064332.488228.119895146.916917.8200173762.494346.419907034.218598.410-36 以以Y为储蓄,为储蓄,X为收入,可令:为收入,可令:l1990年前:年前:Yi=1+2Xi+1i i=1,2,n1 l1990年后:年后:Yi=1+2Xi+2i i=1,2,n2 则有可能出现下述四种情况中的一种:则有可能出现下述四种情况中的一种:(1)1=1,且且 2=2,即即两两个个回回归归相相同同,称称为为一致回归(Coincident Regressions););10-37(2)11,但但 2=2,即即两两个个回回归归的的差差异异仅仅在在其其截截距,称为距,称为平行回归(Parallel Regressions);(3)1=1,但但 22,即即两两个个回回归归的的差差异异仅仅在在其其斜斜率率,称称为为并发回归(Concurrent Regressions);(4)11,且且 22,即即两两个个回回归归完完全全不不同同,称称为为相异回归(Dissimilar Regressions)。)。10-38这一问题也可通过引入乘法形式的虚拟变量来解这一问题也可通过引入乘法形式的虚拟变量来解决。决。将将n1与与n2次观察值合并,并用以估计以下回归:次观察值合并,并用以估计以下回归:Di为引入的虚拟变量:为引入的虚拟变量:10-39 于是有:于是有:可分别表示可分别表示1990年年后期后期与与前期前期的储蓄函数。的储蓄函数。在统计检验中,如果在统计检验中,如果 4=0的假设被拒绝,则说的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。明两个时期中储蓄函数的斜率不同。10-40l具体的回归结果为:具体的回归结果为:(-6.11)(22.89)(4.33)(-2.55)由由 3与与 4的的t检验可知:参数显著地不等于检验可知:参数显著地不等于0,强烈示出两个时期的回归是相异的,强烈示出两个时期的回归是相异的,储蓄函储蓄函数分别为:数分别为:1990年前:年前:1990年后:年后:R-Square=0.983610-41例例:澳大利亚支出澳大利亚支出-消费关系,消费关系,1977.I1980.IVl表给出了澳大利亚从表给出了澳大利亚从1977.I到到1980.IV1980.IV的的Y衣服、硬件、电器、家具的零售价,称为衣服、硬件、电器、家具的零售价,称为个人消费支出个人消费支出(PCE)和和X个人可支配收入个人可支配收入(PDI)的季度数据。的季度数据。Yt=B1+B2D2t+B3D3t+B4D4t+utl其中,其中,Y和和X的定义与前面相同,的定义与前面相同,D的定义的定义如下:如下:D2t=1,第二季度数据,第二季度数据0,其它,其它D3t=1,第三季度数据,第三季度数据0,其它,其它D4t=1,第四季度数据,第四季度数据0,其它,其它10-42表表:澳大利亚个人消费支出澳大利亚个人消费支出PCE(Y)PCE(Y),PDI(X),PDI(X),单位单位:千万澳大利亚元千万澳大利亚元年份年份季节季节Y YX XD2D2D3D3D4D419771977 第一季度第一季度16.6316.63136.5136.50 00 00 0第二季度第二季度19.9119.91132.1132.11 10 00 0第三季度第三季度19.4119.41157.5157.50 01 10 0第四季度第四季度24.0124.01177.7177.70 00 01 119781978 第一季度第一季度17.5517.55152.4152.40 00 00 0第二季度第二季度21.9721.97150.7150.71 10 00 0第三季度第三季度20.920.91731730 01 10 0第四季度第四季度25.6125.61199.8199.80 00 01 119791979 第一季度第一季度19.4619.46179.1179.10 00 00 0第二季度第二季度22.7222.72167.4167.41 10 00 0第三季度第三季度22.1422.14191.6191.60 01 10 0第四季度第四季度27.4227.422272270 00 01 119801980 第一季度第一季度21.4221.42187.3187.30 00 00 0第二季度第二季度25.4125.411851851 10 00 0第三季度第三季度25.4925.49219.2219.20 01 10 0第四季度第四季度32.0732.07261.5261.50 00 01 110-43上面的模型设定暗含地假定了季节因素仅仅影响截距,而不影响斜率,可以通过差别截距和差别斜率法来验证10-4410-45此课件下载可自行编辑修改,仅供参考!此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢感谢您的支持,我们努力做得更好!谢谢