第七线性回归模型的扩展.ppt
第七线性回归模型的扩展现在学习的是第1 页,共62 页 前几章所讨论的,都是基于横截面数据的线性回归模型,涉及的变量均是数值变量。实际上,许多经济变量之间并不存在线性关系,建模中涉及的许多变量也不直接表现为数值,而是属于分类变量的范畴。为了扩大计量经济建模方法的适用范围,本章拟将横截面数据的线性回归建模方法扩展到对非线性关系的分析,并将计量经济模型的变量类型从数值变量扩展到分类变量。现在学习的是第2 页,共62 页2023/5/4 2 线性回归分析的前提是作为被解释变量的经济变量与作为解释变量的经济变量之间存在着线性关系。这里所说的线性是指解释变量线性并且参数线性。但是,在众多的经济现象中,分析经济变量之间的关系,根据某种经济理论和对实际经济问题的分析,所建立的经济模型往往不符合上面的线性要求,即模型是非线性的,称为非线性模型(Non-linear Model)。非线性模型包括两种情况:(1)解释变量非线性,但是参数线性。(2)参数非线性。尤其参数非线性是对古典假定SLR.1和MLR.1的违背,对回归分析影响很大。本节针对第一种情况进行讨论,常用的变量非线性回归模型包括对数函数模型、双曲线模型和多项式模型。这类模型有一个共同特点,可以利用变量转换等处理方法将模型线性化,线性化后的模型即可采用OLS方法进行参数估计。这类非线性模型被称为内蕴线性模型,或广义线性模型。第一节 变量非线性回归模型现在学习的是第3 页,共62 页2023/5/4 3一、对数函数模型(一)双对数函数模型 回归分析经常使用的对数模型是双对数函数模型(Double-log Model),考虑如下形式的需求收入模型(7.2)(7.2)中的参数是以线性形式出现在模型中的,虽然(7.1)中原变量x和y之间是非线性的,但因变量与自变量的对数形式是线性的,因而称双对数函数模型。对数函数模型的自变量和因变量中,至少有一种是原始变量的对数形式。具体分为以下两种类型:两边取对数,模型可变换为:(7.1)现在学习的是第4 页,共62 页2023/5/4 4 实际工作中,双对数模型应用非常广泛,其原因在于,如果忽略误差项,(7.2)是一条直线(y和x都是对数形式),所以它的斜率(1)为一常数,是y相对于x的弹性系数:所以弹性为一常数。由于这个特殊的性质,双对数模型又称为不变(固定)弹性模型。对这类模型可作如下代换,令双对数模型可化为标准线性模型在古典假定满足的情况下,可以使用OLS对模型进行估计。现在学习的是第5 页,共62 页2023/5/4 5对于多个解释变量的情形,(7.2)式可以扩展为(7.3)称为偏弹性系数。它度量了在其他变量不变的条件下,被解释变量y对于解释变量 的弹性系数。如著名的柯布道格拉斯(CobbDouglas)生产函数模型,就是这类模型的一个典型,我们下面举例说明。例7-1 表7-1列出了抽样调查得到的某市19个规模以上制造业企业的投入产出数据。试用回归分析法分析企业产出中各要素的贡献及其特点。现在学习的是第6 页,共62 页2023/5/4 6企业 产值Q(万元)职工数L(人)固定资产K(万元)大华 1291.87 874 2051.92麒麟 1347.05 895 2151.3双剑 1399.6 917 2250.21衡麓 1505.11 957 2370.26六合 1578.97 953 2488.97春风 1652.86 966 2606.61联华 1784.91 1033 2754.66太岳 1994.57 1098 2953.78东海 2123.23 1175 3157.15荷佳 2269.77 1152 3376.42博世 2411.94 1154 3635.99科维 2608.81 1207 3918.47梅花 2774.98 1230 4223.82绿源 2965.3 1296 4550.49人和 3067.12 1334 4846.77花都 3290.3 1374 5205.33金鼎 3540.57 1592 5615.31谦祥 3749.77 1415 6098.25表71 某市19个规模以上制造业企业的投入产出数据现在学习的是第7 页,共62 页2023/5/4 7用EViews建立双对数模型,回归结果如下:样本回归方程为:DependentVariable:LOG(Q)Method:LeastSquaresIncludedobservations:19afteradjustmentsVariable Coefficient Std.Error t-Statistic Prob.C-1.545211 0.590710-2.615855 0.0187LOG(L)0.339701 0.188987 1.797479 0.0912LOG(K)0.841910 0.095141 8.849122 0.0000R-squared 0.994499 Meandependentvar 7.651499AdjustedR-squared 0.993811 S.D.dependentvar 0.365836S.E.ofregression 0.028780 Akaikeinfocriterion-4.114328Sumsquaredresid 0.013253 Schwarzcriterion-3.965206Loglikelihood 42.08611 F-statistic 1446.223Durbin-Watsonstat 0.432115 Prob(F-statistic)0.000000现在学习的是第8 页,共62 页2023/5/4 8 对样本回归方程解释如下:斜率系数0.3397表示产出对劳动投入的弹性,即表明在资本投入保持不变的条件下,劳动投入每增加一个百分点,平均产出将增加0.3397个百分点。同样地,在劳动投入保持不变的条件下,资本投入每增加一个百分点,产出将平均增加0.8419个百分点。两个弹性系数相加为规模报酬系数,其数值大于1,表明该市经济的特征很可能是规模报酬递增的(如果数值等于1,属于规模报酬不变;小于1,则属于规模报酬递减)。现在学习的是第9 页,共62 页2023/5/4 9 根据单边检验的结果,这两个系数各自均是统计显著的(这是用单边检验,即,因为我们预期劳动力和资本对产出影响都是正向的),模型的F值也是高度显著的(因为prob=0.0000),因此能够拒绝零假设:劳动力与资本对产出无影响。R2值为0.995,表明劳动力和资本(对数)的变动解释了大约99.5%的产出(对数)的变动,说明了模型很好地拟合了样本数据。现在学习的是第10 页,共62 页2023/5/4 10(二)半对数函数模型线性模型与对数函数模型的混合就是半对数模型(Semi-log Models)。因变量是对数形式(对数线性模型):(7.4)解释变量是对数形式(线性对数模型):(7.5)这两个模型的参数是以线性形式出现的,虽然原变量之间是非线性的,但被解释(解释)变量的对数与解释(被解释)变量之间是线性关系,因此,半对数函数模型可以很容易地转换成线性模型,并使用OLS估计参数。现在学习的是第1 1 页,共62 页2023/5/4 11对于半对数模型(7.4),显然有 可见,表示x每变化一个相对单位(变动率)对应的y的平均绝对变动量,所以,半对数函数模型又称增长率模型。(7.4)常用于度量由解释变量相对变动率导致的被解释变量平均变动的绝对数量;(7.5)常用于度量由解释变量绝对量变化导致的被解释变量的平均相对变动率。两个模型中的斜率系数 又被称为半弹性(Semi-elasticity)系数。现在学习的是第12 页,共62 页2023/5/4 12二、双曲线模型形如的模型,称为双曲线模型(Double-curve Model)。该模型刻画了 y与x的反向变动关系,其显著特点是随着 x的无限增大(即 1/x接近于零),y趋近于。令,原模型可化为线性形式即可用OLS的方法进行估计。菲利普斯曲线(Phillips Curve)就是这个模型在经济分析中应用的典型体现。菲利普斯曲线刻画了通货膨胀率与失业率的反向变动关系,如图7-1。现在学习的是第13 页,共62 页2023/5/4 13 失业率与通货膨胀率负向相关,同时通货膨胀率变化有一个渐近底限。当失业率x趋于无穷大时,通货膨胀率y将取渐近值。0失业率菲利普斯曲线现在学习的是第14 页,共62 页2023/5/4 14三、多项式函数模型 多项式回归模型(Polynomial Regression Model)在生产与成本函数分析中被广泛地使用。如果用y表示成本,x表示产出,则可以建立以下多项式模型,体现微观经济分析中的二者关系:总成本(TC):边际成本(MC)和平均成本(AC)的 PRF为:(7.8)即总体回归函数(PRF)为:现在学习的是第15 页,共62 页2023/5/4 15产出x成本y产出x成本yMCTCAC 成本曲线 如果模型的解释变量为时间变量t,多项式函数模型又称为曲线回归模型,常常用于对非线性长期趋势的拟合。有时为了反映自变量之间的交互影响,也需要用到多项式回归模型。现在学习的是第16 页,共62 页2023/5/4 16 如以y、x、z分别表示单位面积上的粮食产量、施肥量和灌溉用水量。由于施肥量和灌溉用水量对粮食产量的效应之间存在交互影响,所以,可以建立以下模型:施肥量x对粮食产量y的总边际影响是:是施肥量对粮食产量的直接效应(假定灌溉用水量不变),是施肥量对粮食产量的间接效应,随灌溉用水量的不同而变化,说明肥效的发挥取决于灌溉用水的多少。同样,灌溉用水z对粮食产量y的总边际影响也可以这样分解。显然,该模型比单纯的二元回归模型 更符合实际情况。现在学习的是第17 页,共62 页2023/5/4 17例7-2 表7-3给出了某市16个企业的产品产量(x)与单位产品成本(y)的抽样调查数据。试研究二者的依存关系。企业序号产品产量(吨)x单位产品成本(元/吨)y企业序号产品产量(吨)x单位产品成本(元/吨)y1 430 3462 9 602 31082 410 3433 10 619 30683 432 3275 11 756 30514 501 3151 12 738 30075 552 3108 13 695 30686 565 3076 14 647 30347 588 3146 15 635 29818 665 3057 16 788 2962 企业产品产量与单位产品成本数据现在学习的是第18 页,共62 页2023/5/4 18 根据规模经济的原理,产品产量是单位产品成本变化的原因。为了明确二者的具体关系类型,使用EViews的Graph功能,绘制散点图如下:现在学习的是第19 页,共62 页2023/5/4 19 显然,二者的关系不是线性关系。可供选择的模型有以下两种:双曲线模型:半对数模型:分别拟合两种模型,回归结果整理如下:模型 的估计值与t 检验值 的估计值与t 检验值R2AIC SCt 检验值 t 检验值双曲线半对数2489.77247.833.4413.18367183.6-646.28.70-7.510.840.8011.1411.3811.2311.48 双曲线模型和幂函数模型的系数均通过了显著性检验,但前者无论是R2还是AIC、SC均好于后者,所以,最终的模型应为双曲线模型:现在学习的是第20 页,共62 页2023/5/4 20 该回归结果说明,单位产品成本随产量的上升而下降,当产品产量趋近于无穷大时,单位产品成本趋近于2489.7元/吨,这就是单位产品成本的理论最低值(实际上是可变成本部分)。四、Box-Cox变换 在考察被解释变量y和解释变量 的关系时,经常用的两种模型是线性模型和对数线性模型事实上,经济学家对被解释变量和解释变量之间的具体的函数关系并不是很清楚的。现在学习的是第21 页,共62 页2023/5/4 21 由博克斯和考克斯(Box,Cox,1964)引进的Box-Cox变换对于利用样本数据确定函数形式非常有益的。对一种关系中的所有变量进行某个变换就会得到一个由变换参数决定的函数族,线性和对数线性关系是这个函数族中的两个特例。函数形式最终由估计的变换参数值确定。我们考虑变量z的下列Box-Cox变换:时,;时,;时,。现在学习的是第22 页,共62 页2023/5/4 22 对某个特殊的关系式的所有变量都进行Box-Cox变换可得到下列模型 时,这个模型就是双对数模型(7.13)。时,可得即它和线性模型(7.12)是等价的。对于其它的 的值,确定其它的函数形式。现在学习的是第23 页,共62 页2023/5/4 23 也可以进行更一般的变换,它就是每个变量的变换参数不一样。此时变换后得到的模型为可能有些变量以线性的形式出现(,有些变量以对数的形式出现(,有些变量以倒数的形式出现(,等等。这样得到的函数族更大些,但是它也给我们估计参数带来困难。接下来,我们需要做的事情就是利用样本数据估计变换参数 或()以及,得到估计的函数形式。一般采用极大似然估计方法估计参数,在此不展开讨论。现在学习的是第24 页,共62 页2023/5/4 24五、小结 计量经济模型设定的重要方面是要使所设定的变量间函数形式能够体现变量间的基本关系。总体回归模型是对总体回归函数的描述,总体回归函数正是计量经济要去估计的目标。但其真实的函数形式事先并不知道。所谓模型函数形式的设定,是指根据对变量间相互关系的已有认识,把y的条件期望设定为解释变量x的某种函数。总体条件期望函数,可以设定为各种具体的函数形式。在计量经济学的实践中,通常把总体回归函数的具体函数形式设定为初等函数,应当注意的是不同函数形式中参数的经济意义有较大差异。常用的函数形式见课本P217表7-5(课件略)。现在学习的是第25 页,共62 页2023/5/4 25 大多数模型中,边际和弹性系数为变量,其大小取决于具体样本点自变量或(和)因变量的取值。在实际应用时,一般用 代替具体的 计算,得到的是平均的边际效应或弹性系数。现在学习的是第26 页,共62 页2023/5/4 26第三节 虚拟变量虚拟变量含义虚拟解释变量的回归分类变量表现为多种状态现在学习的是第27 页,共62 页2023/5/4 27 迄今为止,本教材涉及的变量都是数值变量,诸如市场需求量、商品的价格、收入、产量等;但我们在建模时还经常遇到另外一些“变量”,如职业、性别、地区、季节等等。例如,季节的变化会对某些商品的需求量产生影响;性别或者职业的不同,其收入水平可能会有很大的差异。再如,当研究某一经济问题时还可能有些起暂时作用的“变量”,诸如在某一时期出现了战争、天灾、人祸等。诸如此类的“变量”都是分类变量,或称为“非数值变量”、“定性变量”或“名义变量”。一、虚拟变量 现在学习的是第28 页,共62 页2023/5/4 28 在计量经济建模过程中,有时候分类变量是不可缺少的。但由于在一般情况它们并不表现为具体的数值,为了将分类变量引入计量经济模型中,需要率先将其数量化,即转化为所谓的“虚拟变量”(Dummy Variable),又被称为二元变量或二进制变量(Binary Variable),一般用D来表示。分类变量数量化的方法是,当分类变量起作用时,赋值“D1”;不起作用时,赋值“D0”。通过定义虚拟变量,就可以将分类变量等同于数值变量,引入回归模型之中。现在学习的是第29 页,共62 页2023/5/4 29 计量经济模型中,虚拟变量可以发挥多方面的作用:比如,作为属性因素的代表,如性别、所有制等;可以作为某些非精确计量的数量因素的代表,如受教育程度、管理者素质等;作为某些偶然因素或政策因素的代表,如战争、灾害、改革前后等;实现分段回归,研究斜率、截距的变动,或比较两个回归模型的结构差异;作为时间序列分析中季节(月份)的代表;等等。现在学习的是第30 页,共62 页2023/5/4 30 在计量经济学中,把包含有虚拟变量的模型称为虚拟变量模型。常用的虚拟变量模型有三种类型:1.解释变量中只包含虚拟变量,作用是在假定其他因素都不变时,只研究分类变量是否使被解释变量表现出显著差异;2.解释变量中既含数值变量,又含虚拟变量,研究数值变量和虚拟变量同时对被解释变量的影响;3.被解释变量本身为虚拟变量的模型,即被解释变量本身取值为0或1的模型,适于对某社会经济现象进行“是”与“否”的判断研究。本节讨论前两种情形。现在学习的是第31 页,共62 页2023/5/4 31二、虚拟解释变量的回归 在计量经济模型中,加入虚拟解释变量的途径有两种基本类型:一是加法类型;二是乘法类型。不同的途径引入虚拟变量有不同的作用,加法方式引入虚拟变量改变的是模型的截距;乘法方式引入虚拟变量改变的是模型的斜率。(一)用虚拟变量表示不同截距的回归加法类型 以加法类型引入虚拟解释变量的模型,虚拟解释变量与其他解释变量是相加关系;从计量经济模型的意义看,其作用是改变了设定模型的截距水平。比如:现在学习的是第32 页,共62 页2023/5/4 32例:研究性别与收入(yi)的关系:我们可以定义虚拟变量Di,Di=0时表示女性,Di=1时表示男性,即:对于线性回归模型(7.18),若假设H0:1=0成立,则说明收入与性别将没有太大关系;若假设H0:1=0不成立,则说明收入与性别有关。以加法类型引入虚拟变量时,分为两种情形:解释变量只有分类变量而无数值变量;解释变量既有数值变量又有分类变量。1.解释变量只有分类变量而无数值变量的回归现在学习的是第33 页,共62 页2023/5/4 33例7-4 研究学历与收入(yi)的关系:可以建立如下模型:现在学习的是第34 页,共62 页2023/5/4 34表7-6为从某城市随机获取的10名职工的学历情况与最初参加工作时的起薪。试建立样本回归模型。起薪(元)教育(1=大学,0=非大学)起 薪(元)教育(1=大学,0=非大学)2300150014002100250010011170013009001700220001001表7-6 起薪与受教育程度数据现在学习的是第35 页,共62 页2023/5/4 35 由结果可知,对应的t检验值为2.3,在统计上显著,说明学历对收入有着显著的影响,即说明受教育水平不同的两类人群的起薪是不同的。由方程可得,大学毕业的起薪均值为2080元,而非大学毕业的起薪均值为1440元,前者比后者高出640元(的系数)。最小二乘估计结果:现在学习的是第36 页,共62 页2023/5/4 36 因为这种案例实际上是不同组别的均值比较,可以通过方差分析完成,这种情况的模型又被称为方差分析模型。该例的excel方差分析结果如表7-7:组 观测数 求和 平均 方差非大学5 7200 1440 108000大学5 10400 2080 212000方差分析差异源SS df MS F P-value Fcrit组间1024000 1 1024000 6.40.0352655.317655组内1280000 8 160000总计2304000 9 表7-7 excel方差分析输出结果 现在学习的是第37 页,共62 页2023/5/4 372.解释变量同时包含常规数值变量和虚拟变量的回归例如,我们认为,某个企业工人的月工资(y)与工作岗位类型(分为一般岗位和特殊岗位)有关,也与工作年限(x)有关。回归模型如下:(7.19)其中岗位类型用虚拟变量表示:于是有现在学习的是第38 页,共62 页2023/5/4 38 因而可以看出(7.19)实际上是两条截距不同、斜率相同的直线的组合,如图7-4。这里斜率相同是在模型设定时隐含的假定。xy在 的假设下,用t检验,可以进行工作岗位不同状态时月工资是否存在差异的检验。现在学习的是第39 页,共62 页2023/5/4 39(二)用虚拟变量表示不同斜率的回归乘法类型 以乘法类型引入虚拟解释变量,是在所设定的计量经济模型中,将虚拟解释变量与其他解释变量相乘作为解释变量,以表示模型中斜率系数的差异。以乘法类型引入虚拟解释变量,可以进行两个回归模型的比较、进行因素间的交互影响分析和提高模型对现实经济现象的描述精度。1回归模型的比较结构变化检验以加法类型引入虚拟解释变量,分类变量仅影响不同类型模型截距项,但是在现实经济生活中,分类变量也可能导致模型的斜率系数发生变化。现在学习的是第40 页,共62 页2023/5/4 40例如,随着可支配收入水平的提高,城乡居民的消费结构将出现较大的差异,这种差异会表现在分类变量(如城乡、职业)对斜率的影响上。这类问题可归结于两个回归模型的比较。例如,在研究城乡之间储蓄收入总量关系时,所设定的模型为:城市:i代表城市居民家庭(7.21)农村:j代表农村居民家庭(7.22)其中,y为储蓄总额(亿元),x为收入总额(亿元),u为随机扰动项。现在学习的是第41 页,共62 页2023/5/4 41 如果我们分别将式(7.21)和式(7.22)对不同的人群作回归,则可能得到以下四种结果:(1)表明这两个回归模型是相同的,或称为重合回归;(2)表明这两个回归模型仅在位置水平上(即截距水平上)存在差异,或称为平行回归;(3)表明这两个回归模型具有相同的位置水平(或起点相同)而变化速率不等,或称为共点回归;(4)表明这两个回归模型完全不相同,或称为不同的回归。现在学习的是第42 页,共62 页2023/5/4 42以上四种情形可用图示法描述(见图7-5):储蓄收入11储蓄收入1(a)重合回归(b)平行回归现在学习的是第43 页,共62 页2023/5/4 4311储蓄收入(d)不同的回归(c)共点回归11储蓄收入现在学习的是第44 页,共62 页2023/5/4 44现在的问题是,当我们运用样本数据对模型(7.21)和模型(7.22)进行回归后,如何界定所得结果在统计意义上属于哪一种类型呢?这时可采用以乘法类型引入虚拟变量的方法,将模型(7.21)和模型(7.22)连接为一个模型:(7.23)其中,y为储蓄总额(亿元),x为收入总额(亿元),u为随机扰动项,D为虚拟变量。显然在式(7.23)中,以乘法类型引入了虚拟变量所形成的解释变量为,以加法形式引入虚拟变量所形成的解释变量是。现在学习的是第45 页,共62 页2023/5/4 45假如根据100个居民家庭调查数据,对(7.23)式用OLS法估计得结果表明,截距和斜率差异系数、在统计意义下均为显著的,说明城乡之间的储蓄收入行为确实不相同。即 农村家庭(Di=0):城市家庭(Di=1):即现在学习的是第46 页,共62 页2023/5/4 46 以乘法类型引入虚拟变量作回归模型的比较和结构变化检验有一些优点:(1)用一个回归替代了多个回归,简化了分析过程;(2)可以方便地对模型结构的差异作各种假设检验;(3)合并了的回归增加了自由度,提高了参数估计的精确性。但是,也应注意合并后模型的 应服从基本假定,特别是所比较的方程的方差应相同(如城乡之间),否则会出现异方差问题,需要用WLS法进行校正。现在学习的是第47 页,共62 页2023/5/4 472交互效应分析 当分析解释变量对被解释变量的影响时,不仅要分析解释变量自身变动对被解释变量的影响作用,而且还要深入分析解释变量间的相互作用对被解释变量的影响。在实际经济活动中,两个分类变量对被解释变量的影响可能存在一定的交互作用,即一个解释变量的边际效应有时可能要依赖于另一个解释变量。为描述这种交互作用,可以把两个虚拟变量的乘积以加法形式引入模型。现在学习的是第48 页,共62 页2023/5/4 48考虑下列模型:(7.24)其中,为农副产品生产总收益;为农副产品生产投入;为代表油菜籽生产虚拟变量;为代表养蜂生产虚拟变量。显然(7.24)式描述了是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响。虚拟解释变量 和 是以加法类型引入的,那么暗含着假设:油菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。现在学习的是第49 页,共62 页2023/5/4 49 在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副产品生产总收益,可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量 和 间,很可能存在着一定的交互作用,且这种交互影响对被解释变量农副产品生产收益会有影响。为了描述交互作用对被解释变量的效应,在(7.24)式中以加法形式引入两个虚拟解释变量的乘积,即(7.25)(7.25)式中各变量的含义与(7.24)式相同。现在学习的是第50 页,共62 页2023/5/4 50 基础类型:为不发展油菜籽生产,也不发展养蜂生产时农副产品生产的平均总收益(7.26)对比类型:为同时发展油菜籽生产和养蜂生产时,农副产品生产的平均总收益(7.27)这里的截距水平由四项组成,其中:为是否发展油菜籽生产对农副产品生产总收益的截距差异系数;为是否发展养蜂生产对农副产品生产总收益的截距差异系数;为同时发展油菜籽生产和养蜂生产时对农副产品生产总收益的交互效应系数。现在学习的是第51 页,共62 页2023/5/4 51 关于交互效应是否存在,可借助于交互效应虚拟解释变量系数的显著性检验来加以判断。如果t检验表明交互效应虚拟变量 在统计意义上是显著的,则说明交互效应对 存在显著影响。3分段线性回归 有的社会经济现象的变动,会在解释变量达到某个临界值时发生突变,为了区分不同阶段的截距和斜率可利用虚拟变量进行分段回归。例如,某公司为了激励公司销售人员,按其销售额的一定比例计提奖励,但是销售额在某一目标水平 以下和以上时计提奖励的方法不同。现在学习的是第52 页,共62 页2023/5/4 52 当销售额高于 时,计提奖励额与销售额的比例要高于销售额低于 时的比例,也就是高于 时,奖励额与销售额的线性关系更为陡峭(如图7-6所示)。为了确切地描述奖励额度(y)与销售额(x)间的关系,需要分两段进行回归。这种分段回归可以用虚拟变量来实现。0图7-6 奖励额与销售额的关系现在学习的是第53 页,共62 页2023/5/4 53设虚拟变量 D为:则奖励额度()和销售额()间的关系式可以统一地表示为:(7.28)为奖励额,为销售额,为已知的销售目标临界水平。利用统计资料估计(7.28)式的参数,就可以得到不同斜率和截距的回归方程:销售额低于 时:销售额不低于:现在学习的是第54 页,共62 页2023/5/4 54 是图7-6中第 段回归直线的斜率,而 则是第 段回归直线的斜率。只要检验 的统计显著性,就可以判断在所设定的临界水平 处是否存在着“突变”。应当注意,在分段回归中,第一、二段回归不仅截距不同,而且斜率也不同。在分为两段回归时,使用了一个虚拟变量,容易推广,分为 k段回归时,可用 k-1个虚拟变量。现在学习的是第55 页,共62 页2023/5/4 55三、分类变量表现为多种状态 上面讨论的定性(分类)变量其表现的状态仅有两种情况,如性别仅表现为男性和女性,学历仅区分为“大学”和“非大学”。但有时分类变量可表现为多种状态,如文化程度可区分为大学、中学、小学、文盲四种状态,省份分为东部、中部和西部三种状态,等等。含此类分类变量模型的建立,应避免犯以下两类错误:第一,设置一个虚拟变量,分别用0,1,2,3,表示其不同的状态。此方法缺陷在于,它在设定模型时,假定各种状态均值之间差量为固定值,这显然与事实不符。现在学习的是第56 页,共62 页2023/5/4 56第二,设立与状态数相同个数的虚拟变量,分别表示各个不同状态。例如文化程度区分为大学、中学、小学、文盲四种状态,如果设置四个虚拟变量,即为:此方法缺陷在于,由于 D1+D2+D3+D4=1,如果模型存在常数项,这会使得多元回归模型的自变量观测值矩阵X不满秩,产生完全的多重共线性。这类问题称为“虚拟变量陷阱”(Trap of Dummy Variable)。正确的虚拟变量设置方法是:如分类变量有k种表现状态,可引入(k-1)个虚拟变量。现在学习的是第57 页,共62 页2023/5/4 57例7-5 科学家认为某种药用树种中的药用成分PDM含量可能随着植物生长时间(树龄)而增加,而且其基础含量与种植地的地理环境有关,但其变化速度与地理环境无关。某县地理单元分为平原、山区和海岛三种。随机抽取20棵植株进行化验,结果如表7-8所示。据此验证上述假说。现在学习的是第58 页,共62 页2023/5/4 58植株序号 PDM含量(y)树龄(x)地理单元 D1D2D31 19.985 10 平原 1 0 02 32.839 12 海岛 0 0 13 20.577 8 平原 1 0 04 35.425 21 山区 0 1 05 32.839 20 山区 0 1 06 31.000 5 海岛 0 0 17 32.949 15 山区 0 1 08 36.998 16 海岛 0 0 19 37.102 20 海岛 0 0 110 24.092 30 平原 1 0 011 30.635 5 海岛 0 0 112 28.602 11 山区 0 1 013 37.779 18 海岛 0 0 114 35.135 22 山区 0 1 015 20.736 3 平原 1 0 016 31.609 5 海岛 0 0 117 38.059 18 海岛 0 0 118 38.730 29 山区 0 1 019 22.588 19 平原 1 0 020 20.830 16 平原 1 0 0表7-8 样本调查数据表现在学习的是第59 页,共62 页2023/5/4 59以 代表树龄,代表PDM含量,各地理单元植株中PDM含量随树龄增长率()相同,但基础含量()不同。如果设置三个地理单元的虚拟变量如下 科学家的假定实际上可以表述为:平原种植 山区种植 海岛种植 现在学习的是第60 页,共62 页2023/5/4 60引入地理单元虚拟变量建立如下模型:(7.29)此模型中只引入了代表平原和山区两个地理单元的虚拟变量,分别为 和,代表海岛的虚拟变量 没有引进。因此有下面的关系式:即 和 分别是种植在平原和山区植株的PDM含量基础数值与海岛植株相差的数额。现在学习的是第61 页,共62 页2023/5/4 61上述模型的估计结果如表7-9:DependentVariable:YMethod:LeastSquaresIncludedobservations:20afteradjustmentsVariable Coefficient Std.Error t-Statistic Prob.C 30.45947 0.878290 34.68043 0.0000X 0.326719 0.053307 6.128984 0.0000D1-13.67445 0.891857-15.33256 0.0000D2-2.938287 0.967263-3.037733 0.0078R-squared 0.948328 Meandependentvar 30.42545AdjustedR-squared 0.938640 S.D.dependentvar 6.620825S.E.ofregression 1.640047 Akaikeinfocriterion 4.004183Sumsquaredresid 43.03604 Schwarzcriterion 4.203329Loglikelihood-36.04183 F-statistic 97.88201Durbin-Watsonstat 1.706415 Prob(F-statistic)0.000000表7-9 EViews输出结果现在学习的是第62 页,共62 页2023/5/4 62