第五章 虚拟与离散变量回归模型17131.docx
《第五章 虚拟与离散变量回归模型17131.docx》由会员分享,可在线阅读,更多相关《第五章 虚拟与离散变量回归模型17131.docx(120页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章 虚拟与离散变量回归模型前面所研究的回回归模型,其其变量都是在在取一些实际际的数值,一一般是连续的的。实际工作作中经常遇到到变量取离散散数值情形,它它的回归模型型需要给予特特殊的考虑。在在经济分析中中还经常遇到到因变量不是是数值,比如如买与不买,升升与降,有与与无等。这些些选择可以给给予一个虚拟拟变量并赋以以数值代表。这这样的回归当当然就更有特特色了。本章章就研究这一一类回归模型型。第一节 虚拟拟变量作自变变量的模型在回归模型中,因因变量往往不不仅受到那些些取实际数值值的自变量(如价格、工工资收入、产产量、温度、距距离、重量等等等)的影响,而而且受到一些些不取实际数数值的自变量量(如性别
2、、国国籍、种族、颜颜色、学位、地地震、罢工、政政治动乱、政政府更叠等等等)的影响。要要在模型中反反映这种影响响,可以引进进虚拟变量,人人为给予这些些因素赋以一一定数值。如如果某因素只只有二种选择择(如性别),可以引进进虚拟变量当然也可以给DDi赋值(1,-1)或(1,2),怎样赋赋值要看实际际问题表示与与计算方便。如如果某因素有有多项选择,如如学位,你可可以引进虚拟拟变量等等。我们先考考虑虚拟变量量在模型中作作加项,再考考虑作乘项。 一、虚虚拟变量作加加项,工资性性别差异设对某种职业者者的工资采集集了10个样本,列列于下表,工工资单位略去去,性别栏中中1表示男性,00表示女性。表5.1.1序号
3、12345678910工资22.019.018.021.718.521.020.517.017.521.2性别1001011001我们以性别为自自变量建立回回归模型(5.1.11)对于表中资料回回归得它表示,女性的的平均工资为为18,男性的的平均工资为为18+3.28=211.28。由由于回归系数数1的t统计量为7.44,远大大于临界值00.44,非非常显著,故故认为该项工工作男女工资资存在差别。一般地,对模型型(5.1.1)(5.1.2)(5.1.33)若1显著性检检验通过,应应认为Di的属性集合合存在显著差差别。上面的模型除了了考虑性别外外,没有考虑虑任何其它因因素。如果考考虑其它因素素对
4、工资的影影响,比如工工龄,可以取取实际数值,以以X表示,则有有模型 (5.1.4)此时 (5.1.5) (5.1.66)如果系数1是是统计显著的的,表示工资资还是存在性性别差异。如果某个因素有有3个属性,能能不能用这种种两项选择的的开关变量表表示呢?可以使用两两个开关变量量。比如学位位分3个等级:学学士,硕士,博博士,就引进进建立如下模型 (5.1.77)则 (5.1.8) (5.1.9) (5.1.10)不过更多的情况况是将两个虚虚拟变量用来来区分两个因因素,如用DD1区分性别,用用D2区分肤色,等等等。可以使用更多的的虚拟变量,如如有人研究业业余兼职者的的工资状况,建建立过如下的的回归方程
5、 (55.1.111)式中X1是第一一职业工资,D2D5都是开关变量,用来区分肤色(白人,非白人),居住地(城区,非城区),地域(西部,非西部),学历(高等教育,非高等教育)。X6是年龄。这一段谈到的都都是虚拟变量量作加项,它它影响回归方方程的均值。二、虚拟变量作作乘项,储蓄蓄与收入分段段拟合比较这一段考虑虚拟拟变量作乘项项,它影响回回归方程的斜斜率。开始我我们也看一个个具体的数值值例子。表55.1.2是是英国194461963年居居民储蓄与收收入资料,单单位是百万英英镑。表5.1.2年份储蓄收入年份储蓄收入19460.368.819550.5915.519470.219.419560.901
6、6.719480.0810.019570.9517.719490.2010.619580.8218.619500.1011.019591.0419.719510.1211.919601.5321.119520.4112.719611.9422.819530.5013.519621.7523.919540.4314.319631.9925.2表上粗略显示,资资料可以分为为两个时期:19461954年为为战后恢复时时期,195551963年为为振兴时期。我我们可以分别别建立两个回回归方程(55.1.122)(55.1.133)对于本例具体资资料,可以回回归得(5.1.114)(55.1.155)两
7、个方程的斜率率不一样,反反映储蓄增长长速度后来加加快了。要检验这组资料料是否真的应应该划分为两两组,建立两两个回归模型型,或说要检检验这两个回回归方程是否否有显著性差差别,可以使使用Choww检验法(具体方法在在后面介绍)。但是,一一组资料用两两个方程描述述会带来诸多多不便。使用用虚拟变量,可可以用一个方方程描述回归归方程斜率参参数(非常数因子子)的变化。对于本例资料,可可以建立如下下方程(5.1.16)其中Y为储蓄,X为收入,D为二值虚拟拟变量则(55.1.177)(5.1.18)对于本例资料,可可以计算得回回归方程(5.11.19)取Di=0,则则(5.1.220)取Di=1,则则(5.1
8、1.21)与两个方程效果果是一致的(末位数含有有舍入误差)。效果是一致的,为为什么要采用用一个方程而而不用两个方方程?除了便于统统一处理外,一一个方程很大大的优点是增增加了自由度度,从而增加加了参数估计计的精度。样样本数几乎增增加一倍,而而因增加变量量数仅减少两两个自由度,我我们知道自由由度=n-m。有人使用虚拟变变量建立失业业率与工作空空位率之间的的关系,也是是有一个参数数变化点:(5.1.22)这里UN是失业业率(uneemploggment rate),V是工作空位位率(jobb-vacaancy rrate),D是二值开关关变量。有人建立起服装装消费与性别别、文化教育育的关系,使使用两
9、个开关关变量(5.1.23)这里Y是服装的的消费量,XX是收入,D1用来区分性性别,D2用来区分受受教育程度。由由于考虑女性性受过高等教教育者的服装装消费远大于于其它人,即即性别因素与与受教育程度度有交互作用用,故将回归归方程改进为为(5.11.24)即添加一项(DD1iD2i)以反映交互互作用。下面我们仍以表表5.1.22资料为例介介绍Choww检验。设有n1组资料料可以是多元元,以及n2组资料(Y2i, X2i), X2i须与X1i维数相同,对对它们分别建建立回归模型型:(5.1.25)(5.1.26)Chow检验的的目的是鉴别别这两个模型型究竟有无显显著性差别。它它的步骤如下下:(1)合
10、并这两两组资料,建建立一个统一一模型:(55.1.277)算得残差平方和和S,其自由度度是n1+n2-m。(2)分别计算算两个单独模模型的残差平平方和S1(自由度n1-m)与S2(自由度n2-m)。(3)令S3=S1+S2 (自由度是是n1+n2-2m),S4=S-S3(自由度是m),建立统计计量(5.1.228)在两个单独的回回归模型一致致的假设下,统统计量F应服从自由由度为的F分布,在显显著性水平下,查得临临界值,如果F超过了临界界值,就在置置信水平1-下拒绝两个个回归模型一一致的假定。Chow检验简简便易于操作作,但是结果果比较粗糙。如如果拒绝了一一致性假设,只只知道两个模模型存在显著著
11、性差异,可可是到底是不不一样,还是是i不一样,就就不得而知了了。在表5.1.22资料中,算算得(5.1.29)故拒绝两个单独独模型一致的的假定,即认认为英国在战战后恢复期与与振兴期的居居民储蓄与收收入关系存在在显著性差异异。下面以本段资料料给出算例与与计算程序及及结果。算例5.1.22 分段回归归与Choww检验读者可以从打印印出来的含虚虚拟变量数据据具体体会虚虚拟变量的构构造与作用,最最后的拟合效效果图(图5.1.22.1)清楚楚显示这个分分段回归,是是分两段直线线段。-虚拟变量分段回回归与 Chhow 检验验, 例 5.1.2. 例512.D 数据文件中中, n=118, m=1, N11
12、=9N1+N2=NN, 分段回回归第二组资资料的个数是是 9要显示原始资料料吗? 0=不显示, 11=显示 (0)总的回归方程 样本本总数 188Y = -1.00821 + .11178 X11 总的残差平方和和 Q : .57222 自由度度 : 116第一个回归方程程 样本总数 9Y = -.22663 + .04470 X11 第一个方程的残残差平方和 Q1 : .13997 自由度度 : 7第二个回归方程程 样本总数 9Y = -1.77501 + .15504 X11 第二个方程的残残差平方和 Q2 : .19331 自由度度 : 7现在作两个回归归方程差异显显著性 Chhow 检
13、验验 请输入显著性水水平a, 通常取取a=0.001, 0.05, 00.10, a=?统计量: 5.00371 临界值: 4.6001显著, 两个回回归方程存在在显著性差异异 下面引进虚拟变变量作回归 要打印重新构造造的回归资料料吗? 0=不打印, 11=打印 (11)打印重新构造的的含有虚拟变变量的回归数数据 .36000 1.00000 8.8000 8.80000 .21000 1.00000 9.4000 9.40000 .08000 1.00000 10.0000 110.00000 .20000 1.00000 10.6000 110.60000 .10000 1.00000 1
14、1.0000 111.00000 .12000 1.00000 11.9000 111.90000 .41000 1.00000 12.7000 112.70000 .50000 1.00000 13.5000 113.50000 .43000 1.00000 14.3000 114.30000 .59000 .00000 15.5000 .00000 .90000 .00000 16.7000 .00000 .95000 .00000 17.7000 .00000 .82000 .00000 18.6000 .00000 11.04000 .00000 19.7000 .00000 11.5
15、3000 .00000 21.1000 .00000 11.94000 .00000 22.8000 .00000 11.75000 .00000 23.9000 .00000 11.99000 .00000 25.2000 .00000 打印使用用虚拟变量的的回归方程 Y= -1.75502 + 1.48339 X1 + .11505 XX2 + -.1034 X3 打印使用虚拟变变量的回归分分析结果 现在作线性回归归显著性检验验, 计算t,F,R 统计量量请输入显著性水水平a, 通常取取a=0.001, 0.05, 00.10, a=?-线 性 回 归归 分 析 计 算 结 果 样本本总数
16、 118 自变变量个数 3- 回归归方程 YY = b00+b1*XX1+.+b3*XX3Y= -1.75502 + 1.48339 X1 + .11505 XX2 + -.1034 X3 回归归系数 b00, b1, b2, ., b3 -1.77502 11.48399 .15505 -.1034- 残差差平方和: .333 回归归平方和: 6.699 误差差方差的估计计 : .0185 标准差 = .1360-线 性 回 归归 显 着 性 检 验 显著性性水平 : .0500- 回归归方程整体显显著性F检验, H00:b0=bb1=.=b3=00 F统统计量: 933.84155 F临界
17、界值F(3, 14) 3.3344 全相相关系数 RR : .97660- 回归归系数逐一显显著性t检验, H00:bi=00, i=11,.,3 t 临界值 t( 14) 1.77613 回归归系数b1-b 3的t值: .70355 2.00601 .69334-要作回归预测吗吗? 键入 0=不预测测, 1=要预预测 (11)要打印拟合数据据吗? 0=不打印, 11=打印 (0)计算结束。 -三、横截面分析析下表列出的资料料曾被Y.GGrunfeeld用作著著名的投资理理论研究。YY资料列表示示总投资,XX1表示公司资资产价值,XX2表示公司股股票价值。从从纵向看,资资料形成一个个时间序列,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五章 虚拟与离散变量回归模型17131 第五 虚拟 离散 变量 回归 模型 17131
限制150内