第五章 虚拟与离散变量回归模型bamy.docx
《第五章 虚拟与离散变量回归模型bamy.docx》由会员分享,可在线阅读,更多相关《第五章 虚拟与离散变量回归模型bamy.docx(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章 虚拟与离散变量回归模型前面所研究的回归模型,其变量都是在取一些实际的数值,一般是连续的。实际工作中经常遇到变量取离散数值情形,它的回归模型需要给予特殊的考虑。在经济分析中还经常遇到因变量不是数值,比如买与不买,升与降,有与无等。这些选择可以给予一个虚拟变量并赋以数值代表。这样的回归当然就更有特色了。本章就研究这一类回归模型。第一节 虚拟变量作自变量的模型在回归模型中,因变量往往不仅受到那些取实际数值的自变量(如价格、工资收入、产量、温度、距离、重量等等)的影响,而且受到一些不取实际数值的自变量(如性别、国籍、种族、颜色、学位、地震、罢工、政治动乱、政府更叠等等)的影响。要在模型中反映这
2、种影响,可以引进虚拟变量,人为给予这些因素赋以一定数值。如果某因素只有二种选择(如性别),可以引进虚拟变量当然也可以给Di赋值(1,-1)或(1,2),怎样赋值要看实际问题表示与计算方便。如果某因素有多项选择,如学位,你可以引进虚拟变量等等。我们先考虑虚拟变量在模型中作加项,再考虑作乘项。 一、虚拟变量作加项,工资性别差异设对某种职业者的工资采集了10个样本,列于下表,工资单位略去,性别栏中1表示男性,0表示女性。表5.1.1序号12345678910工资22.019.018.021.718.521.020.517.017.521.2性别1001011001我们以性别为自变量建立回归模型(5.
3、1.1)对于表中资料回归得它表示,女性的平均工资为18,男性的平均工资为18+3.28=21.28。由于回归系数1的t统计量为7.44,远大于临界值0.44,非常显著,故认为该项工作男女工资存在差别。一般地,对模型(5.1.1)(5.1.2)(5.1.3)若1显著性检验通过,应认为Di的属性集合存在显著差别。上面的模型除了考虑性别外,没有考虑任何其它因素。如果考虑其它因素对工资的影响,比如工龄,可以取实际数值,以X表示,则有模型 (5.1.4)此时 (5.1.5) (5.1.6)如果系数1是统计显著的,表示工资还是存在性别差异。如果某个因素有3个属性,能不能用这种两项选择的开关变量表示呢?可以
4、使用两个开关变量。比如学位分3个等级:学士,硕士,博士,就引进建立如下模型 (5.1.7)则 (5.1.8) (5.1.9) (5.1.10)不过更多的情况是将两个虚拟变量用来区分两个因素,如用D1区分性别,用D2区分肤色,等等。可以使用更多的虚拟变量,如有人研究业余兼职者的工资状况,建立过如下的回归方程 (5.1.11)式中X1是第一职业工资,D2D5都是开关变量,用来区分肤色(白人,非白人),居住地(城区,非城区),地域(西部,非西部),学历(高等教育,非高等教育)。X6是年龄。这一段谈到的都是虚拟变量作加项,它影响回归方程的均值。二、虚拟变量作乘项,储蓄与收入分段拟合比较这一段考虑虚拟变
5、量作乘项,它影响回归方程的斜率。开始我们也看一个具体的数值例子。表5.1.2是英国19461963年居民储蓄与收入资料,单位是百万英镑。表5.1.2年份储蓄收入年份储蓄收入19460.368.819550.5915.519470.219.419560.9016.719480.0810.019570.9517.719490.2010.619580.8218.619500.1011.019591.0419.719510.1211.919601.5321.119520.4112.719611.9422.819530.5013.519621.7523.919540.4314.319631.9925.2
6、表上粗略显示,资料可以分为两个时期:19461954年为战后恢复时期,19551963年为振兴时期。我们可以分别建立两个回归方程(5.1.12)(5.1.13)对于本例具体资料,可以回归得(5.1.14)(5.1.15)两个方程的斜率不一样,反映储蓄增长速度后来加快了。要检验这组资料是否真的应该划分为两组,建立两个回归模型,或说要检验这两个回归方程是否有显著性差别,可以使用Chow检验法(具体方法在后面介绍)。但是,一组资料用两个方程描述会带来诸多不便。使用虚拟变量,可以用一个方程描述回归方程斜率参数(非常数因子)的变化。对于本例资料,可以建立如下方程(5.1.16)其中Y为储蓄,X为收入,D
7、为二值虚拟变量则(5.1.17)(5.1.18)对于本例资料,可以计算得回归方程(5.1.19)取Di=0,则(5.1.20)取Di=1,则(5.1.21)与两个方程效果是一致的(末位数含有舍入误差)。效果是一致的,为什么要采用一个方程而不用两个方程?除了便于统一处理外,一个方程很大的优点是增加了自由度,从而增加了参数估计的精度。样本数几乎增加一倍,而因增加变量数仅减少两个自由度,我们知道自由度=n-m。有人使用虚拟变量建立失业率与工作空位率之间的关系,也是有一个参数变化点:(5.1.22)这里UN是失业率(unemplogment rate),V是工作空位率(job-vacancy rate
8、),D是二值开关变量。有人建立起服装消费与性别、文化教育的关系,使用两个开关变量(5.1.23)这里Y是服装的消费量,X是收入,D1用来区分性别,D2用来区分受教育程度。由于考虑女性受过高等教育者的服装消费远大于其它人,即性别因素与受教育程度有交互作用,故将回归方程改进为(5.1.24)即添加一项(D1iD2i)以反映交互作用。下面我们仍以表5.1.2资料为例介绍Chow检验。设有n1组资料可以是多元,以及n2组资料(Y2i, X2i), X2i须与X1i维数相同,对它们分别建立回归模型:(5.1.25)(5.1.26)Chow检验的目的是鉴别这两个模型究竟有无显著性差别。它的步骤如下:(1)
9、合并这两组资料,建立一个统一模型:(5.1.27)算得残差平方和S,其自由度是n1+n2-m。(2)分别计算两个单独模型的残差平方和S1(自由度n1-m)与S2(自由度n2-m)。(3)令S3=S1+S2 (自由度是n1+n2-2m),S4=S-S3(自由度是m),建立统计量(5.1.28)在两个单独的回归模型一致的假设下,统计量F应服从自由度为的F分布,在显著性水平下,查得临界值,如果F超过了临界值,就在置信水平1-下拒绝两个回归模型一致的假定。Chow检验简便易于操作,但是结果比较粗糙。如果拒绝了一致性假设,只知道两个模型存在显著性差异,可是到底是不一样,还是i不一样,就不得而知了。在表5
10、.1.2资料中,算得(5.1.29)故拒绝两个单独模型一致的假定,即认为英国在战后恢复期与振兴期的居民储蓄与收入关系存在显著性差异。下面以本段资料给出算例与计算程序及结果。算例5.1.2 分段回归与Chow检验读者可以从打印出来的含虚拟变量数据具体体会虚拟变量的构造与作用,最后的拟合效果图(图5.1.2.1)清楚显示这个分段回归,是分两段直线段。-虚拟变量分段回归与 Chow 检验, 例 5.1.2. 例512.D 数据文件中, n=18, m=1, N1=9N1+N2=N, 分段回归第二组资料的个数是 9要显示原始资料吗? 0=不显示, 1=显示 (0)总的回归方程 样本总数 18Y = -
11、1.0821 + .1178 X1 总的残差平方和 Q : .5722 自由度 : 16第一个回归方程 样本总数 9Y = -.2663 + .0470 X1 第一个方程的残差平方和 Q1 : .1397 自由度 : 7第二个回归方程 样本总数 9Y = -1.7501 + .1504 X1 第二个方程的残差平方和 Q2 : .1931 自由度 : 7现在作两个回归方程差异显著性 Chow 检验 请输入显著性水平a, 通常取a=0.01, 0.05, 0.10, a=?统计量: 5.0371 临界值: 4.6001显著, 两个回归方程存在显著性差异 下面引进虚拟变量作回归 要打印重新构造的回归
12、资料吗? 0=不打印, 1=打印 (1)打印重新构造的含有虚拟变量的回归数据 .3600 1.0000 8.8000 8.8000 .2100 1.0000 9.4000 9.4000 .0800 1.0000 10.0000 10.0000 .2000 1.0000 10.6000 10.6000 .1000 1.0000 11.0000 11.0000 .1200 1.0000 11.9000 11.9000 .4100 1.0000 12.7000 12.7000 .5000 1.0000 13.5000 13.5000 .4300 1.0000 14.3000 14.3000 .590
13、0 .0000 15.5000 .0000 .9000 .0000 16.7000 .0000 .9500 .0000 17.7000 .0000 .8200 .0000 18.6000 .0000 1.0400 .0000 19.7000 .0000 1.5300 .0000 21.1000 .0000 1.9400 .0000 22.8000 .0000 1.7500 .0000 23.9000 .0000 1.9900 .0000 25.2000 .0000 打印使用虚拟变量的回归方程 Y= -1.7502 + 1.4839 X1 + .1505 X2 + -.1034 X3 打印使用虚
14、拟变量的回归分析结果 现在作线性回归显著性检验, 计算t,F,R 统计量请输入显著性水平a, 通常取a=0.01, 0.05, 0.10, a=?-线 性 回 归 分 析 计 算 结 果 样本总数 18 自变量个数 3- 回归方程 Y = b0+b1*X1+.+b3*X3Y= -1.7502 + 1.4839 X1 + .1505 X2 + -.1034 X3 回归系数 b0, b1, b2, ., b3 -1.7502 1.4839 .1505 -.1034- 残差平方和: .33 回归平方和: 6.69 误差方差的估计 : .0185 标准差 = .1360-线 性 回 归 显 着 性 检
15、 验 显著性水平 : .050- 回归方程整体显著性F检验, H0:b0=b1=.=b3=0 F统计量: 93.8415 F临界值F(3, 14) 3.344 全相关系数 R : .9760- 回归系数逐一显著性t检验, H0:bi=0, i=1,.,3 t 临界值 t( 14) 1.7613 回归系数b1-b 3的t值: .7035 2.0601 .6934-要作回归预测吗? 键入 0=不预测, 1=要预测 (1)要打印拟合数据吗? 0=不打印, 1=打印 (0)计算结束。 -三、横截面分析下表列出的资料曾被Y.Grunfeld用作著名的投资理论研究。Y资料列表示总投资,X1表示公司资产价值
16、,X2表示公司股票价值。从纵向看,资料形成一个时间序列,随年份而变化,表中列出的是从1935年到1954年。资料有两组,一组是A公司的,一组是B公司的。从横向看,在一个固定的年份,采集来的资料可以组成一个横截面分析。但是很遗憾,这个表中每个横截面只有两组资料,比如在1935年,只有 Y X1 X2317.63078.52.812.93191.51.8这么少数据,不可能建立回归模型算出回归方程。 表5.1.3投资分析资料A公司B公司年份YX1X2YX1X21935317.63078.52.812.93191.51.81936391.84661.752.625.90516.08.01937410.
17、65387.1156.935.05729.07.41938257.72792.2209.222.89560.418.11939330.843413.2203.418.84519.923.51940461.24643.9207.228.57628.526.51941512.04551.2255.248.51537.136.21942448.03244.1303.743.34561.260.81943449.64053.7264.137.02617.284.41944547.54379.3201.637.81626.791.21945561.24840.9265.039.27737.292.419
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五章 虚拟与离散变量回归模型bamy 第五 虚拟 离散 变量 回归 模型 bamy
限制150内