线性回归的基本模型.pptx
《线性回归的基本模型.pptx》由会员分享,可在线阅读,更多相关《线性回归的基本模型.pptx(76页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计量经济模型与经济预测福州大学管理学院福州大学管理学院林筱文教授编联系电话:0591-3710642;7937642一、线性回归模型 l最小二方程原理和参数估计最小二方程原理和参数估计=a+bx y Q=(y-)最小最小 =(y-a-bx)2 最小最小 对对a和和b求一阶微分求一阶微分 2Q/2A=2(y-a-bx)(-a)=0 2Q/2B=2(y-a-bx)(-bx)=0 x得得:y-na-b x=0 y=na+bx=0 xy-ax-bx2=0 xy=ax+bx2=0得:得:a=y/n-b(y/n)b=xy-(x)(y)/n/x2-(x)2=Lxy/Lxx回归系数回归系数b说明当说明当x变动
2、一个单位时,变动一个单位时,y平均变动一个平均变动一个b的值的值l回归误差估计和相关系数回归误差估计和相关系数估计标准误差:Sy=(y-)2/(n-2)=(y2-a y-b xy)/n-2相关系数:R=Lxy/LxxLyy L Lxyxy=xy-(x y)/n L Lxxxx=x2-(x)2/n L Lyyyy=y2-(y)2/n 线性回归模型预测 当计算回归模型由大样本计算时(n30),其预测区间的误差分布服从正态分布,则预测区间为:0=(a+bx0)(Z2/2)Sy 当计算回归模型由小样本计算时(n30),其预测区间的误差分布服从七分布,则预测区间为:0=(a+bx0)(Ta/2)Sy 1
3、+1/n+(X0-X)2/(X-X)2l例:建筑面积(万m2)x建造成本(万元)yx2y2xyy-(y-)2414.816219.0459.214.5820.2180.047524212.84163.8425.612.5860.2140.045796313.39176.8939.613.588-0.0840.047524515.425237.1677.015.580-0.1800.032400414.316204.4957.214.582-0.2820.079524515.925252.8179.515.580-0.3200.010240 2386.5951254.23338.486.49_0
4、.181924l解:b338.41/6(23)(86.5)/95-1/6(23)2=0.998 a86.5/60.998(23/6)=10.59待线性回归方程:10.59+0.998x 即建筑面程每增加一万m2,建造成本要平均增加0.998万元Sy=(y-)2/(n-2)=0.0181924/(6-2)=0.2133r=Lxy/LxxLyy=(xy-x y/n)/x2-(x)2/ny2-(y)2/n=0.973预测:假设x0=4.5时,y0=10.59+0.9984.5=15.081(万元),当n=62.365,tb3=-2.45 2.365,说明b1和b2均能通过检验,说明x1和x2对y的影
5、响是显著的,而tb1=1.822.365,不能通过检验,说明在建立回归方程时,不必设常数项,由此再根据实际资料,建立拟合的多元回归方程。3.回归方程的显著性检验该检验应用下检验来进行:F=S回/(k-1)S残/(n-k),上例中S总=224.4,S残=27.08S回=S总-S残=224.4-27.08=197.32则F=197.32/(3-1)/27.08(10-3)=25.50查F分布表,当a=0.01,自由度为(2.7)时,F2=9.55,当a=0.05,自由度为(2.7)时,Fa=4.74,可知F=25.50都大于Fa,说明该多元回归方程是比较显著的,可以用该方程进行经济预测。设x1=2
6、200元,x2=50元/件时,对某商品需求量(y)的预测值为y=4.5875+1.868522+(-1.7996)5=36.70(百件)多元回归方程的多重共线性问题多元回归方程的多重共线性问题在多元回归模型中,要求模型中任何自变量之间不存在密切的线性相关关系存在,则说明自变量之间存在多重共线性。1.多重共线性产生的经济背景和原因当人们进行多元回归分析时,涉及的自变量较多,一时很难确定究竟要用哪个自变量来建立多元回归方程,也很难找到一组互不相关而都对因变量有显著影响的自变量,严格地讲,当某一经济现象的变量涉及多个自变量影响因素时,这些自变量的因素大都共有一定的线性相关关系,当其中的某些自变量两两
7、相关关系较强时,就可认为该回归方程存在多重共线性。当人们所研究的问题涉及到时间序列资料时,由于所涉及到的自变量往往随着时间变化(或共同的政策倾向)而表现出共同的变化趋势,从而产生共线性现象。例如人们在研究社会消费水平时,所涉及的影响因素有社会人均GDP水平,城镇居民收入水平,农民平均收入水平,银行储蓄存款余额,消费价格指数等指标,而这些指标之间都可能存在着很强的相关关系,如果从这些指标作为多元回归模型的自变量,该回归模型就存在着多重共线性。对于利用横截面资料建立多元回归模型,也可能存在自变量之间高度相关的问题。例如应用横截面资料建立粮食产量模型,其自变量有农业投资;化肥投入,水利灌溉面积等。其
8、实农业投资已在化肥投入和水利灌溉面积中体现出来了,它们之间存在较强的相关关系,而表现出共线性问题。2.多重共线性带来的问题:当回归模型从矩阵形式表示时y=XB,当存在自变量之间的完全多衙共线性时,存在 xx=0,xx -1也不存在,矩阵的行列式计算等于0,则B=(xx)-1xy也无法计算。在实际生活中,经常见到的是自变量之间存在近似共线性情况,即 xx 0,xx 1的对角线元素较大,从而使得方程估计的精度下降,甚至出现 回归系数的经济意义无法解释的可能。3.多重共线性的判断多种共线有各种判断方法,这里举一个简单的判断方法:设自变量有x1、x2、x3、xp,其回归方程为:y=f(x1、x2、x3
9、、xp),如果这多个自变量中两两自变量(xj)之间存在相关系数很大,则说明这个回归方程可能存在多重共线性问题,这时就要剔除其中的一个自变量或把这两个自变量相加,以求得计算过程的简化。4.对多重共线性问题的消除方法常用的消除多重共线方法有:(1)剔除一些不重要的解释变量,或对某些变量进行合并。(2)增大样本容量。在实际经济问题的多元回归分析中,如果所搜集的样本数据太少,也容易产生多重共线性问题。(3)改变变量的定义形式。对于某些样本变量数据是时间序列资料时,因各变量往往随着时间的变化向表现出共同的变化趋势,回归方程存在多种共线性,此时,对变量彩差分法重新定义,可能取得较好的效果。例如,建立的多元
10、回归方程y=a+bx1+cx2+dx3+ex4,其中当各自量之间可能出现两两变量高度相关出现多重共寿终正寝性问题,则令:y=yi-yi-1x1=x1i-x1(i-1)x2=x2i-x2(i-1)x3=x3i-x3(i-1)x4=x4i-x4(i-1)y=a+b x1+c x2+d x3+e x4,然后去估计回归参数(4)利用已知的信息,进行变量之间的替换。(1)准则在解决了多重共线性问题之后,多元回归方程的自变量选择应当使所拟合的回归方程的可决系数达到最大R2=(-y)2/(-y)2=S回/S总=1-S残/S总残差平方程达到最小,Sy2=(y-)2/n-p-1对回归系数的检验,若该回归系数不能
11、通过显著性检验,就剔除该自变量,然后重新建立一个新的回归方程,然后再进行显著性水平检验。(2)逐步回归的方法当建立一个多元回归方程时,由于人们事先不知道哪些变量来作为自变量,往往凭经验或定性分析多选择几个自变量建立多元回归模型,然后逐步对方程进行显著性检验,逐步剔除退出或变换增加某个自变量,如此反进行,最后使得整个方程的所有检验都可以通过为止。多元回归方法自变量的选择和逐步回归的方法多元回归方法自变量的选择和逐步回归的方法四.多元回归模型的应用l虚拟变量的应用在回归模型分析中经常发生:因变量(y)不仅受诸如产量、价格、成本、身高、温度等可测量的数量变量的影响,而且也受到诸如:性别、文化程度、种
12、族、宗教信仰、战争、地震、季节等及政府政策变化等品质变量的影响;因此,在建立回归方程时,不仅要引入数量变量,也要引入质量变量。当某种品质变量以是(1)非(0)表示时,就称其为虚拟变量。常见的虚拟变量的回归模型有以下三种表现形式:1.反映政府政策发生重大变化或其他因素发生重大变异的跳跃式,间断式的回归模型,其模型的形式为:=1+2xi1+3Di Di=0 ii0 1 ii0图示:y x Xi0如果上图由一条址线回归方程来拟合,就会出现较大的误差 2.具有某种转折点的系统趋势的变化模型,其模型的形式为:=1+2xi1+3(xi1-xi0)Di Di=0 ii0 1 ii0i0=为发生转折的年份图示
13、:Xi0显然如果上图由一条曲线方程来拟合,就会出现较的误差3.含有多个虚拟变量的因归模型。根据品质变量的不同特征和回归模型的需要,可以引入多个虚拟变量来表示多次转折、跳跃和间断的情况。例如建立个人医疗保障年支出回归模型:i=1+2xi1+3Di 1+4Di 2式中xi1为个人收入额 1 文化程度为大专及以上Di 1 0 其它 1 机关及行政事业单位Di 2 0 其它例如:为研究美国住房面积的需求,选用3120户家庭为建模样本,回归模型为logQ=1+2 P+3 logY其中:Q 3120个样本家庭的年住房面积(平方英尺)P 家庭所在地的住房单位价格 Y 家庭收入经计算:logy=4.17-0.
14、247log P+0.96logy R2=0.371 (0.11)(0.017)(0.026)上式中2=0.247的价格弹性系数,3=0.96的收入弹性系数,均符合经济学的常识,即价格上升,住房需求下降,收入上升,住房需求也上升。但白人家庭与黑人家庭对住房的需求是不一样的,引进虚拟变量D:1 黑人家庭Di 1 0 白人家庭或其它家庭logQ=1+X1D+2 log P+a2D log P+3log Y+a3D log Y例:某省农业资料购买力和农民倾向收入数据如下:例:某省农业资料购买力和农民倾向收入数据如下:年份农资购买力(yi)农民倾向收入(xi)Di19751.34.7019761.35
15、.4019771.45.5019781.56.9019791.89.0119802.110.0119812.311.3119822.613.4119832.715.2119843.019.3119853.227.81解:根据上述数据建立一元线性回归方程=1.0161+0.09357xR2=0.8821 Sy=0.2531 F=67.3266 带虚拟变量的回归模型,因1979年中国农村政策发生重大变化,引入虚拟变量来反映农村政策的变化 0 i1979年 Di=1 i1979年建立回归方程为:=0.9855+0.0692x+0.4945D (9.2409)(6.3997)(3.2853)R2=0.
16、9498 Sy=0.1751 F=75.6895虽然上述两个模型都可通过显著性水平检验,但可明显产生带虚拟变量的回归模型的可决系数更高,回归的估计误差(Sy)更小,说明模型的拟合程度更高,代表性更好。分段回归法的应用对有些经济现象的波动带有明显的阶段性,这时为提高回归方程的拟合效果,可彩分段回归的方法来建立回归方程。阶段性转折点的确定可以用散点图来观察确定 y x x0 x1 1+2xt 0 x1五.异方差与序列相关l异方差1.回归分析的假定性和异方差回归分析的一个基本假定就是回归模型中随机误差项单位:千万元单位:千万元商店销售收入(x)利润总额(y)因归估计值()残差(e=y-)1160.0
17、12.810.22.62151.88.99.6-0.73108.14.16.7-2.44102.82.86.3-3.5589.38.45.43.0668.74.34.10.2766.84.03.90.1856.24.53.21.3955.73.13.2-0.11053.02.33.0-0.7接上表接上表 单位:千万元单位:千万元商店销售收入(x)利润总额(y)因归估计值()残差(e=y-)1149.34.12.81.31243.02.02.4-0.41342.91.32.3-1.01437.61.82.0-0.21529.01.81.40.41627.41.41.30.11726.22.01.
18、20.81822.40.91.0-0.11922.21.01.002020.70.50.9-0.4根据最小二乘法计算出来的回归模型和回归估计值,然后再计算残差。从参数估计可看出该回归模型可决系数较高,一有关参数可能性通过检验,直观上认为该模型可作为预测所用。但若从残差值(e=y-)做座标图分析,可看出:从坐标图上看,残差的波动基本上呈一个喇叭型状态,销售收入小的单位,其残差一般较小,销售收入大的单位,其残差一般也较大,即残差随着商店规模扩大,销售额的增加而扩大。这表明,不同销信规模的商店,其利润总额的方差各不相同,由于回归模型中随机误差的方差不是一个常数,这里就存在着异方差的现象。这种现象经常
19、出现在以横截面数拓建立的回归模型分析中,对时间序列数据有时也会出现异方差性,例如对某公司的C-D生产函数的估计,因不同时期的数据内涵标准不同,企业的投资水平,管理水平等不同,也会发生异方差性现象。2.回归模型存在异方差的后果参数的最小二乘法估计虽然是元偏的,但却是非有效的。参数估计量的方差是有偏的,这将导致参数的假设检验也是非有效的。3.异方差性的检验判断(1)残差图分析法 e一般情况下,对随机数据所做的回归分析,当回归模型满足所有的假定时,残差图上的点是随机分布的,无任何规律,如上图所示。如图回归模型存在异方差性,残差图上的点出现相应的有规律性的趋势,即随着y的增大,而出现e随之增大或减少的
20、趋势,如下图:(2)等级相关系数法斯皮而曼检验这种检验既可以用大样本,也可以用小样本进行检验。其步骤如下:第一步:作回归方程 =a+bx,并求e=y-第二步:取e的绝对值,并与x按递增或递减顺序排成等级,然后计算相关系数。r e x=(1-6d2)/n(n2-1)式中n为样本容量,d为相应的x与e的等级差数。第三步:检验,设H0:r=0l;H1:r0统计量为:t=r/1-r2 ta/2(n-2)当t ta/2(n-2)时,接受H0,可认为异方差性不存在,否刚就接受H1,认为x与 ei 之间存在系统关系,异方差性存在。在多元线性回归模型中,对任一变量xj做等级相关检验,若不通过检验,则认为整个回
21、归模型存在异方差性。(3)样本分段比较法检验戈德菲尔德匡特检验该检验法的步骤是:将样本按某个解释变量的大小顺序排列,并将其分为两段;然后分别用最小平方法拟合两个回归模型,并分别计算各段的残差平方和S残1和S残2,计算高段的样本单位n1和低段的样本单位n2;计算各段模型随机误差的残差平方和,1=S残1(n1-k-1),2=S残1(n2-k-1);由此构造F统计量F=1/a2,该统计量服从第一自由度(n2-k-1)的F分布,在给定的显著性水平(a)下,进行Fa检验,若FFa,刚认为该组数据存在异方差例如用前述某城市20家商店的销售额,分为5亿元以上的10家商店和5亿元以下的10家商店,分别用最小二
22、乘法拟保两段的回归方程得:1=-0.75190+0.06875x,R2=0.6354 (1.1845)(0.0184)1=4.70372=-0.63129+0.07207x,R2=0.5623 (0.7535)(0.6225)2=0.4801F=12/22=4.7037/0.4801=9.7973 查第一自由度和第二自由度均为8,d=0.01时Fa=F(0.01)=6.03,即FFa,即认为存在异方差。存在异方差情况下的参数估计由于异方差存在时用普通最小二乘法对参数旱进行估计的非有效性,这时回归模型的参数估计就不宜直接采用普通紧小二乘法进行参数估计,这时通常采用加权最小二乘法进行参数估计。对一
23、元回归方程一种解的做法是用 xi 去除模型的两边各项。y/x=(a/x+bx/x=a/x+b x 还有一种方法是先用普通最小二乘法求出回归模型参数a和b,得回归方程=a+bx),然后用(a+bx)去除模型的两边各项,计算y/(a+bx)对1/(a+bx)和x/(x+bx)的无常数项的回归方程,这种方法称为二阶段加权最小二乘法序列相关1.序号相关的概念 对时间序列资料,往往由于经济经济发展,某一时间的变量值对未来某一时间的变量值的影响就产生了序列相关。例如以前所提到的一元回归方程=a+bx,x为自烃量,y为因变量。而在离列相关时,所建立的回归方程为t=a+byt-i,这时同是一个变量y,但yt-
24、i为自变量。例如美国的轿车一般折旧期为3年,则前三年的轿车销售量往往会对后三年的轿车销售量发生影响,这时建立的序列相关回归模型为:t=a+byt-3。当然在=a+bx的方程中,也会存在序列相关的问题。在有的统计学课本中,所序列相关回归称为自相关,因回归,即自身的变量对滞后时期的本变量发生影响。某城市历年的某城市历年的GDPGDP和消费表和消费表 单位:亿元单位:亿元年份GDP Xt总消费 yt回归值 t残差Et=yt-t1978197919801981198219831984198519861987198819891990108.84120.11139.07139.15154.94183.13
25、216.61257.12284.86326.82410.22455.96500.7240.9849.3457.4463.7271.2281.3196.14112.30125.16147.87178.49197.67230.9656.0760.1466.9967.0172.7282.8994.98109.61119.63134.78164.89181.41197.57-15.09-10.80-9.55-3.29-1.50-1.581.162.695.5313.0913.6016.2633.36接上表接上表 单位:亿元单位:亿元年份GDP Xt总消费 yt回归值 t残差Et=yt-t1991199
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 基本 模型
限制150内