《计量经济学课件第二章 简单线性回归模型.doc》由会员分享,可在线阅读,更多相关《计量经济学课件第二章 简单线性回归模型.doc(105页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章 简单线性回归模型1引子:中国旅游业总收入将超过3000亿美元吗?未来我国旅游需求将快速增长,根据中国政府所制定的远景目标,到2020年,中国入境旅游人数将达到2.1亿人次;国际旅游外汇收入580亿美元,国内旅游收入2500亿美元。到2020年,中国旅游业总收入将超过3000亿美元,相当于国内生产总值的8%至11%。(来源:2008年中国旅行社发展研究咨询报告)(参考现状:第一产业占GDP的15%,建筑业占GDP 的7%)什么决定性因素能使中国旅游业总收入超过3000亿美元?旅游业的发展与这种决定性因素的数量关系究竟是什么?怎样具体测定旅游业发展与这种决定性因素的数量关系?2需要研究经济
2、变量之间数量关系的方法显然,对旅游起决定性影响作用的是“中国居民的收入水平”以与“入境旅游人数”等因素。“旅游业总收入”(Y)与“居民平均收入”(X1)或者“入境旅游人数”(X2)有怎样的数量关系呢?能否用某种线性或非线性关系式 Y= f ( X ) 去表现这种数量关系呢? 具体该怎样去表现和计量呢?为了不使问题复杂化, 我们先在某些标准的(古典的)假定条件下,用最简单的模型,对最简单的变量间数量关系加以讨论第一节 回归分析与回归函数一、相关分析与回归分析(对统计学的回顾)1、经济变量之间的相互关系性质上可能有三种情况:确定性的函数关系Y=f (X)可用数学方法计算不确定的统计关系相关关系Y=
3、 f(X)+没有关系(为随机变量)可用统计方法分析不用分析42、相关关系 相关关系的描述最直观的描述方式坐标图(散布图、散点图)25201510500246810122520151050024681012函数关系11.21110.810.610.410.2100246810相关关系(线性)353025201510 5 0051015相关关系(非线性)没有关系5相关关系的类型从涉与的变量数量看简单相关多重相关(复相关)从变量相关关系的表现形式看线性相关散布图接近一条直线非线性相关散布图接近一条曲线从变量相关关系变化的方向看正相关变量同方向变化,同增同减负相关变量反方向变化,一增一减从变量相关的程
4、度看完全相关、不相关、不完全相关663、相关程度的度量相关系数如果 X 和 Y 总体的全部数据都已知, X 和 Y 的方差和协方差也已知,则 Cov( X , Y )X和Y的总体线性相关系数: r =Var ( X )Var (Y )其中: Var( X ) -X 的方差Var(Y ) -Y的方差Cov( X , Y ) -X和Y的协方差特点:总体相关系数只反映总体两个变量X 和 Y 的线性相关程度对于特定的总体来说,数r 是客观存在的特定数值。X 和 Y 的数值是既定的,总体相关系总体的两个变量X 和 Y 的全部数值通常不可能直接观测,所7以总体相关系数一般是未知的。X和Y的样本线性相关系数
5、:如果只知道 X 和 Y 的样本观测值,则X和Y的样本线性 _ ( X i - X )(Yi - Y )相关系数为: r = XY _ 22 ( X i - X ) (Yi - Y )X其中: i 和 Yi 分别是变量X和Y的样本观测值,_X 和 Y 分别是变量 X 和Y 样本值的平均值_注意:rXY是随抽样而变动的随机变量。相关系数较为简单, 也可以在一定程度上测定变量间的数量关系,但是对于具体研究变量间的数量规律性还有局限性。8对相关系数的正确理解和使用X和Y 都是相互对称的随机变量, rXY= rYX 线性相关系数只反映变量间的线性相关程度,不能说明非线性相关关系 样本相关系数是总体相关
6、系数的样本估计值,由于抽样波动,样本相关系数是随抽样而变动的随机变量,其统计显著性还有待检验94、回归分析回归的古典意义:高尔顿遗传学的回归概念( 父母身高与子女身高的关系)子女的身高有向人的平均身高回归的趋势回归的现代意义:一个被解释变量对若干个解释变量依存关系的研究回归的目的(实质):由解释变量去估计被解释变量的平均值10明确几个概念(为深刻理解“回归”)被解释变量Y的条件分布和条件概率:当解释变量X取某固定值时(条件),Y 的值不确定,Y的不同取值会形成一定的分布,这是 Y 的条件分布。 X取某固定值时,Y 取不同值的概率称为条件概率。 Y被解释变量 Y 的条件期望:对于 X 的每一个取
7、值,对 Y 所形成的分布确E (Y X i )定其期望或均值,称为 Y 的条件期望或条件均XiX值,用 E (Y X i )表示。注意:Y的条件期望是随X的变动而变动的11回归线:对于每一个X的取值 X i ,都有Y的条件期望E (Y X i ) 与之对应,代表Y的条件期望的点的轨迹形成的直线或曲线称为回归线。回归函数:被解释变量Y的条件期望 E (Y X i ) 随解释变量X的变化而有规律YE (Y X i )的变化,如果把Y的条件期望表现为 X 的某种函数E(Y X i ) = f ( X i ) ,这个函数称为回归函数。Xi12X回归函数分为:总体回归函数和样本回归函数二、总体回归函数(
8、PRF)举例: 假如已知由100个家庭构成的总体的数据 每月家庭可支配收入X2000 2500 3000 3500 4000 450013121340140015481688173818001902153016191713175018141985204121862200231216311726178618351885194320372078217922982316238724982689184319742006226523672485251526892713289829233053318732862037221023252419252226652799288729133038316733103
9、51022772388252626812887305031893353353437103834(单位:元)600035153721386540264165438045805000 5500246928893090315633003321365438424074416529243338365038024087429843124413650035213954410843454812每月家庭消费支出YE (Y X i ) 1591 191520922586275430393396 38534036414813消费支出的条件期望与收入关系的图形E (Y X i )Xi对于本例的总体,家庭消费支出的条件
10、期望 E (Y X i )与家庭收入 X i 基本是线性关系, 可以把家庭消费支出的条件均值表示为家庭收入的线性函数:E (Y X i ) = a + bX i141. 总体回归函数的概念前提:假如已知所研究的经济现象的总体的被解释变量Y和解释变量X的每个观测值(通常这是不可能的!),那么,可以计算出总体被解释变量Y的条件期望 E (Y X i ) ,并将其表现为解释变量X的某种函数E (Y X i ) = f ( X i )这个函数称为总体回归函数(PRF)本质: 总体回归函数实际上表现的是特定总体中被解释变量随解释变量的变动而变动的某种规律性。计量经济学的根本目的是要探寻变量间数量关系的规
11、律,也就要努力去寻求总体回归函数。152.总体回归函数的表现形式条件期望表现形式例如Y的条件期望 E (Y X i ) 是解YE (Y X i )PRF释变量X的线性函数,可表示为:E (Yi X i ) = f ( X i ) = b1 + b2 X iuiYi XiX个别值表现形式(随机设定形式)对于一定的 X i ,Y的各个别值 Yi 并不一定等于条件期望,而是分布在 E (Y X i ) 的周围,若令各个 Yi 与条件期望 E (Y X i ) 的偏差为 u i ,显然 u i是个随机变量则有ui = Yi - E (Yi X i ) = Yi - b1 - b 2 X iYi = b
12、1 + b2 X i + ui163.如何理解总体回归函数作为总体运行的客观规律,总体回归函数是客观存在的,但在实际的经济研究中总体回归函数通常是未知的,只能根据经济理论和实践经验去设定。计量经济学研究中“计量”的根本目的就是要寻求总体回归函数。我们所设定的计量模型实际就是在设定总体回归函数的具体形式。总体回归函数中 Y 与 X 的关系可以是线性的,也可以是非线性的。17“线性”的判断计量经济学中,线性回归模型的“线性” 有两种解释:就变量而言是线性的Y的条件期望(均值)是X的线性函数就参数而言是线性的Y的条件期望(均值)是参数的线性函数例如: E (Yi X i ) = b1 + b 2 X
13、 i对变量、参数均为“线性”E (Yi X i ) = b1 + b2 ln X i 对参数“线性”,对变量”非线性”E (Yi X i ) = b1 + b 2 X i 对变量“线性”,对参数”非线性”注意:在计量经济学中,线性回归模型主要指就参数而言是“线性”的,因为只要对参数而言是线性的,都可以用类似的方法去估 18计其参数,都可以归于线性回归。三、随机扰动项概念Y 在总体回归函数中,各个 E (Y X i ) Yi 的值与其条件期望 ui E (Yi X i ) 的偏差 u i 有很重Yi要的意义。若只有 X 的影响,Yi 与 E (Yi X i ) 不应有偏差。若偏 XiX差 u i
14、 存在,说明还有其他影响因素。u i实际代表了排除在模型以外的所有因素对 Y 的影响。性质 u i 是其期望为 0 有一定分布的随机变量重要性:随机扰动项的性质决定着计量经济分析结果的性质和计量经济方法的选择19引入随机扰动项 u i 的原因 是未知影响因素的代表(理论的模糊性) 是无法取得数据的已知影响因素的代表(数据欠缺) 是众多细小影响因素的综合代表(非系统性影响) 模型可能存在设定误差(变量、函数形式的设定) 模型中变量可能存在观测误差(变量数据不符合实际) 变量可能有内在随机性(人类经济行为的内在随机性)20四、样本回归函数(SRF)样本回归线:对于X的一定值,取得Y的样本观测值,可
15、计算其条件均值,样本观测值条件均值的轨迹,称为样本回归线。样本回归函数:如果把被解释变量Y的样本条件均值YSRF Yi 表示为解释变量X的某种函数,这个函数称为样本回归函数(SRF) YiXiX21样本回归函数的函数形式条件均值形式:样本回归函数如果为线性函数,可表示为 Yi = b1 + b2 X iY其中:i 是与 X i 相对应的 Y 的样本条件均值b1 和 b 2 分别是样本回归函数的参数个别值(实际值)形式: 被解释变量Y的实际观测值 Yi 不完全等于样本条件均值 Yi ,二者之差用 ei 表示, ei 称为剩余项或残差项:则 ei = Yi - Y i或 Yi = b 1 + b
16、2 X i + ei22样本回归函数的特点样本回归线随抽样波动而变化:每次抽样都能获得一个样本,就可以拟合一条样本回归线,(SRF不唯一)YSRF1样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。SRF2X样本回归线只是样本条件均值的轨迹,还不是总体回归线,它至多只是未知的总体回归线的近似表现。23样本回归函数与总体回归函数的关系YYi YiYiSRFuiAeiPRFE (Yi X i )XXi24对样本回归的理解对比: 总体回归函数E (Yi X i ) = b1 + b2 X i 样本回归函数 Yi = b 1 + b 2 X i Yi = b 1 + b 2 X i + ei
17、Yi = b1 + b2 X i + ui 如果能够通过某种方式获得 b 1 和 b 2 的数值,显然: b 1和 b 2 是对总体回归函数参数 b1 和b 2 的估计 Y i 是对总体条件期望为对 ui 的估计。E (Yi X i ) 的估计 ei 在概念上类似总体回归函数中的ui ,可视25回归分析的目的目的:计量经济分析的目标是寻求总体回归函数。即用样本回归函数SRF去估计总体回归函数PRF。由于样本对总体总是存在代表性误差,SRF 总会过高或过低估计PRF。1要解决的问题:2 b1 寻求一种规则和方法,使其得到的SRF的参数 和 b 尽可能“接近”总体回归函数中的参数 b 1和 b 2
18、的真实值。这样的“规则和方法”有多种,如矩估计、极大似然估计、最小二乘估计等。其中最常用的是最小二乘法。 26第二节 简单线性回归模型的最小二乘估计用样本去估计总体回归函数,总要使用特定的方法,而任何估计参数的方法都需要有一定的前提条件假定条件一、简单线性回归的基本假定为什么要作基本假定?只有具备一定的假定条件,所作出的估计才具有良好的统计性质。模型中有随机扰动项,估计的参数是随机变量,显然参数估计值的分布与扰动项的分布有关,只有对随机扰动的分布作出假定,才能比较方便地确定所估计参数的分布性质,也才可能进行假设检验和区间估计等统计推断。假定分为:对模型和变量的假定对随机扰动项的假定271.对模
19、型和变量的假定例如对于Yi = b1 + b2 X i + ui假定模型设定是正确的(变量和模型无设定误差)假定解释变量X在重复抽样中取固定值。假定解释变量X是非随机的,或者虽然X是随机的,但与扰动项u是不相关的。(从变量X角度看是外生的)注意:解释变量非随机在自然科学的实验研究中相对容易满足,经济领域中变量的观测是被动不可控的,X非随机的假定并不一定都满足。282.对随机扰动项u的假定假定1:零均值假定:在给定X的条件下, i 的条件期望为零uE (ui X i ) = 0假定2:同方差假定:在给定X的条件下,u 的条件 i 2方差为某个常数 sYE (Y X i )XiXVar (ui X
20、 i ) = Eui - E (ui X i ) = s2229假定3:无自相关假定:随机扰动项 u i 的逐次值互不相关Cov(ui , u j ) = Eui - E (ui )u j - E (u j )= E (ui u j ) = 0(i j )假定4:解释变量 X i 是非随机的,或者虽然 X i 是随机的但与扰动项 u i 不相关 (从随机扰动 u i 角度看)Cov(ui , X i ) = Eui - E (ui ) X i - E ( X i ) = 030假定5:对随机扰动项分布的正态性假定,即假定 u i 服从均值为零、方差为s 2 的正态分布ui N (o, s )2
21、(说明:正态性假定并不影响对参数的点估计,所以有时不列入基本假定,但这对确定所估计参数的分布性质是需要的。且根据中心极限定理,当样本容量趋于无穷大时,u i 的分布会趋近于正态分布。所以正态性假定有合理性)31在对 u i的基本假定下 Y 的分布性质 Yi = b1 + b 2 X i + ui其中的 b1 , b 2 和 X i 是非随机的, u i 是随机变量,因此Y是随机变量,u i 的分布性质决定了 Yi 的分布性质。 对 u 的一些假定可以等价地表示为对 Y 的假定: ii E (Yi X i ) = b1 + b2 X i 假定1:零均值假定由于假定2:同方差假定假定3:无自相关假
22、定假定5:正态性假定Var (Yi X i ) = sCov(Yi , Y j ) = 02Yi N ( b1 + b2 X i , s )232二、普通最小二乘法(OLS)(rdinary Least Squares)1. OLS的基本思想 对于 Yi = b 1 + b 2 X i ,不同的估计方法可以得到不同的样本回归 参数 b 和 b 2 ,所估计的 1说越小越好因Yii也就不同。理想的估计结果应使估计的 Y 与真实的Yi 的差(即剩余 ei )总的来 ei可正可负,总有 ei = 0 ,所以可以取2ie2i最小,即 - b X )2min e = min (Yi - b1 2 i b
23、1 和 b 2 。 2 要解决的问题:: 如何寻求能使 ei 最小的 b 1 和 b 2 。在观测值Y和X确定时,2的大小决定于i33e2. 正规方程和估计量取偏导数并令其为0,可得正规方程 2 ( ei ) = -2 (Yi -b1 - b 2 X i ) = 0 b ( ei2 ) = -2 (Yi -b1 - b 2 X i ) X i = 0 b21即e = 0e X = 0iii或整理得 Yi = nb1 + b 2 X i 2 X iYi = b1 X i + b2 X i用克莱姆法则求解得以观测值表现的OLS估计量:b2 =n X iYi - X i Yin X - ( X i
24、) 2i2b1 = X i2 Yi - X i X iYin X - ( X i ) 2i234用离差表现的OLS估计量为表达得更简洁,或者用离差形式的OLS估计量:容易证明 _n X iYi - X i Yi ( X i - X )(Yi - Y ) xi yib2 = 2_2 2 2 n X i - ( X i ) xi (Xi - X ) 由正规方程: b = Y - b X 12_ yi = Yi - Y注意:其中: xi = X i - X本课程中:大写的 X i 和 Yi 均表示观测值; 小写的 xi 和 yi 均表示观测值的离差而且由 Yi = b1 + b 2 X i Y =
25、b1 + b2 X样本回归函数可用离差形式写为 yi = b 2 xi353. OLS回归线的数学性质剩余项ei的均值为零 ee=ni=0OLS回归线通过样本均值(由OLS第一个正规方程直接得到)YY Yi 的均值等于实际观测估计值 值 Y i 的均值 Y = b1 + b2 X(由OLS正规方程X (Y - b - b X ) = 0 两边同除n得到) Yi 1 = ( b + b X ) =b + b X = Y 12i12 nni12iX36 被解释变量估计值 Yi 与剩余项 Cov(Yi , ei ) = 0由OLS正规方程有:ei 不相关ei=0e Xii=0 , e ) = 1 (
26、Y - Y )(e - e ) = 0 因为 Cov(Yi iii n (Yi - Y )(ei - e ) = Yi ei - Y ei = ei ( b1 +b 2 X i ) = b1 ei +b 2 ei X i = 0解释变量 X i 与剩余项 ei 不相关Cov( X i , ei ) = 0 1Cov( X i , ei ) = ( X i - X )(ei - e ) = ei X i - X ei =0 n4. OLS估计量的统计性质面临的问题:参数估计值参数真实值对参数估计式的优劣需要有评价的标准 为什么呢?参数无法直接观测,只能通过样本去估计。样本的获得存在抽样波动,不同
27、样本的估计结果不一致。估计参数的方法有多种,不同方法的估计结果可能不相同,通过样本估计参数时,估计方法与所确定的估计量不一定完备,不一定能得到理想的总体参数估计值。对各种估计方法优劣的比较与选择需要有评价标准。估计准则的基本要求:参数估计值应尽可能地接近总体参数真实值”。什么是“尽可能地接近” 原则呢?用统计语言表述就是: 无偏性、有效性、一致性等38(1) 无偏性前提:重复抽样中估计方法固定、样本数不变、由重复抽样得到的观测值,可得一系列参数估计 值 b , b 的分布称为 b 的抽样分布,其密度 函数记为 f ( b )概念: 如果 E ( b ) = b ,则称 b 是参数 b 的无偏估
28、计量, 如果 E ( b ) b ,则称 b 是有偏的估计,其偏倚为 E (b ) - b(见下页图)39概率密度 f (b )f (b )*b偏倚E (b )*b估计值40(2)有效性前提:样本相同、用不同的方法估计参数,可以找到若干个不同的无偏估计式目标: 努力寻求其抽样分布具有最小方差的估计量(见下页图)既是无偏的同时又具有最小方差特性的估计量,称为最佳(有效)估计量。41概率密度f (b ) f (b )f (b * )bb估计值423、渐近性质(大样本性质)思想:当样本容量较小时,有时很难找到方差最小的无偏估计,需要考虑样本扩大后的性质(估计方法不变,样本数逐步增大)一致性: 当样本
29、容量 n 趋于无穷大时,如果估计式 b 依概率收敛于总体参数的 真实值,就称这个估计式 b 是 b 的一致估计式。即 或 P lim( b ) = blim P( b - b e ) = 1n (渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的估计式) (见下页图)渐近有效性:当样本容量 n 趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。43 f ( b )100 f ( b )80概率密度 f ( b ) 40 f ( b ) 20b图4bb估计值444. 分析OLS估计量的统计性质OLS估计是否符合“尽可能地接近总体参数真实值”的要求呢?先明确几点: 由OLS估计式可以看出b
30、2 =n X iYi - X i Yin X - ( X i ) 2i2b k 都由可观测的样本值 X 和 Y 唯一表示。 ii = X Yi - X i X iYib12 2 n X i - ( X i ) 2i 因存在抽样波动,OLS估计 b 是随机变量 k OLS估计式是点估计量45OLS估计式的统计性质高斯定理1、 线性特征b2 =b k 是Y的线性函数2 ( X i - X )(Yi - Y )(Xi- X)= xi yix2i= ki yi xiki =2 xib1 = Y - b 2 X = Y - X 1kiYi = ( - Xki )Yi n2、 无偏特性可以证明 E(b k
31、 ) = b k(证明见教材P38)(注意:bk无偏性的证明中用到了基本假定中ui零均值等假定)463、 最小方差特性 (有效性) (证明见教材P68附录21) 可以证明:在所有的线性无偏估计中,OLS估计 b k 具有最小方差(注意:最小方差性的证明中用到了基本假定中的同方差、无自相关等假定)结论(高斯定理):在古典假定条件下,OLS估计量是最佳线性无偏估计量(BLUE)47第三节 拟合优度的度量概念:样本回归线是对样本数据的一种拟合。不同的模型(不同函数形式)*Y*可拟合出不同的样本回归线相同的模型用不同方法去估计参数,也可以拟合出不同的回归线* * * *X拟合的回归线与样本观测值总是有
32、偏离。样本回归线对样本观测数据拟合的优劣程度,可称为拟合优度。如何度量拟合优度呢?拟合优度的度量建立在对 Y 的总变差分解的基础上48一、总变差的分解 分析Y的观测值 Yi 、估计值Yi 与平均值 Y 有以下关系 Yi - Y = (Yi - Y ) + Yi - Yi = (Yi - Y ) + (Yi - Yi )i将上式两边平方加总,可证得(提示:交叉项(TSS)2i (Y - Y )ei=0 ) (Yi - Y )2 = (Yi - Y )2 + (Yi - Yi )2(ESS)或者表示为(RSS)总变差 2i2 y = y + ei 2yi (TSS):被解释变量Y的观测值与其平均值
33、的离差平方和(总平方和)(说明 Y 的总变动程度) yi2 (ESS):被解释变量Y的估计值与其平均值的解释了的变差 离差平方和(回归平方和) ei2 (RSS):被解释变量观测值与估计值之差的平方剩余平方和 和(未解释的平方和)49变差分解的图示(以某一个观测值为例)YYiYi (Yi - Yi ) = ei =来自残差 YiY(Y i - Y ) = yi = 变差SRF (Yi - Y ) = yi = 来自回归XXi Yi - Y = (Yi - Y ) + ei i2 +y = y2ie2i50二、可决系数以TSS同除总变差等式 2 (Yi - Y )2 = (Yi - Y )2 +
34、 (Yi - Yi )两边:22或 y1= y (Y - Y ) (Y - Y )ii= - Y )2 (Yi22i e+ y (Y - Y )i2+ )2 (Yi - Yi (Y - Y )i22i 2i定义:回归平方和(解释了的变差ESS)差(TSS)表示:y2i在总变 中所占的比重称为可决系数,用 r 2或y2iR2i 2i2R=2y2y或2iR2 e= 1- y51可决系数的作用可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反之可决系数越小,说明模型对样本观测值的拟合程度越差。可决系数的特点:可决系数取值范围:动的随机变量可决系数是非负的统计量0 R
35、 122随抽样波动,样本可决系数 R 是随抽样而变52可决系数与相关系数的关系联系:数值上可决系数是相关系数的平方R2 y = yi = b 2 xi= yy b x( x y ) x= ( x )yy2i2i2i222i2ii2i22i2i 2i x )2 (b2 i xi yi =22 22 ( xi )( yi ) ( xi )( yi ) 2=r( xi yi )2253区别:可决系数是就模型而言说明解释变量对被解释变量的解释程度度量不对称的因果关系取值 0有非负性相关系数是就两个变量而言说明两变量线性依存程度度量对称的相关关系取值 -1r1可正可负R2154第四节 回归系数的区间估计和假设检验为什么要作区间估计? 运用OLS法可以估计出参数的一个估计值,但OLS估计只是通过样本得到的点估计,它不一定等于真实参数,还需要寻求真实参数的可能范围,并说明其可靠性。为什么要作假设检验?OLS 估计只是用样本估计的结果,是否可靠?是否抽样的偶然结果呢?还有待统计检验。区间估计和假设检验都是建立在确定参数估计 值 b k 概率分布性质的基础上。55一、OLS估计的分布性质基本思想bk是随机变量,必须确定其分布性质才可能进行区间估k 的分布性质呢? 怎样确定 b计和假设检验Yi = b1 + b2 X i + ui线性特征u i 是服从正态分布的随机变
限制150内