第二章简单线性回归优秀PPT.ppt
第二章简单线性回归第一页,本课件共有113页引子引子:中国出境旅游人数中国出境旅游人数20202020年将达一亿人次年将达一亿人次?中新社北京中新社北京4 4月月3 3日电日电 :从中国出境旅游交易会上获悉,中国从中国出境旅游交易会上获悉,中国每年出境游人次以每年出境游人次以25%25%的速度持续增长,预计到的速度持续增长,预计到20202020年将达年将达一亿人次。如今中国是世界上旅游消费第二高的国家,在出一亿人次。如今中国是世界上旅游消费第二高的国家,在出国旅游的人群中,中国人平均每人每天的消费达国旅游的人群中,中国人平均每人每天的消费达175175美元。美元。另据报道另据报道:到到20202020年,中国旅游业总收入将超过年,中国旅游业总收入将超过30003000亿美亿美元,相当于国内生产总值的元,相当于国内生产总值的8%8%至至11%11%。(国际金融报2004年11月25日)(参考现状:第一产业占(参考现状:第一产业占GDP15%,建筑业占,建筑业占GDP7%)什么决定性因素能使中国出境旅游达一亿人次什么决定性因素能使中国出境旅游达一亿人次?旅游业的发展与这种决定性因素的数量关系究竟是什么?旅游业的发展与这种决定性因素的数量关系究竟是什么?怎样具体测定旅游业发展与这种决定性因素的数量关系怎样具体测定旅游业发展与这种决定性因素的数量关系?2第二页,本课件共有113页 显然,对旅游起决定性影响作用的是中国居民的收入水平显然,对旅游起决定性影响作用的是中国居民的收入水平.“出境旅游人次出境旅游人次”或或“旅游业总收入旅游业总收入”(Y Y)与)与“居民居民平均收入平均收入”(X X)有什么数量关系呢?)有什么数量关系呢?能否用某种线性或非线性关系式能否用某种线性或非线性关系式 Y=f(X)Y=f(X)去表现这种数量去表现这种数量关系呢关系呢?怎样去表现呢怎样去表现呢?需要研究经济变量之间数量关系的方法需要研究经济变量之间数量关系的方法为了不使问题复杂化为了不使问题复杂化,先从在某些古典先从在某些古典假定下的模型去讨论假定下的模型去讨论第三页,本课件共有113页为什么先讨论古典假定下的模型为什么先讨论古典假定下的模型?比喻:比喻:学习经济学时学习经济学时,总先熟悉总先熟悉“完全竞争理论完全竞争理论”,再,再接触接触“垄断和寡头等非完全竞争理论垄断和寡头等非完全竞争理论”。但是。但是,并不是说并不是说“完全竞争理论完全竞争理论”就总是真实的。就总是真实的。4研究方式:研究方式:由简单到复杂由简单到复杂!在简单的情况下理论更容易被阐述,也!在简单的情况下理论更容易被阐述,也最容易被接受,所以从最简单的情况入手。最容易被接受,所以从最简单的情况入手。第四页,本课件共有113页简单线性回归模型简单线性回归模型在计量经济模型中,只有两个变量的线性回归模型最简单,称为简单在计量经济模型中,只有两个变量的线性回归模型最简单,称为简单线性回归模型。简单线性回归原理也最直观。线性回归模型。简单线性回归原理也最直观。主要讨论主要讨论:回归分析和回归函数回归分析和回归函数 最小二乘估计最小二乘估计 回归方程的拟合优度回归方程的拟合优度 参数的区间估计和假设检验参数的区间估计和假设检验 回归模型预测回归模型预测 案例分析案例分析第五页,本课件共有113页6第一节第一节 回归分析与回归函数回归分析与回归函数一、相关分析与回归分析(对统计学的回(对统计学的回顾)顾)1 1、经济变量间的相互关系、经济变量间的相互关系 性质上可分为性质上可分为 确定性的函数关系确定性的函数关系 Y=f(X)可用数学 不确定性的统计关系不确定性的统计关系相关关系相关关系可用统计 Y=f(X)+(为随机变量为随机变量)没有关系没有关系 不用分析第六页,本课件共有113页 2、相关关系 相关关系的描述相关关系的描述 最直观的描述方式最直观的描述方式坐标图(散布图、散点图)坐标图(散布图、散点图)7函数关系函数关系相关关系相关关系没有关系没有关系第七页,本课件共有113页 相关关系的类型类型 从涉及的变量数量看从涉及的变量数量看 简单相关简单相关两个变量间两个变量间 多重相关(复相关)多重相关(复相关)多个变量间多个变量间 从变量相关关系的表现形式看从变量相关关系的表现形式看 线性相关线性相关散布图接近一条直线散布图接近一条直线 非线性相关非线性相关散布图接近一条曲线散布图接近一条曲线 从变量相关关系变化的方向看从变量相关关系变化的方向看 正相关正相关变量同方向变化,同增同减变量同方向变化,同增同减 负相关负相关变量反方向变化,一增一减变量反方向变化,一增一减 不相关不相关无规律无规律8第八页,本课件共有113页9 3、相关程度的度量相关系数 X和和Y的的总体线性相关系数总体线性相关系数:其中:其中:-X的方差的方差-Y的方差的方差-X和和Y的协方差的协方差X和和Y的的样本线性相关系数样本线性相关系数:其中:其中:和和分别是变量分别是变量X和和Y的样本观测值,的样本观测值,和和分别是变量分别是变量X和和Y样本值的平均值样本值的平均值第九页,本课件共有113页对相关系数的正确理解和使用对相关系数的正确理解和使用 X X和和Y Y 都是相互都是相互对称对称的随机变量,的随机变量,线线性性相相关关系系数数只只反反映映变变量量间间的的线线性性相相关关程程度度,不不能能说说明明非非线性相关关系线性相关关系 样样本本相相关关系系数数是是总总体体相相关关系系数数的的样样本本估估计计值值,由由于于抽抽样样波波动动,样样本本相相关关系系数数是是随随抽抽样样而而变变动动的的随随机机变变量量,其其统统计计显显著著性有待检验性有待检验 相相关关系系数数只只能能反反映映变变量量间间线线性性相相关关程程度度,不不能能确确定定变变量量间的因果关系间的因果关系,也不能说明相关关系具体接近哪条直线。,也不能说明相关关系具体接近哪条直线。只作相关分析还不能达到经济计量分析的目的。只作相关分析还不能达到经济计量分析的目的。计量经济学关心的问题:计量经济学关心的问题:经济变量间的因果关系及隐藏在经济变量间的因果关系及隐藏在随机性后面的统计规律性,在这方面回归分析方法可以发挥随机性后面的统计规律性,在这方面回归分析方法可以发挥更加重要的作用。更加重要的作用。10第十页,本课件共有113页114 4、回归分析、回归分析回归的古典意义古典意义:高尔顿遗传学的回归概念高尔顿遗传学的回归概念 (父母身高与子女身高的关系父母身高与子女身高的关系)子女的身高有向人的平均身高子女的身高有向人的平均身高 回归回归 的趋势的趋势回归的现代意义现代意义:一个被解释变量对若干个一个被解释变量对若干个解释变量依存关系的研究解释变量依存关系的研究第十一页,本课件共有113页12(1)注意明确几个概念)注意明确几个概念(为深刻理解“回归”)被解释变量被解释变量Y的的条件分布和条件概率条件分布和条件概率:当当解解释释变变量量X取取某某固固定定值值时时(条条件件),Y的的值值不不确确定定,Y的的不不同同取取值值形形成成一一定定的的分分布布,这这是是Y的的条条件件分分布布。X取取某某固固定定值值时时,Y取不同值的概率称为取不同值的概率称为条件概率条件概率。被解释变量被解释变量Y的的条件期望条件期望:对于对于X 的每一个取值,的每一个取值,对对Y所形成的分布确所形成的分布确 定其期望或均值,称定其期望或均值,称 为为Y的的条件期望或条件均条件期望或条件均 值值用用 表示。表示。注意注意:Y:Y的条件期望是随的条件期望是随X X的变动而变动的的变动而变动的 YX第十二页,本课件共有113页13回归线回归线:对于每一个:对于每一个X的取值的取值 ,都有,都有Y的条件期望的条件期望 与与之之对对应应,代代表表Y的的条条件件期期望望的的点点的的轨轨迹迹形形成成的的直线或曲线称为回归线。直线或曲线称为回归线。回归函数回归函数:被解释变量:被解释变量Y的条件期望的条件期望 随随解释变量解释变量X的变化而有规律的变化而有规律的变化,如果把的变化,如果把Y的条件期的条件期望表现为望表现为X的某种函数的某种函数 ,这个函数称为回归函数。这个函数称为回归函数。回归函数分为:总体回归函数和样本回归函数回归函数分为:总体回归函数和样本回归函数 X Y第十三页,本课件共有113页14每每 月月 家家 庭庭 可可 支支 配配 收收 入入 X X100015002000250030003500400045005000550082096211081329163218422037227524642824888102412011365172618742110238825893038932112112641410178619062225242627903150每每960121013101432183510682319248828563201月月125913401520188520662321258729003288家家132414001615194321852365265030213399庭庭1448165020372210239827893064消消1489171220782289248728533142费费1538177821792313251329343274支支160018412298239825383110出出17021886231624232567Y1900238724532610201224982487271025892586900115014001650190021502400265029003150举例举例:假如已知由假如已知由100100个家庭构成的总体的数据个家庭构成的总体的数据 (单位单位:元元)(2)总体回归函数)总体回归函数(PRF)第十四页,本课件共有113页15家庭消费支出的条件期望与家庭收入的关系的图形家庭消费支出的条件期望与家庭收入的关系的图形:对于本例的总体,家庭消费支出的条件期望对于本例的总体,家庭消费支出的条件期望与家庭收入与家庭收入 基本是线性关系基本是线性关系,可以把家庭消费可以把家庭消费支出的条件均值表示为家庭收入的线性函数:支出的条件均值表示为家庭收入的线性函数:第十五页,本课件共有113页16 总体回归函数的概念总体回归函数的概念 前前提提:假假如如已已知知所所研研究究的的经经济济现现象象的的总总体体的的被被解解释释变量变量Y和解释变量和解释变量X的每个观测值的每个观测值 (通常这是不可能的!)(通常这是不可能的!)那么,可以计算出总体被解释变量那么,可以计算出总体被解释变量Y的条件期望的条件期望 ,并将其表现为解释变量,并将其表现为解释变量X的某种函数的某种函数 这个函数称为总体回归函数(这个函数称为总体回归函数(PRF)总体回归函数表现的是该总体活动的某种规律性总体回归函数表现的是该总体活动的某种规律性第十六页,本课件共有113页17 条件期望条件期望表现形式表现形式例如例如Y的条件期望的条件期望 是解是解 释变量释变量X的线性函数,可表示为:的线性函数,可表示为:个别值个别值表现形式表现形式(随机设定形式)(随机设定形式)对于一定的对于一定的 ,Y的各个别值的各个别值 分布分布 在在 的周围,若令各个的周围,若令各个 与条件与条件 期望期望 的偏差为的偏差为 ,显然,显然 是个随机变量是个随机变量 则有则有 总体回归函数的表现形式总体回归函数的表现形式PRF第十七页,本课件共有113页如何理解总体回归函数如何理解总体回归函数实际的经济研究中总体回归函数(总体运动的规律性)实际的经济研究中总体回归函数(总体运动的规律性)通常是通常是未知未知的,只能根据经济理论和实践经验去的,只能根据经济理论和实践经验去设定设定。“计量计量”的根本目的就是要寻求总体回归函数。我们所设的根本目的就是要寻求总体回归函数。我们所设定的计量模型实际就是在设定总体回归函数的形式。定的计量模型实际就是在设定总体回归函数的形式。总总体体回回归归函函数数中中Y Y与与X X的的关关系系可可以以是是线线性性的的,也也可可以以是是非非线性线性的。的。计量经济学中计量经济学中计量经济学中计量经济学中,线性回归模型的线性回归模型的线性回归模型的线性回归模型的“线性线性线性线性”有两种解释有两种解释有两种解释有两种解释:就变量而言就变量而言就变量而言就变量而言是线性的是线性的是线性的是线性的 Y Y Y Y的条件期望(均值)是的条件期望(均值)是的条件期望(均值)是的条件期望(均值)是X X X X的线性函数的线性函数的线性函数的线性函数 就参数而言就参数而言就参数而言就参数而言是线性的是线性的是线性的是线性的 Y Y Y Y的条件期望(均值)是参数的条件期望(均值)是参数的条件期望(均值)是参数的条件期望(均值)是参数的线性函数的线性函数的线性函数的线性函数18第十八页,本课件共有113页19例如:例如:例如:例如:对变量、参数均为对变量、参数均为对变量、参数均为对变量、参数均为“线性线性线性线性”对参数对参数对参数对参数“线性线性线性线性”,对变量,对变量,对变量,对变量”非线性非线性非线性非线性”对变量对变量对变量对变量“线性线性线性线性”,对参数,对参数,对参数,对参数”非线性非线性非线性非线性”注意:注意:在计量经济学中,线性回归模型主要指在计量经济学中,线性回归模型主要指就参数而言就参数而言是是“线性线性”的的,因为只要对参数而言是线性的因为只要对参数而言是线性的,都可以用都可以用类似的方法去估计其参数,可以归于线性回归。类似的方法去估计其参数,可以归于线性回归。“线性线性”的判断的判断第十九页,本课件共有113页(3 3)随机扰动项)随机扰动项u概念概念 在总体回归函数中,各在总体回归函数中,各 个个 的值与其条件期望的值与其条件期望 的偏差的偏差 有很有很重要的意义,它代表排除在重要的意义,它代表排除在模型以外的所有因素对模型以外的所有因素对Y的的影响。影响。性质性质 是其期望为是其期望为0有一定分布的随机变量有一定分布的随机变量重要性:重要性:随机扰动项的性质决定着计量经济方法的随机扰动项的性质决定着计量经济方法的 选择选择20第二十页,本课件共有113页 引入随机扰动项引入随机扰动项 的原因的原因是是未知未知影响因素影响因素的代表的代表(理论的模糊性理论的模糊性)是是无法取得数据无法取得数据的已知影响因素的代表的已知影响因素的代表(数据欠缺数据欠缺)是是众多细小影响因素众多细小影响因素的综合代表的综合代表(非系统性影响非系统性影响)模型可能存在模型可能存在设定误差设定误差(变量、函数形式的设定)变量、函数形式的设定)模型中变量可能存在模型中变量可能存在观测误差观测误差(变量数据不符合实际变量数据不符合实际)变量可能有内在变量可能有内在随机性随机性(人类行为的内在随机性人类行为的内在随机性)21第二十一页,本课件共有113页(4)样本回归函数)样本回归函数(SRF)样本回归线:样本回归线:对于对于X的一定值,取得的一定值,取得Y 的样本观测值,可计算其条件的样本观测值,可计算其条件 均值,样本观测值条件均值的轨迹,称为样本回归线。均值,样本观测值条件均值的轨迹,称为样本回归线。样本回归函数:样本回归函数:如果把被解释变量如果把被解释变量Y的样本条件的样本条件均值均值 表示为解释变量表示为解释变量X的某种的某种函数,这个函数称为样本回归函函数,这个函数称为样本回归函数(数(SRF)。)。22XYSRF第二十二页,本课件共有113页23 样本回归函数如果为线性函数,可表示为样本回归函数如果为线性函数,可表示为 其中:其中:是与是与 相对应的相对应的 Y 的样本条件均值的样本条件均值 和和 分别是样本回归函数的参数分别是样本回归函数的参数 个别值(实际值)形式:个别值(实际值)形式:被被解解释释变变量量Y的的实实际际观观测测值值 不不完完全全等等于于样样本本条条件件均均值值 ,二二者者之之差差用用 表示,表示,称为称为剩余项剩余项或或残差项残差项:则则 或或 样本回归函数的函数形式样本回归函数的函数形式条件均值形式:条件均值形式:第二十三页,本课件共有113页样本回归函数样本回归函数的特点的特点样本回归线随抽样波动而变化样本回归线随抽样波动而变化:每次抽样都能获得一个样本,就可以拟合一条样本回归每次抽样都能获得一个样本,就可以拟合一条样本回归线,线,(SRF不唯一不唯一)Y SRF1 SRF2 样本回归函数的函数形式样本回归函数的函数形式应与设定的总体回归函数的应与设定的总体回归函数的函数形式一致。函数形式一致。X 样本回归线只是样本条件均值的轨迹,还不是总体回归样本回归线只是样本条件均值的轨迹,还不是总体回归 线,它至多只是未知的总体回归线的近似表现。线,它至多只是未知的总体回归线的近似表现。24第二十四页,本课件共有113页样本回归函数与总体回归函数的关系样本回归函数与总体回归函数的关系 SRF PRF A X 25第二十五页,本课件共有113页对样本回归的理解对样本回归的理解 如果能够获得如果能够获得 和和 的数值,显然的数值,显然:和和 是对总体回归函数参数是对总体回归函数参数 和和 的估计的估计 是对总体条件期望是对总体条件期望 的估计的估计 在概念上类似总体回归函数中的在概念上类似总体回归函数中的 ,可,可 视为对视为对 的估计。的估计。26对比:对比:总体回归函数总体回归函数 样本回归函数样本回归函数第二十六页,本课件共有113页27 目的:用样本回归函数用样本回归函数SRF去估计总体回归函数去估计总体回归函数PRF。由于样本对总体总是存在代表性误差,由于样本对总体总是存在代表性误差,SRF总会总会过高或过低估计过高或过低估计PRF。要解决的问题:要解决的问题:寻求一种规则和方法,使其得到的寻求一种规则和方法,使其得到的SRF的参数的参数和和尽可能尽可能“接近接近”总体回归函数中的参数总体回归函数中的参数和和的真实值。的真实值。这样的这样的“规则和方法规则和方法”有多种,最常用的是最小二乘法有多种,最常用的是最小二乘法回归分析的目的回归分析的目的第二十七页,本课件共有113页第二节第二节 简单线性回归模型的最小二乘估计简单线性回归模型的最小二乘估计用样本去估计总体回归函数,除了样本以外,针对特定的用样本去估计总体回归函数,除了样本以外,针对特定的估计方法,还需要有一些前提条件估计方法,还需要有一些前提条件假定条件假定条件 1 1、简单线性回归的基本假定简单线性回归的基本假定 为什么要作基本假定?为什么要作基本假定?(把问题简化!)(把问题简化!)只只有有具具备备一一定定的的假假定定条条件件,所所作作出出的的估估计计才才具具有有良良好好的的统统计计性质性质。因因为为模模型型中中有有随随机机扰扰动动项项,估估计计的的参参数数是是随随机机变变量量,显显然然参参数数估估计计值值的的分分布布与与扰扰动动项项的的分分布布有有关关,只只有有对对随随机机扰扰动动的的分分布布作作出出假假定定,才才能能比比较较方方便便地地确确定定所所估估计计参参数数的的分分布布性性质质,也才可能进行,也才可能进行假设检验和区间估计。假设检验和区间估计。假定分为:假定分为:对模型和变量的假定对模型和变量的假定对随机扰动项的假定对随机扰动项的假定 28第二十八页,本课件共有113页(1 1)对模型和变量的假定)对模型和变量的假定如如 假定模型设定是正确的(变量和模型假定模型设定是正确的(变量和模型无设定误差)无设定误差)假定解释变量假定解释变量X在重复抽样中取固定值在重复抽样中取固定值。假定解释变量假定解释变量X是非随机是非随机的,或者虽然是随机的,的,或者虽然是随机的,但但与扰动项与扰动项u是不相关是不相关的。的。(从变量从变量X角度看角度看)有时还假定:有时还假定:回归模型对参数而言是线性的回归模型对参数而言是线性的观测次观测次n必须大于待估计参数个数必须大于待估计参数个数(解释变量个数解释变量个数)29第二十九页,本课件共有113页(2 2)对随机扰动项)对随机扰动项u u的假定的假定 假定假定1 1:零均值假定零均值假定:在给定在给定X的条件下,的条件下,的条件期望为零的条件期望为零 假定假定2 2:同方差假定同方差假定:在给定在给定X的条件下,的条件方差为某个常数的条件下,的条件方差为某个常数 30第三十页,本课件共有113页31 假定假定3 3:无自相关假定无自相关假定:随机扰动项随机扰动项的逐次值互不相关的逐次值互不相关 假定假定4 4:随机扰动随机扰动与解释变量与解释变量不相关不相关 表明表明和和是各自独立影响是各自独立影响 第三十一页,本课件共有113页32假定假定5:对随机扰动项分布的对随机扰动项分布的对随机扰动项分布的对随机扰动项分布的正态性假定正态性假定正态性假定正态性假定,即假定即假定 服从均值为零、方差为服从均值为零、方差为 的正态分布的正态分布 (说明:正态性假定不影响对参数的点估计,所以有时不列入基本(说明:正态性假定不影响对参数的点估计,所以有时不列入基本(说明:正态性假定不影响对参数的点估计,所以有时不列入基本(说明:正态性假定不影响对参数的点估计,所以有时不列入基本假定,但这对确定所估计参数的分布性质是需要的。且根据中心极限假定,但这对确定所估计参数的分布性质是需要的。且根据中心极限假定,但这对确定所估计参数的分布性质是需要的。且根据中心极限假定,但这对确定所估计参数的分布性质是需要的。且根据中心极限定理,当样本容量趋于无穷大时,定理,当样本容量趋于无穷大时,定理,当样本容量趋于无穷大时,定理,当样本容量趋于无穷大时,的分布会趋近于正态分布。所的分布会趋近于正态分布。所的分布会趋近于正态分布。所的分布会趋近于正态分布。所以正态性假定有合理性)以正态性假定有合理性)以正态性假定有合理性)以正态性假定有合理性)注意注意:并并不不是是参参数数估估计计的的每每一一具具体体步步骤骤都都要要用用到到所所有有的的假假定定,但对全部假定有完整的认识但对全部假定有完整的认识,对学习计量经济学是有益的。对学习计量经济学是有益的。第三十二页,本课件共有113页在对在对 的基本假定下的基本假定下 Y Y 的分布性质的分布性质由于由于其中的其中的 和和 是非随机的,因此是非随机的,因此 的分布性质决定了的分布性质决定了 的分布性质。的分布性质。对对 的一些假定可以等价地表示为对的一些假定可以等价地表示为对 的假定:的假定:假定假定1:零均值假定:零均值假定 假定假定2:同方差假定:同方差假定 假定假定3:无自相关假定:无自相关假定 假定假定5:正态性假定:正态性假定 33第三十三页,本课件共有113页 2、普通最小二乘法普通最小二乘法(OLS)(rdinary Least Squaresrdinary Least Squares)(1)OLS的基本思想:的基本思想:不同的估计方法可以得到不同的样本回归参数不同的估计方法可以得到不同的样本回归参数 和和 ,所估计的,所估计的 也就不同。也就不同。理理想想的的估估计计方方法法应应使使 与与 的的差差即即剩剩余余 越越小小越好越好 因因 可正可负,所以可以取可正可负,所以可以取 最小最小即即在观测值在观测值Y和和X确定时,确定时,的大小决定于的大小决定于 和和 。34第三十四页,本课件共有113页 (2)正规方程和估计式正规方程和估计式用克莱姆法则求解得以观测值表现的用克莱姆法则求解得以观测值表现的OLS估计式:估计式:35取偏导数并令其为取偏导数并令其为0,得正规方程,得正规方程或或即即第三十五页,本课件共有113页36 为表达得更简洁,或者用离差形式为表达得更简洁,或者用离差形式OLS估计式估计式:容易证明容易证明 注意:注意:其中:其中:本课程中大写的本课程中大写的 和和 均表示观测值;均表示观测值;小写的小写的 和和 均表示观测值的离差均表示观测值的离差而且由而且由样本回归函数可用离差形式写为样本回归函数可用离差形式写为 用离差表现的用离差表现的OLSOLS估计式估计式第三十六页,本课件共有113页 (3)OLSOLS回归线的数学性质回归线的数学性质 可以证明:(见教材P33P34证明)(证明过程用到OLS的结论,但与基本假定无关)回归线通过样本均值回归线通过样本均值 估计值估计值 的均值等于实的均值等于实 际观测值际观测值 的均值的均值 剩余项剩余项 的均值为零的均值为零 37(由OLS第一个正规方程直接得到)(由OLS正规方程 两边同除n得到)第三十七页,本课件共有113页 被解释变量估计值被解释变量估计值 与剩余项与剩余项 不相关不相关 解释变量解释变量与剩余项与剩余项不相关不相关 由OLS正规方程:(注意注意:红色的项为红色的项为0)第三十八页,本课件共有113页(4 4)OLSOLS估计式的统计性质估计式的统计性质参数估计式的优劣需要有评价的标准参数估计式的优劣需要有评价的标准 参数无法通过观测直接确定,只能通过样本估计,但因参数无法通过观测直接确定,只能通过样本估计,但因存在抽样波动存在抽样波动,参数估计值不一定等于总体参数的真实值参数估计值不一定等于总体参数的真实值。参数估计方法及所确定的估计式不一定完备,不一定参数估计方法及所确定的估计式不一定完备,不一定能得到总体参数的真实值,需要对估计方法作评价与选择。能得到总体参数的真实值,需要对估计方法作评价与选择。比较不同估计方法的估计结果时,需要有一定的评价标准比较不同估计方法的估计结果时,需要有一定的评价标准 基本要求:基本要求:参数估计值应尽可能地接近总体参数的真实值参数估计值应尽可能地接近总体参数的真实值估计准则:估计准则:“尽可能地接近尽可能地接近”原则原则理论计量经济学主要讨论参数估计式是否符合一定的准则,理论计量经济学主要讨论参数估计式是否符合一定的准则,怎样才算怎样才算“尽可能地接近尽可能地接近”总体参数的真实值呢?这决定于总体参数的真实值呢?这决定于参数估计式的统计性质:无偏性、最小方差性、一致性等。参数估计式的统计性质:无偏性、最小方差性、一致性等。39第三十九页,本课件共有113页40 无偏性 前提:前提:重复抽样重复抽样中中估计方法固定估计方法固定、样本数不变样本数不变、经、经 重复抽样的观测值重复抽样的观测值,可得一系列参数估计值可得一系列参数估计值 ,的分布称为的分布称为 的抽样分布,其密度函数记为的抽样分布,其密度函数记为 如果如果 称称 是参数是参数的无偏估计式,否则的无偏估计式,否则 则称则称 是有偏的,其偏倚为是有偏的,其偏倚为 (见图2)第四十页,本课件共有113页41 概 率 密 度 估计值 偏倚偏倚图2第四十一页,本课件共有113页42 最小方差最小方差(有效有效)性性前提:前提:样本相同样本相同、用、用不同的方法不同的方法估计参数,可以找到若干估计参数,可以找到若干个不同的估计式个不同的估计式 目标目标:努力寻求其抽样分布具有最小方差的估计式努力寻求其抽样分布具有最小方差的估计式 最小方差准则最小方差准则 (见图(见图3 3)既是无偏的同时又具有最小方差的估计式,称为最佳既是无偏的同时又具有最小方差的估计式,称为最佳 (有效)估计式。(有效)估计式。第四十二页,本课件共有113页43概率密度图 3估计值第四十三页,本课件共有113页 渐近性质渐近性质(大样本性质)(大样本性质)思想思想:当样本容量较小时,有时很难找到方差最小的无偏估计,当样本容量较小时,有时很难找到方差最小的无偏估计,需要考虑样本扩大后的性质(需要考虑样本扩大后的性质(估计方法不变估计方法不变,样本数逐步增大样本数逐步增大)一致性:一致性:当样本容量当样本容量 n 趋于无穷大时,如果估计式趋于无穷大时,如果估计式 依概率收敛于总体参依概率收敛于总体参数的真实值,就称这个估计式数的真实值,就称这个估计式 是是 的一致估计式。即的一致估计式。即 或或 (渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的(渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的估计式)估计式)(见图4)渐近有效性:渐近有效性:当样本容量当样本容量 n 趋于无穷大时,在所有的一致估计趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。式中,具有最小的渐近方差。44第四十四页,本课件共有113页45概率密度估计值图 4第四十五页,本课件共有113页 分析OLSOLS估计式的统计性质估计式的统计性质先明确几点先明确几点:由由OLS估计式可以看出估计式可以看出 由可观测的样本值由可观测的样本值 和和 唯一表示。唯一表示。因存在抽样波动,因存在抽样波动,OLS估计估计 是随机变量是随机变量 OLS估计式是估计式是点估计式点估计式 46第四十六页,本课件共有113页1、线性特征线性特征 是是Y的线性函数的线性函数 2、无偏特性无偏特性 (证明见教材(证明见教材P37)3、最小方差特性最小方差特性 (证明见教材(证明见教材P68附录附录21)在所有的线性无偏估计中,在所有的线性无偏估计中,OLS估计估计 具有最小方差具有最小方差(注意(注意:无偏性和最小方差性的证明中用到基本假定无偏性和最小方差性的证明中用到基本假定1假定假定4)结论:结论:在古典假定条件下在古典假定条件下,OLSOLS估计式是最佳线性无偏估计式是最佳线性无偏 估计式(估计式(BLUEBLUE)47OLSOLS估计式的统计性质估计式的统计性质高斯定理高斯定理第四十七页,本课件共有113页(5)过原点的回归此前所讨论的模型为此前所讨论的模型为有时根据理论判断模型可能没有截距项,例如:有时根据理论判断模型可能没有截距项,例如:弗瑞德曼永久收入假说弗瑞德曼永久收入假说:永久消费正比于永久收入。永久消费正比于永久收入。成本分析理论成本分析理论:生产的可变成本正比于产出。生产的可变成本正比于产出。货币主义理论某些假说货币主义理论某些假说:价格变化率价格变化率(通货膨胀率通货膨胀率)正比于货币供给变化率。正比于货币供给变化率。这时总体回归函数设定为这时总体回归函数设定为:这是截距项不出现或为零的回归这是截距项不出现或为零的回归模型。称为模型。称为过原点的回归过原点的回归。48第四十八页,本课件共有113页没有截距项的过原点回归模型为没有截距项的过原点回归模型为:因为因为 对对 求偏导求偏导 令其为零得令其为零得可证明可证明 49对比有截距时:第四十九页,本课件共有113页注意:过原点回归的特点在运用过原点回归模型时应注意以下特点:在运用过原点回归模型时应注意以下特点:1)在有截距的模型中,根据最小二乘原理有)在有截距的模型中,根据最小二乘原理有:但在截距项不存在时,但在截距项不存在时,不一定成立,即不一定成立,即可能可能2)一般的模型可决系数总是非负的,但对无截距)一般的模型可决系数总是非负的,但对无截距的模型,可决系数有时可能出现负值,因此计算可的模型,可决系数有时可能出现负值,因此计算可决系数的公式未必适合过原点的回归模型决系数的公式未必适合过原点的回归模型。50第五十页,本课件共有113页 第三节第三节 拟合优度的度量拟合优度的度量概念概念:样本回归线是对样本数据样本回归线是对样本数据的一种拟合,不同估计方的一种拟合,不同估计方法可以拟合出不同的回归法可以拟合出不同的回归线,拟合的回归线与样本线,拟合的回归线与样本观测值总是有偏离。观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度样本回归线对样本观测数据拟合的优劣程度 拟合优度拟合优度如何度量拟合优度呢?如何度量拟合优度呢?拟合优度的度量建立在对拟合优度的度量建立在对Y的总变差分解的基础上的总变差分解的基础上51第五十一页,本课件共有113页 1、总变差的分解、总变差的分解 分析分析Y的观测值、估计值与平均值的关系的观测值、估计值与平均值的关系 将上式两边平方加总,可证得将上式两边平方加总,可证得(提示有(提示有 )(TSS)(ESS)(RSS)或者或者 总变差总变差 (TSS):被解释变量:被解释变量Y的观测值与其平均值的离差平的观测值与其平均值的离差平 方和方和(总平方和)(总平方和)(说明说明 Y 的变动程度)的变动程度)解释了的变差解释了的变差 (ESS):被解释变量:被解释变量Y的估计值与其平均值的的估计值与其平均值的 离差平方和离差平方和(回归平方和)(回归平方和)剩余平方和剩余平方和 (RSS):被解释变量观测值与估计值之差的平方:被解释变量观测值与估计值之差的平方 和和(未解释的平方和)(未解释的平方和)52第五十二页,本课件共有113页 Y X 53变差分解的图示变差分解的图示第五十三页,本课件共有113页 2、可决系数、可决系数 以以TSS同除总变差等式两边:同除总变差等式两边:或或 定义:定义:回归平方和(解释了的变差回归平方和(解释了的变差ESS)在总变在总变 差(差(TSS)中所占的比重称为可决系数,用中所占的比重称为可决系数,用 或或 表示表示:54或或第五十四页,本课件共有113页可决系数的作用可决系数的作用 可可决决系系数数越越大大,说说明明在在总总变变差差中中由由模模型型作作出出了了解解释释的的部部分分占占的的比比重重越越大大,模模型型拟拟合合优优度度越越好好。反反之之可可决决系系数越小,说明模型对样本观测值的拟合程度越差。数越小,说明模型对样本观测值的拟合程度越差。可决系数的特点可决系数的特点:可决系数取值范围:可决系数取值范围:随抽样波动,样本可决系数随抽样波动,样本可决系数 是随抽样而变是随抽样而变 动的随机变量动的随机变量 可决系数是非负的统计量可决系数是非负的统计量55第五十五页,本课件共有113页可决系数与相关系数的关系可决系数与相关系数的关系联系:联系:数值上可决系数是相关系数的平方数值上可决系数是相关系数的平方56第五十六页,本课件共有113页可决系数与相关系数的关系可决系数与相关系数的关系区别:区别:可决系数可决系数 相关系数相关系数 就模型而言就模型而言 就两个变量而言就两个变量而言 说明解释变量对应变说明解释变量对应变 说明两变量线性依存程度说明两变量线性依存程度 量的解释程度量的解释程度 度量的不对称的因果关系度量的不对称的因果关系 度量的对称的相关关系度量的对称的相关关系 取值取值 0 1 取值取值-1 r 1 有非负性有非负性 可正可负可正可负57第五十七页,本课件共有113页运用可决系数时应注意:运用可决系数时应注意:可决系数只是说明列入模型的所有解释变量对可决系数只是说明列入模型的所有解释变量对 被解释变量的被解释变量的联合联合的影响程度,不说明模型中每个的影响程度,不说明模型中每个 解释变量的影响程度(在多元中)解释变量的影响程度(在多元中)如果回归的主要目的是经济结构分析,不能只追如果回归的主要目的是经济结构分析,不能只追 求高的可决系数,而是要得到总体回归系数可信求高的可决系数,而是要得到总体回归系数可信 的估计量。可决系数高并不一定每个回归系数都的估计量。可决系数高并不一定每个回归系数都 可信任。可信任。如果主要目的只是为了预测被解释变量值,不是为如果主要目的只是为了预测被解释变量值,不是为 了正确估计回归系数,一般可考虑有较高的可决系数。了正确估计回归系数,一般可考虑有较高的可决系数。58第五十八页,本课件共有113页59第四节第四节 回归系数的区间估计和假设检验回归系数的区间估计和假设检验为什么要作区间估计?为什么要作区间估计?OLS估计只是通过样本得到的点估计,不一定等于真估计只是通过样本得到的点估计,不一定等于真实参数,还需要找到真实参数的可能范围,并说明其可靠实参数,还需要找到真实参数的可能范围,并说明其可靠性性为什么要作假设检验?为什么要作假设检验?OLS 估计只是用样本估计的结果,是否可靠?估计只是用样本估计的结果,是否可靠?是否抽样的偶然结果?还有待统计检验。是否抽样的偶然结果?还有待统计检验。区间估计和假设检验都是建立在确定参数估计值区间估计和假设检验都是建立在确定参数估计值 概