计量经济学-第2章一元线性回归模型1资料讲解.ppt
计量经济学-第2章一元线性回归模型1一、变量间的关系及回归分析的基本概念一、变量间的关系及回归分析的基本概念1.变量间的关系变量间的关系(1)确定性关系确定性关系或或函数关系函数关系:研究的是:研究的是确定现象非随机变量间的关系。确定现象非随机变量间的关系。(2 2)统计依赖统计依赖或或相关关系相关关系:研究的是非确:研究的是非确定现象随机变量间的关系。定现象随机变量间的关系。2函数关系函数关系1.是一一对应的确定关系是一一对应的确定关系2.设设有有两两个个变变量量 x 和和 y,变变量量 y 随随变变量量 x 一一起起变变化化,并并完完全全依依赖赖于于 x,当当变变量量 x 取取某某个个数数值值时时,y 依依确确定定的的关关系系取取相相应应的的值值,则则称称 y 是是 x 的的函函数数,记记为为 y=f(x),其其中中 x 称称为自变量,为自变量,y 称为因变量称为因变量3.各观测点落在一条线上各观测点落在一条线上 x xy y3函数关系函数关系(几个例子几个例子)函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额(y y)与与销销售售量量(x x)之之间间的的关关系系可表示为可表示为 y y=pxpx (p p 为单价为单价)圆的面积圆的面积(S)(S)与半径之间的关系可表示为与半径之间的关系可表示为S S=R R2 2 企企业业的的原原材材料料消消耗耗额额(y y)与与产产量量(x x1 1)、单单位位产产量量消消耗耗(x x2 2)、原原材材料料价价格格(x x3 3)之之间间的的关关系系可可表表示为示为y y=x x1 1 x x2 2 x x3 3 4相关关系相关关系(correlation)1.变变量量间间关关系系不不能能用用函函数关系精确表达数关系精确表达2.一一个个变变量量的的取取值值不不能能由由另另一一个个变变量量唯唯一一确确定定3.当当变变量量 x 取取某某个个值值时时,变变量量 y 的的取取值值可可能能有有几个几个4.各各观观测测点点分分布布在在直直线线周围周围 x xy y5对变量间对变量间统计依赖关系统计依赖关系的考察主要是通的考察主要是通过过相关分析相关分析(correlation analysis)或或回归回归分析分析(regression analysis)来完成的来完成的6相关关系相关关系(几个例子几个例子)相关关系的例子相关关系的例子父亲身高父亲身高(y y)与子女身高与子女身高(x x)之间的关系之间的关系收入水平收入水平(y y)与受教育程度与受教育程度(x x)之间的关系之间的关系粮粮食食亩亩产产量量(y y)与与施施肥肥量量(x x1 1)、降降雨雨量量(x x2 2)、温度、温度(x x3 3)之间的关系之间的关系商品的消费量商品的消费量(y y)与居民收入与居民收入(x x)之间的关系之间的关系商品销售额商品销售额(y y)与广告费支出与广告费支出(x x)之间的关系之间的关系7相关关系相关关系(类型类型)8相关关系的描述与测度相关关系的描述与测度(散点图散点图)9散点图散点图(scatter diagram)不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 10散点图散点图(例题分析例题分析)【例】一一家家大大型型商商业业银银行行在在多多个个地地区区设设有有分分行行,其其业业务务主主要要是是进进行行基基础础设设施施建建设设、国国家家重重点点项项目目建建设设、固固定定资资产产投投资资等等项项目目的的贷贷款款。近近年年来来,该该银银行行的的贷贷款款额额平平稳稳增增长长,但但不不良良贷贷款款额额也也有有较较大大比比例例的的提提高高,这这给给银银行行业业务务的的发发展展带带来来较较大大压压力力。为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的有有关关数数据据做做些些定定量量分分析析,以以便便找找出出控控制制不不良良贷贷款款的的办办法法。下下面面是是该该银银行行所所属属的的2525家家分分行行20022002年年的的有关业务数据有关业务数据 11散点图散点图(例题分析例题分析)12散点图散点图(例题分析例题分析)13相关系数相关系数(correlation coefficient)1.对变量之间关系密切程度的度量对变量之间关系密切程度的度量2.对对两两个个变变量量(xi,yi),i=1,2,n 之之间间线线性性相相关关程程度度及及方方向向的的度度量量称称为为简简单单相相关关系系数数3.若若相相关关系系数数是是根根据据总总体体全全部部数数据据计计算算的的,称为总体相关系数,记为称为总体相关系数,记为 4.若若是是根根据据样样本本数数据据计计算算的的,则则称称为为样样本本相相关系数,记为关系数,记为 r14相关系数相关系数(计算公式计算公式)样本相关系数的计算公式样本相关系数的计算公式或化简为15(xi,yi),i=1,2,n其平均数与标准差分别为其平均数与标准差分别为sX,sY则样本相关系数则样本相关系数r定义为:定义为:相关系数相关系数(计算公式计算公式)16相关系数相关系数(取值及其意义取值及其意义)1.r 的取值范围是的取值范围是-1,12.r=1,为完全正相关,为完全正相关r=-1,为完全负相关,为完全负相关 r=0,不存在不存在线性线性相关关系相关关系3.|r|越越趋趋于于1表表示示关关系系越越密密切切;|r|越越趋趋于于0表表示关系越不密切示关系越不密切完全负相关完全负相关完全负相关完全负相关-1.0-1.0+1.0+1.00 0-0.5-0.5+0.5+0.5无线性相关无线性相关无线性相关无线性相关完全正相关完全正相关完全正相关完全正相关负相关程度增加负相关程度增加负相关程度增加负相关程度增加r r正相关程度增加正相关程度增加正相关程度增加正相关程度增加17相关系数的特性相关系数的特性相关系数中,两变量并不区分解释相关系数中,两变量并不区分解释变量或被解释变量。变量或被解释变量。相关系数的计算以数值型变量为主,相关系数的计算以数值型变量为主,此公式不适用于类别变量。此公式不适用于类别变量。相关系数的计算使用标准化值,与相关系数的计算使用标准化值,与各数值型变量的度量单位无关。各数值型变量的度量单位无关。18相关系数相关系数(例题分析例题分析)19线性关系的不同强度之线性关系的不同强度之rr=0r=0.6r=0.97r=-0.3r=-0.5r=-0.820练习练习1下表中的数据列出了某市下表中的数据列出了某市2005年年18月的月的月平均气温月平均气温X和每户平均啤酒消费量和每户平均啤酒消费量Y。(1)画出散点图)画出散点图(2)计算相关系数)计算相关系数R月月份份12345678X5.56.68.115.8 19.5 22.4 28.3 28.9Y2.38 3.85 4.41 5.67 5.44 6.03 8.15 6.8721练习练习将某年将某年21家企业的广告预算与这些企业家企业的广告预算与这些企业产品的观看者每周保留的印象次数相联产品的观看者每周保留的印象次数相联系。系。以印象数为纵轴、以广告支出为横轴画以印象数为纵轴、以广告支出为横轴画散点图。散点图。你认为这两个变量之间的关系具有什么你认为这两个变量之间的关系具有什么样的性质?样的性质?看一下你的图,你认为值得作广告吗?看一下你的图,你认为值得作广告吗?22序序号号企业企业印象印象(百万(百万次)次)支出(百支出(百万美元)万美元)序号序号企业企业印象印象(百万(百万次)次)支出(百支出(百万美元)万美元)1美乐美乐32.150.112百威百威10.445.62百事百事99.674.113贝尔贝尔88.9154.93联邦快递联邦快递21.922.914CK12.05.04金鹰金鹰11.719.315温迪快温迪快餐餐29.249.75汉堡王汉堡王60.882.416宝丽莱宝丽莱38.026.96可口可乐可口可乐78.640.117Shasta 10.05.77麦当劳麦当劳92.4185.918Meow Mix12.37.68前世通公前世通公司司50.726.919卡夫食卡夫食品品23.49.29健贻可乐健贻可乐21.420.420佳洁士佳洁士71.132.410福特福特40.1166.221KibblesN Bits4.46.111利维利维40.827.02324验证:配第验证:配第克拉克法则克拉克法则随着人均随着人均GDP的增加,或者说随着的增加,或者说随着一个国家经济的发展,就业结构也一个国家经济的发展,就业结构也会发生相应的变化,第一产业中就会发生相应的变化,第一产业中就业人数的比例会下降,而第二和第业人数的比例会下降,而第二和第三产业的就业比例会上升。三产业的就业比例会上升。以我国改革开放后某一年为例,计算人以我国改革开放后某一年为例,计算人均均GDP与第一产业中就业者比例的相关与第一产业中就业者比例的相关系数,并解释其意义。(提示:利用不系数,并解释其意义。(提示:利用不同的城市的数据)同的城市的数据)25回归分析回归分析26“回归回归”一次的历史渊源一次的历史渊源回归这个术语是由英国著名统计学家回归这个术语是由英国著名统计学家Francis Galton在在19世纪末期研究孩子及世纪末期研究孩子及他们的父母的身高时提出来的。他们的父母的身高时提出来的。孩子的身高会趋向平均发展。孩子的身高会趋向平均发展。当双亲的身高都很高(矮)时,他们的当双亲的身高都很高(矮)时,他们的孩子身高虽然会高(矮)于一般人,却孩子身高虽然会高(矮)于一般人,却往往比父母亲矮(高)。往往比父母亲矮(高)。高尔顿的普遍回归定律。(高尔顿的普遍回归定律。(law of universal regression)相关文献27回归的现代释义回归的现代释义回归分析是关于研究一个叫做回归分析是关于研究一个叫做因变量因变量的的变量对另一个或多个叫做变量对另一个或多个叫做解释变量解释变量的变的变量的依赖关系,其用意在于通过后者量的依赖关系,其用意在于通过后者(在重复抽样中)的已知或设定值,取(在重复抽样中)的已知或设定值,取估计或预测前者的(总体)均值。估计或预测前者的(总体)均值。28举例举例高尔顿的普遍回归定律。高尔顿的兴趣在于发现高尔顿的普遍回归定律。高尔顿的兴趣在于发现为什么人口的身高分布有一种稳定性。但现代观为什么人口的身高分布有一种稳定性。但现代观点关心的则是给定父辈身高的情形下找出儿辈平点关心的则是给定父辈身高的情形下找出儿辈平均身高的变化。即关心一旦知道了父辈的身高,均身高的变化。即关心一旦知道了父辈的身高,怎样预测儿辈的平均身高。怎样预测儿辈的平均身高。60607070656575756060656570707575父辈身高,英寸父辈身高,英寸儿儿辈辈身身高高,英英寸寸对应于给定父亲身高的儿子身高的假想分布对应于给定父亲身高的儿子身高的假想分布29什么是回归分析?什么是回归分析?(Regression)1.从从一一组组样样本本数数据据出出发发,确确定定变变量量之之间间的的数学关系式数学关系式2.对对这这些些关关系系式式的的可可信信程程度度进进行行各各种种统统计计检检验验,并并从从影影响响某某一一特特定定变变量量的的诸诸多多变变量量中中找找出出哪哪些些变变量量的的影影响响显显著著,哪哪些些不不显著显著(即确定因果关系及影响大小即确定因果关系及影响大小)3.利利用用所所求求的的关关系系式式,根根据据一一个个或或几几个个变变量量的的取取值值来来预预测测或或控控制制另另一一个个特特定定变变量量的的取取值值,并并给给出出这这种种预预测测或或控控制制的的精精确确程度程度30回归与因果关系回归与因果关系肯德尔(肯德尔(Kendall)和斯图尔特)和斯图尔特(Stuart)说)说“一个统计关系式,不管一个统计关系式,不管多强也不管多么有启发性,却永远多强也不管多么有启发性,却永远不能确立因果方面的联系;对因果不能确立因果方面的联系;对因果关系的理念,必须来自于统计学以关系的理念,必须来自于统计学以外,最终来自这种或那种理论。外,最终来自这种或那种理论。”虽然回归分析研究一个变量对另一虽然回归分析研究一个变量对另一(些)变量的依赖关系,但它并不(些)变量的依赖关系,但它并不一定意味着因果关系。一定意味着因果关系。31相关关系和回归分析相关关系和回归分析注意注意相关分析相关分析测度两个变量之间的线性关联力度。测度两个变量之间的线性关联力度。相关系数就是测度关联强度的。相关系数就是测度关联强度的。相关分析相关分析对称地对待任何(两个)变量,两对称地对待任何(两个)变量,两个变量都被看作是随机的。个变量都被看作是随机的。回归分析回归分析对变量对变量的处理方法存在不对称性,即区分应变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前(被解释变量)和自变量(解释变量):前者是随机变量,后者是固定的。者是随机变量,后者是固定的。相关关系相关关系关心两个变量间关系的紧密程度;关心两个变量间关系的紧密程度;回归分析回归分析感兴趣的则是试图根据其他变量的感兴趣的则是试图根据其他变量的设定值来估计或预测某一变量的平均值。设定值来估计或预测某一变量的平均值。32回归分析构成计量经济学的方法论基础,回归分析构成计量经济学的方法论基础,其主要内容包括:其主要内容包括:(1)根据样本观察值对经济计量模型)根据样本观察值对经济计量模型参数进行估计,求得回归方程;参数进行估计,求得回归方程;(2)对回归方程、参数估计值进行显)对回归方程、参数估计值进行显著性检验;著性检验;(3)利用回归方程进行分析、评价及)利用回归方程进行分析、评价及预测。预测。33回归模型的类型回归模型的类型34二、总体回归函数二、总体回归函数回归分析回归分析关心的是根据解释变量的已关心的是根据解释变量的已知或给定值,估计或预测被解释变量知或给定值,估计或预测被解释变量的总体均值。的总体均值。回归分析的原理回归分析的原理目的在于找出一个最能够代表所有观测资目的在于找出一个最能够代表所有观测资料的函数(回归估计式)料的函数(回归估计式)用此函数代表因变量和自变量之间的关系。用此函数代表因变量和自变量之间的关系。35例:例:一个假想的社区有一个假想的社区有100户家庭组成,户家庭组成,要研究该社区每月要研究该社区每月家庭消费支出家庭消费支出Y与每月与每月家庭可支配收入家庭可支配收入X的关系。的关系。即如果知道即如果知道了家庭的月收入,能否预测该社区家庭了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。的平均月消费支出水平。为达到此目的,将该为达到此目的,将该100户家庭划分为组户家庭划分为组内收入差不多的内收入差不多的10组,以分析每一收入组,以分析每一收入组的家庭消费支出组的家庭消费支出。36Y的条件的条件均值均值E(Y/X)605825104512651485170519252145236525853705001000150020002500300035005001000150020002500300035004000每月可支配收入每月可支配收入X(元)(元)每月消费支出Y(元)描出散点图发现:随着收入的增加,消费描出散点图发现:随着收入的增加,消费“平平均地说均地说”也在增加,且也在增加,且Y Y的条件均值均落在一的条件均值均落在一根正斜率的直线上。这条直线称为根正斜率的直线上。这条直线称为总体回归线总体回归线。38在给定解释变量在给定解释变量Xi条件下被解释变量条件下被解释变量Yi的期望轨迹称为的期望轨迹称为总体总体回归线回归线。(。(population regression line),或更一般地称为),或更一般地称为总总体回归曲线体回归曲线(population regression curve),就是),就是Y对对X的回的回归。归。总体回归线总体回归线800800140014001100110060560582582510451045E E(Y YXiXi)39含义:含义:回归函数(回归函数(PRF)说明被解释变量)说明被解释变量Y的平均状态(总体条件期望)随解释变的平均状态(总体条件期望)随解释变量量X变化的规律。变化的规律。称为(双变量)称为(双变量)总体回归函数总体回归函数(population population regression function,regression function,PRFPRF)或条件期望函)或条件期望函数(数(conditional expectation function,conditional expectation function,CEF CEF)。)。相应的函数:相应的函数:总体回归函数的概念总体回归函数的概念40 函数形式:函数形式:可以是线性或非线性的可以是线性或非线性的。例例2.12.1中,根据刚才的例子,一位经济学中,根据刚才的例子,一位经济学家可能提出消除支出与收入有线性关系,家可能提出消除支出与收入有线性关系,作为一个暂行的假设,作为一个暂行的假设,:为一为一线性函数。线性函数。其中,其中,0 0,1 1是未知参数,是未知参数,称为称为回归系数回归系数(regression regression coefficientscoefficients)。)。41回归线的系数的图形表示回归线的系数的图形表示X X1 1X X2 2XXYY斜率斜率142线性的含义线性的含义对变量而言对变量而言对参数而言对参数而言“线性线性”一词的含义一词的含义指数指数二次方、立方等二次方、立方等本书中的本书中的“线性线性”是对参数而言是对参数而言43三、随机扰动项三、随机扰动项一个例子一个例子 凯恩斯绝对收入假设消费理论凯恩斯绝对收入假设消费理论:消费(:消费(Y)是)是由收入(由收入(X)唯一决定的,是收入的线性函数:)唯一决定的,是收入的线性函数:Y=+X (2.2.1)但实际上但实际上上述等式不能准确实现上述等式不能准确实现。原因原因 消费除受收入影响外,还受其他因素的影响;消费除受收入影响外,还受其他因素的影响;线性关系只是一个近似描述;线性关系只是一个近似描述;收入变量观测值的近似性:收入数据本身并不收入变量观测值的近似性:收入数据本身并不绝对准确地反映收入水平。绝对准确地反映收入水平。44因此,一个更符合实际的数学描述为:因此,一个更符合实际的数学描述为:Y=+X+(2.2.2)其中:其中:是一个随机误差项,是其他影响是一个随机误差项,是其他影响因素的因素的“综合体综合体”,是不可控的。,是不可控的。这个式子由于引进了随机误差项,成为计这个式子由于引进了随机误差项,成为计量经济学模型,所以被称为量经济学模型,所以被称为总体回归模总体回归模型型。4546随机扰动项随机扰动项该偏差称为观察值围绕它的期望值的该偏差称为观察值围绕它的期望值的离差离差(deviation),是一个不可观测的随机变量,又),是一个不可观测的随机变量,又称为称为随机干扰项随机干扰项(stochastic disturbance)或)或随随机误差项机误差项(stochastic error)。)。或或47例例2.1中,给定收入水平中,给定收入水平Xi,个别家庭的支出个别家庭的支出可表示为两部分之和:可表示为两部分之和:(1)该收入水平下所有家庭的平均消费支出)该收入水平下所有家庭的平均消费支出E(Y|Xi),称为,称为系统性(系统性(systematic)或或确定性确定性(deterministic)部分;部分;(2)其他)其他随机随机或或非确定性非确定性(nonsystematic)部分部分 i。48随机误差项的意义随机误差项的意义随机误差项是从模型中省略下来的而又集体地影响着随机误差项是从模型中省略下来的而又集体地影响着Y Y的全部变量的替代物,那么的全部变量的替代物,那么为什么不把这些变量明显为什么不把这些变量明显地引进到模型中来?即为什么不构造一个含有尽可能地引进到模型中来?即为什么不构造一个含有尽可能多个变量的多元回归模型?多个变量的多元回归模型?随机误差项主要包括下列因素:随机误差项主要包括下列因素:在解释变量中被忽略的因素的影响;在解释变量中被忽略的因素的影响;变量观测值的观测误差的影响;变量观测值的观测误差的影响;模型关系的设定误差的影响;模型关系的设定误差的影响;其他随机因素的影响。其他随机因素的影响。49例例 令令Y表示一名妇女生育孩子的生育表示一名妇女生育孩子的生育率,率,X表示该妇女接受过教育的年数。表示该妇女接受过教育的年数。生育率对教育年数的简单回归模型生育率对教育年数的简单回归模型为:为:随机干扰项可能包含什么样的因随机干扰项可能包含什么样的因素?素?50四、样本回归函数(四、样本回归函数(SRF)例例2.2:在例在例2.1的总体中有如下一个样本,的总体中有如下一个样本,能否从该样本估计总体回归函数能否从该样本估计总体回归函数PRF?51 该样本的该样本的散点图散点图(scatter diagram):画一条直线以尽好地拟合该散点图,由于样本取自画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该直线近似地代表总体回归线。该直线称总体,可以该直线近似地代表总体回归线。该直线称为为样本回归线样本回归线(sample regression lines)。)。5253 记样本回归线的函数形式为:记样本回归线的函数形式为:称为称为样本回归函数样本回归函数(sample regression sample regression functionfunction,SRFSRF)。)。54样本回归函数的随机形式样本回归函数的随机形式/样本回归模型:样本回归模型:同样地,样本回归函数也有如下的随机形式:由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型(sampleregressionmodel)。55回归分析的主要目的回归分析的主要目的即,根据即,根据 估计估计根据样本回归函数根据样本回归函数SRF,估计总体回归函数,估计总体回归函数PRF。56572.2 2.2 一元线性回归模型的参数估计一元线性回归模型的参数估计 一、一元线性回归模型的基本假设 二、参数的普通最小二乘估计(OLS)三、参数估计的最大或然法(ML)四、最小二乘估计量的性质 五、参数估计量的概率分布及随机干 扰项方差的估计 58为什么先讨论两变量回归分析为什么先讨论两变量回归分析一元线性回归模型一元线性回归模型:只有一个解释变量:只有一个解释变量Y Y为被解释变量,为被解释变量,X X为解释变量,为解释变量,0 0与与 1 1为为待估参待估参数数,0 0常称为截距项或常数项,常称为截距项或常数项,1 1称为回归系称为回归系数,数,为随机干扰项为随机干扰项这种带随机误差项的两变量线性随机函数这种带随机误差项的两变量线性随机函数关系,正是两变量线性回归模型的核心,关系,正是两变量线性回归模型的核心,是两变量线性回归分析的基本出发点。是两变量线性回归分析的基本出发点。i=1,2,n59Y的条件的条件均值均值E(Y/X)605825104512651485170519252145236525856005001000150020002500300035005001000150020002500300035004000每月可支配收入每月可支配收入X(元)(元)每月消费支出Y(元)根据图中两个变量数据坐标的分布情况可以看出,在根据图中两个变量数据坐标的分布情况可以看出,在所考察的期间,月均消费支出和可支配收入之间,存在比较所考察的期间,月均消费支出和可支配收入之间,存在比较明显的线性关系。明显的线性关系。可是仅通过散点图我们并不知道它们之间的数量关系。可是仅通过散点图我们并不知道它们之间的数量关系。因此,要进行参数估计。因此,要进行参数估计。61估计方法估计方法有多种,其中最广泛使用的是有多种,其中最广泛使用的是普通最小二乘法普通最小二乘法(ordinary least squares,OLS)。)。为保证参数估计量具有良好的性质,通为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。实际这些常对模型提出若干基本假设。实际这些假设与所采用的估计方法紧密相关,如假设与所采用的估计方法紧密相关,如果实际模型不满足这些基本假设,普通果实际模型不满足这些基本假设,普通最小二乘法就不再适用,而要发展其它最小二乘法就不再适用,而要发展其它方法来估计模型。方法来估计模型。62 一、线性回归模型的基本假设一、线性回归模型的基本假设假假设设1.解解释释变变量量X是是确确定定性性变变量量,不不是是随随机机变变量量,且在重复抽样中且在重复抽样中X值是固定的;值是固定的;假假设设2.随随机机误误差差项项 具具有有零零均均值值、同同方方差差和和不不序序列列相相关性:关性:E(i)=0 i=1,2,n Var(i)=2 i=1,2,n Cov(i,j)=0 ij i,j=1,2,n满足这三条假设的随机误差项,称为满足这三条假设的随机误差项,称为“球形扰动项球形扰动项”i=1,2,n63假设假设3.随机误差项随机误差项 与解释变量与解释变量X之间不相之间不相关:关:Cov(Xi,i)=0 i=1,2,n 假设假设4.服从零均值、同方差、零协方差服从零均值、同方差、零协方差的正态分布的正态分布 iN(0,2)i=1,2,n64X X1 1X X3 3X X2 2均值均值Y YX X65如如果果两两个个变变量量关关系系中中确确实实是是线线性性函函数数主主导导的的,误误差差项项只只是是次次要要的的随随机机扰扰动动因因素素,那那么么如如果果对对同同样样的的X多多次次重重复复观观测测对对应应的的Y值值,则则Y值值的的概概率率均均值值应应该该能能消消除除随随机机扰动的影响扰动的影响,符合线性函数的基本趋势。,符合线性函数的基本趋势。等价表示形式:等价表示形式:EYi|Xi=0+1Xi。即即被被解解释释变变量量的的数数学学期期望望始始终终落落在在总总体体回归直线上。回归直线上。零均值的意义零均值的意义66Var(i)=2 i=1,2,n误误差差项项的的方方差差反反映映的的是是误误差差项项作作为为随随机机函函数数的的分分布布分分散散程程度度。这这个个假假设设的的意意义义是是对对应应不不同同观观测测数数据据误误差差项项分分布布的的发发散散趋趋势势相相同同。如如果果 i 的的方方差差会会随随 i 变变化化,就就意意味味着着这这部部分分因因素素对对被被解解释释变变量量的的影影响响力力度度,会会随随i而而变变化化,不不能能再再理理解解为为是是一一些微小的可被忽略的因素的影响。些微小的可被忽略的因素的影响。67同方差同方差X X1 1X X3 3X X2 2Y YX Xi的的概概率率密密度度f(f()68异方差异方差X X1 1X X3 3X X2 2Y YX Xi的的概概率率密密度度f(f()69Cov(i,j)=0 ij i,j=1,2,n70Cov(Xi,i)=0 i=1,2,n 71这个假设表面上看起来限制性很大,因这个假设表面上看起来限制性很大,因为它排斥了误差项服从任意其他分布的为它排斥了误差项服从任意其他分布的可能性,但实际上只要变量关系确实满可能性,但实际上只要变量关系确实满足线性回归分析的基本思想,其误差项足线性回归分析的基本思想,其误差项代表许多微小扰动因素的综合,那么根代表许多微小扰动因素的综合,那么根据据中心极限定理中心极限定理,误差项服从正态分布,误差项服从正态分布是很自然的。是很自然的。iN(0,2)i=1,2,n72中心极限定理中心极限定理(central limit theorem)中中中中心心心心极极极极限限限限定定定定理理理理:设设从从均均值值为为,方方差差为为 2的的一一个个任任意意总总体体中中抽抽取取容容量量为为n的的样样本本,当当n充充分分大大时时,样样本本均均值值的的抽抽样分布近似服从均值为样分布近似服从均值为、方差为、方差为2/n的的正态分布正态分布当样本容量足够当样本容量足够大时大时(n 30),样本均值的抽样样本均值的抽样分布逐渐趋于正分布逐渐趋于正态分布态分布一个任意分一个任意分一个任意分一个任意分布的总体布的总体布的总体布的总体X X73X X1 1X X3 3X X2 2均值均值X X0 0741.1.如果假设如果假设1 1、2 2满足,则假设满足,则假设3 3也满足也满足;2.2.证明:证明:2.2.如果假设如果假设4 4满足,则假设满足,则假设2 2也满足。也满足。注意:注意:75以上假设也称为线性回归模型的以上假设也称为线性回归模型的经典假经典假设设或或高斯(高斯(GaussGauss)假设)假设,满足该假设的,满足该假设的线性回归模型,也称为线性回归模型,也称为经典线性回归模经典线性回归模型型(Classical Linear Regression Classical Linear Regression Model,CLRMModel,CLRM)。)。76 另外另外,在进行模型回归时,还有两个暗含的,在进行模型回归时,还有两个暗含的假设:假设:假假设设5 5.随随着着样样本本容容量量的的无无限限增增加加,解解释释变变量量X X的样本方差趋于一有限常数。即的样本方差趋于一有限常数。即 假设假设6 6.回归模型是正确设定的。回归模型是正确设定的。77重要提示重要提示几乎没有哪个实际问题能够同时满足所有基几乎没有哪个实际问题能够同时满足所有基本假设。但是通过模型理论方法的发展,可本假设。但是通过模型理论方法的发展,可以克服违背基本假设带来的问题;以克服违背基本假设带来的问题;违背基本假设问题的处理构成了单方程线性违背基本假设问题的处理构成了单方程线性计量经济学理论方法的主要内容:计量经济学理论方法的主要内容:异方差问题(违背同方差假设)异方差问题(违背同方差假设)序列相关问题(违背序列不相关假设)序列相关问题(违背序列不相关假设)多重共线性问题(违背解释变量不相关假设)多重共线性问题(违背解释变量不相关假设)随机解释变量(违背解释变量确定性假设)随机解释变量(违背解释变量确定性假设)78思考思考线性回归模型线性回归模型的零均值假设是否可以表示为的零均值假设是否可以表示为?为什么?为什么?791、参数估计的基本思路、参数估计的基本思路2、样本趋势的拟合和回归残差、样本趋势的拟合和回归残差3、最小二乘法、最小二乘法 二、参数的普通最小二乘估计(OLS)801、参数估计的基本思路、参数估计的基本思路参数估计的含义:求参数估计的含义:求Y=0+1 X+中中 0、1的近似值,以及的近似值,以及中隐含的分布参数中隐含的分布参数 参数估计是计量经济分析的核心步骤。参数估计是计量经济分析的核心步骤。参数估计的困难是如何找出估计值,如何评参数估计的困难是如何找出估计值,如何评价估计值。价估计值。基本思路:用基本思路:用拟合样本趋势拟合样本趋势的方法,找出样的方法,找出样本回归直线,拟合、近似总体回归直线(期本回归直线,拟合、近似总体回归直线(期望直线),得到参数近似值,并以拟合程度望直线),得到参数近似值,并以拟合程度作为选择回归直线、判断参数估计好坏的标作为选择回归直线、判断参数估计好坏的标准。准。812、样本趋势的拟合和回归残差、样本趋势的拟合和回归残差SRFSRFX XX X1 1X X2 2X X3 3X X4 482SRFSRFX XX X1 1X X2 2X X3 3X X4 4833、普通最小二乘法、普通最小二乘法普通最小二乘法普通最小二乘法(Ordinaryleastsquares,OLS)给出的判断标准是:残差平方和 最小。84推导过程推导过程即:即:取得极值要取得极值要求导数为零求导数为零正规方程组正规方程组85利用最小二乘法得到的参数估计量利用最小二乘法得到的参数估计量解得解得86上述参数估计量可以写成:称为OLSOLS估计量的离差形式估计量的离差形式(deviation form)。)。由于参数的估计结果是通过最小二乘法得到 的,故称为普通普通最小二乘估计量最小二乘估计量(ordinary least squares estimators)。87顺便指出顺便指出,记,记 则有则有可得可得(*)式也称为)式也称为样本回归函数的离差形式样本回归函数的离差形式。(*)其中:其中:估计估计实测实测88估计方程的求法估计方程的求法(例题分析例题分析)【例例】求求不不良良贷贷款款对对贷贷款款余余额额的的回回归归方方程程回归方程为:回归方程为:y=-0.8295+0.037895 x回回归归系系数数=0.037895=0.037895 表表示示,贷贷款款余余额额每每增增加加1 1亿元,不良贷款平均增加亿元,不良贷款平均增加0.0378950.037895亿元亿元 89样本回归线的性质样本回归线的性质1、它通过、它通过Y和和X的样本均值的样本均值2、估计的估计的Y均值等于实测的均值等于实测的Y均值均值3、残差的均值为零、残差的均值为零4、残差和估计的、残差和估计的Yi值不相关值不相关 即证明即证明5、残差和、残差和Xi不相关不相关90掌握下列公式掌握下列公式91P53 第第7、9题题练练 习习92 当模型参数估计出后,需考虑参数估当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真计值的精度,即是否能代表总体参数的真值,是否是参数真实值的良好近似。值,是否是参数真实值的良好近似。四、最小二乘估计量的性质四、最小二乘估计量的性质93 可从如下几个方面考察总体的估计量优劣性:可从如下几个方面考察总体的估计量优劣性:1、线性性、线性性 2、无偏性、无偏性 3、有效性、有效性这三个准则也称作估计量的这三个准则也称作估计量的小样本性质。小样本性质。拥有这类性质的估计量称为拥有这类性质的估计量称为最佳线性无偏估计量最佳线性无偏估计量(best liner unbiased estimator,BLUE)。)。941、线性性、线性性线性性线性性,即它是否是另一随机变量,即它是否是另一随机变量的线性函数;这里,即的线性函数;这里,即参数估计量参数估计量是否可以表示为被解释变量观测值是否可以表示为被解释变量观测值Y的线性组合。的线性组合。意义意义:参数估计量与被解释变量服:参数估计量与被解释变量服从相同类型的分布。从相同类型的分布。证明证明:只要把参数估计量表达式作适只要把参数估计量表达式作适当的变形即可。当的变形即可。95证:证明证明96注意:两个线性组合表达式对于其他性质注意:两个线性组合表达式对于其他性质的分析等还有作用。的分析等还有作用。972、无偏性(、无偏性(unbiased)定义定义:参数估计量的均值就是真实值:参数估计量的均值就是真实值:意义意义:参数估计量是以参数真实值为分布中心的参数估计量是以参数真实值为分布中心的随机变量,反复抽样估计可得真实值。随机变量,反复抽样估计可得真实值。这是重要的分布性质,是推断分析的基础。这是重要的分布性质,是推断分析的基础。证明证明:利用线性性表达式和模型假设证明。:利用线性性表达式和模型假设证明。98证:证:易知故同样地,容易得出证明证明993、有效性(、有效性(unbiased)有效性有效性:最小方差性也称为有效性。:最小方差性也称为有效性。在模型参数所有的线性无偏估计量在模型参数所有的线性无偏估计量中,最小二乘估计量的方差最小。中,最小二乘估计量的方差最小。意义:意义:说明估计量的分布分散程度较小,说明估计量的分布分散程度较小,比较密集于分布中心的附近。比较密集于分布中心的附近。证明证明:设参数的任意其他线性