线性回归模型.pptx
《线性回归模型.pptx》由会员分享,可在线阅读,更多相关《线性回归模型.pptx(83页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 2.1 模型的建立及其假定条件1变量之间的关系2回归分析的概念3一元线性回归模型4随机误差项的假定2023/3/171第1页/共83页 2.1 模型的建立及其假定条件1变量之间的关系经济变量之间的关系,大体可分为两类:确定性关系或函数关系:变量之间存在确定的函数关系例如:某企业的销售收入Y与其产品价格P和销售量X的关系为:Y=PX2023/3/172第2页/共83页2.1 模型的建立及其假定条件统计依赖或相关关系:变量之间存在非确定的依赖关系.研究的是非确定现象随机变量间的关系。例如:某企业资金投入X与产出Y的关系。Y=f(X)+u 对变量间统计依赖关系的考察主要是通过相关分析(correl
2、ation analysis)或回归分析(regression analysis)来完成的2023/3/173第3页/共83页2.1 模型的建立及其假定条件2 回归分析的概念 回归分析研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。其用意:在于通过后者的已知或设定值,去估计(或)预测前者的(总体)均值。2023/3/174第4页/共83页2.1 模型的建立及其假定条件 回归分析的基本思想和方法以及“回归”名称的由来 英国统计学家高尔顿(F.alton,18221911)和他的学生皮尔逊(.Pearson,18561936)在研究父母身高与其子女身高的遗传问题时,观察了1078对
3、夫妇,以每对夫妇的平均身高作为自变量,而取他们的一个成年儿子的身高作为因变量,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线,计算出的回归直线方程为:y33.730.516 x 这一方程表明:父母平均身高每增减一个单位时,其年子女的身高仅平增减0.516个单位2023/3/175第5页/共83页 这项研究结果表明,虽然高个子父辈有生高个子儿子的趋势,矮个子的父辈有生矮个子儿子的趋势,但父辈身高增减一个单位,儿子身高仅增减半个单位左右。通俗地说,一群特高个子父辈 的儿子们在同龄人中平均仅为高个子,一群高个子父辈的儿子们在同龄人中平均仅为略高个子;一群特矮个子父辈的儿子们在同龄人中平均仅
4、为矮个子,一群矮个子父辈的儿子们在同龄人中平均仅为略矮个子,即子代的平均身高向中间回归了。所以高尔顿引用了“回归”(regression)一词来描述父辈身高与子代身高之间的关系。尽管“回归”这个名称的由来具有特定的含义,但是,人们在研究大量的经济变量间的统计关系时已远远超出了这一特定的含义了,我们现在使用回归这一名称仅仅是接受了高尔顿先生的回归分析基本思想和方法 2023/3/176第6页/共83页2.1 模型的建立及其假定条件3 一元线性回归模型 一元线性回归模型表示如下:yi=01xi+ui yi 称为 被解释变量(因变量)xi 称为解释变量(自变量)0、1 回归系数(待定系数或待定参数)
5、0称作常数项(截距项),1称作斜率系数。ui 是计量经济模型区别于数学模型的最关键的标志,称之为随机扰动项或误差项。正是u 的随机性使得我们可以采用统计推断方法对模型的设定进行严格的检验。2023/3/177第7页/共83页2.1 模型的建立及其假定条件 线性回归模型”中的“线性”一词在这里的含义:是指被解释变量y与解释变量x之间为线性关系,即解释变量x仅以一次方的形式出现在模型之中。2023/3/178第8页/共83页2.1 模型的建立及其假定条件一般来说,回归模型的随机误差项中可能包括如下几项内容。(1)未在模型中列出的影响y变化的非重要解释变量。如消费模型中家庭人口数、消费习惯、物价水平
6、差异等因素的影响都包括在随机误差项中。(2)人的随机行为。经济活动都是人参与的。人的经济行为的变化也会对随机误差项产生影响。2023/3/179第9页/共83页2.1 模型的建立及其假定条件(3)数学模型形式欠妥。对于同一组观测值,若拟合的数学模型形式不同,则相应的随机误差项的值也不同。当模型形式欠妥时,会直接对随机误差项的值带来影响。(4)归并误差。模型中被解释变量的值常常是归并而成的。当归并不合理时,会产生误差。如由不同种类粮食合并构成的粮食产量的不合理归并会带来归并误差。(5)测量误差。当对被解释变量的测量存在误差时,这种误差将包括在随机误差项中第10页/共83页2.1 模型的建立及其假
7、定条件4 随机误差项的假定条件(1)零均值假定 E(ui)=0 i=1,2,这表示对X的每个观测值来说,u可以取不同的值,有些大于零,有些小于零,考虑u的所有可能取值,他们的总体平均值等于零.2023/3/1711第11页/共83页2.1 模型的建立及其假定条件(2)同方差性假定 Var(ui)=u2 i=1,2,这表明在各次观测中u具有相同的方差,也就是各次观测所受的随机影响的程度相同.第12页/共83页协方差的定义 E(X-E(X)(Y-E(Y)称为随机变量X和Y的协方差,记作COV(X,Y),即COV(X,Y)=E(X-E(X)(Y-E(Y).计算公式为:Cov(X,Y)=E(XY)-E
8、(X)E(Y)协方差可以度量两个变量之间的相关关系,如果两个变量的协方差为零,则表明这两个变量之间不存在相关关系.第13页/共83页2.1 模型的建立及其假定条件(3)无序列相关假定 Cov(ui,uj)=0 ij i,j=1,2,这表明,在任意两次观测时,ui,uj是不相关的,即u在某次观测中取的值与任何其它次观测中取的值互不影响.第14页/共83页2.1 模型的建立及其假定条件(4)解释变量与误差项不相关假定 Cov(Xi,ui)=0 i=1,2,这一假定表明随机项u与自变量x不相关.提出这一假定是因为在建立回归模型时,我们用随机项u综合了未包含在模型中的那些自变量以及其它因素对因变量Y的
9、影响.因此,应该把X对Y的影响和u对Y的影响区分开来.如果两者相关,就不可能把各自对Y的影响区分开来第15页/共83页2.1 模型的建立及其假定条件(5)正态分布假定 uiN(0,u2)i=1,2,2023/3/1716第16页/共83页2.2 一元线性回归模型的参数估计1 几个重要的概念 对于一元线性回归模型 ,随机误差项满足古典假设条件,这个线性回归模型称为X,Y之间的总体回归模型。两边取条件均值,得一元线性回归方程:2023/3/1717简称总体回归方程(总体回归线)。其中总体回归系数 和 是未知的,实际上总体回归线是无法求得的,它只是理论上的存在,所以称为理论回归方程第17页/共83页
10、2.2 一元线性回归模型的参数估计如果变量 x 和y之间存在线性相关关系,对于任意抽取的若干个观测(样本)值(xi,yi),有 (2.2.1)我们称(2.2.1)为样本回归模型,、为 、的估计值或估计量。样本回归模型由两部分组成:称为系统分量,是可以被x解释的部分,也称为可解释分量;是不能被解释的部分,称为残差(Residual),它是随机项 ui 的代表值,也称为不可解释分量。将系统分量表示为 (2.2.2)2023/3/1718第18页/共83页2.2 一元线性回归模型的参数估计 式(2.2.2)称为一元线性样本回归方程,简称样本回归方程。又因(2.2.2)式的建立依赖于样本观测值(xi,
11、yi),所以我们又称其为经验回归方程。、为样本回归系数。其中 是估计的回归直线在y轴截距,是直线的斜率。的实际意义为x每变动一个单位时,y的平均变动值,即x的变动对y变动的边际贡献率;是实际观测值 y 的拟合值或估计值我们用一个图来表示yi,E(yi,)、ui、ei2023/3/1719第19页/共83页2.2 一元线性回归模型的参数估计2023/3/1720 Y iY ie iY Xi X 第20页/共83页2.2 一元线性回归模型的参数估计2 普通最小二乘法 给定一组样本观测值(Xi,Yi)(i=1,2,n)要求样本回归函数尽可能好地拟合这组值.普通最小二乘法(Ordinary least
12、 squares,OLS)给出的判断标准是:二者之差的平方和最小即在给定样本观测值之下,选择出 、能使 yi ,之差的平方和最小(即为使残差平方和最小)2023/3/1721第21页/共83页2.2 一元线性回归模型的参数估计2023/3/1722方程组(方程组(*)称为)称为正规方程组正规方程组(normal equations)。第22页/共83页2.2 一元线性回归模型的参数估计记 2023/3/1723上述参数估计量可以写成:上述参数估计量可以写成:上式称为上式称为OLSOLS估计量的估计量的离差形式离差形式。由于参数的估计结果是通过最小二乘法得到的,由于参数的估计结果是通过最小二乘法
13、得到的,故称为故称为普通普通最小二乘估计量最小二乘估计量(ordinary least squares estimators)。第23页/共83页2.2 一元线性回归模型的参数估计2023/3/17243 最小二乘直线的性质(1)残差ei的均值等于0因为 ,所以(2)残差ei与解释变量xi不相关即(3)样本回归直线经过点()(4)被解释变量的样本平均值等于其估计值的平均值第24页/共83页2.2 一元线性回归模型的参数估计4 截距为零的一元线性回归模型的参数估计 截距为零的一元线性回归模型的一般形式为:这个模型只有一个参数 需要估计,其最小二乘估计量的表达式为 2023/3/1725第25页/
14、共83页2.3最小二乘估计量的统计性质 2023/3/1726第26页/共83页2023/3/17272 2、无偏性无偏性,即估计量0、1的均值(期望)等于总体回归参数真值0与1 证明证明:易知易知故故同样地,容易得出同样地,容易得出 第27页/共83页2.3最小二乘估计量的统计性质 2023/3/17283 3、有效性(最小方差性)、有效性(最小方差性),即在所有线性无偏估计量中,最小二乘估计量0、1具有最小方差。(1)先求0与1的方差 第28页/共83页2023/3/1729(2)证明最小方差性其中,其中,ci=ki+di,di为不全为零的常数为不全为零的常数则容易证明则容易证明假设*1是
15、其他估计方法得到的关于1的线性无偏估计量:普通最小二乘估计量普通最小二乘估计量(ordinary least Squares Estimators)称为)称为最佳线性无偏估计量最佳线性无偏估计量(best linear unbiased estimator,BLUE)第29页/共83页例:令kids表示一名妇女生育孩子的数目,educ表示该妇女接受过教育的年数。生育率对教育年数的简单回归模型为:(1)随机扰动项 包含什么样的因素?它们可能与教育水平相关吗?(2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。第30页/共83页(1)收入、年龄、家庭状况、政府的相关政策等也
16、是影响生育率的重要的因素,在上述简单回归模型中,它们被包含在了随机扰动项之中。有些因素可能与增长率水平相关,如收入水平与教育水平往往呈正相关、年龄大小与教育水平呈负相关等。(2)当归结在随机扰动项中的重要影响因素与模型中的教育水平educ相关时,上述回归模型不能够揭示教育对生育率在其他条件不变下的影响,因为这时出现解释变量与随机扰动项相关的情形,基本假设4不满足。第31页/共83页例已知回归模型,式中E为某类公司一名新员工的起始薪金(元),N为所受教育水平(年)。随机扰动项的分布未知,其他所有假设都满足。(1)从直观及经济角度解释 和 。(2)OLS估计量 和 满足线性性、无偏性及有效性吗?简
17、单陈述理由。第32页/共83页(1)为接受过N年教育的员工的总体平均起始薪金。当N为零时,平均薪金为才 ,因此 表示没有接受过教育员工的平均起始薪金。是每单位N变化所引起的E的变化,即表示每多接受一年学校教育所对应的薪金增加值。(2)OLS估计量 和 仍满足线性性、无偏性及有效性,因为这些性质的的成立无需随机扰动项的正态分布假设。第33页/共83页2.4用样本可决系数检验回归方程的拟合优度 回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复 抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估
18、计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及参数的区间估计。2023/3/1734第34页/共83页2.4用样本可决系数检验回归方程的拟合优度 拟合优度检验拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。基本思路:因变量Y的变异,能够被X的变异解释的比例越大,则OLS回归线对总体的解释程度就越好。也即是样本观测值距回归线越近,拟合优度越好,X对Y的解释程度就越强 度量拟合优度的指标度量拟合优度的指标:样本决定系数r22023/3/1735第35页/共83页2.4用样本可决系
19、数检验回归方程的拟合优度1 总离差平方和的分解 已知由一组样本观测值(Xi,Yi),i=1,2,n得到如下样本回归直线:而Y的第i个观测值与样本均值的离差可分解为两部分之和:2023/3/1736第36页/共83页2023/3/1737 如果Yi=i 即实际观测值落在样本回归“线”上,则拟合最好。可认为,“离差”全部来自回归线,而与“残差”无关。第37页/共83页 对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:记:2023/3/1738总离差平方和(Total Sum of Squares)回归平方和(Explained Sum of Squares)残差平方和(Residu
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 模型
限制150内