第二章 简单线性回归优秀PPT.ppt
《第二章 简单线性回归优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第二章 简单线性回归优秀PPT.ppt(115页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章 简单线性回归第一页,本课件共有115页 何谓简单线性回归模型n只有两个变量的线性回归模型,称为简单线性回归模型,也叫做双变量模型,或者一元线性回归模型。n模型形式为:第二页,本课件共有115页第一节 回归分析和回归方程本节主要介绍:1.1 经济变量之间的关系。1.2 相关关系:分类、度量。1.3 回归分析:概念、回归线、回归函数1.4 总体回归函数1.5 随机扰动项1.6 样本回归函数第三页,本课件共有115页1.1 经济变量之间的关系n确定的函数关系:yf(x)n不确定性的统计关系相关关系 yf(x)u (u为随机变量)n没有关系 变量间的函数关系和相关关系在一定条件下可以互相转化。
2、第四页,本课件共有115页1.2 相关关系1.2.1 分类:n 只有两个变量:简单相关;三个及三个以上:多重相关(复相关);n 线性相关、非线性相关;n 正相关、负相关、不相关第五页,本课件共有115页正相关(我国人均消费函数)Y为我国人均消费X为我国人均国民收入相关系数:0.982004006008001000120005001000150020002500YX第六页,本课件共有115页负相关Y与X的相关系数:-0.9220304050607080010203040YX第七页,本课件共有115页不相关(不排除存在曲线相关)n相关系数为:n4.24E-18-60-40-200204060-60
3、-40-200204060YX第八页,本课件共有115页1.2.2 线性相关程度的度量 线性相关系数n总体相关系数:n样本相关系数:第九页,本课件共有115页使用相关系数要注意:n简单线性相关包含了其他变量的影响。nX,Y都是随机变量,相关系数只说明其线性相关程度,不说明其非线性关系,也不反映他们之间的因果关系;n样本相关系数是总体相关系数的样本估计量;n相关系数具有对称性,即 ;n相关系数取值区间-1,1。第十页,本课件共有115页1.3 回归分析和相关分析1.3.1 回归分析n是对一个应变量对若干解释变量依存关系的研究;n其目的是:由固定的解释变量去估计和预测应变量的平均值等。第十一页,本
4、课件共有115页1.3.2 回归函数、回归线n应变量Y的条件期望 随着解释变量X的变化而有规律地变化。把这种变化关系用函数表示出来,就是回归函数:n回归函数在坐标系中用图形表示出来就是回归线。它表示了应变量和解释变量之间的平均关系。第十二页,本课件共有115页回归线图示YX概率密度函数f(Yi)PRFx1xiXk第十三页,本课件共有115页注意:n一般地,在重复抽样中解释变量被假定为固定的。所以回归分析中,解释变量一般当作非随机变量处理。第十四页,本课件共有115页 由于变量间关系的随机性,回归分析回归分析关心的是根据关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值解释变量的已知或
5、给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。例例2.1:一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出家庭消费支出Y与每月家庭可支配收入家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。1.4 总体回归函数总体回归函数 为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。第十五页,本课件共有115页第十六页,本课件共有115页 (1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;(2)但由于调查的完备性,
6、给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条条件分布件分布(Conditional distribution)是已知的,如:P(Y=561|X=800)=1/4。因此,给定收入X的值Xi,可得消费支出Y的条件条件均值均值(conditional mean)或条件期望条件期望(conditional expectation):E(Y|X=Xi)该例中:E(Y|X=800)=561分析:分析:第十七页,本课件共有115页 描出散点图发现:随着收入的增加,消费“平均平均地说地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线总体回归线。050010
7、00150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)第十八页,本课件共有115页n概念概念:在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线总体回归线(population regression line),或更一般地称为总体回归曲线总体回归曲线(population regression curve)。称为(双变量)总体回归函数总体回归函数(population regression function,PRF)。相应的函数:第十九页,本课件共有115页 回归函数(PRF)说明被解释变
8、量Y的平均状态(总体条件期望)随解释变量X变化的规律。n含义:含义:函数形式:函数形式:可以是线性或非线性的。例2.1中,将居民消费支出看成是其可支配收入的线性函数时:为一线性函数。线性函数。其中,0,1是未知参数,称为回回归系数归系数(regression coefficients)。第二十页,本课件共有115页1.4.2 总体回归函数的表现形式1.条件均值形式,如2.随机设定形式。对于一定的 ,Y的各个个别值 分布在 的周围,其差令为 ,则:对上例,有 也即:第二十一页,本课件共有115页1.5 随机扰动项n1、引入随机扰动项的目的n2、随机扰动项代表模型中省略了的所有次要因素的综合作用n
9、3、根据中心极限定理随机扰动项服从正态分布n4、通常模型由随机方程组成n5、随机扰动项产生的原因第二十二页,本课件共有115页为什么要引入随机扰动项n模型中引入反映不确定因素影响的随机扰动项的目的在于使模型更符合客观经济活动实际。n干扰项是从模型中省略下来而又集体地影响着Y地全部变量地替代物第二十三页,本课件共有115页简单线性需求函数不可能包罗万象地引入全部影响变量n我们以最简单的线性需求函数为例进行分析。nQd=b0+b1X1n理论分析和实践经验表明,某种商品需求量不仅趋近于价格,而且趋近于替代商品的价格X2,消费者收入X3和消费者偏好X4等等。将所有对需求量有影响的个变量引入方程:nQd
10、=b0+b1X1+b2X2+b3X3+b4X4+bkXkn即使如此也还可能有其他次要因素影响需求量,譬如社会风尚,心理变化甚至天气等等。总之,不可能巨细无遗地全部都引入。第二十四页,本课件共有115页次要因素的综合效应是不能忽视的n未引入的这些随机变量有的可以度量,有些不可以度量,在实际观测中,有时发生影响有时又不发生影响,记为随机变量Zi(i=1,2,m)。n从个别意义上,这些次要因素可能是不重要的,但所有这些的综合效应是不能忽视的。否则,模型将与实际不符。于是将它们也引入模型。第二十五页,本课件共有115页必须另外寻找解决问题的思路n全部变量引入显然是不必要的。计量经济学将这些或者次要,或
11、者偶然的,或者不可测度的变量用一个随机扰动项来概括,需求函数:n这是一个随机方程。是随机变量Zj的线性组合,也是一个随机变量。它代表所有未列入模型的那些次要因素的综合影响。第二十六页,本课件共有115页由中心极限定理服从正态分布n 进一步分析相当于诸随机变量Zj的均值n因此,由中心极限定理,无论因此,由中心极限定理,无论ZjZj原来的分布形式如何,只要它们相原来的分布形式如何,只要它们相互独立,互独立,m m足够大,就会有足够大,就会有趋于正态分布。趋于正态分布。n而且正态分布简单易用,且数理统计学中研究的成果很多,可以而且正态分布简单易用,且数理统计学中研究的成果很多,可以借鉴。借鉴。第二十
12、七页,本课件共有115页随机扰动项产生的原因(1)人类行为和客观现象的随机性。引入的根本原因,乃是经济活动是人类参与的,而人类行为的内在随机性决定了不可能像科学实验那样精确。此外还有社会环境和自然环境的随机性。(2)模型省略了变量。被省略的变量包含在随机扰动项中。核心变量与周边变量(3)测量与归并误差。测量误差致使观察值不等于实际值,汇总也存在误差。(4)数学模型形式设定造成的误差。比如由于认识不足或者简化,将非线性设定成线性模型。第二十八页,本课件共有115页(5)数据的欠缺(6)糟糕的替代变量(7)理论的含糊性随机扰动项产生的原因第二十九页,本课件共有115页1.6 1.6 样本回归函数(
13、样本回归函数(SRF)问题:问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?问:能否从该样本估计总体回归函数PRF?回答:能 例例2.2:在例2.1的总体中有如下一个样本,总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一个样本。第三十页,本课件共有115页核样本的散点图散点图(scatter diagram):样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为样本样本回归线回归线(sample regression lines)。)。记样本回归线的函数形式为:称为样本回归函数样
14、本回归函数(sample regression function,SRF)。第三十一页,本课件共有115页 这里将样本回归线样本回归线看成总体回归线总体回归线的近似替代则 注意:注意:第三十二页,本课件共有115页 样本回归函数的随机形式样本回归函数的随机形式/样本回归模型样本回归模型:同样地,样本回归函数也有如下的随机形式:由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型样本回归模型(sample regression model)。第三十三页,本课件共有115页 回回归归分分析析的的主主要要目目的的:根据样本回归函数SRF,估计总体回归函数PRF。注意:注意:这里PRF可能
15、永远无法知道。即,根据 估计第三十四页,本课件共有115页1.6.2 对样本回归函数的说明n每次抽样都能够获得一个样本,就可以拟合一条样本回归线,所以样本回归线随抽样波动而变化,可以有多条。n样本回归线不是总体回归线,只是未知总体回归线的近似。SRF1SRF2XY第三十五页,本课件共有115页1.6.3 残差n定义:那么有:n对上例,有:第三十六页,本课件共有115页回归分析的思路 样本 样本回归函数的参数 一定方法得出总体回归函数的参数近似看成是SRF1:PRF2:(观察参数的对应估计关系)第三十七页,本课件共有115页第二节 简单线性回归模型的最小二乘估计(OLS)n本节主要介绍:2.1
16、简单线性回归模型的基本假定 2.2 普通最小二乘法(OLS)2.3 OLS回归线的性质 2.4 最小二乘估计的统计性质 第三十八页,本课件共有115页2.1 简单线性回归的基本假定n2.1.1 为什么要做基本假定n参数估计量是随机变量,只有在一定的假设条件下,所作出的估计才具较好的统计性质。n只有对随机扰动项的分布作出假定,才能确定所估计参数的分布的性质,也才可能进行假设检验和区间估计。第三十九页,本课件共有115页2.1.2 假定的两个方面:(1)关于变量和模型的基本假定n 是非随机的,或者虽然 是随机的,但是与 是不相关的;n 无测量误差;n 变量和函数形式设定正确。第四十页,本课件共有1
17、15页假定的两个方面:(2)关于随机扰动项也称高斯假定、古典假定n假定1 零均值:n假定2 同方差:n假定3 无自相关:n假定4 随机扰动项 与 不相关。即:n假定5 服从正态分布,即:第四十一页,本课件共有115页注意:n正态性假定(5)不影响对参数的点估计,所以可不列入基本假定,且根据中心极限定理,当样本容量无穷大时,的分布趋近于正态分布。但此假定对确定所估计参数的分布性质是需要的,第四十二页,本课件共有115页2.1.3 Y的分布性质n由于 ,所以 的分布性质就决定了 的分布性质。n对 的一些假定可以等价地表示为对 的假定:n零均值:n同方差:n无自相关:n正态性:第四十三页,本课件共有
18、115页2.2 普通最小二乘法(OLS)n基本思想n数学过程n估计结果第四十四页,本课件共有115页2.2.1 最小二乘法的基本思想n纵向距离是Y的实际值与拟合值之差,称为拟合误差或残差。差异大拟合不好,差异小拟合好。n残差可正可负,为克服加总时正负相消,将其平方后相加,得残差平方和,“最好”直线就是使误差平方和最小的直线。n于是求最好拟合直线问题转换为求残差平方和最小,可以运用求极值的原理求解。第四十五页,本课件共有115页三种距离YX纵向距离横向距离距离A为实际点,B为拟合直线上与之对应的点SRF返回第四十六页,本课件共有115页YX0*Y7Y9Min数学形式第四十七页,本课件共有115页
19、2.2.2 最小二乘法的数学过程n详见课本第四十八页,本课件共有115页2.2.3 OLS估计结果的离差形式n离差形式:nOLS估计结果的离差形式:n(样本回归函数的离差形式:)第四十九页,本课件共有115页2.2.4 几个有用的结果n可以用到以后计算、证明过程中:第五十页,本课件共有115页2.3 OLS 回归线的性质n1.回归线过样本均值点 n2残差和为零n3Y的真实值 和拟合值 有共同均值n4残差 与自变量 不相关n5残差 与拟合值 不相关第五十一页,本课件共有115页2.3.1 回归线过样本均值n由 ,知:即样本均值点 满足回归线方程SRFYX第五十二页,本课件共有115页2.3.2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二章 简单线性回归优秀PPT 第二 简单 线性 回归 优秀 PPT
限制150内