第二章-简单线性回归优秀PPT.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第二章-简单线性回归优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第二章-简单线性回归优秀PPT.ppt(114页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 何谓简洁线性回来模型n只有两个变量的线性回来模型,称为简洁线性回来模型,也叫做双变量模型,或者一元线性回来模型。n模型形式为:第一节 回来分析和回来方程本节主要介绍:1.1 经济变量之间的关系。1.2 相关关系:分类、度量。1.3 回来分析:概念、回来线、回来函数1.4 总体回来函数1.5 随机扰动项1.6 样本回来函数1.1 经济变量之间的关系n确定的函数关系:yf(x)n不确定性的统计关系相关关系n yf(x)u (u为随机变量)n没有关系n 变量间的函数关系和相关关系在确定条件下可以相互转化。1.2 相关关系1.2.1 分类:只有两个变量:简洁相关;三个及三个以上:多重相关(复相关);
2、线性相关、非线性相关;正相关、负相关、不相关正相关(我国人均消费函数)Y为我国人均消费X为我国人均国民收入相关系数:0.982004006008001000120005001000150020002500YX负相关Y与X的相关系数:-0.9220304050607080010203040YX不相关(不解除存在曲线相关)n相关系数为:n4.24E-18-60-40-200204060-60-40-200204060YX1.2.2 线性相关程度的度量 线性相关系数n总体相关系数:n样本相关系数:运用相关系数要留意:n简洁线性相关包含了其他变量的影响。nX,Y都是随机变量,相关系数只说明其线性相关程
3、度,不说明其非线性关系,也不反映他们之间的因果关系;n样本相关系数是总体相关系数的样本估计量;n相关系数具有对称性,即 ;n相关系数取值区间-1,1。1.3 回来分析和相关分析1.3.1 回来分析是对一个应变量对若干说明变量依存关系的探讨;其目的是:由固定的说明变量去估计和预料应变量的平均值等。1.3.2 回来函数、回来线n应变量Y的条件期望 随着说明变量X的变更而有规律地变更。把这种变更关系用函数表示出来,就是回来函数:n回来函数在坐标系中用图形表示出来就是回来线。它表示了应变量和说明变量之间的平均关系。回来线图示YX概率密度函数f(Yi)PRFx1xiXk留意:n一般地,在重复抽样中说明变
4、量被假定为固定的。所以回来分析中,说明变量一般当作非随机变量处理。由于变量间关系的随机性,回来分析关切由于变量间关系的随机性,回来分析关切的是依据说明变量的已知或给定值,考察被说的是依据说明变量的已知或给定值,考察被说明变量的总体均值,即当说明变量取某个确定明变量的总体均值,即当说明变量取某个确定值时,与之统计相关的被说明变量全部可能出值时,与之统计相关的被说明变量全部可能出现的对应值的平均值。现的对应值的平均值。例例2.1:一个假想的社区有:一个假想的社区有100户家庭组成,要探户家庭组成,要探讨该社区每月家庭消费支出讨该社区每月家庭消费支出Y与每月家庭可支配收与每月家庭可支配收入入X的关系
5、。的关系。即假如知道了家庭的月收入,能否预料该社区即假如知道了家庭的月收入,能否预料该社区家庭的平均月消费支出水平。家庭的平均月消费支出水平。1.4 总体回来函数总体回来函数 为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。(1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;(2)但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布条件分布(Conditional distribution)是已知的,如:P(Y=561|X=800)=1/4。因此,给定收入X的值Xi,可得消费支出Y的
6、条件条件均值均值(conditional mean)或条件期望条件期望(conditional expectation):E(Y|X=Xi)该例中:E(Y|X=800)=561分析:分析:描出散点图发觉:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回来线。05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)n概念概念:在给定说明变量Xi条件下被说明变量Yi的期望轨迹称为总体回来线(population regression line)
7、,或更一般地称为总体回来曲线(population regression curve)。称为(双变量)总体回来函数(population regression function,PRF)。相应的函数:回来函数(PRF)说明被说明变量Y的平均状态(总体条件期望)随说明变量X变更的规律。n含义:含义:函数形式:函数形式:可以是线性或非线性的。例2.1中,将居民消费支出看成是其可支配收入的线性函数时:为一线性函数。其中,0,1是未知参数,称为回来系数(regression coefficients)。1.4.2 总体回来函数的表现形式1.条件均值形式,如2.随机设定形式。3.对于确定的 ,Y的各个个
8、别值 分布在 的四周,其差令为 ,则:4.对上例,有5.也即:1.5 随机扰动项n1、引入随机扰动项的目的n2、随机扰动项代表模型中省略了的全部次要因素的综合作用n3、依据中心极限定理随机扰动项听从正态分布n4、通常模型由随机方程组成n5、随机扰动项产生的缘由为什么要引入随机扰动项n模型中引入反映不确定因素影响的随机扰动项的目的在于使模型更符合客观经济活动实际。n干扰项是从模型中省略下来而又集体地影响着Y地全部变量地替代物简洁线性需求函数不行能应有尽有地引入全部影响变量n我们以最简洁的线性需求函数为例进行分析。nQd=b0+b1X1n理论分析和实践阅历表明,某种商品需求量不仅趋近于价格,而且趋
9、近于替代商品的价格X2,消费者收入X3和消费者偏好X4等等。将全部对需求量有影响的个变量引入方程:nQd=b0+b1X1+b2X2+b3X3+b4X4+bkXkn即使如此也还可能有其他次要因素影响需求量,譬如社会风尚,心理变更甚至天气等等。总之,不行能巨细无遗地全部都引入。次要因素的综合效应是不能忽视的n未引入的这些随机变量有的可以度量,有些不行以度量,在实际观测中,有时发生影响有时又不发生影响,记为随机变量Zi(i=1,2,m)。n从个别意义上,这些次要因素可能是不重要的,但全部这些的综合效应是不能忽视的。否则,模型将与实际不符。于是将它们也引入模型。必需另外找寻解决问题的思路n全部变量引入
10、明显是不必要的。计量经济学将这些或者次要,或者偶然的,或者不行测度的变量用一个随机扰动项来概括,需求函数:n这是一个随机方程。是随机变量Zj的线性组合,也是一个随机变量。它代表全部未列入模型的那些次要因素的综合影响。由中心极限定理听从正态分布n 进一步分析相当于诸随机变量Zj的均值n因此,由中心极限定理,无论Zj原来的分布形式如何,只要它们相互独立,m足够大,就会有趋于正态分布。n而且正态分布简洁易用,且数理统计学中探讨的成果很多,可以借鉴。随机扰动项产生的缘由(1)人类行为和客观现象的随机性。引入的根本缘由,乃是经济活动是人类参与的,而人类行为的内在随机性确定了不行能像科学试验那样精确。此外
11、还有社会环境和自然环境的随机性。(2)模型省略了变量。被省略的变量包含在随机扰动项中。核心变量与周边变量(3)测量与归并误差。测量误差致使视察值不等于实际值,汇总也存在误差。(4)数学模型形式设定造成的误差。比如由于相识不足或者简化,将非线性设定成线性模型。(5)数据的欠缺(6)糟糕的替代变量(7)理论的模糊性随机扰动项产生的缘由1.6 1.6 样本回来函数(样本回来函数(SRFSRF)问题:能从一次抽样中获得总体的近似的信息吗?假如可以,如何从抽样中获得总体的近似信息?问:能否从该样本估计总体回来函数PRF?回答:能 例例2.2:在例2.1的总体中有如下一个样本,总体的信息往往无法驾驭,现实
12、的状况只能是在一次观测中得到总体的一个样本。核样本的散点图散点图(scatter diagram):样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回来线。该线称为样本回来线(sample regression lines)。记样本回来线的函数形式为:称为样本回来函数(sample regression function,SRF)。这里将样本回来线看成总体回来线的近似替代这里将样本回来线看成总体回来线的近似替代则 留意:留意:样本回来函数的随机形式样本回来函数的随机形式/样本回来模型:样本回来模型:同样地,样本回来函数也有如下的随机形式:由于方
13、程中引入了随机项,成为计量经济模型,因此也称为样本回来模型(sample regression model)。回来分析的主要目的:依据样本回来函数SRF,估计总体回来函数PRF。留意:这里留意:这里PRF可能恒可能恒久无法知道。久无法知道。即,依据 估计1.6.2 对样本回来函数的说明n每次抽样都能够获得一个样本,就可以拟合一条样本回来线,所以样本回来线随抽样波动而变更,可以有多条。n样本回来线不是总体回来线,只是未知总体回来线的近似。SRF1SRF2XY1.6.3 残差n定义:那么有:n对上例,有:回来分析的思路 样本 样本回来函数的参数 确定方法得出总体回来函数的参数近似看成是SRF1:P
14、RF2:(视察参数的对应估计关系)其次节 简洁线性回来模型的最小二乘估计(OLS)n本节主要介绍:n 2.1 简洁线性回来模型的基本假定n 2.2 一般最小二乘法(OLS)n 2.3 OLS回来线的性质n 2.4 最小二乘估计的统计性质n 2.1 简洁线性回来的基本假定n2.1.1 为什么要做基本假定n参数估计量是随机变量,只有在确定的假设条件下,所作出的估计才具较好的统计性质。n只有对随机扰动项的分布作出假定,才能确定所估计参数的分布的性质,也才可能进行假设检验和区间估计。2.1.2 假定的两个方面:(1)关于变量和模型的基本假定n 是非随机的,或者虽然 是随机的,但是与 是不相关的;n 无
15、测量误差;n 变量和函数形式设定正确。假定的两个方面:(2)关于随机扰动项也称高斯假定、古典假定假定1 零均值:假定2 同方差:假定3 无自相关:假定4 随机扰动项 与 不相关。即:假定5 听从正态分布,即:留意:n正态性假定(5)不影响对参数的点估计,所以可不列入基本假定,且依据中心极限定理,当样本容量无穷大时,的分布趋近于正态分布。但此假定对确定所估计参数的分布性质是须要的,2.1.3 Y的分布性质n由于 ,所以 的分布性质就确定了 的分布性质。n对 的一些假定可以等价地表示为对 的假定:n零均值:n同方差:n无自相关:n正态性:2.2 一般最小二乘法(OLS)n基本思想n数学过程n估计结
16、果2.2.1 最小二乘法的基本思想n纵向距离是Y的实际值与拟合值之差,称为拟合误差或残差。差异大拟合不好,差异小拟合好。n残差可正可负,为克服加总时正负相消,将其平方后相加,得残差平方和,“最好”直线就是使误差平方和最小的直线。n于是求最好拟合直线问题转换为求残差平方和最小,可以运用求极值的原理求解。三种距离YX纵向距离横向距离距离A为实际点,B为拟合直线上与之对应的点SRF返回YX0*Y7Y9Min数学形式2.2.2 最小二乘法的数学过程n详见课本2.2.3 OLS估计结果的离差形式n离差形式:nOLS估计结果的离差形式:n(样本回来函数的离差形式:)2.2.4 几个有用的结果n可以用到以后
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 简单 线性 回归 优秀 PPT
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内