最小二乘法和线性回归及很好的总结讲稿.ppt
《最小二乘法和线性回归及很好的总结讲稿.ppt》由会员分享,可在线阅读,更多相关《最小二乘法和线性回归及很好的总结讲稿.ppt(92页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于最小二乘法和线性回归及很好的总结1第一页,讲稿共九十二页哦2第一节第一节 最小二乘法的基本属性最小二乘法的基本属性 一、有关回归的基本介绍 金融、经济变量之间的关系,大体上可以分为两种:(1)函数关系:Y=f(X1,X2,.,XP),其中Y的值是由Xi(i=1,2.p)所唯一确定的。(2)相关关系:Y=f(X1,X2,.,XP),这里Y的值不能由Xi(i=1,2.p)精确的唯一确定。第二页,讲稿共九十二页哦3图2-1 货币供应量和GDP散点图第三页,讲稿共九十二页哦4 图2-1表示的是我国货币供应量M2(y)与经过季节调整的GDP(x)之间的关系(数据为1995年第一季度到2004年第二季
2、度的季度数据)。第四页,讲稿共九十二页哦5 但有时候我们想知道当x变化一单位时,y平均变化多少,可以看到,由于图中所有的点都相对的集中在图中直线周围,因此我们可以以这条直线大致代表x与y之间的关系。如果我们能够确定这条直线,我们就可以用直线的斜率来表示当x变化一单位时y的变化程度,由图中的点确定线的过程就是回归。第五页,讲稿共九十二页哦6 对于变量间的相关关系,我们可以根据大量的统计资料,找出它们在数量变化方面的规律(即“平均”的规律),这种统计规律所揭示的关系就是回归关系(regressive relationship),所表示的数学方程就是回归方程(regression equation)
3、或回归模型(regression model)。第六页,讲稿共九十二页哦7 图2-1中的直线可表示为 (2.1)y=x 根据上式,在确定、的情况下,给定一个x值,我们就能够得到一个确定的y值,然而根据式(2.1)得到的y值与实际的y值存在一个误差(即图2-1中点到直线的距离)。第七页,讲稿共九十二页哦8 如果我们以表示误差,则方程(2.1)变为:y=ux 即:tttuxy其中t(=1,2,3,.,T)表示观测数。(2.2)(2.3)式(2.3)即为一个简单的双变量回归模型(因其仅具有两个变量x,y)的基本形式。第八页,讲稿共九十二页哦9 其中yt被称作因变量(dependent variabl
4、e)、被解释变量(explained variable)、结果变量(effect variable);xt被称作自变量(independent variable)、解释变量(explanatory variable)、原因变量(causal variable)第九页,讲稿共九十二页哦10、为参数(parameters),或称回归系数(regression coefficients);t通常被称为随机误差项(stochastic error term),或随机扰动项(random disturbance term),简称误差项,在回归模型中它是不确定的,服从随机分布(相应的,yt也是不确定的,服
5、从随机分布)。第十页,讲稿共九十二页哦11 为什么将t 包含在模型中?(1)有些变量是观测不到的或者是无法度量的,又或者影响因变量yt的因素太多;(2)在yt的度量过程中会发生偏误,这些偏误在模型中是表示不出来的;(3)外界随机因素对yt的影响也很难模型化,比如:恐怖事件、自然灾害、设备故障等。第十一页,讲稿共九十二页哦12 二、参数的最小二乘估计(一)方法介绍 本章所介绍的是普通最小二乘法(ordinary least squares,简记OLS);最小二乘法的基本原则是:最优拟合直线应该使各点到直线的距离的和最小,也可表述为距离的平方和最小。假定根据这一原理得到的、估计值为 、,则直线可表
6、示为 。ttyx第十二页,讲稿共九十二页哦13 直线上的yt值,记为 ,称为拟合值(fitted value),实际值与拟合值的差,记为 ,称为残差(residual),可以看作是随机误差项 的估计值。根据OLS的基本原则,使直线与各散点的距离的平方和最小,实际上是使残差平方和(residual sum of squares,简记RSS)最小,即最小化:tytutuT21ttuT21()tttyyT21()tttyx RSS=(2.4)第十三页,讲稿共九十二页哦14 根据最小化的一阶条件,将式2.4分别对、求偏导,并令其为零,即可求得结果如下:22xTxxyTyxtttyx(2.5)(2.6)
7、第十四页,讲稿共九十二页哦15(二)一些基本概念 1.总体(the population)和样本(the sample)总体是指待研究变量的所有数据集合,可以是有限的,也可以是无限的;而样本是总体的一个子集。2、总体回归方程(the population regression function,简记PRF),样本回归方程(the sample regression function,简记SRF)。第十五页,讲稿共九十二页哦16 总体回归方程(PRF)表示变量之间的真实关系,有时也被称为数据生成过程(DGP),PRF中的、值是真实值,方程为:ttxy+tu(2.7)样本回归方程(SRF)是根据所
8、选样本估算的变量之间的关系函数,方程为:注意:SRF中没有误差项,根据这一方程得到的是总体因变量的期望值txy(2.8)第十六页,讲稿共九十二页哦17于是方程(2.7)可以写为:(2.9)总体y值被分解为两部分:模型拟合值()和残差项()。y tutttyxu第十七页,讲稿共九十二页哦18 3.线性关系 对线性的第一种解释是指:y是x的线性函数,比如,y=。对线性的第二种解释是指:y是参数的一个线性函数,它可以不是变量x的线性函数。比如,y=就是一个线性回归模型,但 则不是。在本课程中,线性回归一词总是对指参数为线性的一种回归(即参数只以一次方出现),对解释变量x则可以是或不是线性的。x2xx
9、y第十八页,讲稿共九十二页哦19 有些模型看起来不是线性回归,但经过一些基本代数变换可以转换成线性回归模型。例如,tutteAxy (2.10)可以进行如下变换:tttuxAylnlnln(2.11)令 、,则方程(2.11)变为:ttyYln Aln ttxXlntttuXY(2.12)可以看到,模型2.12即为一线性模型。第十九页,讲稿共九十二页哦20 4.估计量(estimator)和估计值(estimate)估计量是指计算系数的方程;而估计值是指估计出来的系数的数值。第二十页,讲稿共九十二页哦21 三、最小二乘估计量的性质和分布(一)经典线性回归模型的基本假设(1),即残差具有零均值;
10、(2)var ,即残差具有常数方差,且对于所有x值是有限的;(3)cov ,即残差项之间在统计意义上是相互独立的;(4)cov ,即残差项与变量x无关;(5)tN ,即残差项服从正态分布0tE u2tu0,jiuu0,ttxu2,0第二十一页,讲稿共九十二页哦22(二)最小二乘估计量的性质 如果满足假设(1)(4),由最小二乘法得到的估计量 、具有一些特性,它们是最优线性无偏估计量(Best Linear Unbiased Estimators,简记BLUE)。第二十二页,讲稿共九十二页哦23 估计量(estimator):意味着 、是包含着真实、值的估计量;线性(linear):意味着 、与
11、随机变量y之间是线性函数关系;无偏(unbiased):意味着平均而言,实际得到的 、值与其真实值是一致的;最优(best):意味着在所有线性无偏估计量里,OLS估计量 具有最小方差。第二十三页,讲稿共九十二页哦24(三)OLS估计量的方差、标准差和其概率分布 1.OLS估计量的方差、标准差。给定假设(1)(4),估计量的标准差计算方程如下:22222xTxTxsxxTxsSEtttt 22211xTxsxxsSEtt22Tust其中,是残差的估计标准差。(2.21)(2.22)第二十四页,讲稿共九十二页哦25 参数估计量的标准差具有如下的性质:(1)样本容量T越大,参数估计值的标准差越小;(
12、2)和 都取决于s2。s2是残差的方差估计量。s2越大,残差的分布就越分散,这样模型的不确定性也就越大。如果s2很大,这意味着估计直线不能很好地拟合散点;SE SE第二十五页,讲稿共九十二页哦26(3)参数估计值的方差与 成反比。其值越小,散点越集中,这样就越难准确地估计拟合直线;相反,如果 越大,散点越分散,这样就可以容易地估计出拟合直线,并且可信度也大得多。比较图22就可以清楚地看到这点。2 xxt2 xxt第二十六页,讲稿共九十二页哦27图22 直线拟合和散点集中度的关系第二十七页,讲稿共九十二页哦28(4)项只影响截距的标准差,不影响斜率的标准差。理由是:衡量的是散点与y轴的距离。越大
13、,散点离y轴越远,就越难准确地估计出拟合直线与y轴的交点(即截距);反之,则相反。2tx2tx2tx第二十八页,讲稿共九十二页哦29 2OLS估计量的概率分布 给定假设条件(5),即 ,则 也服从正态分布 系数估计量也是服从正态分布的:tu2,0Nty var,N(2.30)var,N (2.31)第二十九页,讲稿共九十二页哦30 需要注意的是:如果残差不服从正态分布,即假设(5)不成立,但只要CLRM的其他假设条件还成立,且样本容量足够大,则通常认为系数估计量还是服从正态分布的。其标准正态分布为:1,0Nvar 1,0varN(2.32)(2.33)第三十页,讲稿共九十二页哦31 但是,总体
14、回归方程中的系数的真实标准差是得不到的,只能得到样本的系数标准差(、)。用样本的标准差去替代总体标准差会产生不确定性,并且 SE SE 、将不再服从正态分布,而服从自由度为T-2的t分布,其中T为样本容量 SE SE即:SE (2.34)SE2Tt2Tt (2.35)第三十一页,讲稿共九十二页哦323.正态分布和t分布的关系图2-3 正态分布和t分布形状比较第三十二页,讲稿共九十二页哦33 从图形上来看,t分布的尾比较厚,均值处的最大值小于正态分布。随着t分布自由度的增大,其对应临界值显著减小,当自由度趋向于无穷时,t分布就服从标准正态分布了。所以正态分布可以看作是t分布的一个特例。第三十三页
15、,讲稿共九十二页哦34第二节第二节 一元线性回归模型的统计检验一元线性回归模型的统计检验 一、拟合优度(goodness of fit statistics)检验 拟合优度可用R2 表示:模型所要解释的 是y相对于其均值的波动性,即 (总平方和,the total sum of squares,简记TSS),这一平方和可以分成两部分:2 yyt第三十四页,讲稿共九十二页哦35 =+(2.36)是被模型所解释的部分,称为回归平方和(the explained sum of squares,简记ESS);是不能被模型所解释的残差平方和(RSS),即 =2 yy2tu2tu2ttyy2 yyt2 y
16、yt2tu第三十五页,讲稿共九十二页哦36 TSS、ESS、RSS的关系以下图来表示更加直观一些:图24 TSS、ESS、RSS的关系第三十六页,讲稿共九十二页哦37 拟合优度 因为 TSS=ESS+RSS 所以 R2 (2.39)2RTSSESS (2.37)(2.38)TSSRSSTSSRSSTSSTSSESS1 1,02R R2越大,说明回归线拟合程度越好;R2越小,说明回归线拟合程度越差。由上可知,通过考察R2的大小,我们就能粗略地看出回归线的优劣。第三十七页,讲稿共九十二页哦38 但是,R2作为拟合优度的一个衡量标准也存在一些问题:(1)如果模型被重新组合,被解释变量发生了变化,那么
17、R2也将随之改变,因此具有不同被解释变量的模型之间是无法来比较R2的大小的。第三十八页,讲稿共九十二页哦39 (2)增加了一个解释变量以后,R2只会增大而不会减小,除非增加的那个解释变量之前的系数为零,但在通常情况下该系数是不为零的,因此只要增加解释变量,R2就会不断的增大,这样我们就无法判断出这些解释变量是否应该包含在模型中。(3)R2的值经常会很高,达到0.9或更高,所以我们无法判断模型之间到底孰优孰劣。第三十九页,讲稿共九十二页哦40 为了解决上面第二个问题,我们通常用调整过的R2来代替未调整过的R2。对R2进行调整主要是考虑到在引进一个解释变量时,会失去相应的自由度。调整过的R2用 来
18、表示,公式为:其中T为样本容量,K为自变量个数 2R22111RKTTR(2.40)第四十页,讲稿共九十二页哦41 二、假设检验 假设检验的基本任务是根据样本所提供的信息,对未知总体分布某些方面的假设做出合理解释 假设检验的程序是,先根据实际问题的要求提出一个论断,称为零假设(null hypothesis)或原假设,记为H0(一般并列的有一个备择假设(alternative hypothesis),记为H1)然后根据样本的有关信息,对H0的真伪进行判断,做出拒绝H0或不能拒绝H0的决策。第四十一页,讲稿共九十二页哦42 假设检验的基本思想是概率性质的反证法。概率性质的反证法的根据是小概率事件
19、原理。该原理认为“小概率事件在一次实验中几乎是不可能发生的”。在原假设H0下构造一个事件(即检验统计量),这个事件在“原假设H0是正确的”的条件下是一个小概率事件,如果该事件发生了,说明“原假设H0是正确的”是错误的,因为不应该出现的小概率事件出现了,应该拒绝原假设H0。第四十二页,讲稿共九十二页哦43 假设检验有两种方法:置信区间检验法(confidence interval approach)和显著性检验法(test of significance approach)。显著性检验法中最常用的是t检验和F检验,前者是对单个变量系数的显著性检验,后者是对多个变量系数的联合显著性检验。第四十三页
20、,讲稿共九十二页哦44(一)t检验 下面我们具体介绍对方程(2.3)的系数进行t检验的主要步骤。(1)用OLS方法回归方程(2.3),得到的估计值 及其标准差 。(2)假定我们建立的零假设是:,备则假设是 (这是一个双侧检验)。SE*0:H*1:H第四十四页,讲稿共九十二页哦45 则我们建立的统计量 服从自由度为T-2的t分布。*stat=SE(3)选择一个显著性水平(通常是5%),我们就可以在t分布中确定拒绝区域和非拒绝区域,如图2-5。如果选择显著性水平为5%,则表明有5%的分布将落在拒绝区域 第四十五页,讲稿共九十二页哦46 图2-5 双侧检验拒绝区域和非拒绝区域分布第四十六页,讲稿共九
21、十二页哦47(4)选定显著性水平后,我们就可以根据t分布表求得自由度为T-2的临界值,当检验统计值的绝对值大于临界值时,它就落在拒绝区域,因此我们拒绝的原假设,而接受备则假设。反之则相反。可以看到,t检验的基本原理是如果参数的假设值与估计值差别很大,就会导致小概率事件的发生,从而导致我们拒绝参数的假设值。第四十七页,讲稿共九十二页哦48(二)置信区间法 仍以方程2.3的系数为例,置信区间法的基本思想是建立围绕估计值 的一定的限制范围,推断总体参数是否在一定的置信度下落在此区间范围内。置信区间检验的主要步骤(所建立的零假设同 t检验)。第四十八页,讲稿共九十二页哦49(1)用OLS法回归方程(2
22、.3),得到的估计值 及其标准差 。(2)选择一个显著性水平(通常为5%),这相当于选择95%的置信度。查t分布表,获得自由度为T-2的临界值 。(3)所建立的置信区间为(,)(2.41)SEcrittcritt SEcritt SE第四十九页,讲稿共九十二页哦50(4)如果零假设值 落在置信区间外,我们就拒绝 的原假设;反之,则不能拒绝。需要注意的是,置信区间检验都是双侧检验,尽管在理论上建立单侧检验也是可行的。*0:H第五十页,讲稿共九十二页哦51(三)t检验与置信区间检验的关系 在显著性检验法下,当 的绝对值小于临界值时,即:(2.42)时,我们不能拒绝原假设。对式(2.41)变形,我们
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最小二乘法 线性 回归 很好 总结 讲稿
限制150内