最小二乘法和线性回归省公共课一等奖全国赛课获奖课件.pptx
《最小二乘法和线性回归省公共课一等奖全国赛课获奖课件.pptx》由会员分享,可在线阅读,更多相关《最小二乘法和线性回归省公共课一等奖全国赛课获奖课件.pptx(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章第二章 最小二乘法(最小二乘法(OLS)和线性回归模型和线性回归模型1第1页本章关键点最小二乘法基本原理和计算方法经典线性回归模型基本假定BLUE统计量性质t检验和置信区间检验原理及步骤多变量模型回归系数F检验预测类型及评判预测标准好模型含有特征2第2页第一节第一节 最小二乘法基本属性最小二乘法基本属性一、相关回归基本介绍 金融、经济变量之间关系,大致上能够分为两种:(1)函数关系:Y=f(X1,X2,.,XP),其中Y值是由Xi(i=1,2.p)所唯一确定。(2)相关关系:Y=f(X1,X2,.,XP),这里Y值不能由Xi(i=1,2.p)准确唯一确定。3第3页图2-1 货币供给量和G
2、DP散点图4第4页图2-1表示是我国货币供给量M2(y)与经过季节调整GDP(x)之间关系(数据为1995年第一季度到第二季度季度数据)。5第5页但有时候我们想知道当x改变一单位时,y平均改变多少,能够看到,因为图中全部点都相正确集中在图中直线周围,所以我们能够以这条直线大致代表x与y之间关系。假如我们能够确定这条直线,我们就能够用直线斜率来表示当x改变一单位时y改变程度,由图中点确定线过程就是回归。6第6页对于变量间相关关系,我们能够依据大量统计资料,找出它们在数量改变方面规律(即“平均”规律),这种统计规律所揭示关系就是回归关系(regressive relationship),所表示数学
3、方程就是回归方程(regression equation)或回归模型(regression model)。7第7页图2-1中直线可表示为 (2.1)依据上式,在确定、情况下,给定一个x值,我们就能够得到一个确定y值,然而依据式(2.1)得到y值与实际y值存在一个误差(即图2-1中点到直线距离)。8第8页假如我们以表示误差,则方程(2.1)变为:即:其中t(=1,2,3,.,T)表示观察数。(2.2)(2.3)式(2.3)即为一个简单双变量回归模型(因其仅含有两个变量x,y)基本形式。9第9页其中yt被称作因变量(dependent variable)、被解释变量(explained varia
4、ble)、结果变量(effect variable);xt被称作自变量(independent variable)、解释变量(explanatory variable)、原因变量(causal variable)10第10页、为参数(parameters),或称回归系数(regression coefficients);t通常被称为随机误差项(stochastic error term),或随机扰动项(random disturbance term),简称误差项,在回归模型中它是不确定,服从随机分布(对应,yt也是不确定,服从随机分布)。11第11页为何将t 包含在模型中?(1)有些变量是观察
5、不到或者是无法度量,又或者影响因变量yt原因太多;(2)在yt度量过程中会发生偏误,这些偏误在模型中是表示不出来;(3)外界随机原因对yt影响也极难模型化,比如:恐怖事件、自然灾害、设备故障等。12第12页二、参数最小二乘预计(一)方法介绍本章所介绍是普通最小二乘法(ordinary least squares,简记OLS);最小二乘法基本标准是:最优拟合直线应该使各点到直线距离和最小,也可表述为距离平方和最小。假定依据这一原理得到、预计值为 、,则直线可表示为 。13第13页直线上yt值,记为 ,称为拟合值(fitted value),实际值与拟合值差,记为 ,称为残差(residual),
6、能够看作是随机误差项 预计值。依据OLS基本标准,使直线与各散点距离平方和最小,实际上是使残差平方和(residual sum of squares,简记RSS)最小,即最小化:RSS=(2.4)14第14页依据最小化一阶条件,将式2.4分别对、求偏导,并令其为零,即可求得结果以下:(2.5)(2.6)15第15页(二)一些基本概念1.总体(the population)和样本(the sample)总体是指待研究变量全部数据集合,能够是有限,也能够是无限;而样本是总体一个子集。2、总体回归方程(the population regression function,简记PRF),样本回归方程(
7、the sample regression function,简记SRF)。16第16页总体回归方程(PRF)表示变量之间真实关系,有时也被称为数据生成过程(DGP),PRF中、值是真实值,方程为:+(2.7)样本回归方程(SRF)是依据所选样本估算变量之间关系函数,方程为:注意:SRF中没有误差项,依据这一方程得到是总体因变量期望值(2.8)17第17页于是方程(2.7)能够写为:(2.9)总体y值被分解为两部分:模型拟合值()和残差项()。18第18页3.线性关系对线性第一个解释是指:y是x线性函数,比如,y=。对线性第二种解释是指:y是参数一个线性函数,它能够不是变量x线性函数。比如,y
8、=就是一个线性回归模型,但 则不是。在本课程中,线性回归一词总是对指参数为线性一个回归(即参数只以一次方出现),对解释变量x则能够是或不是线性。19第19页有些模型看起来不是线性回归,但经过一些基本代数变换能够转换成线性回归模型。比如,(2.10)能够进行以下变换:(2.11)令 、,则方程(2.11)变为:(2.12)能够看到,模型2.12即为一线性模型。20第20页4.预计量(estimator)和预计值(estimate)预计量是指计算系数方程;而预计值是指预计出来系数数值。21第21页三、最小二乘预计量性质和分布(一)经典线性回归模型基本假设(1),即残差含有零均值;(2)var ,即
9、残差含有常数方差,且对于全部x值是有限;(3)cov ,即残差项之间在统计意义上是相互独立;(4)cov ,即残差项与变量x无关;(5)tN ,即残差项服从正态分布22第22页(二)最小二乘预计量性质假如满足假设(1)(4),由最小二乘法得到预计量 、含有一些特征,它们是最优线性无偏预计量(Best Linear Unbiased Estimators,简记BLUE)。23第23页预计量(estimator):意味着 、是包含着真实、值预计量;线性(linear):意味着 、与随机变量y之间是线性函数关系;无偏(unbiased):意味着平均而言,实际得到 、值与其真实值是一致;最优(best
10、):意味着在全部线性无偏预计量里,OLS预计量 含有最小方差。24第24页(三)OLS预计量方差、标准差和其概率分布1.OLS预计量方差、标准差。给定假设(1)(4),预计量标准差计算方程以下:其中,是残差预计标准差。(2.21)(2.22)25第25页参数预计量标准差含有以下性质:(1)样本容量T越大,参数预计值标准差越小;(2)和 都取决于s2。s2是残差方差预计量。s2越大,残差分布就越分散,这么模型不确定性也就越大。假如s2很大,这意味着预计直线不能很好地拟合散点;26第26页(3)参数预计值方差与 成反比。其值越小,散点越集中,这么就越难准确地预计拟合直线;相反,假如 越大,散点越分
11、散,这么就能够轻易地预计出拟合直线,而且可信度也大得多。比较图22就能够清楚地看到这点。27第27页图22 直线拟合和散点集中度关系28第28页(4)项只影响截距标准差,不影响斜率标准差。理由是:衡量是散点与y轴距离。越大,散点离y轴越远,就越难准确地预计出拟合直线与y轴交点(即截距);反之,则相反。29第29页2OLS预计量概率分布给定假设条件(5),即 ,则 也服从正态分布系数预计量也是服从正态分布:(2.30)(2.31)30第30页需要注意是:假如残差不服从正态分布,即假设(5)不成立,但只要CLRM其它假设条件还成立,且样本容量足够大,则通常认为系数预计量还是服从正态分布。其标准正态
12、分布为:(2.32)(2.33)31第31页不过,总体回归方程中系数真实标准差是得不到,只能得到样本系数标准差(、)。用样本标准差去替换总体标准差会产生不确定性,而且 、将不再服从正态分布,而服从自由度为T-2t分布,其中T为样本容量 即:(2.34)(2.35)32第32页3.正态分布和t分布关系图2-3 正态分布和t分布形状比较33第33页 从图形上来看,t分布尾比较厚,均值处最大值小于正态分布。伴随t分布自由度增大,其对应临界值显著减小,当自由度趋向于无穷时,t分布就服从标准正态分布了。所以正态分布能够看作是t分布一个特例。34第34页第二节第二节 一元线性回归模型统计检验一元线性回归模
13、型统计检验 一、拟合优度(goodness of fit statistics)检验 拟合优度可用R2 表示:模型所要解释 是y相对于其均值波动性,即 (总平方和,the total sum of squares,简记TSS),这一平方和能够分成两部分:35第35页 =+(2.36)是被模型所解释部分,称为回归平方和(the explained sum of squares,简记ESS);是不能被模型所解释残差平方和(RSS),即 =36第36页TSS、ESS、RSS关系以下列图来表示愈加直观一些:图24 TSS、ESS、RSS关系37第37页拟合优度 因为 TSS=ESS+RSS所以 R2
14、(2.39)(2.37)(2.38)R2越大,说明回归线拟合程度越好;R2越小,说明回归线拟合程度越差。由上可知,经过考查R2大小,我们就能粗略地看出回归线优劣。38第38页不过,R2作为拟合优度一个衡量标准也存在一些问题:(1)假如模型被重新组合,被解释变量发生了改变,那么R2也将随之改变,所以含有不一样被解释变量模型之间是无法来比较R2大小。39第39页 (2)增加了一个解释变量以后,R2只会增大而不会减小,除非增加那个解释变量之前系数为零,但在通常情况下该系数是不为零,所以只要增加解释变量,R2就会不停增大,这么我们就无法判断出这些解释变量是否应该包含在模型中。(3)R2值经常会很高,到
15、达0.9或更高,所以我们无法判断模型之间到底孰优孰劣。40第40页为了处理上面第二个问题,我们通惯用调整过R2来代替未调整过R2。对R2进行调整主要是考虑到在引进一个解释变量时,会失去对应自由度。调整过R2用 来表示,公式为:其中T为样本容量,K为自变量个数(2.40)41第41页二、假设检验假设检验基本任务是依据样本所提供信息,对未知总体分布一些方面假设做出合了解释假设检验程序是,先依据实际问题要求提出一个论断,称为零假设(null hypothesis)或原假设,记为H0(普通并列有一个备择假设(alternative hypothesis),记为H1)然后依据样本相关信息,对H0真伪进行
16、判断,做出拒绝H0或不能拒绝H0决议。42第42页假设检验基本思想是概率性质反证法。概率性质反证法依据是小概率事件原理。该原理认为“小概率事件在一次试验中几乎是不可能发生”。在原假设H0下结构一个事件(即检验统计量),这个事件在“原假设H0是正确”条件下是一个小概率事件,假如该事件发生了,说明“原假设H0是正确”是错误,因为不应该出现小概率事件出现了,应该拒绝原假设H0。43第43页假设检验有两种方法:置信区间检验法(confidence interval approach)和显著性检验法(test of significance approach)。显著性检验法中最惯用是t检验和F检验,前者
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最小二乘法 线性 回归 公共课 一等奖 全国 获奖 课件
限制150内