《第二章简单线性回归.优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第二章简单线性回归.优秀PPT.ppt(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、其次章(下部分)一元线性回来模型的统计检验v第三节第三节 拟合优度检验拟合优度检验v第四节第四节 变量的显著性检验变量的显著性检验v第五节第五节 预料预料v第六节第六节 案例分析案例分析v小结小结v回来分析是要通过样本所估计的参数来回来分析是要通过样本所估计的参数来代替总体的真实参数。代替总体的真实参数。尽管从统计性质上已知,假如有足够多的重复 抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不确定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就须要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验。up 用用最最小小二二乘
2、乘法法得得到到的的回回来来直直线线至至少少从从残残差差平平方方和和为为最最小小这这一一意意义义上上来来说说是是全全部部可可能能直直线线中中最最佳佳的的拟拟合合线线。它它是是对对Y Y和和X X之之间间关关系系的的一一种种描描述述,但但该该直直线线是是不不是是Y Y和和X X之之间间关关系系的的一一种种恰恰当当的的描描述述呢呢?假假如如各各观观测测点点紧紧密密地地聚聚集集在在这这条条直直线线的的四四周周,则则表表明明该该直直线线对对Y Y和和X X之之间间关关系系的的描描述述是是好好的的;否否则则,用用直直线线来来描描述述这这两两个个变变量量之之间间的的关关系系就就未未必必恰恰当当,如如下下图所
3、示:图所示:(a)恰当描述)恰当描述 (b)不恰当描述)不恰当描述问问题题是是该该直直线线能能否否较较好好地地拟拟合合所所给给定定的的观观测测值值,这就是拟合优度问题。这就是拟合优度问题。up第一节第一节 拟合优度检验拟合优度检验 拟合优度检验含义拟合优度检验含义:是检验模型对是检验模型对样本观测值的拟合程度。样本观测值的拟合程度。一一、总离差平方和的分解、总离差平方和的分解二二、拟合优度的测度、拟合优度的测度三三、习题、习题up一、总离差平方和的分解一、总离差平方和的分解 已知由一组样本观测值(Xi,Yi),i=1,2,n得到如下样本回来直线 假如假如Yi=Yi=i i 即实际观测值落在样本
4、回来即实际观测值落在样本回来“线线”上,则拟合最好。可认为,上,则拟合最好。可认为,“离差离差”全部来自全部来自回来线,而与回来线,而与“残差残差”无关。无关。对于全部样本点,则需考虑这些点与样本均值离差的平方和,可以证明:记总体平方和总体平方和(Total Sum of Squares)回来平方和(回来平方和(Explained Explained Sum of SquaresSum of Squares)残差平方和(残差平方和(Residual Sum of Squares)vTSS TSS 反映因变量反映因变量n n个观测值与其均值的总离个观测值与其均值的总离差差vESS ESS 反映自
5、变量反映自变量X X的变更对因变量的变更对因变量Y Y取值变更取值变更的影响,或者说由于的影响,或者说由于X X和和Y Y线性关系引起线性关系引起Y Y取值取值的变更的变更vRSSRSS反映反映X X以外的因素对以外的因素对Y Y取值的影响取值的影响在给定样本中,在给定样本中,TSSTSS不变,不变,假照实际观测点离样本回来线越近,假照实际观测点离样本回来线越近,则则ESSESS在在TSSTSS中占的比重越大,因此中占的比重越大,因此 拟合优度:回来平方和拟合优度:回来平方和ESS/YESS/Y的总离差的总离差TSSTSSup1 1、可决系数、可决系数R2R2 可可决决系系数数是是反反映映估估
6、计计的的回回来来曲曲线线对对观观测测的的数数据据的说明实力或者说是反映两者拟合优度的尺度。的说明实力或者说是反映两者拟合优度的尺度。我我们们将将两两端端都都除除以以总总离离差差平平方方和和 ,得:,得:二、拟合优度的测度二、拟合优度的测度用符号表示为:用符号表示为:可决系数可决系数的取值范围取值范围:0,1 R2越接近越接近1,说明实际观测点离样本线越近,拟,说明实际观测点离样本线越近,拟合优度越高合优度越高。R2=1:完全拟合,:完全拟合,R2=0:X与与Y完全完全不存在线性关系不存在线性关系课本例题P42Eviews操作结果操作结果VariableVariableCoefficientCo
7、efficientStd.ErrorStd.Errort-Statistict-StatisticProb.Prob.C C299.115299.11556.60456.6045.2843095.2843090.00070.0007X X0.613480.613480.01260.012648.6202648.620260.00000.0000R-squaredR-squared0.9966270.996627 Mean dependent varMean dependent var2906.402906.40Adjusted R-squaredAdjusted R-squared0.9962
8、060.996206 S.D.dependent varS.D.dependent var930.270930.270S.E.of regressionS.E.of regression57.3032557.30325 Akaike info criterionAkaike info criterion11.11111.111Sum squared residSum squared resid26269.3026269.30 Schwarz criterionSchwarz criterion11.17211.172Log likelihoodLog likelihood-53.5572-53
9、.5572 F-statisticF-statistic2363.932363.93Durbin-Watson statDurbin-Watson stat2.3813592.381359 Prob(F-statistic)Prob(F-statistic)0.0000.000作用:可决系数越大,说明在总变差中由模型作出作用:可决系数越大,说明在总变差中由模型作出了说明的部分占的比重越大,模型拟合优度越好。了说明的部分占的比重越大,模型拟合优度越好。反之可决系数小,说明模型对样本观测值的拟合反之可决系数小,说明模型对样本观测值的拟合程度越差。程度越差。特点:特点:可决系数取值范围:可决系数取值
10、范围:随抽样波动,样本可决系数随抽样波动,样本可决系数 是随抽样是随抽样 而变动的随机变量而变动的随机变量 可决系数是非负的统计可决系数是非负的统计可决系数的作用和特点可决系数的作用和特点可决系数与相关系数的关系可决系数与相关系数的关系(1)联系)联系 数值上,可决系数等于应变量与说明变量数值上,可决系数等于应变量与说明变量之间简洁相关系数的平方之间简洁相关系数的平方:可决系数与相关系数的关系可决系数与相关系数的关系可决系数可决系数相关系数相关系数就模型而言就模型而言就两个变量而言就两个变量而言说明解释变量对应变量说明解释变量对应变量的解释程度的解释程度度量两个变量线性依存度量两个变量线性依存
11、程度。程度。度量不对称的因果关系度量不对称的因果关系度量不含因果关系的对度量不含因果关系的对称相关关系称相关关系取值:取值:0,1取值:取值:1,1(2)区分)区分up思 考v可决系数,相关系数,回来系数之间的关联可决系数,相关系数,回来系数之间的关联练练 习习1 1、各实际观测值与回来值的差的平方和称为、各实际观测值与回来值的差的平方和称为A.A.总变差平方和总变差平方和 B.B.残差平方和残差平方和 C.C.回来平方和回来平方和 D.D.确定系数确定系数2 2、总体平方和、总体平方和TSSTSS、残差平方和、残差平方和RSSRSS与回来平方与回来平方和和ESSESS三者的关系是()。三者的
12、关系是()。A.RSS=TSS+ESS A.RSS=TSS+ESS B.TSS=RSS+ESS B.TSS=RSS+ESS C.ESS=RSS-TSS C.ESS=RSS-TSS D.ESS=TSS+RSSD.ESS=TSS+RSS3 3、下面哪一个必定是错误的()。、下面哪一个必定是错误的()。A C.D.B4、在一元线性回来模型中,假如相关系数、在一元线性回来模型中,假如相关系数r=0.8,说,说明回来直线能说明被说明变量总变差的明回来直线能说明被说明变量总变差的()A.80%B.64%C.20%D.89%up解答:第四节第四节变量的显著性检验变量的显著性检验-t-t检验检验v如例如例2.
13、2中关于消费支出(中关于消费支出(Y,元)与可,元)与可支配收入(支配收入(X,元)的分析,依据,元)的分析,依据10个观个观测资料所得的样本回来方程:测资料所得的样本回来方程:v 可以知道:可支配收入每增加可以知道:可支配收入每增加1元,消元,消费支出将增加费支出将增加0.61元。这说明:消费支元。这说明:消费支出是随着可支配收入的提高而增加的。出是随着可支配收入的提高而增加的。vR2=0.996627,拟合程度较高,拟合程度较高up在一元线性模型中,要推断在一元线性模型中,要推断X X是否对是否对Y Y具有显著具有显著的线性性影响,这就须要进行变量的显著性的线性性影响,这就须要进行变量的显
14、著性检验。检验。变量的显著性检验所应用的方法是统计学中的变量的显著性检验所应用的方法是统计学中的假设检验。假设检验。计量经计学中,主要是针对变量的参数真计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的。值是否为零来进行显著性检验的。一、显著性检验的原理:假设检验v基本原则基本原则小概率事务在一次试验小概率事务在一次试验中是不行能发生的。中是不行能发生的。v例如,有一个厂商声称,他的产品的合格例如,有一个厂商声称,他的产品的合格品率很高,可以达到品率很高,可以达到99%99%,那么从一批产,那么从一批产品(譬如品(譬如100100件)中随机抽取一件,这一件)中随机抽取一件,这一件
15、恰恰是次品的概率就特别小,只有件恰恰是次品的概率就特别小,只有1%1%。假如厂商的宣扬是真的,随机抽取一件是假如厂商的宣扬是真的,随机抽取一件是次品的状况就几乎是不行能发生的。但假次品的状况就几乎是不行能发生的。但假如这种状况的确发生了,就有理由怀疑原如这种状况的确发生了,就有理由怀疑原来的假设,即产品中只有来的假设,即产品中只有1%1%的次品的假设的次品的假设是否成立,这时就有理由推翻原来的假设,是否成立,这时就有理由推翻原来的假设,可以做出厂商的宣扬是假的这样一个推断。可以做出厂商的宣扬是假的这样一个推断。小概率事务的含义:小概率事务的含义:我们从上图看到,正态总体在我们从上图看到,正态总
16、体在 以外取值的概率只有以外取值的概率只有4.6,在,在 以外以外取值的概率只有取值的概率只有0.3。由于这些概率值很小(一般不超过由于这些概率值很小(一般不超过5),通常称这些状况发生为小概率事务。),通常称这些状况发生为小概率事务。即事务在一次试验中几乎不行能发生。即事务在一次试验中几乎不行能发生。关于关于“小概率小概率”的值通常依据实际问题的要的值通常依据实际问题的要求而定求而定,如取如取=0.1,0.05,0.01=0.1,0.05,0.01等等,为检验的显著性水平为检验的显著性水平.描写小概率事务的统计量的取值范围称为该原描写小概率事务的统计量的取值范围称为该原假设的否定域假设的否定
17、域(拒绝域拒绝域)否定域的边界称为该假设检验的临界值否定域的边界称为该假设检验的临界值.H H0 0值值值值临界值临界值临界值临界值临界值临界值临界值临界值/2 /2/2 拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域1-1-如图所示如图所示基本步骤基本步骤 1 1、提出原假设提出原假设,确定备择假设;,确定备择假设;原假设为正待检验的假设:原假设为正待检验的假设:H H0 0;备择假设为可供选择的假设:备择假设为可供选择的假设:H H1 12、构造分布已知的合适的统计量;构造分布已知的合适的统计量;u u 检验检验t t 检验检验F F检验检验 常用常用统计量统计量回顾:t-分布与F-分布
18、4 4、计算统计量的样本观测值,假如落在拒绝、计算统计量的样本观测值,假如落在拒绝域内,则拒绝原假设,否则,接受原假设。域内,则拒绝原假设,否则,接受原假设。3 3、由给定的检验水平由给定的检验水平,求出求出在在H H0 0成立的条成立的条件下的件下的临界值临界值;临界值临界值临界值临界值临界值临界值临界值临界值/2 /2/2 拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域接受域接受域接受域接受域1-1-置信水平置信水平置信水平置信水平如图所示如图所示up 在在假假设设检检验验中中,有有关关是是否否为为0 0 的的假假设设检检验验特特殊殊重重要要。假假如如通通过过检检验验,接接受受=0=0的
19、的原原假假设设,则则表表明明X X和和Y Y没没有有关关系系,即即X X对对Y Y的的变变动动没没有有影影响响。在在这这种种状状况况下下,就就应应从从模模型型中中剔除剔除X X,找寻其他说明变量。,找寻其他说明变量。这类检验称为系数的显著性检验。这类检验称为系数的显著性检验。二、系数的显著性检验二、系数的显著性检验UP回来系数的显著性检验步骤1.提出假设H0:2=0(没有线性关系)H1:2 0(有线性关系)2.计算检验的统计量3.确定显著性水平确定显著性水平,课本例题课本例题Eviews操作结果操作结果 T T统计量统计量VariableVariableCoefficientCoefficie
20、ntStd.ErrorStd.Errort-Statistict-StatisticProb.Prob.C C299.115299.11556.60456.6045.2843095.2843090.00070.0007X X0.613480.613480.01260.012648.6202648.620260.00000.0000R-squaredR-squared0.9966270.996627 Mean dependent varMean dependent var2906.402906.40Adjusted R-squaredAdjusted R-squared0.9962060.996
21、206 S.D.dependent varS.D.dependent var930.270930.270S.E.of regressionS.E.of regression57.3032557.30325 Akaike info criterionAkaike info criterion11.11111.111Sum squared residSum squared resid26269.3026269.30 Schwarz criterionSchwarz criterion11.17211.172Log likelihoodLog likelihood-53.5572-53.5572 F
22、-statisticF-statistic2363.932363.93Durbin-Watson statDurbin-Watson stat2.3813592.381359 Prob(F-statistic)Prob(F-statistic)0.0000.000练 习v一元回来模型v Y=14.107 +1.224Xv 标准差(1.863)(0.061)v R2=0.9760 n=12v按5%的显著水平,对回来系数进行显著性检验?v例子:例子:假设李先生消费函数可用模型假设李先生消费函数可用模型v 表示,其中表示,其中 表示李先表示李先生第生第i期的消费,期的消费,表示李先生第表示李先生第i
23、期的收入。期的收入。依据李先生依据李先生19个月的观测资料进行回来分析个月的观测资料进行回来分析得到下例结果:得到下例结果:(3.1)(18.7)括号里的数字表示相应参数的括号里的数字表示相应参数的t值,请回答以下问题:值,请回答以下问题:(1)利用)利用t值进行假设检验:值进行假设检验:(取显著水平为(取显著水平为5%)(2)确定参数估计量的标准误差;)确定参数估计量的标准误差;v解:(1)因t统计量:v自由度为17(=19-2)且显著性水平为5%的t统计量的临界值为2.11,所以v这就是说假如统计量t的值落在以 为中心的其概率v度为15%的区间之外。所以依据样本和5%的显著性水v平推断回来
24、系数 显著;同样回来系数 显著。v(2)依据 ,v得 的标准误差为:v依据 ,v得 的标准误差为 例子2v依据美国1970-1983年的数据,得到下面的回来结果:其中其中GDP是国内生产总值(单位是亿美元),是国内生产总值(单位是亿美元),M1是是货币供应(单位为百万美元)。货币供应(单位为百万美元)。(a)填充括号内缺省的参数;()填充括号内缺省的参数;(b)货币学家认为:)货币学家认为:货币供应对货币供应对GDP有显著的影响,你如何检验这个假设有显著的影响,你如何检验这个假设?t t值及显著性推断的实际运用值及显著性推断的实际运用v1 1、t t值具有选择说明变量的作用。值具有选择说明变量
25、的作用。v2 2、常数项的、常数项的t t值,除非在经济理论上具有值,除非在经济理论上具有重要意义或者在进行经济预料时,一般地,重要意义或者在进行经济预料时,一般地,即使不显著,也没有必要在意。即使不显著,也没有必要在意。v3 3、样本个数、样本个数n n假如大到确定程度假如大到确定程度(n30)(n30),t t值只要大于值只要大于2.02.0,计量经济学家们就习惯于将,计量经济学家们就习惯于将回来系数判定为显著。这是因为,通常在利回来系数判定为显著。这是因为,通常在利用用5%5%的显著水平的显著水平(双侧检验双侧检验),假如自由度在,假如自由度在2828以上以上(即一元回来的即一元回来的n
26、30)n30),则将小数其次,则将小数其次位四舍五入,位四舍五入,t t全部等于全部等于2.0(2.0(即使自由度即使自由度=时,时,1.962.0)1.962.0)。当待验回来系数特别多时,。当待验回来系数特别多时,利用这种方法比较便利,不用特意去查利用这种方法比较便利,不用特意去查t t分布分布表。表。v但是,假如样本数很小,即使判定值在但是,假如样本数很小,即使判定值在2.02.0以以上,也不要运用这一规则。上,也不要运用这一规则。up第五节第五节 预预 测测v当回来方程完成了参数估计和显当回来方程完成了参数估计和显著性检验之后,假如结果志向著性检验之后,假如结果志向(拟合得较好,且系数
27、估计值符(拟合得较好,且系数估计值符合经济理论和常识),我们就可合经济理论和常识),我们就可以利用回来方程进行预料。以利用回来方程进行预料。v对因变量对因变量Y Y的预料通常有两种:的预料通常有两种:点预料和区间预料点预料和区间预料up 一、回来分析结果的报告一、回来分析结果的报告 经经过过模模型型的的估估计计、检检验验,得得到到一一系系列列重重要要的的数数据据,为为了了简简明明、清清晰晰、规规范范地地表表述述这这些些数数据据,计量经济学通常接受以下规范化的方式:计量经济学通常接受以下规范化的方式:例如:回来结果为例如:回来结果为 =299.11 +061348 (56.6044)(0.012
28、618)标标准准误误差差SE t=(5.2843)(48.6194)t 统计量统计量 =0.996627 df=8 可可决决系系数数和和自由度自由度 up 二、点预料例题 假定样本回来函数为:求Xf=1000时 的预料值f在 Xf=1000处,f=-103.172+0.7771000=673.84 严格地说,这只是被说明变量的预料值的估计值,而不是预料值。缘由:(1)参数估计量不确定;(2)随机项的影响说说 明明up三、区间预料由于随机因素的影响,模型中的参数估计量是由于随机因素的影响,模型中的参数估计量是不确定的。不确定的。所以,我们得到的仅能是预料值的一个估计值,所以,我们得到的仅能是预料
29、值的一个估计值,预料值仅以某一个置信水平处于以该估计值预料值仅以某一个置信水平处于以该估计值为中心的一个区间中。为中心的一个区间中。区间预料是在确定置信概率的保证下,通过考区间预料是在确定置信概率的保证下,通过考察预料误差的范围,进而确定真实值察预料误差的范围,进而确定真实值Yf可能可能被哪个区间范围所包含。被哪个区间范围所包含。v预料误差:v YfYf表示实际的预料值表示实际的预料值 是一随机变量,可以证明是一随机变量,可以证明v构造构造t t统计量统计量vef ef 听从正态分布,可利用它的听从正态分布,可利用它的性质构造统计量性质构造统计量构建个别值的预料区间构建个别值的预料区间给定显著
30、性水平,预料区间上下限为给定显著性水平,预料区间上下限为 即即15.24至至21.76如何缩小置信区间如何缩小置信区间v增大样本容量增大样本容量n n,因为在同样的样本,因为在同样的样本容量下,容量下,n n越大,越大,t t分布表中的临界分布表中的临界值越小,同时,增大样本容量,还值越小,同时,增大样本容量,还可使随机误差项的标准差减小;可使随机误差项的标准差减小;v提高模型的拟合优度提高模型的拟合优度,模型优度越,模型优度越高,残差平方和应越小。高,残差平方和应越小。第六节第六节 案例分析案例分析 提出问题:改革开放以来随着中国经济的快速发展,居民的消费水平也不断增长。但全国各地区经济发展
31、速度不同,居民消费水平也有明显差异。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去探讨。探讨范围:全国19782007年人均消费水平和人均GDP的时间序列。理论分析:影响各地区城市居民人均消费支出理论分析:影响各地区城市居民人均消费支出的因素有多种,但从理论和阅历分析,最主要的因素有多种,但从理论和阅历分析,最主要的影响因素应是居民收入。从理论上说可支配的影响因素应是居民收入。从理论上说可支配收入越高,居民消费越多,但边际消费倾向大收入越高,居民消费越多,但边际消费倾向大于于0,小于,小于1。建立模型:建立模型:其中
32、:其中:Y城市居民家庭平均每人每年消费支城市居民家庭平均每人每年消费支出出(元元)X城市居民人均年可支配收入城市居民人均年可支配收入(元元)一、参数估计在主页上选Quick菜单,点击Estimate Equation项,屏幕出现估计对话框(Equation Specification),在Estimation Settings中选OLS估计,即Least Squares,键入Y C X 或 Y X C(C为Eviews固定的截距项系数)。然后OK,即显示估计结果 估计参数估计参数具体操作:运用EViews 软件包。估计结果:假定模型中随机扰动满足基本假定,可用假定模型中随机扰动满足基本假定,可
33、用OLS法。法。表示为表示为 1.可决系数:模型整体上拟合好。即用人均可支配说如说明消费型支出变更效果很好。2.系数显著性检验:给定 ,查 t 分布表,在自由度为n-2=28时临界值为 因为 t=49.90815 说明“城镇人均可支配收入”对“城镇人均消费支出”有显著 影响。模型检验模型检验 3.3.经济意义检验:经济意义检验:估计的说明变量的系数为估计的说明变量的系数为0.386430.38643,说明城镇居,说明城镇居民人均可支配收入每增加民人均可支配收入每增加1 1元,人均年消费支出元,人均年消费支出平均将增加平均将增加0.386430.38643元。这符合经济理论对边际元。这符合经济理
34、论对边际消费倾向的界定。消费倾向的界定。回来预料操作1。点预料v1给定说明变量的预料值 X2008=22001(元),v2、预料 的值:先将Range从19782007扩展为19782008。再将X2008=22001输入变量X中,在Equation对话框里选Forecast,将时间Sample定义在19782008,按OK,这时Eviews自动计算出平均值区间预测上下限平均值区间预测上下限:区间预测区间预测 即是说即是说:平均平均值值置信度置信度95%的的预测预测区区间为间为(6393.03,6717.23)元)元。平均平均值值置信度置信度95%的的预测预测区区间为间为(9292.33,10
35、090.83)元)元。个别值区间预测(略)个别值区间预测(略)up小结小结v1.相关分析与回来分析;相关分析与回来分析;v2.总体回来函数含义;总体回来函数含义;v 样本回来函数;样本回来函数;v3、最小二乘法、最小二乘法(含义,基本思想含义,基本思想)v估计量表达式估计量表达式要求会计算参数估计值、要求会计算参数估计值、Y的估计值、残差的估计值、残差4、回来线性质、回来线性质 5、基本假定、基本假定6、最小二乘估计式性质、最小二乘估计式性质 (线性性、(线性性、无偏性、最小方差性。各自的含义)无偏性、最小方差性。各自的含义)=统计检验统计检验 学问点学问点1、拟合优度(可决系数)的含义、公式拟合优度(可决系数)的含义、公式 总离差平方和的分解总离差平方和的分解;TSS=RSS+ESS 自由度分别是?自由度分别是?2.2.相关系数相关系数 r r与可决系数的关系与可决系数的关系 R R2 2=(r r2 2)2 2、t t检验检验计算过程计算过程提出假设提出假设H0:b b2=0 H1:b b2 0 计算检验的统计量计算检验的统计量确定显著性水平确定显著性水平,并进行决策,并进行决策 t t,拒绝,拒绝H0;t t,接受,接受H0
限制150内