第二章简单线性回归(下)..ppt





《第二章简单线性回归(下)..ppt》由会员分享,可在线阅读,更多相关《第二章简单线性回归(下)..ppt(73页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章(下部分)一元线性回归模型的统计检验v第三节第三节 拟合优度检验拟合优度检验v第四节第四节 变量的显著性检验变量的显著性检验v第五节第五节 预测预测v第六节第六节 案例分析案例分析v小结小结v回归分析是要通过样本所估计的参数来回归分析是要通过样本所估计的参数来代替总体的真实参数。代替总体的真实参数。尽管从尽管从统计性质统计性质上已知,如果有足够多的上已知,如果有足够多的重复重复 抽样,参数的估计值的期望(均值)抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。中,估计值不一定就等于该真值。那么,在一次抽样
2、中,参数的估计值与真那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进值的差异有多大,是否显著,这就需要进一步进行一步进行统计检验统计检验。主要包括主要包括拟合优度检验拟合优度检验、变量的、变量的显著性检显著性检验验。up 用用最最小小二二乘乘法法得得到到的的回回归归直直线线至至少少从从残残差差平平方方和和为为最最小小这这一一意意义义上上来来说说是是所所有有可可能能直直线线中中最最佳佳的的拟拟合合线线。它它是是对对Y Y和和X X之之间间关关系系的的一一种种描描述述,但但该该直直线线是是不不是是Y Y和和X X之之间间关关系系的的一一种种恰恰当当的的描描述述呢呢?如如果果
3、各各观观测测点点紧紧密密地地聚聚集集在在这这条条直直线线的的周周围围,则则表表明明该该直直线线对对Y Y和和X X之之间间关关系系的的描描述述是是好好的的;否否则则,用用直直线线来来描描述述这这两两个个变变量量之之间间的的关关系系就就未未必必恰恰当当,如如下下图所示:图所示:(a)恰当描述恰当描述 (b)不恰当描述不恰当描述问问题题是是该该直直线线能能否否较较好好地地拟拟合合所所给给定定的的观观测测值值,这就是拟合优度问题。这就是拟合优度问题。up第一节第一节 拟合优度检验拟合优度检验 拟合优度检验含义拟合优度检验含义:是检验模型对是检验模型对样本观测值的拟合程度。样本观测值的拟合程度。一一、
4、总离差平方和的分解、总离差平方和的分解二二、拟合优度的测度、拟合优度的测度三三、习题、习题up一、总离差平方和的分解一、总离差平方和的分解 已知由一组样本观测值(已知由一组样本观测值(X Xi i,Y,Yi i),),i=1,2i=1,2,n,n得到如下样本回归直线得到如下样本回归直线 如果如果Y Yi i=i i 即实际观测值落在样本回归即实际观测值落在样本回归“线线”上,则上,则拟合最好拟合最好。可认为,。可认为,“离差离差”全部来自回全部来自回归线,而与归线,而与“残差残差”无关。无关。对于所有样本点,则需考虑这些点与样本均值离对于所有样本点,则需考虑这些点与样本均值离差的平方和差的平方
5、和,可以证明可以证明:记总体平方和总体平方和(Total Sum of Squares)回归平方和回归平方和(Explained Sum of Squares)残差平方和残差平方和(Residual Sum of Squares)vTSS TSS 反映因变量反映因变量n n个观测值与其均值的总离个观测值与其均值的总离差差vESS ESS 反映自变量反映自变量X X的变化对因变量的变化对因变量Y Y取值变化取值变化的影响,或者说由于的影响,或者说由于X X和和Y Y线性关系引起线性关系引起Y Y取值取值的变化的变化vRSSRSS反映反映X X以外的因素对以外的因素对Y Y取值的影响取值的影响在给
6、定样本中,在给定样本中,TSSTSS不变,不变,如果实际观测点离样本回归线越近,如果实际观测点离样本回归线越近,则则ESSESS在在TSSTSS中占的比重越大,因此中占的比重越大,因此 拟合优度拟合优度:回归平方和:回归平方和ESS/YESS/Y的总离差的总离差TSSTSSup1 1、可决系数可决系数R R2 2 可可决决系系数数是是反反映映估估计计的的回回归归曲曲线线对对观观测测的的数数据据的解释能力或者说是反映两者拟合优度的尺度。的解释能力或者说是反映两者拟合优度的尺度。我们将两端都除以总离差平方和我们将两端都除以总离差平方和 ,得:,得:二、拟合优度的测度二、拟合优度的测度用符号表示为:
7、用符号表示为:可决系数可决系数的取值范围取值范围:0,1 R2越接近越接近1,说明实际观测点离样本线越近,拟,说明实际观测点离样本线越近,拟合优度越高合优度越高。R2=1:完全拟合,:完全拟合,R2=0:X与与Y完全完全不存在线性关系不存在线性关系课本例题P42Eviews操作结果操作结果VariableVariableCoefficientCoefficientStd.ErrorStd.Errort-Statistict-StatisticProb.Prob.C C299.115299.11556.60456.6045.2843095.2843090.00070.0007X X0.61348
8、0.613480.01260.012648.6202648.620260.00000.0000R-squaredR-squared0.9966270.996627 Mean dependent varMean dependent var2906.402906.40Adjusted R-squaredAdjusted R-squared0.9962060.996206 S.D.dependent varS.D.dependent var930.270930.270S.E.of regressionS.E.of regression57.3032557.30325 Akaike info crit
9、erionAkaike info criterion11.11111.111Sum squared residSum squared resid26269.3026269.30 Schwarz criterionSchwarz criterion11.17211.172Log likelihoodLog likelihood-53.5572-53.5572 F-statisticF-statistic2363.932363.93Durbin-Watson statDurbin-Watson stat2.3813592.381359 Prob(F-statistic)Prob(F-statist
10、ic)0.0000.000作用:作用:可决系数越大,说明在总变差中由模型作出可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。了解释的部分占的比重越大,模型拟合优度越好。反之可决系数小,说明模型对样本观测值的拟合反之可决系数小,说明模型对样本观测值的拟合程度越差。程度越差。特点:特点:可决系数取值范围:可决系数取值范围:随抽样波动,样本可决系数随抽样波动,样本可决系数 是随抽样是随抽样 而变动的随机变量而变动的随机变量 可决系数是非负的统计可决系数是非负的统计可决系数的作用和特点可决系数的作用和特点可决系数与相关系数的关系可决系数与相关系数的关系(1)联系)联系
11、 数值上,可决系数等于应变量与解释变量之间简数值上,可决系数等于应变量与解释变量之间简单相关系数的平方单相关系数的平方:可决系数与相关系数的关系可决系数与相关系数的关系可决系数可决系数相关系数相关系数就模型而言就模型而言就就两个变量而言两个变量而言说明解释变量对应变量说明解释变量对应变量的解释程度的解释程度度量两个变量线性依存度量两个变量线性依存程度。程度。度量不对称的因果关系度量不对称的因果关系度量不含因果关系的对度量不含因果关系的对称相关关系称相关关系取值:取值:0,1取值:取值:1,1(2)区别)区别up思 考v可决系数,相关系数,回归系数之间的关联可决系数,相关系数,回归系数之间的关联
12、练练 习习1 1、各实际观测值与回归值的差的平方和称为、各实际观测值与回归值的差的平方和称为vA.A.总变差平方和总变差平方和 B.B.残差平方和残差平方和 vC.C.回归平方和回归平方和 D.D.决定系数决定系数2 2、总体平方和、总体平方和TSSTSS、残差平方和、残差平方和RSSRSS与回归平方与回归平方和和ESSESS三者的关系是()。三者的关系是()。vA.RSS=TSS+ESS A.RSS=TSS+ESS B.TSS=RSS+ESS B.TSS=RSS+ESS vC.ESS=RSS-TSS C.ESS=RSS-TSS D.ESS=TSS+RSSD.ESS=TSS+RSS3 3、下面
13、哪一个必定是错误的()。、下面哪一个必定是错误的()。A C.D.B4、在一元线性回归模型中,如果相关系数、在一元线性回归模型中,如果相关系数r=0.8,说,说明回归直线能解释被解释变量总变差的明回归直线能解释被解释变量总变差的()A.80%B.64%C.20%D.89%up解答:第四节第四节变量的显著性检验变量的显著性检验-t-t检验检验v如例如例2.2中关于消费支出(中关于消费支出(Y,元)与可,元)与可支配收入(支配收入(X,元)的分析,依据,元)的分析,依据10个观个观测资料所得的样本回归方程:测资料所得的样本回归方程:可以知道:可支配收入每增加可以知道:可支配收入每增加1元,消费元,
14、消费支出将增加支出将增加0.61元。这说明:消费支出元。这说明:消费支出是随着可支配收入的提高而增加的。是随着可支配收入的提高而增加的。R2=0.996627,拟合程度较高,拟合程度较高up在一元线性模型中,要判断在一元线性模型中,要判断X X是否对是否对Y Y具有显著具有显著的线性性影响,这就需要进行变量的显著性的线性性影响,这就需要进行变量的显著性检验。检验。v变量的显著性检验所应用的方法是统计学中变量的显著性检验所应用的方法是统计学中的的假设检验假设检验。v 计量经计学中,主要是针对变量的参数真计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的。值是否为零来进行显著性检验的
15、。一、显著性检验的原理:假设检验v基本原则基本原则小概率事件小概率事件在一次试验在一次试验中是不可能发生的。中是不可能发生的。v例如,有一个厂商声称,他的产品的合格例如,有一个厂商声称,他的产品的合格品率很高,可以达到品率很高,可以达到99%99%,那么从一批产,那么从一批产品(譬如品(譬如100100件)中随机抽取一件,这一件)中随机抽取一件,这一件恰恰是次品的概率就非常小,只有件恰恰是次品的概率就非常小,只有1%1%。如果厂商的宣传是真的,随机抽取一件是如果厂商的宣传是真的,随机抽取一件是次品的情况就几乎是不可能发生的。但如次品的情况就几乎是不可能发生的。但如果这种情况确实发生了,就有理由
16、怀疑原果这种情况确实发生了,就有理由怀疑原来的假设,即产品中只有来的假设,即产品中只有1%1%的次品的假设的次品的假设是否成立,这时就有理由推翻原来的假设,是否成立,这时就有理由推翻原来的假设,可以做出厂商的宣传是假的这样一个推断。可以做出厂商的宣传是假的这样一个推断。小概率事件的含义:小概率事件的含义:我们从上图看到,正态总体在我们从上图看到,正态总体在 以外取值的概率只有以外取值的概率只有4.6,在,在 以外以外取值的概率只有取值的概率只有0.3。由于这些概率值很小(一般不超过由于这些概率值很小(一般不超过5),),通常称这些情况发生为通常称这些情况发生为小概率事件小概率事件。即即事件在一
17、次试验中几乎不可能发生。事件在一次试验中几乎不可能发生。关于关于“小概率小概率”的值通常根据实际问题的要的值通常根据实际问题的要求而定求而定,如取如取=0.1,0.05,0.01=0.1,0.05,0.01等等,为检验的为检验的显著性水平显著性水平.描写描写小概率事件的统计量的取值范围小概率事件的统计量的取值范围称为该原称为该原假设的假设的否定域否定域(拒绝域拒绝域)否定域的边界称为该假设检验的否定域的边界称为该假设检验的临界值临界值.H H0 0值值值值临界值临界值临界值临界值临界值临界值临界值临界值/2 /2/2 拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域1-1-如图所示如图所示基本
18、步骤基本步骤 1 1、提出原假设提出原假设,确定备择假设;,确定备择假设;原假设为正待检验的假设:原假设为正待检验的假设:H H0 0;备择假设为可供选择的假设:备择假设为可供选择的假设:H H1 12、构造分布已知的合适的统计量;构造分布已知的合适的统计量;u u 检验检验t t 检验检验F F检验检验 常用常用统计量统计量回顾:t-分布与F-分布4 4、计算统计量的样本观测值,如果落在拒绝、计算统计量的样本观测值,如果落在拒绝域内,则拒绝原假设,否则,接受原假设。域内,则拒绝原假设,否则,接受原假设。3 3、由给定的检验水平由给定的检验水平,求出求出在在H H0 0成立的条成立的条件下的件
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 简单 线性 回归

限制150内