《统计学—基于R》(09)第9章--一元线性回归(R3).pptx
3-3-1 1统计学统计学基于基于基于基于 R R(第三版第三版第三版第三版)数据分析数据分析(方法与案例方法与案例)作者 贾俊平 版权所有 违者必究统计学统计学R R 语言语言第第 9 章章 一元线性回归一元线性回归9.1 确定确定变量间的关系变量间的关系9.2 模型模型的估计和检验的估计和检验9.3 利用回归方程进行预测利用回归方程进行预测9.4 回归模型的诊断回归模型的诊断 9-9-3 3统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25线性回归建模线性回归建模l回归建模解决的问题:回归建模解决的问题:用用于于描描述述性性分分析析:此此时时只只需需要要根根据据样样本本数数据据选选择择 一一个个合合适适的的回回归归模模型型,然然后后解解释释因因变变量量与与自自变变量量之之间间的的关关系系以以及及自自变变量量对对因因变变量量的的影影响响(如如R2、回归系数等)回归系数等)用用于于预预测测:用用自自变变量量预预测测因因变变量量,主主要要是是用用于于样样本本值值外外的的预预测测,此此时时需需要要分分析析模模型型的的适适应应能能力力(泛泛化能力化能力)uu可可建建立立多多个个模模型型,对对这这些些模模型型进进行行比比较较,选选择择最最优优的的模模型。传统方法包括:型。传统方法包括:anovaanova比较、比较、AICAIC比较等比较等uu现代方法:交叉验证等现代方法:交叉验证等9-9-4 4统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25线性回归建模线性回归建模l l研研究究某某些些实实际际问问题题时时往往往往涉涉及及到到多多个个变变量量。在在这这些些变变量量中中,有有一一个个是是研研究究者者特特别别关关注注的的被被预预测测或或被被解解释释的的变变量量,称称为为因因因因变变变变量量量量(dependent dependent variablevariable)或或响响响响应应应应变变变变量量量量(response response variablevariable)。用用来来 预预 测测 或或 解解 释释 因因 变变 量量 的的 一一 个个 或或 多多 个个 变变 量量 称称 为为 自自自自 变变变变 量量量量(ndependent variable(ndependent variable)或或解释解释解释解释变量变量变量变量(explaining variable)explaining variable)l l假假定定因因变变量量与与自自变变量量之之间间有有某某种种关关系系,并并把把这这种种关关系系用用适适当当的的数数学学模模型型表表达达出出来来,那那么么,就就可可以以利利用用这这一一模模型型根根据据给给定定的自变量来预测因变量,这就是回归要解决的的自变量来预测因变量,这就是回归要解决的问题问题l l在在回回归归分分析析中中,只只涉涉及及一一个个自自变变量量时时称称为为一一元元回回归归;涉涉及及多多个个自自变变量量时时则则称称为为多多元元回回归归。如如果果因因变变量量与与自自变变量量之之间间是是线线性性关关系系,则则称称为为线线线线性性性性回回回回归归归归(linear linear regressionregression);如如果果因因变变量量与与自自变变量量之之间间是是非非线线性性关关系系则则称称为为非非非非线线线线性性性性回回回回归归归归(nonlinear nonlinear regressionregression)9-9-5 5统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25一元线性回归建模的思路一元线性回归建模的思路l一元线性回归建模的思路如下 第1步:确定因变量与自变量之间的关系 第2步:建立线性关系模型,并对模型进行估 计和检验 第3步:利用回归方程进行预测 第4步:对回归模型进行诊断 9.1 确定变量确定变量间的关系间的关系 9.1.1 变量间变量间的关系的关系 9.1.2 相关关系的描述相关关系的描述 9.1.3 关系强度的度量关系强度的度量第第 9 章章 一元线性回归一元线性回归9.1.1 变量间的关系变量间的关系9.1 确定确定变量变量间的关系间的关系9-9-8 8统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25怎样分析变量间的关系?怎样分析变量间的关系?l建立回归模型时,首先需要弄清楚变量之间的关系。分析变量之间的关系需要解决下面的问题l l变量之间是否存在关系变量之间是否存在关系l l如果存在,它们之间是什么样的关系如果存在,它们之间是什么样的关系l l变量之间的关系强度如何变量之间的关系强度如何l l样样本本所所反反映映的的变变量量之之间间的的关关系系能能否否代代表表总总体体变量之间的关系变量之间的关系9-9-9 9统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25相关关系相关关系(correlation)l l一一个个变变量量的的取取值值不不能能由由另另一一个个变变量量唯一确定唯一确定l l当当变变量量 x x 取取某某个个值值时时,变变量量 y y 的的取取值值对对应应着着一一个个分布分布分布分布l l各各观观测测点点分分布布在在直直线线周周围围#线性线性正相关正相关#这句是为了模拟能重复化设定了随机种子这句是为了模拟能重复化设定了随机种子set.seed(1234)x-seq(0,25,len=100);y-4+0.7*x+rnorm(100,0,2)f1-lm(yx);summary(f1)par(mfcol=c(1,2),cex=0.8,mai=c(.7,.7,.1,.1)plot(x,y)text(x=20,y=0,labels=R-squared=0.8923,cex=0.8)abline(f1)set.seed(1234)x-seq(0,25,len=100);y-25-0.7*x+rnorm(100,0,2)f1-lm(yx);summary(f1)plot(x,y)text(x=5,y=6,labels=R-squared=0.8482,cex=0.8)abline(f1)9-9-1010统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25相关关系相关关系(correlation)#完全完全正相关正相关x-seq(0,25,len=25)y-4+0.9*xplot(x,y,type=o)text(x=20,y=4,labels=R-squared=1,cex=0.8)x-seq(0,25,len=25)y-25-0.9*xplot(x,y,type=o)text(x=5,y=3,labels=R-squared=-1,cex=0.8)9-9-1111统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25相关关系相关关系(correlation)#非线性非线性set.seed(1234)x-seq(0,25,len=100);y-(x-15)2+250+rnorm(100,0,25)plot(x,y)f-function(x)-(x-15)2+250curve(f,from=0,to=25,add=TRUE)text(x=20,y=0,labels=非线性相关,cex=0.8)set.seed(1234)x-seq(0,25,len=100);y-15+rnorm(100,0,2)plot(x,y)text(x=20,y=10.6,labels=不相关,cex=0.8)abline(h=15,lwd=1.5)9.1.2 相关关系的描述相关关系的描述9.1 确定确定变量变量间的关系间的关系9-9-1313统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25用散点图描述变量间的关系用散点图描述变量间的关系(例题分析例题分析)【例例例例9-19-1】为为研研究究销销售售收收入入与与广广告告支支出出之之间间的的关关系系,随随机机抽抽取取2020家家医医药药生生产产企企业业,得得到到它它们们的的销销售售收收入入和和广广告告支支出出的的数数据据如如表表9191所所示。绘制散点图描述销售收入与广告支出之的关系示。绘制散点图描述销售收入与广告支出之的关系#绘制绘制带有箱线图、拟合直线、拟合曲线的散点图带有箱线图、拟合直线、拟合曲线的散点图load(C:/example/ch9/example9_1.RData)library(car)par(mai=c(.8,.8,.1,.1),cex=.8)scatterplot(销售收入广告支出,data=example9_1,spread=FALSE,pch=19,xlab=广告支出,ylab=销售收入,cex.lab=0.8)9.1.3 关系强度的度量关系强度的度量9.1 确定确定变量变量间的关系间的关系9-9-1515统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25相关系数相关系数(correlation coefficient)l度量变量之间线性关系强度的一个统计量度量变量之间线性关系强度的一个统计量n n若若相相关关系系数数是是根根据据总总体体全全部部数数据据计计算算的的,称称为为总总体体相关系数,记为相关系数,记为 n n若若是是根根据据样样本本数数据据计计算算的的,则则称称为为样样本本相相关关系系数数,简称为相关系数,记为简称为相关系数,记为 r rl l也也称为称为PearsonPearson相关系数相关系数 (Pearsons correlation coefficient)(Pearsons correlation coefficient)l样本相关系数的计算公式样本相关系数的计算公式 9-9-1616统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25相关系数的性质相关系数的性质性质性质1:r 的取值范围是-1,1n n|r r|=|=1 1,为完全相关为完全相关l lr r=1 1,为完全正相关,为完全正相关l lr r=-1-1,为完全负正相关,为完全负正相关n nr r=0=0,不存在不存在线性线性线性线性相关相关关系关系n n-1-1 r r 0 0,为负相关为负相关n n0 0 r r 1 1,为正相关为正相关n n|r r|越越趋趋于于1 1表表示示关关系系越越强强;|r r|越越趋趋于于0 0表表示示关关系越弱系越弱9-9-1717统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25相关系数的性质相关系数的性质性质性质性质性质2 2:r r具有对称性。即具有对称性。即x x与与y y之间的相关系数和之间的相关系数和y y与与x x之间之间 的相关系数相等,即的相关系数相等,即r rxyxy=r ryxyx性质性质性质性质3 3:r r数值大小与数值大小与x x和和y y原点及尺度无关,即改变原点及尺度无关,即改变x x和和y y的的 数据原点及计量尺度,并不改变数据原点及计量尺度,并不改变r r数值大小数值大小性质性质性质性质4 4:仅仅是仅仅是x x与与y y之间线性关系的一个度量,它不能用之间线性关系的一个度量,它不能用 于描述非线性关系。这意为着,于描述非线性关系。这意为着,r r=0=0只表示两个只表示两个 变量之间不存在线性相关关系,并不说明变量之变量之间不存在线性相关关系,并不说明变量之 间没有任何关系间没有任何关系性质性质性质性质5 5:r r虽然是两个变量之间线性关系的一个度量,却不虽然是两个变量之间线性关系的一个度量,却不 一定意味着一定意味着x x与与y y一定有因果关系一定有因果关系9-9-1818统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25相关系数的经验解释相关系数的经验解释l|r|0.8时,可视为两个变量之间高度相关l0.5|r|0.8时,可视为中度相关l0.3|r|0.5时,视为低度相关l|r|0.3时,说明两个变量之间的相关程度极弱,可视为不相关l上述解释必须建立在对相关系数的显著性进行检验的基础之上9-9-1919统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25相关系数的显著性检验相关系数的显著性检验(检验的步骤检验的步骤)l1.1.检验两个变量之间是否存在线性相关关系检验两个变量之间是否存在线性相关关系l采用采用R.A.FisherR.A.Fisher提出的提出的 t t 检验检验l检验的步骤为检验的步骤为n n提出假设:提出假设:H H0 0:;H H1 1:0 0n n计算检验的统计量计算检验的统计量n n计算计算P P值,并于显著性水平值,并于显著性水平 比较,并作出决策比较,并作出决策 若若PP,拒绝,拒绝H H0 09-9-2020统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25#相关系数相关系数的计算的计算#相关系数相关系数的检验的检验相关系数的显著性检验相关系数的显著性检验(例题例题92)load(C:/example/ch9/example9_1.RData)cor(example9_1,2,example9_1,3)library(psych)cor.test(example9_1,2,example9_1,3)9.2 模型估计模型估计和检验和检验 9.2.1 回归模型与回归方程回归模型与回归方程 9.2.2 参数的最小二乘估计参数的最小二乘估计 9.2.3 模型的拟合优度模型的拟合优度 9.2.4 模型的显著性检验模型的显著性检验第第 9 章章 一元线性回归一元线性回归9.2.1 回归模型与回归方程回归模型与回归方程9.2 模型估计模型估计和检验和检验9-9-2323统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25一元线性回归模型一元线性回归模型(linear regression model)l描描述述因因变变量量 y y 如如何何依依赖赖于于自自变变量量 x x 和和误误差差项项 的的方程称为方程称为回归模型回归模型回归模型回归模型l一元线性一元线性回归模型可表示为回归模型可表示为 y y=b b b b0 0 0 0+b b b b1 1 1 1 x x +e e e en ny y 是是 x x 的线性函数的线性函数(部分部分)加上误差项加上误差项n n线性部分反映了由于线性部分反映了由于 x x 的变化而引起的的变化而引起的 y y 的变化的变化n n误差项误差项 是随机变量是随机变量l l反反映映了了除除 x x 和和 y y 之之间间的的线线性性关关系系之之外外的的随随机机因因素素对对 y y 的影响的影响l l是不能由是不能由 x x 和和 y y 之间的线性关系所解释的变异性之间的线性关系所解释的变异性n n 0 0 和和 1 1 称为模型的参数称为模型的参数9-9-2424统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25一元线性回归模型一元线性回归模型(基本假定基本假定)l l因变量因变量x x与自变量与自变量y y之间具有线性关系之间具有线性关系l l在重复抽样中,自变量在重复抽样中,自变量x x的取值是固定的,即假定的取值是固定的,即假定x x是是非随机的非随机的l l误差项误差项 满足满足l l正态性正态性正态性正态性。是是一个服从正态分布的随机变量,且期望值为一个服从正态分布的随机变量,且期望值为0 0,即,即 N N(0,(0,2 2)。对于一个给定的。对于一个给定的 x x 值,值,y y 的期望值为的期望值为E(y)=E(y)=0 0+1 1x xl l方差齐性方差齐性方差齐性方差齐性。对于所有的。对于所有的 x x 值,值,的方差一个特定的值,的方差也的方差一个特定的值,的方差也都等于都等于 2 2 都相同。同样,一个特定的都相同。同样,一个特定的x x 值,值,y y 的方差也都等于的方差也都等于 2 2l l独立性独立性独立性独立性。独立性意味着对于一个特定的独立性意味着对于一个特定的 x x 值,它所对应的值,它所对应的 与其与其他他 x x 值所对应的值所对应的 不相关;对于一个特定的不相关;对于一个特定的 x x 值,它所对应的值,它所对应的 y y 值与其他值与其他 x x 所对应的所对应的 y y 值也不相关值也不相关9-9-2525统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25估计的回归方程估计的回归方程(estimated regression equation)l总总体体回回归归参参数数 和和 是是未未知知的的,必必须须利利用用样样本本数数据去估计据去估计l用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了,就得到了估计的回归方程估计的回归方程估计的回归方程估计的回归方程l一元线性回归中估计的回归方程为一元线性回归中估计的回归方程为其其其中中中:是是是估估估计计计的的的回回回归归归直直直线线线在在在 y y y 轴轴轴上上上的的的截截截距距距,是是是直直直线线线的的的斜斜斜率率率,它它它表表表示示示对对对于于于一一一个个个给给给定定定的的的 x x x 的的的值值值,是是是 y y y 的的的估估估计计计值,也表示值,也表示值,也表示 x x x 每变动一个单位时,每变动一个单位时,每变动一个单位时,y y y 的平均变动值的平均变动值的平均变动值 9.2.2 参数的最小二乘估计参数的最小二乘估计9.2 模型估计模型估计和检验和检验9-9-2727统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25参数的最小二乘估计参数的最小二乘估计(method of least squares)l德国科学家Karl Gauss(17771855)提出用最小化图中垂直方向的误差平方和来估计参数 l使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即l用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小9-9-2828统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25Karl Gauss的最小化图的最小化图9-9-2929统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-259-9-3030统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25#回归分析回归分析回归分析回归分析#回归系数回归系数回归系数回归系数的的的的置信区间置信区间置信区间置信区间#方差分析表方差分析表方差分析表方差分析表 回归分析回归分析(例题例题92)load(C:/example/ch9/example9_1.RData)model-lm(销售收入广告支出,data=example9_1)summary(model)confint(model,level=0.95)anova(model)9-9-3131统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25load(C:/example/ch9/example9_1.RData)attach(example9_1)model-lm(销售收入广告支出,data=example9_1)par(cex=.8,mai=c(.7,.7,.1,.1)plot(销售收入广告支出,data=example9_1)text(销 售 收 入 广 告 支 出,labels=企 业 编 号,cex=.6,adj=c(-0.6,.25),col=4)abline(model,col=2,lwd=2)n=nrow(example9_1)for(i in 1:n)segments(example9_1i,3,example9_1i,2,example9_1i,3,model$fittedi)mtext(expression(hat(y)=2343.8916+5.6735%*%广 告 支 出),cex=0.7,side=1,line=-6,adj=0.75)arrows(600,4900,550,5350,code=2,angle=15,length=0.08)回归分析回归分析(例题例题92,绘制拟合绘制拟合图图)9.2.3 模型的拟合优度模型的拟合优度9.2 模型估计模型估计和检验和检验9-9-3333统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25变差变差l因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面n n由于自变量由于自变量 x x 的取值不同造成的的取值不同造成的n n除除 x x 以以外外的的其其他他因因素素(如如x x对对y y的的非非线线性性影影响响、测量误差等测量误差等)的影响的影响l对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示9-9-3434统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25误差分解图误差分解图9-9-3535统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25误差平方和的分解误差平方和的分解(三个平方和的意义三个平方和的意义)l l总平方和总平方和(SSTSSTtotal sum of squares)total sum of squares)n n反映因变量的反映因变量的 n n 个观察值与其均值的总误差个观察值与其均值的总误差l l回归平方和回归平方和(SSRSSRsum of squares of regression)sum of squares of regression)n n反反映映自自变变量量 x x 的的变变化化对对因因变变量量 y y 取取值值变变化化的的影影响响,或或者者说说,是是由由于于 x x 与与 y y 之之间间的的线线性性关关系系引引起起的的 y y 的的取值变化,也称为可解释的平方和取值变化,也称为可解释的平方和l l残差平方和残差平方和(SSESSEsum of squares of error)sum of squares of error)n n反反映映除除 x x 以以外外的的其其他他因因素素对对 y y 取取值值的的影影响响,也也称称为为不可解释的平方和或剩余平方和不可解释的平方和或剩余平方和总总平方和(平方和()=回回归归平方和(平方和()+残差平方和(残差平方和()9-9-3636统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25决定系数决定系数R2 (coefficient of determination)l回归平方和回归平方和占总误差平方和的比例占总误差平方和的比例l反映回归直线的拟合程度反映回归直线的拟合程度l取值范围在取值范围在 0,1 0,1 之间之间lR R2 2 1 1,说明回归方程拟合的越好;,说明回归方程拟合的越好;R R2 20 0,说明,说明回归方程拟合的越差回归方程拟合的越差l决定系数决定系数平方根等于相关系数平方根等于相关系数9-9-3737统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25残差的标准误残差的标准误(residual standard error)l实际观察值与回归估计值误差平方和的均方根实际观察值与回归估计值误差平方和的均方根l反映实际观察值在回归直线周围的分散状况反映实际观察值在回归直线周围的分散状况l对对误误差差项项 的的标标准准差差 的的估估计计,是是在在排排除除了了x x对对y y的的线性影响后,线性影响后,y y随机波动大小的一个估计量随机波动大小的一个估计量l反反映用估计的回归方程预测映用估计的回归方程预测y y时预测误差的大小时预测误差的大小 l计算公式为计算公式为9.2.4 模型的显著性检验模型的显著性检验9.2 模型估计模型估计和检验和检验9-9-3939统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25线性关系的检验线性关系的检验l检验自变量与因变量之间的线性关系是否显著l将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著回回归归均均方方:回回归归平平方方和和SSRSSR除除以以相相应应的的自自由由度度(自变量的个数自变量的个数k k)残残差差均均方方:残残差差平平方方和和SSESSE除除以以相相应应的的自自由由度度(n n-k k-1)-1)9-9-4040统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25线性关系的检验线性关系的检验(检验的步骤检验的步骤)l提出提出假设假设n nH H0 0:1 1=0 =0 线性关系不显著线性关系不显著l计算计算检验统计量检验统计量F Fl确定确定显著性水平显著性水平,并根据分子自由度,并根据分子自由度1 1和分母自和分母自由度由度n n-2-2求统计量的求统计量的P P值值l作作出决策:若出决策:若PP,拒绝拒绝H H0 0。表明两个变量之间表明两个变量之间的线性关系显著的线性关系显著9-9-4141统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25回归系数的检验和推断回归系数的检验和推断9-9-4242统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25回归系数的检验和推断回归系数的检验和推断(检验步骤检验步骤)l提出假设提出假设n nH H0 0:1 1=0(=0(没有线性关系没有线性关系)n nH H1 1:1 1 0(0(有线性关系有线性关系)l计算检验的统计量计算检验的统计量9-9-4343统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25回归系数的检验和推断回归系数的检验和推断(b b1和和b b0的置信区间的置信区间)l 1在1-置信水平下的置信区间为l 0在1-置信水平下的置信区间为 9.3 利用回归方程进行预测利用回归方程进行预测 9.3.1 平均值的置信区间平均值的置信区间 9.3.2 个别值的预测区间个别值的预测区间第第 9 章章 一元线性回归一元线性回归9-9-4545统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25区间估计区间估计l对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间l区间估计有两种类型n n置信区间估计置信区间估计(confidence interval estimateconfidence interval estimate)n n预测区间估计预测区间估计(prediction(prediction interval estimate interval estimate)9.3.1 平均值的置信区间平均值的置信区间9.3 利用回归方程进行预测利用回归方程进行预测9-9-4747统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25平均值的置信区间平均值的置信区间l利用利用估计的回归方程,对于自变量估计的回归方程,对于自变量 x x 的一个给定的一个给定值值 x x0 0 ,求出因变量,求出因变量 y y 的平均值的估计区间的平均值的估计区间 ,这,这一估计区间称为一估计区间称为置信区间置信区间置信区间置信区间(confidence intervalconfidence interval)l E E(y y0 0)在在1-1-置信置信水平下的置信区间为水平下的置信区间为式中:式中:s se e为残差的标准误为残差的标准误9-9-4848统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25个别值的预测区间个别值的预测区间l利用估计利用估计的回归方程,对于自变量的回归方程,对于自变量 x x 的一个给定的一个给定值值 x x0 0 ,求出因变量,求出因变量 y y 的一个个别值的估计区间,的一个个别值的估计区间,这一区间称为这一区间称为预测区间预测区间预测区间预测区间(prediction(prediction interval interval)l y y0 0在在1-1-置信水平下的预测区间为置信水平下的预测区间为9-9-4949统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25置信区间和预测区间置信区间和预测区间9-9-5050统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25#计计算算点点预预测测值值(pre_modelpre_model)、置置信信区区间间(con_intcon_int)和和预预测测区区间间(pre_intpre_int)回归分析回归分析(例题例题94)load(C:/example/ch9/example9_1.RData)model-lm(销售收入广告支出,data=example9_1)x0-example9_1$广告支出 pre_model-predict(model)con_int-predict(model,data.frame(广告支出=x0),interval=confidence,level=0.95)pre_int-predict(model,data.frame(广告支出=x0),interval=prediction,level=0.95)pre-data.frame(销 售 收 入=example9_1$销 售 收 入,点 预 测 值=pre_model,置信下限=con_int,2,置信上限=con_int,3,预测下限=pre_int,2,预测上限=pre_int,3)pre9-9-5151统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25回归分析回归分析(例题例题例题例题94,94,绘制置信区间和预测区间图绘制置信区间和预测区间图绘制置信区间和预测区间图绘制置信区间和预测区间图)model-lm(销售收入广告支出,data=example9_1)x0-seq(min(example9_1$广告支出),max(example9_1$广告支出)con_int-predict(model,data.frame(广告支出=x0),interval=confidence,level=0.95)pre_int-predict(model,data.frame(广告支出=x0),interval=prediction,level=0.95)par(cex=.8,mai=c(.7,.7,.1,.1)n=nrow(example9_1)plot(销售收入广告支出,data=example9_1)abline(model,lwd=2)for(i in 1:n)segments(example9_1i,3,example9_1i,2,example9_1i,3,model$fittedi)lines(x0,con_int,2,lty=2,lwd=2,col=blue)lines(x0,con_int,3,lty=2,lwd=2,col=blue)lines(x0,pre_int,2,lty=3,lwd=2,col=red)lines(x0,pre_int,3,lty=3,lwd=2,col=red)legend(x=topleft,legend=c(回归线,置信区间,预测区间),lty=1:3,lwd=2,cex=0.8)9-9-5252统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25#新新值预测值预测求求x0=500 x0=500时销售收入的点预测值、置信区间和预测区间时销售收入的点预测值、置信区间和预测区间 回归分析回归分析(例题例题94)x0-data.frame(广告支出=500)predict(model,newdata=x0)predict(model,data.frame(广告支出=500),interval=confidence,level=0.95)predict(model,data.frame(广告支出=500),interval=prediction,level=0.95)9.4 回归模型的诊断回归模型的诊断 9.4.1 残差与残差图残差与残差图 9.4.2 检验模型假定检验模型假定 第第 9 章章 一元线性回归一元线性回归9.4.1 残差与残差图残差与残差图 9.4 回归模型的诊断回归模型的诊断9-9-5555统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25残残差差(residual)l因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示l反映了用估计的回归方程去预测而引起的误差 l可用于确定有关误差项的假定是否成立 l用于检测有影响的观测值9-9-5656统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25残差图残差图(residual plot)l表示残差的图形n n关于关于x x的残差图的残差图n n关于关于y y的残差图的残差图n n标准化残差图标准化残差图l用于判断误差的假定是否成立 l检测有影响的观测值9-9-5757统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25标准化残差与残差图标准化残差与残差图(standardized residual)l残差除以它的标准差残差除以它的标准差l也也 称称 为为 PearsonPearson残残 差差 或或 半半 学学 生生 化化 残残 差差(semi-(semi-studentized residuals)studentized residuals)l计算公式为计算公式为l标标准准化化残残差差图图。用用以以直直观观地地判判断断误误差差项项服服从从正正态态分布这一假定是否成立分布这一假定是否成立 n n若假定成立,标准化残差的分布也应服从正态分布若假定成立,标准化残差的分布也应服从正态分布n n在在标标准准化化残残差差图图中中,大大约约有有95%95%的的标标准准化化残残差差在在-2-2到到+2+2之间之间9-9-5858统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25残差图残差图(形态及判别形态及判别)9.4.2 检验模型假定检验模型假定 9.4 回归模型的诊断回归模型的诊断9-9-6060统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25计算残差计算残差(例题分析例题分析)#计算计算计算计算预测值(预测值(预测值(预