第九章 回归分析-一元线性回归.ppt
《第九章 回归分析-一元线性回归.ppt》由会员分享,可在线阅读,更多相关《第九章 回归分析-一元线性回归.ppt(78页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计软件包统计软件包SAS系统与统计分析系统与统计分析第九章第九章 回归分析与回归分析与REG过程过程9.1、线性回归分析方法简介、线性回归分析方法简介一、回归分析的含义及其所要解决的问题一、回归分析的含义及其所要解决的问题(1)构建因变量与自变量之间的回归模型,并依据)构建因变量与自变量之间的回归模型,并依据样本观测值对模型中的参数进行估计,给出回归样本观测值对模型中的参数进行估计,给出回归方程。方程。(2)对回归方程中的参数和方程本身进行显著性检)对回归方程中的参数和方程本身进行显著性检验。验。(3)评价自变量对因变量的贡献。)评价自变量对因变量的贡献。(4)利用回归方程对因变量进行预测,
2、对自变量进)利用回归方程对因变量进行预测,对自变量进行控制。行控制。二、线性回归模型及其假设条件二、线性回归模型及其假设条件一元线性回归模型一元线性回归模型多元线性回归模型多元线性回归模型矩阵形式矩阵形式 模型一般假定模型一般假定三、三、线性回归模型的参数估计线性回归模型最小二乘估计量(OLS)为:对一元线性回归模型其中四、回归模型诊断四、回归模型诊断1假设检验假设检验1、方差拟合优度好。多元的情况下,通常对R2进行调整2、自变量与因变量之间的线性关系的F检验则自变量和因变量只有有显著的线性关系,否则,不显著。3、回归参数的显著性检验检验统计量1、残差分析残差分析五、回归模型诊断五、回归模型诊
3、断2根据模型假定,误差项的估计量,即残差根据模型假定,误差项的估计量,即残差若模型拟合较好,则标准化残差图中应有若模型拟合较好,则标准化残差图中应有95%的点在的点在2、方差齐性的统计检验及其处理、方差齐性的统计检验及其处理步骤:步骤:若回归系数与若回归系数与0有显著差异,则误差项存在异方差性,否则,有显著差异,则误差项存在异方差性,否则,接受同方差性假定。接受同方差性假定。1、格莱泽(、格莱泽(Glejser)检验)检验2、斯皮尔曼(斯皮尔曼(Spearman)等级相关检验)等级相关检验步骤:步骤:3、存在异方差时的处理方法、存在异方差时的处理方法二是对数据进行变换,使变换后的数据具有同方差
4、性。二是对数据进行变换,使变换后的数据具有同方差性。一是在误差项方差已知的情况下,进行加权最小二乘。一是在误差项方差已知的情况下,进行加权最小二乘。二是对数据进行变换,使变换后的数据具有同方差性。二是对数据进行变换,使变换后的数据具有同方差性。六、回归预测六、回归预测假定由10家armand比萨饼餐馆组成一个样本,变量分别为餐馆,学生样本大小(千人),季度销售额(千美元),例如:餐馆1,学生数为2,销售额为58,表明这家餐馆位于有2000名学生的校园附近,每个季度的销售额为58000美元。为了了解学生数与餐馆的销售额是否有线性关系,我们做下面的回归。data armand;input rest
5、aurant populationsales;cards;1258261053888481185121176161377201578201699221491026202;proc gplot;plot sales*population;run;proc reg graphics;model sales=population;run;REG过程的主要功能过程的主要功能可以对任意多个自变量建立线性回归模型可以对任意多个自变量建立线性回归模型多种选元的方法多种选元的方法可以对变量之间进行各种形式的假设检验可以对变量之间进行各种形式的假设检验可以对输入数据或由回归分析产生的统计量绘图可以对输入数据或由
6、回归分析产生的统计量绘图可以根据输出参数的估计值及因变量的预测值、可以根据输出参数的估计值及因变量的预测值、置信限等各种常用的统计量置信限等各种常用的统计量提供了回归诊断模型的一些常用的方法提供了回归诊断模型的一些常用的方法当自变量间存在多重共线性时,当自变量间存在多重共线性时,REG过程还提供过程还提供了岭回归方法了岭回归方法REG(回归分析)过程简介(回归分析)过程简介REG过程的一般格式过程的一般格式PROC REG ;MODEL dependent=indendents;BY variable;FREQ variable;WEIGHT variable;ID variable;VAR
7、variables;ADD variables;DELETE variables;OUTPUT OUT=sas-data-set keyword=names;PLOT;TEST eqution;(一)PROC REG语句:语句:一般格式:PROC REG;REG过程常用语句说明:过程常用语句说明:常用选项有以下两类:关于数据集选项关于数据集选项:(1)DATA=data-set;(2)COVOUT:将参数估计的协方差阵输出到由 OUTTEST=DATA-SET规定的数据集中;(3)OUTEST=DATA-SET:把参数估计量和一些常用的统计量输出到指定的SAS数据集中。关于输出选项:关于输出选
8、项:(1)ALL:要求打印MODEL语句和VAR语句中规定变量的简单统计量和相关矩阵;(2)CORR:要求打印MODEL语句和VAR语句中规定变量的相关矩阵;(3)NOPRINT:不打印输出。(二)(二)MODEL语句语句一般格式为:一般格式为:MODEL dependents=independents;规定线性回归模型的形式,左边为因变量,右边为自变量。规定线性回归模型的形式,左边为因变量,右边为自变量。模型选择选项模型选择选项(1)SELECTION=name;(stepwise,forward,Bakward,maxr,minr,requare,cp,none):规定自变量选择的方法;(
9、2)NOINT:取消模型中的常数项;(3)SLENTRY|SLE=value:为为forward(缺省(缺省0.5)和和stepwise(缺省缺省0.15)选元方法规定选元方法规定变量被选入模型的显著性水平;变量被选入模型的显著性水平;(4)SLSTAY|SLS=value:为为backward(缺省(缺省0.1)和和stepwise(缺省缺省0.15)选元方法规选元方法规定变量保留在模型的显著性水平;定变量保留在模型的显著性水平;关于估计细节的选项关于估计细节的选项(1)COLLIN:给出自变量间多重共线性的诊断统计量;(2)COVB:输出参数估计量的协方差阵的估计量;(3)STB:输出标准
10、回归系数;(4)TOL:输出自变量的容许值,即1R2;(5)VIF:输出方差膨胀因子。关于预测值和残差值的选项:关于预测值和残差值的选项:(1)CLI:输出个别值的95置信限;(2)CLM:输出因变量均值的95置信限;(3)DW:计算D-W统计量(对时间序列数据);(4)INFLUENCE:输出每个观测对预测值影响的 详细资料;(5)P:计算因变量的预测值;(6)R:进行残差分析。BY语句,FREQ语句,WEIGHT语句,ID语句,VAR语句ADD语句,DELETE语句对已有模型增加或删除变量,并重新拟合模型。且要增加的变量需通过VAR语句予以说明。OUTPUT语句语句一般格式:一般格式:OU
11、TPUT keyword=names;创建包括所有输入变量,由创建包括所有输入变量,由Keyword=names命名的统计量命名的统计量得新数据集。得新数据集。常见统计量:常见统计量:(1)P=name:预测值;预测值;(2)L95(U95)=name:因变量单个值的:因变量单个值的95预测下限(上预测下限(上限);限);(3)L95M(U95M)=name:因变量均值的:因变量均值的95预测下限预测下限(上限);(上限);(4)Rname:残差;:残差;等等等等.PLOT语句语句 一般格式:一般格式:PLOT ;要求对给定变量绘制散点图、连线图等要求对给定变量绘制散点图、连线图等 TEST语
12、句语句 一般格式:一般格式:TEST equation;对对MODEL语句出现的参数进行假设检验。语句出现的参数进行假设检验。REG过程在一元线性回归分析中的应用过程在一元线性回归分析中的应用参见书P325关于一元线性回归模型的的通常假定。一元线性回归模型通常要解决的问题:(1)拟合回归方程,即通过OLS进行参数估计;(2)对拟合的回归方程进行诊断;(3)诊断发现拟合不充分或误差项不满足经典假设时,对数据进行处理后再拟合;(4)进行预测或控制。家庭12345678910 11 12保险额324050 202235 55 45 28 22 24 30收入141923 12915 22 25 15
13、 10 12 16例例1:某保险公司打算对收入在25000元及其以下的家庭考察其收入与户主生命保险额之间的关系。随机抽取了12个家庭进行调查,结果如下表:(1)以收入为自变量,保险额为因变量,确定线性回归方程,并计算 ;(2)对回归方程的拟合情况进行诊断;(3)在收入为20000元的家庭中,平均每个户主的保险额和某一个户主保险额的预测值各是多少?(显著水平为0.05)data insuranc;input insurce income;cards;32 14 40 19 50 23 20 12 22 9 35 15 55 22 45 25 28 15 22 10 24 12 30 16.20
14、;proc gplot;plot insurce*income;run;由散点图可知两变量有明显的线性关系,故可构建一元线性回归模型。proc reg;model insurce=income;run;方差分析表中F值=57.99,对应概率P0.05,说明与0没有显著差异。变量income的系数估计值为2.06711,T值对应的概率p0.0001,说明在0.05的显著性水平下显著不为0.故需要拟合一个没有截距项的回归模型。proc reg;model insurce=income/noint r clm cli;plot student.*p.;run;model insurce=income
15、/noint r clm cli;plot student.*p.;Noint:拟合不带截距项的线性回归模型 r:输出每个观测的预测值、残差、标准化残差、COOK的D统计量 clm:输出平均保险额的预测值的95%的置信上下限Cli:输出个别户主保险额的95%的置信上下限 plot student.*p.;要求绘制标准化残差与预测值的残差图模型一:Root MSE:4.68588 R-square:0.8529 调整的R-Sq:0.8382模型二:Root MSE:4.47061 R-square:0.9854 调整的R-Sq:0.9840比较可知,模型二显然优于模型一Income的回归系数估计
16、值为2.09614,T值对应的概率P2)和COOK的D统计量(0.5)可以看出第7,8个观测为强影响点.对强影响点一遍剔除,重新拟合。残差图显示各点基本随机分布,没有明显趋势,即误差项不存在异方差和自相关,且其值基本分布在-2和+2之间,故正态性也满足。因此,进一步说明用不含截距项的回归模型拟合是合适的。因此,进一步说明用不含截距项的回归模型拟合是合适的。一元线性回归模型的诊断一元线性回归模型的诊断异常点的判断与处理:异常点的判断与处理:(1)H杠杆率;表示第杠杆率;表示第i个观测在模型中的影响程度,值越大,个观测在模型中的影响程度,值越大,影响程度越大;影响程度越大;(2)COOKD:库克距
17、离统计量,当:库克距离统计量,当cookd0.5时认为为强时认为为强影响点;影响点;(3)DFFITSname:第:第i个观测对预测的影响程度,大于个观测对预测的影响程度,大于2时怀疑为强影响点;时怀疑为强影响点;(4)残差图:标准化残差绝对值大于)残差图:标准化残差绝对值大于2疑为强影响点。疑为强影响点。异方差性的判断及处理异方差性的判断及处理(1)残差图;(2)格来泽检验(Glejser)检验:步骤:1)进行OLS估计,得到误差项的估计值(3)斯皮尔曼(Spearman)等级相关检验检验步骤:存在异方差性时模型处理方法存在异方差性时模型处理方法加权最小二乘法:加权最小二乘法:对数据进行变换
18、:对数据进行变换:常用因变量变换方法投标金额(百万)2.13 1.21 11.0 6.0 5.6 6.91 2.97 3.35 10.39 1.1 4.36 8.0准备费用(千元)15.5 11.1 62.6 35.4 24.9 28.1 15.0 23.0 42.0 10.0 20.0 47.5例例2:某建筑公司欲用回归分析方法研究其建筑投标金额X与其投标准备费用Y之间的关系。为此收集了12次投标过程中投标金额与投标费用的有关数据。试根据以上数据建立投标金额X与投标准备费用Y之间的线性回归方程。data invest;input toubiao expend;cards;2.13 15.5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九章 回归分析-一元线性回归 第九 回归 分析 一元 线性
限制150内