《第十二章线性回归分析.pptx》由会员分享,可在线阅读,更多相关《第十二章线性回归分析.pptx(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一节 一元线性回归第1页/共52页第2页/共52页什么是回归分析?(Regression)从样本数据出发,确定变量的数学关系式;对关系式的可信程度进行统计检验,找到影响某一特定变量显著因素;根据变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度;第3页/共52页回归分析的一般步骤重点内容第4页/共52页第5页/共52页一元线性回归涉及一个自变量的回归;因变量y与自变量x之间为线性关系;因变量因变量(dependent variable)(dependent variable):被预测或被解释的变量,用y表示。自自变变量量(independent(independent
2、 variable)variable):预测或解释因变量的一个或多个变量,用x表示。因变量与自变量之间的关系用一条线性方程来表示;第6页/共52页一元回归的例子 人均收入人均收入是否会显著影响人均食品消费支出人均食品消费支出;贷款余额贷款余额是否会影响到不良贷款不良贷款;航班正点率航班正点率是否对顾客投诉次数顾客投诉次数有显著影响;广告费用支出广告费用支出是否对销售额销售额有显著影响;第7页/共52页第8页/共52页一元线性回归模型描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型一元线性回归模型:y=0 0+1 1 x+e ey 是 x 的线性函数(部分)加上误差项线性部分反
3、映了由于 x 的变化引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性 0 0 和和 1 1 称为模型的参数称为模型的参数第9页/共52页一元线性回归模型(基本假定)误差项是期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为 E(y)=0+1 x对于所有的 x 值,的方差2 都相同误差项协方差等于零,即i和j相互独立(ij);误差项是服从正态分布的随机变量。即N(0,2)第10页/共52页回归方程(regression equation)描述 y 的平均值或期望值如何依赖于
4、 x 的方程称为回归方程;一元线性回归方程的形式如下:E(y)=0+1 x方程表示一条直线,也称为直线回归方程;0 0是是回回归归直直线线在在 y y 轴轴上上的的截截距距,是当 x=0 时 y 的期望值;1 1是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当 x x 每每变变动动一个单位时,一个单位时,y y 的平均变动值的平均变动值;第11页/共52页估计的回归方程(estimated regression equation)n一元线性回归中估计的回归方程为:n用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程;估计的回归方程;n总体回归参数 和 是未
5、知的,必须利用样本数据去估计;其中:是估计的回归直线在 y 轴上的截距,是直线的斜率,它表示对于一个给定的 x 的值,是 y 的估计值,也表示 x 每变动一个单位时,y 的平均变动值。第12页/共52页普通最小二乘法估计(OLS:Ordinary Least Square)n使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即n用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小第13页/共52页最小二乘估计(图示)x xy y(x xn n,y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i,y yi i)e
6、ei i=y yi i-y yi i第14页/共52页最小二乘法(和 的计算公式)根据最小二乘法的要求,可得求解 和 的公式如下第15页/共52页第16页/共52页一元回归方程统计检验的主要内容第17页/共52页第18页/共52页变差因变量 y 取值的波动称为变差变差来源于两个方面:由于自变量 x 的取值不同造成;除 x 以外的其他因素(如测量误差等)的影响;对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示。第19页/共52页变差的分解(图示)x xy yy y 第20页/共52页离差平方和的分解(三个平方和的意义)总平方和(SST)反映因变量的 n 个观察值与其均值
7、的总离差总离差;回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和;可解释的平方和;残差平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和不可解释的平方和或剩余平方和;第21页/共52页离差平方和的分解(三个平方和的关系)SST=SSR+SSE总平方和总平方和(SSTSST)回归平方和回归平方和(SSRSSR)残差平方和残差平方和(SSESSE)第22页/共52页判定系数R2 (coefficient of determination)回归平方和占总
8、离差平方和的比例n n反映回归方程的拟合程度;n n取值范围在 0,1 之间;n n R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差;n n一元线性回归中,判定系数等于y和x相关系数的平方,即R2(r)2;第23页/共52页第24页/共52页线性关系的检验检验所有自变量与因变量之间的线性关系是否显著;将均方回归(MSR)同均方残差(MSE)加以比较,应用F检验来分析二者之间的差别是否显著;均方回归:回归平方和SSR除以相应的自由度(自变量的个数K);均方残差:残差平方和SSE除以相应的自由度(n-k-1)。第25页/共52页线性关系的检验(检验的步骤)提出假设H0:1=0 所
9、有回归系数与零无显著差异,y与全体x的线性关系不显著n n计算检验统计量Fn n确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F n n作出决策:若FF,拒绝H0;若F t t,拒绝,拒绝H H0 0;t t F,拒绝H0第41页/共52页第42页/共52页回归系数的检验(步骤)提出假设H0:i=0 (自变量 xi 与 因变量 y 没有线性关系)H1:i 0 (自变量 xi 与 因变量 y有线性关系)计算检验的统计量 tn 确定显著性水平,并进行决策 tt,拒绝H0;tt,不能拒绝H0第43页/共52页多元回归分析中的其他问题第44页/共52页多重共线性(multicollin
10、earity)回归模型中两个或两个以上的自变量彼此相关的现象。多重共线性带来的问题有 回归系数估计值的不稳定性增强;回归系数假设检验的结果不显著等。多重共线性检验的主要方法容忍度方差膨胀因子(VIF)第45页/共52页容忍度容忍度Ri是解释变量xi与方程中其他解释变量间的复相关系数;容忍度在01之间,越接近于0,表示多重共线性越强,越接近于1,表示多重共线性越弱。第46页/共52页方差膨胀因子方差膨胀因子是容忍度的倒数VIFi越大,特别是大于等于10,说明解释变量xi与方程中其他解释变量之间有严重的多重共线性;VIFi越接近1,表明解释变量xi和其他解释变量之间的多重共线性越弱。第47页/共5
11、2页变量的筛选问题回归方程中到底引入多少解释变量x变量的筛选策略向前筛选策略(Forward);向后筛选策略(Backward);逐步筛选策略(逐步筛选策略(StepwiseStepwise)。第48页/共52页向前筛选策略(Forward)解释变量x不断进入回归方程的过程;首先,选择与y具有最高线性相关系数的变量进入方程,进行回归方程的各种检验;然后,在剩余变量中寻找与当前解释变量偏相关系数最高且通过检验的变量进入方程;该过程一直重复,直到用尽所有的自变量。第49页/共52页向后筛选策略(Backward)变量不断剔除出回归方程的过程;首先,所有自变量全部引入回归方程,对回归方程进行检验;然后,在回归系数显著性不高的变量中,剔除t检验值最小的自变量,重新检验新的回归方程;如果新建回归方程中所有变量的回归系数检验都显著,则回归方程建立结束。否则重复第二步,直到再没有可剔除的变量。第50页/共52页逐步筛选策略(Stepwise)也叫逐步回归在向前筛选策略的基础上,结合向后筛选策略,在每个变量进入方程后再次判断是否存在应该剔除出方程的变量。第51页/共52页感谢您的观看!第52页/共52页
限制150内