《10线性回归分析.ppt》由会员分享,可在线阅读,更多相关《10线性回归分析.ppt(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十章第十章 线性回归分析线性回归分析 变量之间的关系有两种:变量之间的关系有两种:确定型的函数关系确定型的函数关系 不确定型的函数关系不确定型的函数关系 这里主要研究不确定型的函数关系,如收入这里主要研究不确定型的函数关系,如收入与受教育程度之间的关系,等等问题。与受教育程度之间的关系,等等问题。但它们之但它们之间存在明显的相互关系(称为相关关系),又是间存在明显的相互关系(称为相关关系),又是不确定的。不确定的。回归分析是研究随机变量之间相关关系的统计方回归分析是研究随机变量之间相关关系的统计方法。其研究一个被解释变量(因变量)与一个或法。其研究一个被解释变量(因变量)与一个或多个解释变量
2、(自变量)之间的统计关系。多个解释变量(自变量)之间的统计关系。例例:人均收入:人均收入 X 与人均食品消费支出与人均食品消费支出 Y 的散点图的关系的散点图的关系如图。如图。1.一元线性回归是研究一个自变量与一个因变量的统计一元线性回归是研究一个自变量与一个因变量的统计关系。关系。一一.一元线性回归一元线性回归人均收入人均收入X人人均均食食品品支支出出Y这两个变量之间的不确定关系,可以用下式表示:这两个变量之间的不确定关系,可以用下式表示:式式中,人均食品消费支出中,人均食品消费支出Y 是被解释变量,是被解释变量,人均收入人均收入 X 是解释变量,是解释变量,1,2是待估计参数;是待估计参数
3、;u 是随机干扰项,是随机干扰项,且与且与 X 无关,无关,它反映了它反映了 Y 被被 X 解释的不确定性解释的不确定性。如果随机干扰项如果随机干扰项 u 的均值为的均值为 0,对上式求条件均值,对上式求条件均值,有有反映出从反映出从“平均平均”角度看,是确定性关系。角度看,是确定性关系。例:例:地区的多孩率与人均国民收入的散点图如下:地区的多孩率与人均国民收入的散点图如下:人均收入人均收入X多多孩孩率率 Y这两个变量之间的不确定关系,大致可以用下式表示:这两个变量之间的不确定关系,大致可以用下式表示:设设 Z=Ln X,可将上式线性关系为:可将上式线性关系为:线性回归的任务:线性回归的任务:
4、就是用恰当的方法,估计出参就是用恰当的方法,估计出参数数 1,2,并且使估计出来的参数具有良好的统,并且使估计出来的参数具有良好的统计特征,所以,回归问题从某种视角看,视同参计特征,所以,回归问题从某种视角看,视同参数估计问题。数估计问题。如果把如果把X,Y的样本观测值代到线性回归方程中,就得的样本观测值代到线性回归方程中,就得到到i=1,2,n,n为样本容量为样本容量.从从重复抽样的角度看,重复抽样的角度看,Xi,Yi也也可以视为随机变量。可以视为随机变量。2.高斯基本假设高斯基本假设对于线性回归模型对于线性回归模型i=1,2,n,n为样本容量为样本容量.高斯基本假设如下高斯基本假设如下:(
5、1)ui 为随机变量为随机变量(本假设成立本假设成立,因为我们研究就是不因为我们研究就是不确定关系确定关系).(2)E(ui)=0,随机干扰项的期望值等于零随机干扰项的期望值等于零(本假设成立本假设成立,如果其均值不是零如果其均值不是零,可以把它并入到可以把它并入到 1 中中).(3)Var(ui)=2u,随机干扰项的方差等于常数随机干扰项的方差等于常数(本假设本假设有可能不成立有可能不成立,以后讨论不成立时如何处理以后讨论不成立时如何处理).(4)E(uiuj)=0(i j)随机干扰项协方差等于零随机干扰项协方差等于零(本假设本假设有可能不成立有可能不成立,以后讨论不成立时如何处理以后讨论不
6、成立时如何处理).(5)ui 服从服从 N(0,2u)分布分布;(6)E(Xiuj)=0,对对Xi 的性质有两种解释的性质有两种解释:a.Xi 视为随机变量视为随机变量,但与但与uj无关无关,所以所以(6)成立成立.b.Xi 视为确定型变量视为确定型变量,所以所以(6)也成立也成立.3.普通最小二乘法普通最小二乘法(OLS)设线性回归模型设线性回归模型其中其中为为 1,2 的估计值的估计值,则则 Y 的计算值的计算值,可以可以用用下式表达下式表达:所要求出待估参数所要求出待估参数 ,要使要使 Y 与其计算值与其计算值之间之间的的“误差平方和误差平方和”最小最小.即:即:使得使得最小最小.为此为
7、此,分别求分别求Q 对对 的偏导的偏导,并令其为零并令其为零:由上两式由上两式,就可求出待估参数就可求出待估参数 的值的值.4.所求参数的计算公式所求参数的计算公式的的另一个表达式为另一个表达式为:5.几何解释几何解释残差向量残差向量 e=Y =(Y-Y)-(-Y)=y-向量向量 y,e 三者之间关系如图所示三者之间关系如图所示,普通最小二乘法要使残差平方和普通最小二乘法要使残差平方和 e2i 最小最小,也就是也就是要使要使 e 的长度尽可能小的长度尽可能小,等价于在几何上等价于在几何上 e x.或或者说者说,的长度应当是的长度应当是 y 在在 x 上的投影长度上的投影长度.yxe二二.多元线
8、性回归多元线性回归 本节要研究一个被解释变量本节要研究一个被解释变量(因变量因变量),多个解释变量多个解释变量(自变量自变量)的线性模型的线性模型,即即1.基本假设基本假设(1)u 为随机变量向量为随机变量向量;(2)E(u)=0;(3)cov(u)=E(u uT)=2u In(包含了两个其本假设:一包含了两个其本假设:一是不存在序列相关,即是不存在序列相关,即 i j 时时,cov(ui,uj)=E(uiuj)=0;二是具有同方差性二是具有同方差性(齐次方差性齐次方差性),即即Var(ui)=2u).(4)u N(0,2u In)(5)E(XTu)=0,或者或者,X 为确定矩阵为确定矩阵(6
9、)秩秩 (X)=k,(k f(k-1,n-k),就表示回归效果是好的效果是好的,在在 水平下水平下,已解释方差已解释方差(Y的变化中已经解的变化中已经解释的部分释的部分)明显大于未解释方差明显大于未解释方差(Y的变化中尚未解释的部的变化中尚未解释的部分分).8.F与与 R2的关系的关系F 统计量与统计量与R2的统计量的关系的统计量的关系,可以从下式的推演中看到可以从下式的推演中看到:推演中用到勾股定理:推演中用到勾股定理:。9.校正的判定系数(校正的判定系数(Adjusted R2)统计量统计量R2中不含有自由度。所谓校正的判定系数,就是中不含有自由度。所谓校正的判定系数,就是指指“考虑了自由
10、度的判定系数考虑了自由度的判定系数R2adj”。其定义如下:其定义如下:这样,这样,R2adj剔除了自由度的影响。剔除了自由度的影响。10.回归系数的回归系数的 T 检验检验假设假设Ho:j=0;备择假设备择假设H1:j 0(即即 Ho 不成立不成立).用用统计量统计量:服从服从t(n-k),可以完成上述假可以完成上述假设检验设检验.当当 时时,H1成立成立,即即 j 显著异于显著异于0.(n 5 时时,若取若取 =0.05,则当则当 t 2 时时,有有H1 成立成立,即即j显著异于显著异于0)针对回归系数的针对回归系数的 t 统计量的显著性检验统计量的显著性检验,决定了相应的变决定了相应的变
11、量能否作为解释变量进入回归方程量能否作为解释变量进入回归方程.注意注意:11.回归系数的置信区间回归系数的置信区间得到区间得到区间 为为 水平上水平上的置信区间的置信区间.例例:=0.05,则则给定一置信水平给定一置信水平 ,用统计量用统计量即即14.标准回归系数标准回归系数 在上述回归方程中在上述回归方程中,自变量的单位对回归系数的数自变量的单位对回归系数的数量级有很大影响量级有很大影响,例如例如:元、百元、千元、万元等。为元、百元、千元、万元等。为了从回归系数的大小中,了从回归系数的大小中,简单比较相应的自变量对因变简单比较相应的自变量对因变量的作用大小,量的作用大小,就应当剔除自变量单位
12、的影响。一般的就应当剔除自变量单位的影响。一般的处理方法是把所有的变量处理方法是把所有的变量“标准化标准化”。所谓标准化就是指对变量所谓标准化就是指对变量Y,X2,Xk进行如下处理进行如下处理:式中式中,于是于是,原始方程原始方程:就就转化为标准方程转化为标准方程:注注:在在SPSS中中,所谓标准回归系数所谓标准回归系数,就是指这一方程就是指这一方程的回归系数的回归系数.2、逐步回归法、逐步回归法逐步回归法的基本思想:逐步回归法的基本思想:在考虑在考虑 Y 对已知的一群变量对已知的一群变量(X2,Xk)回归时回归时,从变量从变量X2,Xk中中,逐步选出对已解释变差的贡献逐步选出对已解释变差的贡
13、献 (也就是偏解释也就是偏解释变差变差)最大的变量最大的变量,进入回归方程进入回归方程.而对已解释变差的贡献大而对已解释变差的贡献大小的判别依据小的判别依据,就是包含了偏解释变差的就是包含了偏解释变差的 F 统计量统计量Fj.统计统计量量Fj 的的值值 fj 最大的最大的 xj,先进入方程先进入方程;最后一个进入方程的自最后一个进入方程的自变量变量 xj,也应当满足也应当满足:统计量的值统计量的值 fj 的的显著性概率显著性概率 p 小于等小于等于选定的显著性水平于选定的显著性水平 (即即,要求其系数要求其系数 j 显著异于显著异于 0).逐步回归法也可以按照反过来的顺序进行逐步回归法也可以按
14、照反过来的顺序进行.先把先把 Y 对所有对所有的自变量的自变量 X2,Xk 回归回归,然后逐步把然后逐步把 fj 最小的最小的 xj 剔除出方程剔除出方程.所有剔除出方程的所有剔除出方程的 xj,在剔除时在剔除时,其统计量的值其统计量的值 fj 的的显著性显著性概率概率 p 大于选定的显著性水平大于选定的显著性水平 (即即,要求其系数要求其系数 j 与与 0 没没有显著性差异有显著性差异).注意注意:逐步添加法或逐步剔除法逐步添加法或逐步剔除法,都应当强调都应当强调“逐步逐步”.不能一次按照各个变量的统计量的值不能一次按照各个变量的统计量的值 fj 的显著性概率的显著性概率 p 是是否小于等于
15、选定的显著性水平否小于等于选定的显著性水平 ,来决定是否作为来决定是否作为 Y 的自的自变量变量.因为每添加或剔除一个变量因为每添加或剔除一个变量,都会引起所有回归系都会引起所有回归系数的变化和统计量的值数的变化和统计量的值 fj 的变化的变化.一次处理会造成误判一次处理会造成误判,只有逐步处理只有逐步处理,才是恰当的才是恰当的.逐步回归的第三种方法逐步回归的第三种方法:一边进一边进,一边出一边出.“进进”与与“出出”的判别准则通常是不同的的判别准则通常是不同的.“进进”的的变量的变量的fj 的的显著性概率显著性概率 p 所对照的显著性水平所对照的显著性水平 1 通常取通常取得大一些得大一些,以便能够有更多的以便能够有更多的 fj 的的外侧概率外侧概率(显著性概率显著性概率)小于小于 1,也就是使更多的系数也就是使更多的系数 j 显著异于显著异于 0,从而更多的从而更多的变量进入方程变量进入方程.而而“出出”的变量的的变量的 fj 的的显著性概率显著性概率 p 所对所对照的显著性水平照的显著性水平 2,通常取得小一些通常取得小一些,以便能够有较少的以便能够有较少的 fj 的的显著性概率显著性概率 p 小于小于 2,从而有更少的变量被剔除出方从而有更少的变量被剔除出方程程.
限制150内