《统计学10线性回归分析.ppt》由会员分享,可在线阅读,更多相关《统计学10线性回归分析.ppt(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十章第十章 线性回归分析线性回归分析 变量之间的关系有两种:变量之间的关系有两种:确定型的函数关系确定型的函数关系 不确定型的函数关系不确定型的函数关系 这里主要研究不确定型的函数关系,如收入这里主要研究不确定型的函数关系,如收入与受教育程度之间的关系,等等问题。与受教育程度之间的关系,等等问题。但它们之但它们之间存在明显的相互关系(称为相关关系),又是间存在明显的相互关系(称为相关关系),又是不确定的。不确定的。回归分析是研究随机变量之间相关关系的统计方回归分析是研究随机变量之间相关关系的统计方法。其研究一个被解释变量(因变量)与一个或法。其研究一个被解释变量(因变量)与一个或多个解释变量
2、(自变量)之间的统计关系。多个解释变量(自变量)之间的统计关系。例例:人均收入:人均收入 X 与人均食品消费支出与人均食品消费支出 Y 的散点图的关系的散点图的关系如图。如图。1.一元线性回归是研究一个自变量与一个因变量的统计一元线性回归是研究一个自变量与一个因变量的统计关系。关系。一一.一元线性回归一元线性回归人均收入人均收入X人人均均食食品品支支出出Y这两个变量之间的不确定关系,可以用下式表示:这两个变量之间的不确定关系,可以用下式表示:式中,人均食品消费支出式中,人均食品消费支出Y 是被解释变量,是被解释变量,人均收入人均收入 X 是解释变量,是解释变量,1,2是待估计参数;是待估计参数
3、;u 是随机干扰项,是随机干扰项,且与且与 X 无关,无关,它反映了它反映了 Y 被被 X 解释的不确定性解释的不确定性。如果随机干扰项如果随机干扰项 u 的均值为的均值为 0,对上式求条件均值,对上式求条件均值,有有反映出从反映出从“平均平均”角度看,是确定性关系。角度看,是确定性关系。例:例:地区的多孩率与人均国民收入的散点图如下:地区的多孩率与人均国民收入的散点图如下:人均收入人均收入X多多孩孩率率 Y这两个变量之间的不确定关系,大致可以用下式表示:这两个变量之间的不确定关系,大致可以用下式表示:设设 Z=Ln X,可将上式线性关系为:,可将上式线性关系为:线性回归的任务:线性回归的任务
4、:就是用恰当的方法,估计出参就是用恰当的方法,估计出参数数 1,2,并且使估计出来的参数具有良好的统,并且使估计出来的参数具有良好的统计特征,所以,回归问题从某种视角看,视同参计特征,所以,回归问题从某种视角看,视同参数估计问题。数估计问题。如果把如果把X,Y的样本观测值代到线性回归方程中,就得的样本观测值代到线性回归方程中,就得到到i=1,2,n,n为样本容量为样本容量.从重复抽样的角度看,从重复抽样的角度看,Xi,Yi也可以视为随机变量。也可以视为随机变量。2.高斯基本假设高斯基本假设对于线性回归模型对于线性回归模型i=1,2,n,n为样本容量为样本容量.高斯基本假设如下高斯基本假设如下:
5、(1)ui 为随机变量为随机变量(本假设成立本假设成立,因为我们研究就是不因为我们研究就是不确定关系确定关系).(2)E(ui)=0,随机干扰项的期望值等于零随机干扰项的期望值等于零(本假设成立本假设成立,如果其均值不是零如果其均值不是零,可以把它并入到可以把它并入到 1 中中).(3)Var(ui)=2u,随机干扰项的方差等于常数随机干扰项的方差等于常数(本假设本假设有可能不成立有可能不成立,以后讨论不成立时如何处理以后讨论不成立时如何处理).(4)E(uiuj)=0(i j)随机干扰项协方差等于零随机干扰项协方差等于零(本假设本假设有可能不成立有可能不成立,以后讨论不成立时如何处理以后讨论
6、不成立时如何处理).(5)ui 服从服从 N(0,2u)分布分布;(6)E(Xiuj)=0,对对Xi 的性质有两种解释的性质有两种解释:a.Xi 视为随机变量视为随机变量,但与但与uj无关无关,所以所以(6)成立成立.b.Xi 视为确定型变量视为确定型变量,所以所以(6)也成立也成立.3.普通最小二乘法普通最小二乘法(OLS)设线性回归模型设线性回归模型其中其中为为 1,2 的估计值的估计值,则则 Y 的计算值的计算值,可以可以用下式表达用下式表达:所要求出待估参数所要求出待估参数 ,要使要使 Y 与其计算值与其计算值之间之间的的“误差平方和误差平方和”最小最小.即:即:使得使得最小最小.为此
7、为此,分别求分别求Q 对对 的偏导的偏导,并令其为零并令其为零:由上两式由上两式,就可求出待估参数就可求出待估参数 的值的值.4.所求参数的计算公式所求参数的计算公式的另一个表达式为的另一个表达式为:例例::在上述家庭可支配收入可支配收入-消费支出消费支出例中,对于所抽出的一组样本数,参数估计的计算可通过下面的表进行。参数估计的计算表参数估计的计算表 iX iY ix iy iiyx 2ix 2iy 2iX 2iY 1 800 594-1350-973 1314090 1822500 947508 640000 352836 2 1100 638-1050-929 975870 1102500
8、 863784 1210000 407044 3 1400 1122-750-445 334050 562500 198381 1960000 1258884 4 1700 1155-450-412 185580 202500 170074 2890000 1334025 5 2000 1408-150-159 23910 22500 25408 4000000 1982464 6 2300 1595 150 28 4140 22500 762 5290000 2544025 7 2600 1969 450 402 180720 202500 161283 6760000 3876961 8
9、2900 2078 750 511 382950 562500 260712 8410000 4318084 9 3200 2585 1050 1018 1068480 1102500 1035510 10240000 6682225 10 3500 2530 1350 963 1299510 1822500 926599 12250000 6400900 求和 21500 15674 5769300 7425000 4590020 53650000 29157448 平均 2150 1567 因此,由该样本估计的回归方程为:5.几何解释几何解释残差向量残差向量 e=Y =(Y-Y)-(-Y)
10、=y-向量向量 y,e 三者之间关系如图所示三者之间关系如图所示,普通最小二乘法要使残差平方和普通最小二乘法要使残差平方和 e2i 最小最小,也就是也就是要使要使 e 的长度尽可能小的长度尽可能小,等价于在几何上等价于在几何上 e x.或或者说者说,的长度应当是的长度应当是 y 在在 x 上的投影长度上的投影长度.yxe二二.多元线性回归多元线性回归 本节要研究一个被解释变量本节要研究一个被解释变量(因变量因变量),多个解释变量多个解释变量(自变量自变量)的线性模型的线性模型,即即1.基本假设基本假设(1)u 为随机变量向量为随机变量向量;(2)E(u)=0;(3)cov(u)=E(u uT)
11、=2u In(包含了两个其本假设:一包含了两个其本假设:一是不存在序列相关,即是不存在序列相关,即 i j 时时,cov(ui,uj)=E(uiuj)=0;二是具有同方差性二是具有同方差性(齐次方差性齐次方差性),即即Var(ui)=2u).(4)u N(0,2u In)(5)E(XTu)=0,或者或者,X 为确定矩阵为确定矩阵(6)秩秩 (X)=k,(k f(k-1,n-k),就表示回归效果是好的效果是好的,在在 水平下水平下,已解释方差已解释方差(Y的变化中已经解的变化中已经解释的部分释的部分)明显大于未解释方差明显大于未解释方差(Y的变化中尚未解释的部的变化中尚未解释的部分分).8.F与
12、与 R2的关系的关系F 统计量与统计量与R2的统计量的关系的统计量的关系,可以从下式的推演中看到可以从下式的推演中看到:推演中用到勾股定理:推演中用到勾股定理:。一个二元线性回归的例子一个二元线性回归的例子销售额、人口数和年人均收入数据地区编号销售额(万元)y人口数(万人)x1年人均收入(元)x21234567891033.335.527.630.431.953.135.629.035.134.532.429.126.331.229.240.729.823.028.226.91250165014501310131015801490152016201570【例例例例】一一家家百百货货公公司司在在
13、1010个个地地区区设设有有经经销销分分公公司司。公公司司认认为为商商品品销销售售额额与与该该地地区区的的人人口口数数和和年年人人均均收收入入有有关关,并并希希望望建建立立它它们们之之间间的的数数量量关关系系式式,以以预预测测销销售售额额。有有关关数数据据如如下下表表。试试确确定定销销售售额额对对人人口口数数和和年年人人均均收收入入的的线线性性回回归归方方程程,并并分分析析回回归归方方程程的的拟拟合合程程度度,对对线线性性关关系系和和回回归归系系数数进进行行显显著著性性检检验验(=0.05)=0.05)。一个二元线性回归的例子一个二元线性回归的例子(Excel 输出的结果输出的结果)一个二元线
14、性回归的例子一个二元线性回归的例子(计算机输出结果解释计算机输出结果解释)销售额与人口数和年人均收入的二元回归方程为销售额与人口数和年人均收入的二元回归方程为2.2.多重判定系数多重判定系数R R2 2=0.93730.9373;调整后的调整后的R R2 2=3.3.回归方程的显著性检验回归方程的显著性检验 F F=52.3498 =52.3498 F F F F(2,7)=4.74(2,7)=4.74,回归方程显著回归方程显著4.4.回归系数的显著性检验回归系数的显著性检验 t t=9.35489.3548t t=0.3646=0.3646,;t t 2 2=4.7962 4.7962 t
15、t=2.3646=2.3646;两个回归系数均显著两个回归系数均显著一个含有四个变量的回归9.校正的判定系数(校正的判定系数(Adjusted R2)统计量统计量R2中不含有自由度。所谓校正的判定系数,就是中不含有自由度。所谓校正的判定系数,就是指指“考虑了自由度的判定系数考虑了自由度的判定系数R2adj”。其定义如下:。其定义如下:这样,这样,R2adj剔除了自由度的影响。剔除了自由度的影响。10.回归系数的回归系数的 T 检验检验假设假设Ho:j=0;备择假设备择假设H1:j 0(即即 Ho 不成立不成立).用统计量用统计量:服从服从t(n-k),可以完成上述假可以完成上述假设检验设检验.
16、当当 时时,H1成立成立,即即 j 显著异于显著异于0.(n 5 时时,若取若取 =0.05,则当则当 t 2 时时,有有H1 成立成立,即即j显著异于显著异于0)针对回归系数的针对回归系数的 t 统计量的显著性检验统计量的显著性检验,决定了相应的变决定了相应的变量能否作为解释变量进入回归方程量能否作为解释变量进入回归方程.注意注意:11.回归系数的置信区间回归系数的置信区间得到区间得到区间 为为 水平上水平上的置信区间的置信区间.例例:=0.05,则则给定一置信水平给定一置信水平 ,用统计量用统计量即即12.偏相关系数的另一种几何解释偏相关系数的另一种几何解释定义定义:偏相关系数是在其他变量
17、不变的情况下偏相关系数是在其他变量不变的情况下,任意两任意两个变量之间的相关系数个变量之间的相关系数.例如例如:已知已知 偏相关系数偏相关系数表示排除表示排除X3,Xk影响影响后的后的Y和和X2之间的相关关系之间的相关关系,其计算过程如下其计算过程如下:(1)求中心化数据求中心化数据y 对中心化数据对中心化数据x3,xk的的OLS估计值估计值:要求出上式结果要求出上式结果,需经两个步骤需经两个步骤:a.用中心化数据用中心化数据 y 对中心化数据对中心化数据x3,xk 回归回归,求出回求出回归系数归系数b.依托已经求出的回归系数依托已经求出的回归系数 和由样本得和由样本得到的中心化数据到的中心化
18、数据,计算计算 .(2)令令 (从从 yi 中剔除中剔除 x3,xk 的影响的影响).(3)求求 x2 对对x3,xk的最小二乘估计的最小二乘估计值值:要求出上式结果要求出上式结果,同样需经两个步骤同样需经两个步骤:先用先用x2 对对x3,xk回归回归,求出回归系数求出回归系数 ,然后求出然后求出 .(4)令)令 (从从 中剔除中剔除 x3,xk 的影响的影响).(5)求得偏相关系数如下求得偏相关系数如下:偏相关系数的几何解释偏相关系数的几何解释:在下图中在下图中,偏相关系数是图中偏相关系数是图中 角的余弦角的余弦:偏相关系数的几何解释偏相关系数的几何解释x2yx3,xky*x2*注意注意:图
19、中图中,已知从图中左边的虚线已知从图中左边的虚线,平移到右边的虚线平移到右边的虚线.13.复相关系数的另一种几何解释复相关系数的另一种几何解释复相关系数复相关系数 R 是图中是图中y与其投影向量与其投影向量的夹角的夹角 的余弦的余弦.或者说或者说,判定系数是该余弦的平方判定系数是该余弦的平方.x2复相关系数的另一种几何解释复相关系数的另一种几何解释x3,xke y14.标准回归系数标准回归系数 在上述回归方程中在上述回归方程中,自变量的单位对回归系数的数自变量的单位对回归系数的数量级有很大影响量级有很大影响,例如例如:元、百元、千元、万元等。为元、百元、千元、万元等。为了从回归系数的大小中,了从回归系数的大小中,简单比较相应的自变量对因变简单比较相应的自变量对因变量的作用大小,量的作用大小,就应当剔除自变量单位的影响。一般的就应当剔除自变量单位的影响。一般的处理方法是把所有的变量处理方法是把所有的变量“标准化标准化”。所谓标准化就是指对变量所谓标准化就是指对变量Y,X2,Xk进行如下处理进行如下处理:式中式中,于是于是,原始方程原始方程:就转化为标准方程就转化为标准方程:注注:在在SPSS中中,所谓标准回归系数所谓标准回归系数,就是指这一方程就是指这一方程的回归系数的回归系数.
限制150内