2021-2022年收藏的精品资料五到八章计量经济学东北财经大学,王维国.doc
用OLS法得到的估计模型通过统计检验后,还要检验模型是否满足假定条件。由2.1 节和3.1节知,只有模型的假定条件都满足时,用OLS法得到的回归系数估计量才具有最佳线性无偏特性。当一个或多个假定条件不成立时,OLS估计量将丧失上述特性。第5-7章讨论当假定条件不成立时,对参数估计带来的影响以及相应的补救措施。 以下讨论都是在某一个假定条件被违反,而其他假定条件都成立的情况下进行。分为5个步骤。(1)回顾假定条件。(2)假定条件不成立时对模型参数估计带来的影响。(3)定性分析假定条件是否成立。(4)检验(定量分析)假定条件是否成立。(5)假定条件不成立时的补救措施。 本章介绍怎样克服异方差。本章包括以下几小节:同方差假定异方差表现与来源异方差的后果判别异方差异方差检验克服异方差的方法(广义最小二乘法)案例分析 第一节 同方差假定1 同方差假定 模型的假定条件 给出Var(u) 是一个对角矩阵, (5.1)且u的方差协方差矩阵主对角线上的元素都是常数且相等,即每一误差项的方差都是有限的相同值(同方差假定);且非主对角线上的元素为零(非自相关假定),当这个假定不成立时,Var(u) 不再是一个纯量对角矩阵,表示如下。 (5.2) 当误差向量u的方差协方差矩阵主对角线上的元素不相等时,这意味着对应不同的随机变量,方差不同。此时,称该随机误差系列存在异方差,即误差向量u中的元素ut 取自不同的分布总体。非主对角线上的元素表示误差项之间的协方差值。比如 W 中的 si j ,(i ¹ j)表示与第i组和第j组观测值相对应的ui与 uj的协方差。若 W 非主对角线上的部分或全部元素都不为零,误差项就是自相关的。本章讨论异方差。第6章讨论自相关。第7章讨论多重共线性及其他一些违反假定条件的情形。以两个变量为例,同方差假定如图5.1和5.2所示。对于每一个xt值,相应ut的分布方差都是相同的。 图5.1 同方差情形 图5.2 同方差情形第二节 异方差表现与来源1 异方差表现与来源 异方差通常有三种表现形式,(1)递增型,(2)递减型,(3)条件自回归型。递增型异方差见图5.3和5.4。随着解释变量的增加,随机误差项的方差越来越大。图5.5为递减型异方差,即随着解释变量的增加,随机误差项的方差越来越小。图5.6为条件自回归型异方差。经济时间序列中的异方差常表现为递增型异方差。金融时间序列中的异方差常表现为自回归条件异方差。 时间序列数据和截面数据中都有可能存在异方差。无论是时间序列数据还是截面数据。递增型异方差的来源主要是因为随着解释变量值的增大,被解释变量取值的差异性增大。 图5.3 递增型异方差 图5.4 递增型异方差 图5.5 递减型异方差 图5.6 条件自回归型异方差第三节 异方差的后果1 异方差的后果 下面以简单线性回归模型为例讨论异方差对参数估计的影响。对模型 yt = b0 + b1 xt + ut (5.3)当Var(ut) = st 2,为异方差时(st 2是一个随时间或序数变化的量),回归参数估计量仍具有无偏性和一致性。以为例 (5.4)但是回归参数估计量不再具有有效性。以为例, (5.5)(在上式的推导中利用了ut的非自相关假定、xt与ut非相关假定)。上式不等号左侧项分子中的st 2不是一个常量,不能从累加式中提出,所以不等号左侧项不等于不等号右侧项。而不等号右侧项是同方差条件下b1的最小二乘估计量的方差。因此,异方差条件下的失去有效性。另外回归参数估计量方差的估计是真实方差的有偏估计量。以为例,()是Var() 的有偏估计量。下面用矩阵形式讨论异方差。因为OLS估计量无偏性的证明只依赖于模型的一阶矩,所以当Var(u) 如(5.2)式所示时,OLS估计量仍具有无偏性和一致性。 E() = E (X 'X )-1 X 'Y = E (X 'X )-1 X ' (X b + u) = b + (X 'X)-1 X ' E(u) = b (5.6)但不具有有效性和渐近有效性。而且的分布将受到影响。 Var() = E (- b ) (- b )' = E (X 'X )-1 X ' u u' X (X 'X)-1 = (X ' X)-1 X ' E (u u' ) X (X ' X )-1= s 2 (X 'X )-1 X ' W X (X ' X )-1 (5.7)不等于s 2 (X ' X )-1,所以异方差条件下的是非有效估计量。第四节 判别异方差1 判别异方差对实际问题的分析,有时可以初步判别是否存在异方差。主要有三种方式。(1) 当经济变量取值的差别随时间或解释变量的增大而变大时,容易出现异方差。如在个人支出与收入的关系中,投入与产出的关系中,常会存在异方差。(2) 利用散点图也可以初步判断是否存在异方差。如果两个变量的散点图与图5.4相类似时,说明存在异方差。(3) 也可以利用模型的残差图做初步判断。如果模型的残差图如图5.7相类似时,说明存在递增型异方差。注意:对于截面样本,当用残差图观测是否存在异方差时,必须先按解释变量给样本值排序。否则即使是有异方差,利用残差图也看不出来。图5.7 残差图第五节 异方差检验 上一节介绍根据实际数据判别异方差。这一节介绍五种异方差的检验方法。1 Goldfeld-Quandt检验Goldfeld-Quandt 检验由Goldfeld和Quandt 1965年提出。这种检验的思想是以引起异方差的解释变量的大小为顺序,去掉中间若干个值,从而把整个样本分为两个子样本。用两个子样本分别进行回归,并计算残差平方和。用两个残差平方和构造检验异方差的统计量。具体步骤如下:Goldfeld-Quandt 检验的零假设和备择假设是 H0: ut 具有同方差H1: ut 具有递增型异方差把原样本分成两个子样本。具体方法是把成对(组)的观测值按解释变量的从小到大顺序排列,略去m个处于中心位置的观测值(通常T > 30时,取m » T / 4,余下的T- m个观测值自然分成容量相等的两个子样本,容量各为 (T- m) / 2。如下所示。 用两个子样本分别估计回归直线,并计算残差平方和。相对于n2 和n1 的残差平方和分别用SSE2(对应于xt值比较大的子样本)和SSE1(对应于xt值比较小的子样本)表示。构造F统计量, (5.8)其中n2 = n1 为子样本容量,k为原模型中被估参数个数。在H0成立条件下,F F( n2 - k, n1 - k) 根据实际情况分析,若不存在异方差,两个子样本对应的残差平方和应该近似相等,即F值接近1。若存在递增型异方差,则SSE2要远远大于SSE1,即F值很大。判别规则如下,若 F £ Fa (n2 - k, n1 - k) , 接受H0 (ut 具有同方差)若 F > Fa (n2 - k, n1 - k) , 拒绝H0 (具有递增型异方差)对于Goldfeld-Quandt 检验应该注意如下四点: 对于截面样本,计算F统计量之前,必须先把数据按解释变量的值从小到大排序。 此法只适用于递增型异方差。 Goldfeld-Quandt 检验依赖于随机误差项服从正态分布。 当摸型含有多个解释变量时,应以每一个解释变量为基准检验异方差。2 Glejser检验 Glejser检验由H. Glejser 1969年提出。检验原回归式的残差的绝对值 | 是否与解释变量xt的若干形式存在函数关系。若有,则说明存在该种形式的异方差;若无,则说明不存在异方差。通常给出的几种形式是 | = a0 + a1 xt | = a0 + a1 xt2 | = a0 + a1 .如果哪一种形式的通过显著性检验,则说明存在该种形式的异方差。Glejser检验的特点是:既可检验递增型异方差,也可检验递减型异方差。 一旦发现异方差,同时也就发现了异方差的具体表现形式。 计算量相对较大。当原模型含有多个解释变量值时,可以把 | 拟合成多变量回归形式。3 White检验White检验由H. White 1980年提出。Goldfeld-Quandt 检验必须先把数据按解释变量的值从小到大排序。Glejser检验通常要试拟合多个回归式。White检验不需要对观测值排序,也不依赖于随机误差项服从正态分布,它是通过一个辅助回归式构造 c2 统计量进行异方差检验。White检验的具体步骤如下。以二元回归模型为例,yt = b0 +b1 xt1 +b2 xt2 + ut (5.9)(1)首先对上式进行OLS回归,求残差。(2)作如下辅助回归式= a0 +a1 xt1 +a2 xt2 + a3 xt12 +a4 xt22 + a5 xt1 xt2 + vt (5.10)即用对原回归式中的各解释变量、解释变量的平方项、交叉积项进行OLS回归。注意,上式中要保留常数项。求辅助回归式(5.10)的可决系数R2。(3)White检验的零假设和备择假设是 H0: (5.9)式中的ut不存在异方差, H1: (5.9)式中的ut存在异方差(4)在不存在异方差假设条件下统计量 T R 2 c 2(5) (5.11)其中T表示样本容量,R2是辅助回归式(5.10)的OLS估计式的可决系数。自由度5表示辅助回归式(5.10)中解释变量项数(注意,不包括常数项)。(5)判别规则是若 T R 2 £ c2a (5), 接受H0 (ut 具有同方差)若 T R 2 > c2a (5), 拒绝H0 (ut 具有异方差)4 自回归条件异方差检验 异方差的另一种检验方法称作自回归条件异方差 (ARCH) 检验。这种检验方法不是把原回归模型的随机误差项st 2 看作是xt 的函数,而是把st 2 看作随机误差平方项ut-12 及其滞后项, ut-22 , 的函数。ARCH是误差项二阶矩的自回归过程。恩格尔(Engle 1982)针对ARCH过程提出LM检验法。辅助回归式定义为= a0 + a1 + + a n (5.12)LM统计量定义为 LM = T R 2 c 2(n)其中R 2是辅助回归式(5.12)的可决系数。在H0:a1 = = an = 0 成立条件下,LM渐近服从 c 2(n) 分布。其中n表示的滞后项个数。ARCH检验的最常用形式是一阶自回归模型(n = 1), = a0 + a1 在这种情形下,ARCH渐近服从 c 2(1) 分布。第六节 克服异方差的方法(广义最小二乘法)1 直接用引起异方差的解释变量除回归式对模型 yt = b0 + b1 xt1 + b2 xt2 + ut (5.13)假定异方差形式是Var(ut) = (s xt1)2(因为Var(ut) = E(ut)2,相当于认为 | = s xt1)。用xt1同除上式两侧得 yt / xt1 = / xt1 + b2 xt2 / xt1 + ut / xt1 , (5.14)因为Var(ut / xt1) = (1/ xt12 ) Var(ut) = (1/ xt12 ) s 2 xt12 = s 2, (5.14) 式中的随机项 (ut / xt1) 是同方差的。对 (5.14) 式做OLS估计后,把回归参数的估计值代入原模型 (5.9)。对 (5.14) 式应用OLS法(求 S (/ xt1) 2 最小)估计参数。其实际意义是在求 S(/xt1)2 最小的过程中给相应ut分布方差小的误差项以大的权数,ut方差大的误差项以小的权数。所以此法亦称为加权最小二乘法,是GLS估计法的一个特例。下面以矩阵形式描述克服异方差。设模型为 Y = X b + u (5.15)其中E(u) = 0,Var(u) = E(u u') = s 2W。W 已知,b 与s 2未知。因为 W ¹ I,违反了假定条件,所以应该对模型进行适当修正。 因为 W 是一个T 阶正定矩阵,所以必存在一个非退化T´T 阶矩阵M使下式成立。 M W M ' = I T´T (5.16)从上式得 M 'M = W -1 (5.17)用M左乘回归模型(5.15)两侧得 M Y = M X b + M u (5.18)取Y* = M Y, X * = M X, u* = M u , 上式变换为 Y* = X*b + u* (5.19)则 u* 的方差协方差矩阵为Var(u*) = E(u* u*' ) = E (M u u' M ' ) = M s 2 W M ' = s 2 M W M ' = s 2 I (5.20)变换后模型(5.19)的Var(u*)是一个纯量对角矩阵。对变换后模型(5.19)进行OLS估计,得到的是 b 的最佳线性无偏估计量。这种估计方法称作广义最小二乘法。b 的广义最小二乘 (GLS) 估计量定义为(GLS) = (X*' X*)-1 X*' Y* = (X 'M ' M X ) -1 X ' M 'M Y = (X 'W -1X) -1 X 'W -1Y (5.21)下面以异方差形式Var(ut) = s 2 xt2为例,具体介绍广义最小二乘法变换结果。 (5.22)定义 (5.23)从而使Var(M u) = E (M u u' M ' ) = M s 2 W M ' = s 2 M W M '= s 2 I (T´T) (5.24)即对于 (5.19) 式来说误差项已消除了异方差。2 利用Glejser检验结果消除异方差假设Glejser检验结果是 | = +xt1说明异方差形式是Var(ut) = (+xt)2s2。用 (+xt) 除原模型 (5.9) 各项, (5.25)则 = s2 (5.26)说明消除了异方差。对 (5.25) 式做OLS估计,把回归参数的估计值代入原模型 (5.9)。在实际应用中,通过对变量取对数的方法常常能达到消除异方差的目的。详细请见本章后面的案例。 3 通过对变量取对数消除异方差在实际应用中,通过对变量取对数的方法常常能达到消除异方差的目的。详细请见本章后面的案例。 第七节 案例分析案例1取1986年中国29个省市自治区农作物种植业产值yt(亿元)和农作物播种面积xt(万亩)数据(见表5.1)研究二者之间的关系。得估计的线性模型如下, yt = -5.6610 + 0.0123 xt (5.27) (12.4) R2 = 0.85, F = 155.0, T = 29 表5.1 yt和xt数据序号yt农作物产值xt农作物播种面积序号yt农作物产值xt农作物播种面积116.31907.516183.6517729.2217.14873.217146.7911061.53125.2413159.218129.6311304.7442.245928.119154.289166.2540.286834.42061.246821.7684.475495.521206.517779.6770.76055.22244.374701.38101.6712694.62351.796036.1916.831018.5243.53316.510211.5112770.92559.457016.5111016542.72637.295252.512155.8712244.3276.33761.71349.723601.52810.071235.21469.78158.12944.784275.115255.9216564.5 图5.8 农作物产值yt和播种面积xt散点图 图5.9 (5.27)式的残差图 无论是从yt和xt观测值的散点图(见图5.8)还是模型的残差图(见图5.9)都可以发现数据中存在递增型异方差。(1)用Goldfeld-Quandt方法检验是否存在异方差。 首先对成对样本数据(yt,xt)按xt取值大小排序。 表5.2 按xt取值从小到大排序的成对yt和xt数据序号yt农作物产值xt农作物播种面积序号yt农作物产值xt农作物播种面积13.53316.51661.246821.726.33761.71740.286834.4317.14873.21859.457016.5416.31907.51969.78158.1516.831018.520154.289166.2610.071235.221146.7911061.5749.723601.522129.6311304.7844.784275.123155.8712244.3944.374701.324101.6712694.61037.295252.525211.5112770.91184.475495.526125.2413159.21242.245928.127255.9216564.51351.796036.128183.6517729.21470.76055.229206.517779.6151016542.7 去掉中间7个数据,则按xt取值大小分成样本容量各为11的两个子样本。 用两个子样本(x1, , x11),(x19, , x29),各自回归得结果如下,yt = 2.7202 + 0.0106 xt , (t = 1, , 11) (5.28) (5.8) R2 = 0.80, F = 33.8, SSE1 = 1266yt = 5.8892 + 0.0118 xt , (t = 19, , 29) (5.29) (3.0) R2 = 0.50, F = 9.1, SSE2 = 14174计算F统计量, 因为F = 11.2 > F0.05 (9, 9) = 3.18,所以检验结果是(5.27)式存在递增型异方差。 注意:如果不对表5.1中成对样本数据(yt,xt)按xt取值大小排序。则残差图中观察不到异方差(见图5.10)。图5.10 残差图(2) 用Glejser法检验异方差用 (5.27) 式的残差的绝对值对xt回归得| | = 0.0024 xt (5.30) (8.0) R2 = 0.22输出结果见表5.3。 表5.3 (5.30)式的计算机输出形式 注:REABS表示| |。 可见误差项的异方差形式是Var(ut) = E(ut)2 = (0.0024)2 xt2。(3)用White方法检验异方差首先用(5.27)式中的残差做如下辅助回归= a0 +a1 xt + a3 xt2 + vt OLS估计结果是= -219.7 + 0.1595 xt 0.000055 xt2 (-0.5) (1.5) (-0.6) R2 = 0.27, T = 29注意,主要是利用上式的可决系数计算White检验统计量,所以不必注重上式中的t值。计算机输出形式见表5.4。EViews中有White检验计算程序。获得表5.4结果的操作是在(5.27)式估计窗口的功能键中选View, Residual Tests, White Heteroskedasticity (no cross trms)。表5.4 (5.31)式的计算机输出形式 计算统计量 T R 2 = 29 ´ 0.2765 = 8.02因为T R 2 = 8.02 > c20.05 (2) = 5.99,所以模型(5.27)中存在异方差。以上三种检验方法的检验结果都认为(5.27)式存在异方差。下面克服异方差。(1)用取对数的方法消除异方差对yt和xt同取对数。得两个新变量Lnyt 和Lnxt(散点图见图5.11)。用Lnyt 对Lnxt 回归,得 Lnyt = - 4.1801 + 0.9625 Lnxt (5.31) (16.9) R2 = 0.91, F = 285.6, (t = 1, , 29) 图5.11 Ln yt和 Ln xt 图5.12 残差图用Goldfeld-Quandt方法检验(5.31)式是否存在异方差。对数据(Lnyt,Lnxt)按Lnxt从小到大排序。去掉中间7个观测值,仍按xt大小分成两个T = 11的子样本,并回归(结果略)得SSE1 = 1.17,SSE2 = 0.65,计算F统计量的值, 因为0.56小于F0.05 (9, 9) = 3.18,所以取对数后,模型中已不存在递增型异方差(残差见图5.12)。 (2)用Glejser检验结果克服异方差。因为异方差形式是| | = 0.0024 xt,所以克服异方差的方法是用xt分别除(5.27) 式两侧,得变换变量yt* = yt / xt,xt* = 1 / xt。用yt* 对xt* 回归(见图5.13),得 yt* = 0.0113 + 0.8239 xt* (5.32) (13.8) (0.8) R2 = 0.63, F = 46.1 图5.13 yt* 和 xt* 图5.14 残差图 注意,回归系数0.8239没有显著性,截距项0.0113却有很强的显著性,而0.0113正是还原后模型的回归系数,所以模型通过检验。用xt乘(5.32)式两侧并整理得 yt = 0.8239 + 0.0113 xt (5.33) (0.8) (13.8) R2 = 0.63, F = 46.1由(5.33) 式得到的残差见图5.14。经检验已不存在异方差。(5.33) 式,即 (5.32) 式中的回归参数具有最佳线性无偏特性。比较(5.27)和 (5.33) 式,虽然0.0113和0.0123相差不多,但从估计原理分析,0.0113有更大的可能性比0.0123离回归参数真值近。通过这个例子说明,在实际中直接用解释变量除原变量的变换方法克服异方差是可行的。 本章包括以下几小节:非自相关假定一阶自相关自相关的来源与后果自相关检验克服自相关克服自相关的矩阵描述自相关系数的估计案例分析第一节 非自相关假定1 非自相关假定 由第2章知回归模型的假定条件之一是, Cov(ui, uj ) = E(ui uj) = 0, (i, j Î T, i ¹ j) (6.1)即误差项ut的取值在时间上是相互无关的。称误差项ut非自相关。如果 Cov (ui , uj ) ¹ 0, (i ¹ j)则称误差项ut存在自相关。自相关又称序列相关。原指一随机变量在时间上与其滞后项之间的相关。这里主要是指回归模型中随机误差项ut与其滞后项的相关关系。自相关也是相关关系的一种。第二节 一阶自相关 自相关按形式可分为两类。1 一阶自回归形式当误差项ut只与其滞后一期值有关时,即ut = f (ut - 1),称ut具有一阶自回归形式。2 高阶自回归形式当误差项ut的本期值不仅与其前一期值有关,而且与其前若干期的值都有关系时,即ut = f (ut 1, u t 2 , ),则称ut具有高阶自回归形式。 通常假定误差项的自相关是线性的。因计量经济模型中自相关的最常见形式是一阶自回归形式,所以下面重点讨论误差项的线性一阶自回归形式,即 ut = a1 ut -1 + vt (6.2)其中a1是自回归系数,vt 是随机误差项。vt 满足通常假设 E(vt ) = 0, t = 1, 2 , T, Var(vt) = sv2, t = 1, 2 , T, Cov(vi, vj ) = 0, i ¹ j, i, j = 1, 2 , T, Cov(ut-1, vt) = 0, t = 1, 2 , T,依据普通最小二乘法公式,模型(6.2)中 a1 的估计公式是, (6.3)其中T是样本容量。若把ut, u t-1看作两个变量,则它们的相关系数是 (6.4)对于大样本显然有 (6.5)把上关系式代入(6.4)式得 (6.6)因而对于总体参数有 r = a1,即一阶自回归形式的自回归系数等于该二个变量的相关系数。因此原回归模型中误差项ut的一阶自回归形式(见模型(6.2)可表示为, ut = r ut-1 + vt. (6.7)由1.11.3节知r 的取值范围是 -1,1。当 r > 0 时,称ut 存在正自相关;当 r < 0时,称ut存在负自相关。当 r = 0时,称ut不存在自相关(非自相关)。图6.1 a, c, e, 分别给出具有非自相关,正自相关和负自相关的三个序列。为便于理解时间序列的正负自相关、非自相关特征,图6.1 b, d, f, 分别给出图6.1 a, c, e, 中变量对其一阶滞后变量的散点图。这三个散点图展示正负自相关以及非自相关性则非常明显。 比较图6.1 a, c, e,可以看出,当时间序列频繁穿越均值点(图中为零)时(见图6.1 e,几乎每一期值都改变一次符号),序列存在负自相关。当时间序列缓慢地穿越均值点时,见图6.1 c,序列存在正自相关。当序列穿越均值点的频率适中时,见图6.1 a,序列为非自相关。 a. 非自相关的序列图 b. 非自相关的散点图 c. 正自相关的序列图 d. 正自相关的散点图 e. 负自相关的序列图 f. 负自相关的散点图图6.1时间序列及其当期与滞后一期变量的散点图下面推导当误差项ut为一阶自回归形式时,ut 的期望、方差与协方差公式。由(6.7)式有 E(ut) = E(r ut -1 + vt) = r E(ut -1) + E(vt) (6.8)因为对于平稳序列有E(ut) = E(ut -1),整理上式得 E(ut) = E(vt) / (1- r 2 ) = 0Var(ut) = E(ut)2 = E(r ut -1 + vt)2 = E(r2 ut 12 + vt2 + 2r ut -1 vt )2 = r2 Var(ut-1) +sv2整理上式得Var(ut) = su2 = sv2 / (1- r 2 ) (6.9)Cov(ut, ut-1) = E(ut ut-1) = E(r ut -1 + vt) ut-1) = r Var(ut-1) = rsu2 (6.10)同理 Cov(ut, ut-s) = r s Var(ut) = r s su2, (s ¹ 0 ) (6.11)令u = (u1 u2 u3 uT),则由公式(6.9),(6.10),(6.11)得 (6.12)其中su2 = sv2 / (1 - r 2 )。从而验证了当回归模型的误差项ut存在一阶自回归形式时,Cov(ui, uj) ¹ 0。同理也可证明当ut 存在高阶自回归形式时,仍有Cov(ui, uj) ¹ 0。注意,(1)这里主要是指时间序列中的自相关。(2)经济问题中的时间序列自相关主要表现为正自相关(原因见6.3节)。第三节 自相关的来源与后果1 自相关的来源与后果回归模型的误差项存在自相关,主要有如下几个原因。 (1) 模型的数学形式不妥。若所用的数学模型与变量间的真实关系不一致,误差项常表现出自相关。比如平均成本与产量呈抛物线关系,当用线性回归模型拟合时,误差项必存在自相关。 (2) 惯性。大多数经济时间序列本身都存在自相关。其本期值往往受滞后值影响。突出特征就是惯性与低灵敏度。如国民生产总值,固定资产投资,国民消费,物价指数等随时间缓慢地变化,从而建立回归模型时导致随机误差项自相关。 (3) 回归模型中略去了带有自相关的重要解释变量。若丢掉了应该列入模型的带有自相关的重要解释变量,那么它的影响必然归并到误差项ut中,从而使误差项呈现自相关。当然略去多个带有自相关的解释变量,也许因互相抵消并不使误差项呈现自相关。当误差项ut 存在自相关时,模型参数的最小二