《经济计量学 教程.docx》由会员分享,可在线阅读,更多相关《经济计量学 教程.docx(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、经济计量学第一章 绪论一、定义:经济计量学(Econometrics)一词是由挪威经济学家、第一届诺贝尔经济学奖得主拉格纳弗瑞希(Ragnar Frisch)1926年仿照生物计量学(Biometrics)一词提出的。经济计量学的任务是以经济学、统计学和数学之间的统一为充分条件,去实际理解现代经济生活中的数量关系。二、经济计量学的内容体系1、理论经济计量学(1)理论经济计量学:是寻找适当的方法,去测度由经济计量模型设定的经济关系式。(2)经济计量方法:单方程估计方法、联立方程系统估计方法2、应用经济计量学经济计量学的实际应用过程,主要是建立、估计和检验各类经济计量模型,以达到结构分析、经济预测
2、和政策评价的目的。应用经济计量学:以经济理论和事实为出发点,应用计量方法,解决经济系统运行过程中的理论问题或实践问题。三、经济计量学的研究步骤1、模型方程式的种类2、模型变量的种类四、使用模型一、建立模型1、收集模型所含经济变量的数据2、方程识别条件的研究3、选择适当的经济计量方法估计模型参数1、经济理论准则2、统计准则3、经济计量准则二、估计参数三、验证模型1、建立模型建立模型是根据经济理论和某些假设条件,区分各种不同的经济变量,建立单一方程式或方程体系,来表明经济变量之间的相互依存关系。(1)模型方程式的种类1)随机方程:是根据经济行为构造的函数关系式,带有随机误差项。由于经济计量模型中的
3、随机方程是根据经济行为构造的,因此,也常称它们为“行为方程”。2)非随机方程:是根据经济学理论或政策、法规而构造的经济变量恒等式。由于经济计量模型中的非随机方程是根据理论、政策、法规确定的,因此常称它们“定义方程”、“制度方程”或“政策方程”。(2)模型变量的种类1)按照它们的数值是在什么范围决定为标准:内生变量、外生变量内生变量:具有一定概率分布的随机变量,由模型自身决定,其数值是求解模型的结果。外生变量:是非随机变量,在模型体系之外决定,即在模型求解前已得到了数值。内生变量和外生变量的划分是相对的,二者没有不可逾越的鸿沟,什么作内生变量,什么作外生变量,常常是由模型设计者根据具体情况决定的
4、。2)被解释变量、解释变量对于一个方程来说,等号左边的因变量称为被解释变量(Explained Variable),等号右边的自变量称为解释变量(Explaining Variable)。在模型中,一个方程的被解释变量可能是其它方程的解释变量。被解释变量一定是模型的内生变量,但解释变量除包括外生变量之外,还可能包括一些内生变量。3)滞后变量、前定变量有些方程还使用内生变量的前期或前几期的数值作解释变量,我们称这样的变量为滞后变量(Lagged Variable)。滞后变量如同外生变量一样,在模型求解之前为已知的。故一般将外生变量和滞后变量合称为前定变量(Predetermined Variab
5、le)。经济变量内生变量前定变量滞后变量外生变量外生经济变量政策变量虚拟变量2、估计参数(1)收集模型所含经济变量的数据1)时间序列数据:某一经济变量在各个时期的数值按时间先后顺序排列所形成的数列2)截面数据:在同一时点或时期上,不同统计单位的相同统计指标组成的数据3)混合数据:是指兼有时间序列和截面数据两种成份的数据4)虚拟变量数据:是经济计量学家为不能量化的定性变量而设定的(2)方程识别条件的研究(3)选择适当的经济计量方法估计模型参数3、验证模型(1)经济理论准则经济理论准则即根据经济理论所阐明的基本原理,以此对模型参数的符号和取值范围进行检验;就是据经济理论对经济计量模型中参数的符号和
6、取值范围施加约束。假如参数实际估计值的符号和大小与经济理论分析不符,就应舍弃;除非有充足理由使人们相信,在某种特定情况下经济理论的原理不成立。(2)统计准则统计准则是由统计理论决定的,统计准则的目的在于考察所求参数估计值的统计可靠性。由于所求参数的估计值是根据经济计量模型中所含经济变量的样本观测值求得的,便可以根据数理统计学的抽样理论中的几种检验,来确定参数估计值的精确度。1)根据样本观测值计算的判定系数是一种统计量,它表示由解释变量说明被解释变量的程度2)参数估计量的标准差是参数估计量与参数真实值的离差的一种度量。参数估计量的标准差愈大,则它的可靠性愈小,参数估计量的标准差愈小,则它的可靠性
7、愈大。3)应该着重指出,若根据经济理论准则,验证所求参数估计值具有“错误”符号或大小,即使这些参数估计值在统计上是显著的,也应当舍弃这些参数的估计值。统计准则对经济理论准则而言,它是第二位的或是次要的。(3)经济计量准则经济计量准则是由理论经济计量学决定的,其目的在于研究任何特定情况下,所采用的经济计量方法是否违背了经济计量模型的假定。经济计量准则作为二级检验,可视为统计准则的再检验。经济计量准则是确定所求参数估计值的正确与否。这些准则有助于我们确定所求参数估计值是否具有合乎最佳线性无偏误估计量的性质,即无偏性、一致性和有效性等等。4、使用模型(1)结构分析就是利用已估计出参数值的模型,对所研
8、究的经济系统变量之间的相互关系进行分析,目的在于了解和解释有关经济变量的结构构成和结构变动的原因。(2)预测未来就是根据已估计出参数值的经济计量模型来推测内生变量在未来时期的数值,这是经济计量分析的主要目的之一。(3)规划政策这是经济计量模型的最重要用途,也是它的最终目的。规划政策是由决策者从一系列可供选择的政策方案中,挑选出一个最优政策方案予以执行。一般的操作步骤是先据模型运算一个基本方案,然后改变外生变量(政策变量)的取值,得到其它方案,对不同的政策方案的可能后果进行评价对比,从而做出选择,因此又称政策评价或政策模拟。第二章 一元线性回归模型第一节 回归分析的相关概念一、回归的含义1、回归
9、一词的原始含义:高尔顿普遍回归定律2、现代回归概念:回归分析就是研究被解释变量对解释变量的依赖关系,其目的就是通过解释变量的已知或设定值,去估计或预测被解释变量的总体均值。这种一个变量依赖于另一个或多个变量的事例在经济系统中普遍存在。回归分析就是要研究这种变量之间的依存关系。二、统计关系与确定性关系三、回归分析与相关分析与回归分析密切相联的是相关分析。相关分析主要测度两个变量之间的线性关联度,相关系数就是用来测度两个变量之间的线性关联程度的。在回归分析中,被解释变量Y被当作是随机变量,而解释变量X则被看作非随机变量。而在相关分析中,我两者处于平等地位,不存在谁为解释变量,谁为被解释变量的问题,
10、两者均为随机变量。第二节 一元线性回归模型一、 引例条件平均值落在一根有正斜率的直线上。我们称这根直线叫做总体回归线,它是Y 对X 的回归。总体回归线:就是当解释变量取给定值时,被解释变量的条件均值或期望值的轨迹。二、 总体回归函数E(Y/Xi)= f (Xi)总体回归函数,简称总体回归。它表明在给定Xi 下Y 的分布的总体均值与Xi有函数关系,就是说它给出了Y 的均值是怎样随X 值的变化而变化的。函数f (Xi)采取什么函数形式,是一个需要解决的重要问题。在实际经济系统中,我们不会得到总体的全部数据,因而就无法据已知数据确定总体回归函数的函数形式。同时,对总体回归函数的形式只能据经济理论与经
11、验去推断。三、 线性的含义1、对变量为线性对线性的第一种解释是指Y 的条件期望是Xi 的线性函数2、对参数为线性对线性的第二种解释是指Y 的条件期望 是参数 的一个线性函数。它可以是也可以不是变量的X 的线性函数。在本课中,主要考虑的是对参数为线性的回归模型,线性回归是指对参数为线性的一种回归(即参数只以它的1次方出现);对解释变量X则可以不是线性的。四、 总体回归函数的随机设定1、 代表相同收入水平的所有家庭的平均消费支出。这是系统性或确定性成份。2、ui 为随机或非系统性成份,代表所有可能影响Y,但又未能包括到回归模型中来的被忽略变量的代理变量。五、 随机误差项u 的意义1、理论的欠缺2、
12、数据的欠缺3、核心变量与非核心变量4、人类行为的内在随机性5、节省原则,我们想保持一个尽可能简单的回归模型六、 样本回归函数样本回归线,因抽样波动,它们都是总体回归线的一个近似。回归分析中的主要目的就是根据样本回归函数:来估计总体回归函数:由于抽样的波动,我们根据样本回归函数估计出来的总体回归函数只能是一个近似结果。因此怎样构造样本回归函数能使尽可能接近真实的就成为回归分析的核心第三节 最小二乘估计在回归分析中有很多种构造样本回归函数的方法,而最广泛使用的一种是普通最小二乘法(method of ordinary least squares, 简记OLS)一、普通最小二乘法(OLS)为使样本回
13、归模型的估计值尽可能地靠近观测值Yi,我们就必须使用最小二乘准则,使:尽可能地小,其中,是残差的平方。上面得到的估计量 , 是从最小二乘原理演算而得的,因此称为最小二乘估计量。二、经典线性回归模型如果我们的目的仅仅是估计 和 ,那么普通最小二乘法就足够用了。但在回归分析中,我们的目的不仅仅是获得 , 的估计值 , ,而是要对真实 和 做出推断。1、假定1:零均值假定误差项ui 的均值为零。对于给定的X 值,随机误差项ui 的均值或期望值为零,即ui 的条件均值为零,记为E(ui / Xi )=0 这一假定的实际意义为:凡是模型中不显含的并因而归属于ui 的因素,对Y 的均值都没有系统的影响,正
14、的ui 值抵消了负的ui 值,它们对Y 的平均影响为零。2、假定2:同方差假定同方差性或ui 的方差相等。对所有给定的Xi,ui 的方差都是相同的。就是说,ui 的条件方差是恒定的,即:其中,Var表示方差。该假定表示对应于不同Xi 值,ui 的方差都是某个等于 的正的常数。3、假定3:无自相关各个误差项之间无自相关,ui 和uj(ij)之间的相关为零。i 和j 为两次不同的观测,Cov表示协方差,该假定还可以称为无序列相关或无自相关假定。4、假定4:与X不相关ui 和Xi 的协方差为零或E(ui Xi)=0该假定表示误差项u 和解释变量X 是不相关的。也就是说在总体回归模型中,X 和u 对Y
15、 有各自的影响。但是,如果X 和u 是相关的,就不可能评估他们各自对Y 的影响。5、假定5:无完全的多重共线性对于多元线性回归模型,没有完全的多重共线性。就是说解释变量之间没有完全的线性关系。6、假定6:无设定偏误至此,我们完成了关于经典线性回归模型的基本假定的讨论。上述所有假定都是针对总体回归模型而言的,而不是关于样本回归模型的。三、最小二乘估计量的性质 高斯马尔可夫定理1、高斯马尔可夫定理:在给定经典线性回归模型的假定下,最小二乘估计量是最佳线性无偏估计量。第一,它是线性的,即它是回归模型中的被解释变量Y 的线性函数。第二,它是无偏的,即它的均值或期望值等于其真值,即第三,它在所有这样的线
16、性无偏估计量中具有最小方差。具有最小方差的无偏估计量叫做有效估计量。2、普通最小二乘估计量的性质说明(1)线性性(2)无偏性虽然由不同的样本得到的参数估计值,可能大于或小于它们的真实值,但平均起来等于它们的真实值。在此要特别注意:无偏性是 的抽样分布的性质,并没有告诉我们从特定样本中得到 的估计值是什么,我们希望得到较好的样本,那样就会得到接近于总体参数 的估计值。但由于是随机获得样本,就有可能得到远离总体参数 的估计值的较差样本。并且,我们无法判定所得到的样本是哪一种。(3)方差最小1)最小二乘估计的方差与标准误普通最小二乘估计量 的方差 代表了估计参数的估计精度。据方差定义,可知: 据经典
17、假定,且E(uiuj)=0,ij故:此式是依赖于同方差和无序列相关假定的。同理,的方差为:影响估计精度的因素为随机误差项的方差和Xi的总变异。随机误差项的方差越大,越大。因为,影响Y 的不可观测的因素变异越大,要准确地估计就越难。另一方面,自变量的变异越大,估计的精度就越高。因为Xi 的变异性增时,的方差就会减小,就是说,解释变量的样本分布越分散,就越容易找出E(Y / Xi) 和Xi 间的关系,即越容易准确估计。如果Xi没有什么变化,就难以准确地确定E(Y/Xi)是如何随着Xi的变化而变化的。当样本容量扩大时,Xi的总变异也增加。因此较大的样本容量会产生较小的的方差。最小二乘估计的标准误为
18、2)的最小二乘估计量的无偏估计量: 区分误差与残差的概念。在经典假定条件下,可以证明。的估计量为,我们称其为回归的标准误。估计量是对影响Y的不可观测因素的标准误的估计。就是说,它估计了把X 的影响排除之后Y 的标准误。3)可以证明,在满足经典假定条件下,普通最小二乘估计量是所有线性无偏估计量中方差最小的。四、判定系数R2拟合优度的度量 1、 表示实测的Y 值围绕其均值的总变异,称为总平方和(TSS)。 为来自解释变量的回归平方和,称为解释平方和(ESS)。 是围绕回归线的Y值的变异,称为残差平方和(RSS)。TSS=ESS+RSS (4.45)这说明Y 的观测值围绕其均值的总变异可分解为两部分
19、,一部分来自回归线,而另一部分则来自扰动项ui 。YXXiYiTSSRSSESS用TSS除式(4.45)的两边,得2、定义R2为: 或 上述定义的R2称为判定系数,它是对回归线拟合优度的度量。就是说,R2测度了在Y 的总变异中由回归模型解释的那个部分所占的比例或百分比。据判定系数的定义可知:0R21。3、相关系数R与R2关系紧密但概念上与R2差异较大的一个参数是相关系数,它测度了两个变量之间的关联度。,也可据R的定义计算从定义可以看出-1R1。在回归分析中,R2是一个比R更有意义的度量,因为R2告诉我们在被解释变量的变异中,由解释变量解释的部分占怎样一个比例,因而对一个变量的变异在多大程度上决
20、定另一个变量的变异,提供了一个总的度量,而R则没有这种作用。第四节 置信区间与假设检验一、置信区间要判断对估计的可靠性,可设定区间,使其包含的概率为。即:,其中,。如果存在这样一个区间,就称设定的区间为的置信区间。称为置信系数或置信水平,而称为显著性水平,称为置信上限,称为置信下限。二、ui 正态性假定及普通最小二乘估计量和的性质1、ui 正态性假定 在最小二乘估计式中,是Yi 的线性函数,从而也就是ui 的线性函数。要推断的置信区间,我们就必须获得ui 的概率分布。在回归分析中,人们常常假定ui 服从正态分布,即每个ui 都是正态分布的。2、ui 正态假定下普通最小二乘估计量和的性质(1)它
21、们是无偏的。(2)它们有最小方差。(3)它们是一致估计量。就是说,随着样本容量无限地增大,估计量将收敛到它们的真值。(4)服从正态分布(5)服从正态分布(6)服从2(n-2)分布(7)Yi 服从正态分布三、回归系数 和 的置信区间是显著性水平为,自由度为n2的t 分布的t 值,通常称为显著水平的临界值。可以看出,的置信区间的宽度与估计量,的标准误,成正比例。标准误越大,置信区间越宽。就是说,估计量的标准误越大,对未知参数的真值进行估计的可靠性越差。因此,估计量的标准误也被用于测度估计量的精度, 就是说用估计量去测定真实的总体值有多精确。95%的置信区间意义:在重复抽样中,每100个类似区间有9
22、5个包含真实的均值;四、假设检验1、检验回归系数的显著性t 检验H0:虚拟假设或原假设H1:备择假设一般地,可假设为:原假设H0:;备择假设H1:我们使用了t 分布对回归系数进行假设检验,因此,该检验程序称为t 检验。如果一个统计量的值落在拒绝域上,我们称该统计量是统计上显著的。此时,我们拒绝原假设;如果一个统计量的值落在接受域上,我们称该统计量是统计上不显著的。此时,我们接受原假设。t 检验决策规则:(1)设定假设原假设:备择假设:(2)计算原假设条件下的t统计量(3)在给定显著性水平的条件下,查t分布表得临界值(4)判断如果 ,则拒绝原假设 ,接受备择假设:如果,则不拒绝原假设2、t 检验
23、的相关问题 (1)显著性水平临界值的大小取决于显著性水平,即犯第I类错误的概率(错误地拒绝了真实的原假设的概率)。 越小临界值 越大,犯第I类错误的概率越小。(2)实际显著水平P值一般经济计量分析中,都使用事先给定的显著性水平。当我们对给定的样本,算出一个检验统计量(如t 统计量)的值时,就可据相应的统计表,获知得到等于或大于该统计量的概率,我们称其为P 值。P 值是假设检验中的实际显著性水平或犯第类错误的实际概率。更确切地讲,P 值是一个虚拟假设被拒绝的最低显著性水平。(3)“2倍t ”和“5%P 值”简算法当样本容量n 较大时(n30),t 值只要大于2.0,我们就将回归系数判定为显著的。
24、当进行多元回归时回归系数较多,利用这种方法非常方便,不需查t 分布表。同样,在5%的显著水平下,无论样本容量多大,当P 值小于5%时,即P0.05时,我们就可判定回归系数是显著的。如果显著性水平不是5%或样本较小,则回归系数的显著性检验的临界值就需据t分布表来确定,而不能使用2或5%做临界水平进行t 检验。第五节 回归分析结果的报告与评价一、回归分析结果的报告二、回归分析结果的评价第六节 回归分析的应用预测一、预测概述二、均值预测三、个值预测第三章 多元线性回归模型第一节 多元回归模型的定义一、含有两个解释变量的多元回归模型其中,Yi 是被解释变量,X2i 和X3i 是解释变量,ui是随机干扰
25、项,i 指第i 项观测。表面上看,代表X2和X3均取0时的Y的均值, 但这仅仅是一种机械的解释,实际上是指所有未包含到模型中来的变量对Y 的平均影响。系数和为偏回归系数,表示在保持X3不变的条件下,X2每变化一个单位时,Y的均值的变化。经典线性回归模型的假定条件如下:假定1:ui 零均值假定 E(ui|X2i, X3i)0对每个i 假定2:ui 无序列相关假定 Cov(ui, uj)0ij假定3:ui 同方差假定 假定4:ui 与每一个解释变量无关 假定5:无设定偏误假定6:解释变量X之间无完全的共线性无共线性的含义是,不存在一组不全为零的数和使得第二节 最小二乘估计一、最小二乘估计量 (5.
26、16)如果使用普通最小二乘法而得到了式(5.16)的样本回归函数,我们就称其为:将Y 对X1,X2,Xk 进行了回归。我们的目的就是得到式(5.16)中的估计值,使残差平方和最小。二、判定系数R2及调整的判定系数1、判定系数依然为解释平方和ESS与总平方和TSS的比值,即:判定系数R2的一个重要性质是:在回归模型中增加一个解释变量后,它不会减少,而且通常会增大。即R2是回归模型中解释变量个数的非减函数。所以,使用R2来判断具有相同被解释变量Y 和不同个数解释变量X的回归模型的优劣时就很不适当。此时,R2不能用于比较两个回归方程的拟合优度。2、为了消除解释变量个数对判定系数R2的影响,需使用调整
27、后的判定系数:式中,k 为包括截距项在内的模型中的参数个数。在二元回归模型中k3,在一元回归模型中k2。所谓调整,就是指 的计算式中的 和 都用它们的自由度(nk)和(n1)去除。3、调整的判定系数 和 R2的关系为三、最小二乘估计量的期望值和方差1、偏回归系数 的期望值2、 的方差和标准误的期望值度量了 的集中趋势。而 的方差则度量了 围绕其期望值的集中程度,也就是度量了 的估计精度。式中,为Xj的总样本变异;j2, 3, , k;为将Xj对所有其它解释变量(包括一个截距项)进行回归所得到的判定系数R2。(1)在满足经典假定的条件下,偏斜率系数估计量的方差为(2)将开方,则得的标准误:3、
28、的无偏估计量为四、最小二乘估计量的性质高斯马尔可夫定理:在多元线性回归模型的经典假定下,普通最小二乘估计量分别是的最佳线性无偏估计量。就是说,普通最小二乘估计量,是所有线性无偏估计量中方差最小的。第三节 多元线性回归模型的检验一、偏回归系数的显著性检验t 检验多元回归中的t 检验决策规则与一元回归相同。二、回归模型的整体显著性检验F检验1、多元回归模型的总体显著性就是对原假设,进行检验。2、检验的目的就是判断被解释变量Y 是否与X2, X3, , Xk 在整体上有线性关系。3、在一元回归模型中,只有一个解释变量,对个别回归系数的t 检验就是对回归模型的整体显著性检验。而在多元回归模型中,可以证
29、明,对偏回归系数的逐一显著性检验并不能代替对回归模型的整体显著性检验。4、对于多元线性回归模型在ui 服从正态分布和原假设 条件下,变量服从自由度为(k1)和(nk)的分布,即5、若原假设是真实的,则表明Y 与X2,X3,Xk 整体上无线性关系,Y 的变异全部来源于干扰项ui ,F 统计量的值较小。6、F 检验决策规则(1)设定假设原假设 备择假设 不全为 0,j 2, 3, , k(2)计算F 统计量 (3)在给定显著性水平下,查分布表可得(4)判断如果,我们就拒绝H0,接受备择假设H1;如果,则不拒绝H0。7、F 统计量与判定系数R2 的关系:统计量与R2是同向变化的。F 检验即是对回归模
30、型整体显著性的检验,也是对判定系数R2的一个显著性检验。第四节 回归模型的函数形式讨论如下四种形式的回归模型。1对数线性模型2半对数模型3双曲线模型4多项式模型一、对数线性模型1、 (5.51)该模型中LnYi 对 , 是线性关系,LnYi对LnXi也是线性关系。该模型可称为对数对数线性模型,简称为对数线性模型。令 , 则式(5.51)可表达为:2、对数线性模型的优点在于:(1)对数线性模型中斜率系数度量了一个变量(Y)对另一个变量(X)的弹性。(2)斜率系数与变量X,Y的测量单位无关,其结果值与X,Y的测量单位无关。(3)当Y 0时,使用对数形式LnY比使用水平值Y作为被解释变量的模型更接近
31、经典线性模型。大于零的变量,其条件分布常常是有异方差性或偏态性;取对数后,虽然不能消除这两方面的问题,但可大大弱化这两方面的问题。(4)取对数后会缩小变量的取值范围。使估计值对被解释变量或解释变量的异常值不敏感。3、对数线性模型的经验法则对于何时取对数并不存在一个固定模式,但有一些经验法则。(1)对于大于0的数量变量,通常均可取对数。例如,需求量、价格、工资等。(2)以年度量的变量,如受教育年数、工龄、年龄等则通常以其原有形式出现。(3)以比例或百分比度量的变量,如失业率、通货膨胀率、犯罪率等变量即可使用原形式也可使用对数形式。但两种使用方法中参数的意义不同。(4)使用对数时,变量不能取0或负
32、值。二、半对数模型1、线性到对数模型:被解释变量为对数形式,解释变量为线性形式,称为线性到对数的半对数模型。斜率系数的含义为:解释变量X绝对量改变一个单位时,被解释变量Y 的相对改变量。即2、对数到线性模型:测度解释变量的相对改变量对被解释变量的绝对改变量的影响,我们就需要使用解释变量是对数形式,被解释变量是线性形式的回归模型。斜率系数的含义为解释变量X 相对量改变1个单位时,被解释变量Y的绝对变化量。当 0.011%时, ,即当解释变量X增加1%,被解释变量Y增加的绝对量为0.01 。三、倒数模型当解释变量以倒数形式出现时的模型称为倒数模型或双曲线模型。四、多项式模型 称为二次函数或二次多项
33、式。 称为三次函数或三次多项式。第五节 多元回归模型的设定偏误一、正确的多元回归模型1、模型中只包含关键变量。就是说所选定的模型是最简便的。模型是对现实经济系统的抽象。一个模型应尽量简单,我们应在设定模型时只引进抓住现实本质的关键变量,把影响微弱的变量放到干扰项u中去。2、模型参数可识别。对于给定的一组数据,估计的参数具有唯一值。3、较高的拟合优度。4、估计的回归系数与经济理论一致。二、多元回归模型的设定偏误主要包括以下三种:1、回归模型中包含了无关解释变量后果:1)有误模型的参数最小二乘估计量均无偏2) 的方差无必要地增大,降低估计的精度。2、回归模型中遗漏了重要解释变量后果:1) 有偏误,
34、而且不论样本多大,偏误都不会消失。2) 不能正确地估计3)对于所估计的参数的统计显著性,容易导出错误的结论。3、回归模型中的函数形式设定偏误函数形式的设定偏误有多种多样,我们在选择模型的函数形式时必须谨慎小心,而这又是一个探索和改进的过程,我们只能通过不断的尝试来找到最恰当的函数形式。第四章 违背经典假定的回归模型在这一章里将重点讨论模型中出现了违背经典假定的几种情况时的诊断及解决办法。异方差: 在截面数据时重点关注异方差!序列相关多重共线性第一节 异方差性一、 什么是异方差: 当时异方差性:在线性模型的基本假定中,关于方差不变的假定不成立,其他假定不变的情形称为异方差性。实际问题是非常错综复
35、杂的,因而在建立实际问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同方差。引起异方差的原因还有很多,如模型中省略了重要的解释变量,模型的函数形式设定不准确等都容易产生异方差。一般情况下样本数据为截面数据时容易产生异方差性。二、 异方差有什么后果当模型中存在异方差时,参数的方差将大于在同方差条件下的方差。如果用普通最小二乘法估计参数,将出现低估的真实方差的情况。进一步将导致回归系数的检验值高估,可能造成本来不显著的某些回归系数变成显著。这将给回归方程的应用效果带来一些影响。当模型中存在异方差时,普通最小二乘估计存在以下
36、问题:1、参数估计量虽是无偏的,但不是最小方差线性无偏估计根据经典线性回归中关于参数估计量的无偏性和有效性的证明过程,可以看出,当线性回归模型出现异方差性时,其普通最小二乘法参数估计量仍然具有无偏性,但不具有有效性。而且,在大样本情况下,参数估计量也不具有渐近有效性,这就是说参数估计量不具有一致性。2、参数的显著性检验失效在经典线性回归模型中,关于变量的显著性检验构造了t 统计量,在该统计量中包含有随机误差项共同的方差,并且该t 统计量服从自由度为(n-k)的t 分布。如果出现了异方差性,t 检验就失去意义。采用其他检验也是如此。3、回归方程的应用效果极不理想,或者说模型的预测失效。一方面,由
37、于上述后果,使得模型不具有良好的统计性质;另一方面,在预测值的置信区间中也包含有随机误差项共同的方差。所以,当模型出现异方差性时,它的预测功能失效。三、 异方差怎么检验1、残差图分析法:残差图分析法是一种直观、方便的分析方法。一般情况下,当回归模型满足所有假定时,以ei 为纵坐标的残差图上的n 个点散布应是随机的、无任何规律。2、戈德菲尔德匡特检验(样本分段比检验)首先将样本按某个解释变量的大小顺序排列,并将样本从中间截成两段;然后各段分别用普通最小二乘法拟合回归模型,并分别计算各段的残差平方和。该统计量服从自由度为(n1-k)和(n2-k)的分布。在给定的显著性水平之下,若此统计量临界值则可
38、认为有异方差的存在。3、戈里瑟(Glejser)检验用残差绝对值 对每个解释变量建立各种回归模型,如等等,并检验回归系数是否为。设原假设为 ,备择假设为 ,应用t检验判断,如果 ,则有异方差。这种方法不仅能检验出模型中存在的异方差,而且把异方差的表现形式找出来便于后面改进时使用。4、怀特检验用残差平方 对所有解释变量及其平方项和交叉乘积项 进行线性回归,并检验各回归系数是否为。怀特检验步骤如下:(1)使用普通最小二乘法估计模型,并获得残差ei(2)做如下的辅助回归:就是将残差ei 的平方对所有的解释变量及解释变量的平方与交叉积回归,求这个辅助回归的判定系数R2。(3)辅助回归的R2乘以样本容量
39、n,渐近地服从自由度为辅助回归中解释变量个数r(不包括常数项)的x2分布,即(4)如果 大于选定显著性水平的临界 值,则有异方差。如果不大于临界 ,则无异方差,即在辅助回归中 。软件中看后面的伴随概率(P值),P值5% 则显著,有异方差。四、 异方差怎么处理加权最小二乘法通过加权变换使原模型中的异方差误差项转换为同方差误差项,使加权变换后的模型满足最小二乘法的假定,从而使用普通最小二乘法估计参数,这种方法称为加权最小二乘法。1、 已知时如果每个观察值的误差项方差 是已知的,使用 为权数,对模型(6.11)作如下变换: (6.11)由于通过加权变换使误差项变成同方差了。2、 未知时一般情况下,我
40、们可根据误差与解释变量或被解释变量的关系来确定变换的权数。一般我们先采用戈里瑟检验方法确定ei 与Xi 之间的关系。(1)如 之间为线性关系,选择为权数(2)如 之间为线性关系,选择1/Xi为权数和1/Xi都可用时,看两个回归的R2或,越大(拟合越好)的选择它。第二节 序列相关一、 什么是序列相关则我们称随机误差项之间存在着序列相关现象,也称为自相关。产生原因通常有以下几个方面:遗漏了重要的解释变量在回归分析的建模过程中,如果忽略了一个或几个重要的解释变量,而这些遗漏的重要变量随着时间的推移而呈现出相关的趋势,回归模型中的误差项就会具有明显的相关趋势,这是因为误差项包含了遗漏的变量。经济变量的
41、滞后性在实际问题的研究中,许多经济变量都会产生滞后影响,出现这种现象的原因是由于心理、技术及制度上等等的原因,消费者不轻易改变他们的消费习惯。回归函数形式的设定错误也可能引起序列相关蛛网现象(Cobweb Phenomenon)是微观经济学中的一个概念。它表示某种商品的供给量因受前一期价格影响而表现出来的某种规律性,即呈蛛网状收敛或发散于供需的均衡点。由于规律性的作用,使得所用回归模型的误差项不再是随机的了,而产生了某种自相关。对原始数据加工整理。二、 序列相关有什么后果当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的经典假定,如果仍然直接用普通最小二乘法估计未知参数,将会
42、产生严重后果,一般情况下序列相关产生的后果与异方差类似。1参数的估计量是无偏的,但不是有效的。2可能严重低估误差项的方差。3常用的 检验和t 检验失效。4如果不加处理地运用普通最小二乘法估计模型参数,回归参数的置信区间和利用回归模型进行预测的结果会存在较大的误差。DW值与的值的对应关系三、 序列相关怎么检验1、图示检验法4(2,4)2(0,2)0-1(-1,0)0(0,1)1DW2、DW检验DW检验示意图DW检验决策规则需要注意的是,DW检验尽管有着广泛的应用,但也有明显的缺点和局限性。1)DW检验有两个不能确定的区域,一旦DW值落在这两个区域,就无法判断。这时,只有增大样本容量或选取其他方法
43、。2)DW统计量的上、下界表要求n15,这是因为样本如果再小,利用残差就很难对自相关的存在性做出比较正确的诊断。3)DW检验不适应随机误差项具有高阶序列相关的检验。4)只适用于有常数项的回归模型并且解释变量中不能含滞后的被解释变量。四、 序列相关怎么处理当一个回归模型存在序列相关性时,首先要查明序列相关产生的原因。如果是回归模型选用不当,则应改用适当的回归模型;如果是缺少重要的解释变量,则应增加该解释变量;如果以上两种方法都不能消除序列相关,则需采用方法处理。本书在此介绍几种常用的方法。差分法:差分法是将原模型变换为差分模型,分为一阶差分法和广义差分法。广义差分法可以克服所有类型的序列相关带来的问题第三节 多重共线性一、 什么是多重共线性1、 完全多重共线性如果存在不全为0的k个数 ,使得则称解释变量 之间存在完全多重共性线。2、 近似多重共线性3、多重共线性产生的背景和原因在现实的生活当中,解释变量之间完全不相关的情形是非常少见的,客观地说,某一经济现象,涉及到多个影响因素时,这些影响因素之间大都有一定的相关性。二、 多重共线性有什么后果最小二乘估计量是所有线性无偏估计量中方差最小的,但这并不意味着最小二乘估计量的方差一定是很小的。此时,我们无法正确判断解释变量对被解释变量的影响程度,甚至出现估计值的经济意义无法
限制150内