《极大似然估计和广义矩估计.ppt》由会员分享,可在线阅读,更多相关《极大似然估计和广义矩估计.ppt(76页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、极大似然估计和广义极大似然估计和广义矩估计矩估计现在学习的是第1页,共76页第一节 极大似然估计法第二节似然比检验、沃尔德检验和拉格 朗日乘数检验第三节广义矩(GMM)估计小结现在学习的是第2页,共76页 除普通最小二乘法(OLS)外,极大似然估计(MLE)和广义矩估计(GMM)也是计量经济学中重要的估计方法。极大似然估计法和广义矩估计法适用于大样本条件下参数的估计,它们在大样本条件下显示了优良的性质。本章主要介绍极大似然法和广义矩方法以及基于极大似然估计的似然比(LR)检验、沃尔德(W)检验和拉格朗日乘数(LM)检验。现在学习的是第3页,共76页第一节 极大似然估计法 极大似然估计法(Max
2、imum Likelihood method,ML)的应用虽然没有普通最小二乘法广泛,但它是一个具有更强理论性质的点估计方法,它以极大似然原理为基础,通过概率密度函数或者分布律来估计总体参数。极大似然估计的出发点是已知被观测现象的分布,但不知道其参数。极大似然法用得到观测值(样本)最高概率的那些参数的值来估计该分布的参数,从而提供一种用于估计刻画一个分布的一组参数的方法。现在学习的是第4页,共76页一、极大似然法的思路 设有一枚不均衡的硬币,我们关心的是在每次抛掷该硬币出现正面的概率p。抛掷该硬币N次,假设得到 次正面,次反面。由于每次抛硬币都是相互独立的,根据二项分布,得到这样一个样本的概率
3、为:上式中的表达式可看作是未知参数p的函数,被称为似然函数(Likelihood function)。对p的极大似然估计意味着我们选择使似然函数达到最大的p值,从而得到p的极大似然估计量。现在学习的是第5页,共76页实际计算中,极大化似然函数的对数往往比较方便,这给出对数似然函数上式达到极大的一阶条件是解之,得到p的极大似然估计量现在学习的是第6页,共76页 二、极大似然原理极大似然法的思路是,设 是随机变量X的密度函数,其中 是该分布的未知参数,若有一随机样本 ,则 的极大似然估计值是具有产生该观测样本的最高概率的那个 值,或者换句话说,的极大似然估计值是使密度函数 达到最大的值。由于总体有
4、离散型和连续型两种分布,离散型分布通过分布律来构造似然函数,而连续型分布通过概率密度函数来构造似然函数,因此二者有区别,下面分别讨论。现在学习的是第7页,共76页(一)离散型随机变量极大似然原理(一)离散型随机变量极大似然原理若总体为离散型分布,容易求得从样本 取到观察值 的概率,亦即事件发生的概率 为:其中,是待估参数向量。这一概率随 的取值而变化,它是 的函数,称为样本的似然函数。极大似然估计法就是在 取值的可能范围内挑选使似然函数 达到最大的参数值 作为参数 的估计值,即求 ,使得现在学习的是第8页,共76页一般通过微分的方法求得 ,即,令 得到,有时候也可通过迭代法来求 ,具体的计算方
5、法根据随机变量的分布来确定。这样得到的 称为参数 的极大似然估计值,而相应的统计量通常记为 ,称为参数 的极大似然估计量极大似然估计量。现在学习的是第9页,共76页(二)连续型随机变量极大似然原理 与离散型的情况一样,我们取 的估计值 使 取到极大值,但 不随 而变,故只需考虑函数 的极大值,这里 称为样本的似然函数。若 则 称为 的极大似然估计量,记为 。现在学习的是第10页,共76页通常情况下,关于 可微,这时 可从方程 解得。因为 与 在同一点处取到极值,的极大似然估计值 通常从方程 解得,式中 称为对数似然函数。为了后面内容表述方便起见,我们将对数似然函数的一阶导数向量表示为 ,称为s
6、core向量向量或梯度向量梯度向量,的极大似然估计量通过求解得到,因此 称为似然方程似然方程。现在学习的是第11页,共76页三、极大似然估计量的性质极大似然估计量(MLE)的优势在于它们的大样本性质(渐近性质)。为介绍这些渐近性质,我们用表示参数向量的极大似然估计量(MLE),表示参数向量的真值。如果极大似然函数被正确设定,可以证明,在弱正则条件下,极大似然估计量具有以下渐近性质:现在学习的是第12页,共76页(1)一致性:)一致性:是 的一致估计量,即,(2)渐近有效性:渐近有效性:是渐近有效的且达到所有一致估计量的Cramr-Rao下界,即在所有一致渐近正态估计量(consistent a
7、symptotically normal estimators)中具有最小方差。(3)渐近正态性:渐近正态性:即渐近地服从正态分布,其中V是渐近协方差矩阵现在学习的是第13页,共76页协方差矩阵V由对数似然函数的形状决定。为了说明这一点,我们引入信息矩阵信息矩阵(Information Matrix)的概念,信息矩阵定义为在适当的正则条件下,可以证明,极大似然估计量的渐近协方差矩阵等于信息矩阵的逆矩阵,即现在学习的是第14页,共76页 四、线性回归模型的极大似然估计 线性回归模型是计量经济学应用最为广泛的模型,因 此讨论线性模型的极大似然估计是非常必要的。下面我们在随机扰动项服从正态分布的假设
8、下分别讨 论双变量线性回归模型和多元线性回归模型的极大似 然估计。非线性模型的极大似然估计,将在第五章中 介绍。现在学习的是第15页,共76页(一)双变量线性回归模型的极大似然估计双变量线性回归模型:其中,为待估参数,为随机扰动项。对随机扰动项作出如下假设:即随机扰动项具有0均值、同方差、不相关和服从正态分布的性质。现在学习的是第16页,共76页根据以上假设可知:因此,的概率密度函数为:由于独立同分布,因此,联合概率密度函数,即似然函数为:现在学习的是第17页,共76页 对数似然函数为:令:,得,现在学习的是第18页,共76页不难看出,前两式与用普通最小二乘法得出的正规方程相同,故我们有但最后
9、一式表明,的极大似然估计量与最小二乘估计量不同,我们记得,最小二乘估计量 是一个无偏估计量。而,现在学习的是第19页,共76页这表明,是一个有偏估计量 不难看出,当样本容量趋向无穷时,因而 是一个渐近无偏估计量。现在学习的是第20页,共76页(二)多元线性回归模型的极大似然估计下面我们来讨论一般形式的线性回归模型的极大似然估计,并以矩阵形式表示:对随机扰动项作出如下假设:根据以上假设,我们有:因此,的概率密度函数为:上面有点问题,把单个标量和整体向量混淆了,看的时候注意点,可以参考多元线性回归讲义PPT.现在学习的是第21页,共76页由于独立同分布,因此,联合概率密度函数,即似然函数为:对数似
10、然函数为:注意到(4.17)中右端第二项的分子就是残差平方和,我们有:现在学习的是第22页,共76页这里最后一个等号成立是因为第二行中所有各项都是标量,且中间两项互为转置矩阵,因而相等 RSS对微分,得到:这里用到了矩阵微分的以下两条规则:(1)(2),第二个等号成立的条件是A为对称矩阵。现在学习的是第23页,共76页在(4.19)式中,a是 ,A是 。由(4.19)式的结果,使对数似然函数(4.17)达到极大的一阶条件为 解此二正规方程,得:现在学习的是第24页,共76页 因此,在随机扰动项满足标准假设条件的情况下,的极大似然估计量与普通最小二乘估计量相同,方差 的ML估计量与OLS估计量则
11、不同。是无偏的,而 是有偏的,但在大样本下渐近无偏现在学习的是第25页,共76页 将这些极大似然估计量代入(4.17),就得到的极大值:为了得到 的无偏估计量的Cramr-Rao下界,需要先计算信息矩阵 现在学习的是第26页,共76页信息矩阵是按 分块对角的,这是扰动项为正态分布的回归模型的一个重要性质,意味着Cramr-Rao下界为:值得注意的是,达到了Cramr-Rao下界。在正态性的假设下,是最小方差无偏估计量(MVU),这表明,在所有无偏估计量而不仅仅是线性无偏估计量中方差最小。假设多一些(CLR模型加上正态性),得到的也多一些(MVU而不仅仅是BLUE)。现在学习的是第27页,共76
12、页 例4.2 以简单的消费函数为例,说明极大似然估计法的估计过程。根据经济理论,消费和收入与价格密切相关,因此建立以国内生产总值gdp和消费价格指数p 为解释变量,国内总消费tc为被解释变量的消费方程。数据区间为19882007年。消费方程设定为:其中 服从正态分布。现在学习的是第28页,共76页普通最小二乘估计的结果为:极大似然估计的EViews结果为:可见,对于线性方程,用极大似然估计得到的系数估计值与用最小 二乘法估计得到的结果完全相同。现在学习的是第29页,共76页第二节 似然比检验、沃尔德检验和拉格朗日乘数检验 似然比检验(Likelihood Ratio Test,LR)瓦尔德检验
13、(Wald Test,W)拉格朗日乘数检验(Lagrange Multiplier Test,LM)是三种基于极大似然法的大样本检验方法。现在学习的是第30页,共76页 我们在第二章中介绍的F检验适用于检验CLR模型的线性约束条件。如果施加于模型的约束是非线性的,模型存在参数非线性,或者扰动项的分布不是正态的,在这些情况下,F检验就不再适用,通常需要采用LR、W和LM这三个检验方法中的一个来检验约束条件是否成立。这三个检验方法是渐近等价的,与这些检验相联系的统计量的小样本分布是未知的,但它们每一个都渐近地服从自由度为约束条件个数的 分布现在学习的是第31页,共76页一、三种检验的基本原理 这三
14、个检验统计量基于三个不同的原理,我们用下图来解释之。现在学习的是第32页,共76页 图中,对数似然函数()由上面的那条曲线表示,它是要估计的参数 的函数。是使 达到极大的 值。假设要检验的约束条件是,这一条件在 这个值得到满足,从图上看,这个点是函数 与横轴 的交点。下面对这三个检验所依据的原理作出解释。现在学习的是第33页,共76页 1.LR检验检验 如果约束条件为真,则在施加约束条件的情况下,的极大值 不应当显著小于 的无约束极大值 。因此,LR检验要检验的是(-)是否显著异于0。2.W检验检验 如果约束条件 为真,则 不应当显著异于0,其中 是 的无约束极大似然估计值。因此,W检验要检验
15、的是 是否显著异于0。现在学习的是第34页,共76页 3.LM检验检验 对数似然函数 在A点达到极大,在这点 关于 的斜率为0。如果约束条件为真,则 在B点的斜率不应当显著异于0。LM检验要检验的是用约束估计值 计算的 的斜率是否显著异于0。现在学习的是第35页,共76页二、似然比(LR)检验 设 为待估计参数向量,原假设 规定施加于这些参数上的约束,为 的无约束极大似然估计量,为约束极大似然估计量。如果 和 分别是用这两个估计值计算的似然函数值,则似然比(Likelihood Ratio)为:现在学习的是第36页,共76页 此函数的值位于0和1之间,因为两个似然都是正的,并且 不会大于 (约
16、束最优不可能超过无约束最优)。如果 过于小,则有理由怀疑约束条件的正确性。LR检验的检验统计量是 ,该统计量在大样本情况下服从自由度为约束条件个数的 分布。现在学习的是第37页,共76页三、沃尔德(W)检验l在实践中似然比检验的短处是需要估计约束和无约束参数向量,也就是说,既要进行约束回归,又要进行无约束回归。在复杂模型中,其中的一个估计值可能很难计算。幸运的是,有两个可供选择的方法,即沃尔德检验和拉格朗日乘数检验,可以解决这个问题。这两个检验只需要估计约束和无约束参数向量中的一个。现在学习的是第38页,共76页 设 是在无约束情况下得到的参数估计值向量,要检验的原假设为:若约束条件成立,则至
17、少 应该近似地满足它们。如果原假设是错的,则 应该比单由抽样变差所解释的情况要更远离0。W检验就是遵循这个思路构建的。W统计量是 成立和大样本的情况下,W服从自由度为约束条件个数的 分布。现在学习的是第39页,共76页 要注意的是,W统计量仅需要无约束模型的计算,但仍需要计算协方差矩阵,其估计值由下式给出:其中 和 分别表示估计和渐近。是一个 矩阵,J是约束条件的个数,K是待估计参数的个数,它的第j行是第j个约束关于 的第k个元素的导数。现在学习的是第40页,共76页四、拉格朗日乘数(LM)检验 第三个检验是拉格朗日乘数(LM)检验,亦称score检验。该检验基于约束模型,无需估计无约束模型。
18、假设我们要在施加一组约束条件 的情况下极大化对数似然函数,令 表示拉格朗日乘数向量,并定义拉格朗日函数现在学习的是第41页,共76页 约束最大化问题的解就是下式的根:其中 是矩阵 的转置。若约束成立,则加上它们不会造成对数似然函数极大值的显著差异。这意味着在一阶条件下,第二项应该很小,特别是 应该很小。我们可以直接检验之,即检验 ,这导致拉格朗日乘数检验(LM检验)。现在学习的是第42页,共76页 直接检验拉格朗日乘数向量 比较困难,有另一个等价而简单一些的方法。在约束估计值处计算的对数似然函数的导数是现在学习的是第43页,共76页 如果约束条件成立,至少在抽样变差的范围内成立,则应有,也就是
19、说,在约束估计值处计算的对数似然的导数应该近似为0。应该记得,对数似然的一阶导数向量是Score向量 。由于我们的检验基于这个向量,因而被称为Score检验,但大多数文献中还是称之为拉格朗日乘数检验。现在学习的是第44页,共76页 一阶导数向量的方差是信息矩阵 ,我们用它来计算极大似然估计量的渐近协方差矩阵。LM检验统计量是 在原假设下,LM统计量渐近服从自由度为约束条件个数的 分布。现在学习的是第45页,共76页 实际应用中,LM统计量有一个很简单的公式:其中N是观测值数目,是用一个元素均为1的列 向量对在约束估计值 处计算的对数似然函数的诸导数(即Score向量)进行线性回归得到的非中心
20、。非中心 的含义是,在计算总平方和TSS时,因变量不减去其均值,即 。现在学习的是第46页,共76页 用这种方法计算LM统计量非常容易,但对于小样本来说不可靠,犯第一类错误的可能性很大。Davidson和MacKinnon(1983)提出了计算LM统计量的另一种方法,该方法克服了上述方法的缺点,而保持了其计算简便的优点,尽管计算中需要执行他们所称的双长度回归(double-length regression,DLR)。现在学习的是第47页,共76页五、实践中三种检验法的选择问题 l当面临具有相同渐近性质的几种统计量时,计量经济学家通常根据它们的小样本性质来进行选择。然而实践中在LR、W和LM的
21、选择上,计算成本往往起着关键作用。l计算LR统计量,的约束和无约束估计值都要计算,如果二者都不难计算,则LR检验是三种检验中最具吸引力的。现在学习的是第48页,共76页l计算W统计量仅需要无约束估计值。如果约束估计值的计算比较困难,而无约束估计值计算不困难,如约束条件是非线性的情况,则W统计量应成为首选。l计算LM 统计量仅需约束估计值。如果约束估计值的计算比较容易,而无约束估计值的计算困难,例如施加约束后使非线性模型转换成线性模型的情况,则LM统计量应成为首选。l在计算方面的考虑不是问题的情况下,应选择LR检验。现在学习的是第49页,共76页*第三节第三节 广义矩(广义矩(GMMGMM)估计
22、)估计l前面讨论的普通最小二乘法和极大似然估计法等方法都有本身的局限性。l普通最小二乘法必须在遵循经典假设的条件下才具有优良的性质,在异方差和序列相关等违背基本假设的情况下,普通最小二乘法将不再是最佳线性无偏估计量;l应用极大似然估计法的前提是对随机扰动项的分布必须做出某种假设,如正态分布。现在学习的是第50页,共76页l而广义矩估计可以不考虑随机扰动项的准确分布信息,且允许随机扰动项存在异方差和自相关等违背经典假设的情况,在很多方面具有独特的优势。lGMM是一种大样本估计方法,在大样本情况下GMM估计量渐近有效。普通最小二乘法、极大似然估计和工具变量法等许多估计方法都可以看作是广义矩估计的特
23、例。现在学习的是第51页,共76页一、矩估计法矩估计法(Method of Moments)是GMM法的基础。(一)矩估计原理 一般来说,样本统计量中每一个都有它的总体对应物,例如,样本均值对应总体期望值,样本方差对应总体方差。因此一个很自然的想法是用诸样本“矩”作为总体参数的估计量。现在学习的是第52页,共76页 设 为随机变量,是来自 的样本,连续型随机变量和离散型随机变量 的前k阶矩分别定义为:其中,为连续型随机变量 的概率密度函数,为离散型随机变量 的分布函数,是参数向量,。总体矩是 的函数。现在学习的是第53页,共76页 设函数关系如下 这是一个包含 k个未知参数 的方 程组。现在学
24、习的是第54页,共76页可以从上述方程组解出 ,得到现在学习的是第55页,共76页 样本矩 依概率收敛于相应的总体矩 ,样本矩的连续函数依概率收敛于相应的总体矩的连续函数,因此,可用样本矩 作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量。以 分别代替上式中的 ,得到 的估计量 这种估计方法称为矩估计法。现在学习的是第56页,共76页l例4.3:,未知,是来自 的样本观测值,试用矩估计法求参数 的估计量 。解:样本一阶和二阶原点矩分别为:,因为矩估计认为样本矩等于总体矩,所以总体矩的估计量为:现在学习的是第57页,共76页 对于正态总体,分别为总体的均值和方差,
25、均值和方差与总体一阶二阶原点矩有如下关系:所以根据矩估计,正态总体的均值 和方差 的估计量为:现在学习的是第58页,共76页(二)OLS和LM估计量的矩估计 考虑经典线性回归模型的OLS估计量,该模型的一个重要假设条件是解释变量与扰动项无关,即 这组矩条件的样本对应物是 的估计量是满足这些矩条件的。不难看出,这些矩条件正好是OLS估计量的正规方程,因此我们看到,OLS估计量是矩估计量。现在学习的是第59页,共76页 极大似然估计量是通过对数似然的导数等于0得到的,对于满足正则条件的密度,有:其中f(.)为概率密度函数,是参数向量。我们通过令上式的样本对应物等于0来求极大似然估计量:可见,极大似
26、然估计量也可以通过一组矩条件用矩估计法导出。现在学习的是第60页,共76页二、广义矩法l在矩估计中,矩条件的个数恰好等于要估计参数的数目,即方程个数等于未知参数的个数,所以存在未知参数的唯一解。l如果矩条件的数目大于参数的个数,就引出了广义矩法(Generalized Method of Moments,GMM)现在学习的是第61页,共76页 广义矩法直接从模型所施加的矩条件来估计模型,这些矩条件有时是线性的,但多数情况下是非线性的。我们在前面矩估计法的介绍中讨论了构建OLS和LM估计量的矩条件。下面我们给出矩条件的一般定义。现在学习的是第62页,共76页矩条件的一般形式为:为了表述的方便,将
27、上式写成现在学习的是第63页,共76页 其中 表示有R个元素的向量函数,为K维未知参数向量,和 为模型中全部变量,如 为解释变量向量,为工具变量向量。为了估计 ,我们考虑上式的样本对应物现在学习的是第64页,共76页 如果矩条件的个数R等于未知参数的个数K,则有可能令 的R个元素等于0,解出 的唯一解,得到一个一致估计量;若 是 的非线性函数,则可能得不到解析解;如果矩条件的个数小于参数的个数,则参数向量 不可识别;如果矩条件的个数大于参数的个数,即 ,我们无法通过令 等于0求得的唯一解,因为方程数目多于变量个数现在学习的是第65页,共76页(一)广义矩估计方法概要 在矩条件的个数大于参数的个
28、数(),如工具变量的个数多于原解释变量的数目的情况下,我们不能通过设定 来唯一确定参数向量 的估计量,为了充分利用 个矩条件的信息,我们只能转而借助最优化方法的思路,选择使得样本矩向量从总体上尽可能接近于0的 的估计量。这就是广义矩估计方法的思路。具体的做法是将下面的加权平方和(亦称为距离函数)现在学习的是第66页,共76页 作为目标函数,求出使该目标函数达到最小的 的值 ,就得到GMM估计量。上式中,为任意正定矩阵,称为权矩阵,假设它收敛于一个常数矩阵W,即,权矩阵可能依赖于数据,但不是 的函数。权矩阵在某种意义上反映了诸矩条件在距离函数中所占的权重,因此可以考虑将它设定为一个对角矩阵,其对
29、角线元素是各个矩的方差的倒数。现在学习的是第67页,共76页 至此,我们将矩条件的个数大于参数的个数情况下参数的估计问题化为如下的最小化问题:求解此最优化问题,得到的估计量就是广义矩估计量(GMM)估计量 。尽管一般情况下我们无法得到它的解析解,但可以证明,在某些弱正则条件下,GMM估计量是一致和渐近正态估计量。实践中通常采用数值解法求解上式中的最小化问题得到GMM估计量。现在学习的是第68页,共76页 不同的权矩阵 会导致不同的一致估计量,其渐近协方差矩阵不同。为了得到最小协方差矩阵,必须选择合适的权矩阵,我们称与此最小协方差矩阵对应的权矩阵为最优权矩阵最优权矩阵,用 表示,在不存在自相关的
30、情况下,它是样本矩的协方差矩阵的逆矩阵:一般依赖于未知参数向量 ,因此在没有得到参数估计量 以前,这个权矩阵只是理论上的一个最优权矩阵。现在学习的是第69页,共76页 在实际应用中为了得到最优权矩阵,我们采用下面的两步估计法。第一步:先选择一个与参数向量 无关的权矩阵,例如单位矩阵,得到 的一个一致估计量 ,然后用 得到最优权矩阵的一致估计值:现在学习的是第70页,共76页 第二步:得到一致有效的(最优)GMM估计量 其渐近分布由下式给出:式中渐近协方差矩阵由下式给出:其中D是 导数矩阵:现在学习的是第71页,共76页 与矩估计法一样,广义矩法也提供了一种具有包容性的框架,绝大多数估计方法,如
31、普通最小二乘法、极大似然估计法和工具变量法等,都可以看作是广义矩方法的特例。现在学习的是第72页,共76页(二)GMM法的优点与其它估计法相比,GMM法有下列几个显著的优点:(1)它无需规定正态分布之类的有关分布的假设,GMM估计量的一致性仅取决于矩条件的正确设定;(2)它为很多类似估计量,如OLS、IV等的分析提供了一个统一的框架;现在学习的是第73页,共76页(3)它为那些传统估计方法计算很困难特别是模型无法解析求解的情况提供了一种方便的方法;(4)它允许研究人员规定经济上有意义的一组矩,或者据信是对经济或统计模型的误设定不灵敏的一组矩。现在学习的是第74页,共76页 例例4.4 4.4 根据消费理论,消费具有惯性,即当期的消费不仅仅与当期收入有关,而且与前期消费也有关系,因此可将消费模型设定为:其中 表示总消费(单位:亿元),表示国内生产总值(单位:亿元)。试用GMM法估计上述消费方程。现在学习的是第75页,共76页解:估计步骤为:(1)工具变量的选择 本例中选择常数项、国内生产总值 及其一阶滞后 、政府消费 作为工具变量 (2)最优权矩阵的选择 权矩阵的选择没有统一的标准,可以根据不同的要求选择不同的权矩阵。本例选择Eviews默认的权矩阵。(3)GMM的估计结果为:t:(2.51)(4.81)现在学习的是第76页,共76页
限制150内