非线性时间序列第六章节资料.pdf
144 第六章 时间序列的平滑 6.1 引论 上一章我们引进非参数函数估计的基本概念,现在将它应用到时间序列别的重要平滑问题上.对估计慢变化时间趋势,平滑技术是有用的图示工具,它产生了时域平滑(6.2).对将来事件和与之相联系的现在与过去变量之间的关系的非参数统计推断导致了6.3 的状态域平滑.6.4 引入的样条方法是对6.3 引入的局部多项式方法的有用替代.这此方法能够容易地推广到时间序列的条件方差(波动性)的估计,甚至整个条件分布的估计,参阅6.5.6.2 时域平滑 6.2.1 趋势和季节分量 分析时间序列的第一步是画数据图.这种方法使得人们可以从视觉上检查一个时间序列是否像一个平稳随机过程.如果观察到趋势或季节分量,在分析时间序列之前通常要将它们分离开来.假定时间序列 tY能够分解成 ttttYfsX,(6.1)其中tf表示慢变函数,称为“趋势分量”,ts是周期函数,称为“季节分量”,tX是随机分量,它被假定是零均值的平稳序列.在使用这种分解之前,可以先用方差稳定变换或Box-Cox 变换.这类幂变换有如下以参数为指标的形式 ,0,()log(),0,ug xu (6.2)或具有在0点处连续的变换形式()(1)/g uu.这类变换由 Box 和 Cox(1964)给出.注意,由在幂变换中数据必须是非负的,因此,在使用幂变换之前,可能必须先实施平移变换.我们的目的是估计和提取确定性分量tf和ts.我们希望残差分量tX是平稳的,且能够用线性和非线性技术做进一步的分析.通过推广 Box 和 Jenkins(1970)而发展的一个替代方法是对时间序列 tY重复应用差分算子,直到被差分的序列表现为平稳为止.这时,被差分的序列可以进一步平衡时间序列技术来处理.作为说明 Box 和 Jenkins 方法的一个例子,我们先取 S&P500 指数的对数变换,然后计算一阶差分.图 6.1 给出了这个预处理序列.所得序列基本上是该指数中变化的每日价格的百分比.除了几个异常值(即 145 1987 年 10 月 19 日 20.47%的市场崩盘,金融市场称之为“黑色星期一”)外,这个序列显示出平稳性.这个变换与金融工程中常用资产定价的几何布朗运动模型的离散化有关.图 6.1 1972 年 1 月 3 日至 1999 年 12 月 31 日(上图)和 1999 年 1 月 4 日至 1999 年 12 月 31 日(下图)S&P500 指数对数变换的差分 我们首先把注意力集中在没有季节分量的情形,即 ,0ttttYfXEX.(6.3)然后,我们再在6.3.8 中估计趋势和季节分量.6.2.2 滑动平均 平均是最常用的消除随机噪声的技术.假定趋势是慢变化的,使得其能够在大小为h的局部时间窗中用常数来逼近,即 ,tittiYfXhih.(6.4)这时tf能够用该窗周围的局部平均来估计:1(21)ht itihfhY,(6.5)随着中心t的改变,局部窗也在移动.例如,在图 6.2 中,50t 处20h 所得的估计是落在第一个窗内的那些数据的平均.窗的中心移动到新的点处以构成在这些点处的估计.随着局部窗从左向右滑动,它的轨迹就是所得的滑动平均曲线.这是滑动平均平滑的最简单的例子.它常常被用来验证时间序列的趋势.图6.2描绘的是从1999年1月4日到1999年 12 月 1 日 S&P500 指数一个月和两个月的滑动平均.146 图 6.2 1999 年 1 月 4 日至 12 月 31 日 S&P500 指数和它的 21 个交易日(粗线)和 41 个交易日(虚线)的滑动平均 在边界处,滑动平均估计的习惯做法是忽略超出观察时间范围的那些数据.例如,2f是用数据12,hYY的平均所得的简单估计(时间点 2 右边的数据比左边更多).这种不对称平均可能会产生边界偏倚.当边界处趋势陡峭且带宽又大时,这种边界效应更为明显.正如图 6.2 所示那样,在右边界处的滑动平均低估了趋势.该问题能够通过使用局部线性平滑.(参见6.2.6)或别的边界改善方法,比如,边界核方法(Gasser 和 Mller 1979;Mller 1993)和数据削尖方法(Choi,Hall 和 Bousson 2000)来减弱.滑动平均数列(6.5)利用了时间t周围两边的数据.这样它还依赖于时间t之后的数据.为便于预报,单变滑动平均数列 *11ht itifhY (6.6)也常被用来验证时间趋势.数列仅用直到时间1t 的过去的数据.6.2.3 核平滑 滑动平均估计的一个改善方法是引进一个加权设计.这允许对所给时间点附近的数据给予较大的权数.这也就得到了核回归估计,定义为 00101()()TtttTtttY KhfttKh.(6.7)这个估计还被称为 Nadaraya-Watson 估计.参阅 Nadaraya(1964)和 Watson(1964).当 147 我们使用均匀核()0.5(|1)K uIu时,上述核估计就变成滑动平均估计(6.5).当核函数有有界支撑 1,1时,核回归估计就是一个局部(21)h数据的加权平均.当核()K t是模在零点的单峰函数时,0t附近的数据点获得更多的权.一般地,核函数不要求有一个有界的支撑,只要它薄尾的(如它是一个有二阶矩的密度函数).K的非负性要求还能被减弱.带宽h也不必是整数.注意,在高斯核定义中的标准化常数和核的对称 Beta 族只是用来保证函数K是一个概率密度函数.在核回归估计中它们并不起作用.在计算时,我们常常标准化各种核函数使得它们如图 5.2 那样有相同的最大值 1.由于这种标准化,(6.7)可以直观地理解为10()/TtKtth数据点的有效平均.当核函数有在(,0)中的支撑时(这样的核还可看作是单边核),核回归估计所使用的数据仅到时间01t.这是单边滑动平均(6.6)的推广.如同在核密度估计中那样,在核回归估计中带宽h是一个重要参数.如同在图 6.2 中所显示的那样,大的带宽h产生过度平滑的估计,遗漏趋势和所估计的峰和谷的度量上的一些可能的细节.特别地,当使用大的带宽时,估计可能产生大的偏差.当使用小的带宽时,仅有几个局部的数据被使用,降低了估计的方差,却导致所得估计是一条波动的曲线.例如,用带宽0h,滑动平均估计(6.5)简单地复制原始数据.为了得到满意的结果需要反复尝试和修正.带宽的数据驱动选择能够帮助我们确定所要的平滑度.正如在6.2.9 所看到的那样,渐近方差本质上依赖于所研究的过程的相关结构.因此,针对独立数据的由数据驱动选择的带宽在时域平滑中效果不佳.实际上,Altman(1990),Chu和 Marron(1991a)以及 Hart(1991)指出,对相依数据,通常的留一在外(leave-one-out)交叉核实方法效果不好.这些作者提出了几个修正的方法.对带宽选择的嵌入方法由 Ray和 Tsay(1997)以及 Beran 和 Feng(2000)提出.以上考虑能够通过计算核回归估计的偏倚和方差得到理解.经过直接计算,在模型(6.3)下,核估计得偏倚为 0000101()()()TtttttTtttffKhE ffttKh.它不依赖于误差过程.它实际上是一个逼近误差.当带宽取得小时,逼近误差0ttff小,从而偏倚也小.另一方面,当h取得大时,大多数逼近误差0ttff是大的归因于t和0t间的距离是大的,因此,偏倚可能是大的.这个线性估计的方差 00011(),()TttttTttttKhfwYwttKh 148 还能够被计算.令()Xt是过程()X t的自协方差函数,则 011Var()(|)TTXijtijfij ww.(6.8)该方差依赖于自相关函数.进一步简化需要渐近分析.我们将在6.2.9 中讨论.在那里我们将看到当k 时方差()Xk的渐近行为.但我们现在可以指出,当带宽小时,核平滑的方差增大,这归因于在局部领域中数据点数太小的缘故.6.2.4 核平滑的变种 核平滑有许多变种.(6.7)中的分母对相对于t求导数和数学上的分析是不方便的.代替用核函数的高度作为权,我们还可用核函数下方的面积作为权.由于核函数下方的总面积是 1,分母不需要.这就是隐含在 Gasser-Mller 估计中的基本思想.在现在的框架下,令(21)/2(1,1)tsttT,其中0s 和Ts .Gasser和 Mller(1979)提出了以下的估计:0101()ttTshttstfKut duY.由于总的权 1001()()1ttTshhstKut duKut du,所以没有分母.Gasser-Mller 估计是对 Priestley 和 Chao(1972)早期版本的一种修正.Priestley 和 Chao(1972)给出的估计定义为 001()ThtttfKtt Y.这个估计简单地去掉了 Nadaraya-Watson 估计的分母.通过积分和变量变换逼近黎曼和,对适当选择的h,我们得到总的权 00()/001(1)/1()()()TTT thhhthtKttKtt duK u du,如果0t不太接近边界,且h相对于T小,并使得0(1)/th和0()/Tth大,则上述积分近似地等同于()1K u du.事实上,只要K的支撑限制在区间00(1)/,()/thTth内,等式就精确地成立.换句话,对不在边界区域的点0t,总的权近似于 1.以上观点依赖于设计点为等间隔的.事实上,Priestley 和 Chao 估计仅能用于等间隔情形.它不能用于6.3 所讨论的状态域平滑.6.2.5 滤波 149 核回归是用于工程的卷积滤波的一种特殊形式.一般地,一个长度为21h的线性滤波定义为 hititihfwY.(6.9)当K有支撑 1,1时,核回归对应(/)(/)hijhwK i hK j h.滤波能够被设计为拥有各种性质.例如,它能够被设计成可以去掉高频信号(低通滤波),或低频信号(高通滤波)或超出某个频率范围的信号(带通滤波);见2.3.3.核平滑是一种低通滤波.线性滤波变换可以用递推方式来定义.例如,单边滑动平均tf可以对某个1b,利用下式来定义 1(1),2,tttfbYb ftT,这等价于用1,tYY的如下的加权滑动平均:21121(1)(1)(1)tttttfbYbb YbbYbbY.由于权以指数速度快速衰减,以上滤波实际上仅用了时刻t附近的局部数据.平滑的有效性依赖于参数b.这种方法称为指数平滑.指数平滑是用1/1hb 的()(0)xhKxI x的一种特殊的核平滑.这是一种单边平滑.它仅使用直到现大时刻t的数据.关于这方面内容的进一步讨论可参见 Gijbels、Pope 和 Wand(1999).6.2.6 局部线性平滑 局部常数逼近(6.4)能够通过使用局部线性逼近来改善.我们把趋势if通过如下线性函数局部地近似为i的函数(),|ittiYff itXith.这样,tf就近似地看做上述局部线性模型的截距.可见图 6.3 中时刻200t 处的图示.窗内的数据用一个线性回归来拟合.对局部窗附件的数据用最小二乘方法,我们通过相对于a和b极小化下式可得到局部截距的估计 21()()TihiYab itKit.这里引进核权是为了减少距离给定时间点t较远的数据的贡献.令ta和tb是最小二乘解.这里用下标t是为了表示所得的解依赖于给定的时间点t.这时,tf用局部截距ta来估计,它有如下的精确表示 ,2,111/,()()()()TTt iit it ihTTtiifaw YwwKitStit St,(6.10)其中,1()()()TjT jihStK it it.当t从 1 取到T时就得到整个趋势函数.这样,局部 150 线性平滑实际上是一种移动线性回归方法.正如图 6.3 所示那样,在80t 处的估计由一个新的局部最小二乘问题得到.在每个数据窗中拟合的直线用实线表示.估计的局部截距的值位于虚垂直线和局部直线的交叉处.局部斜率是时间趋势导数的估计.此外,这些局部窗还可以互相重叠(见图 6.2).S-Plus 函数“lls.s”已写成程序差可用于计算图 6.3中的平滑曲线.这个 S-Plus 函数能够从本书的网址获得.图 6.3 使用 Epanechnikov 核和带宽20h 所得的 1999 年 1 月 4 日至 1999 年 12 月 31 日 S&P500 指数局部线性拟合.在每个窗中的虚抛物线表示每个局部数据点所得的权 局部线性平滑能够很容易地堆广到局部多项式平滑.局部多项式拟合和它的应用的全面介绍可参阅 Fan 和 Gijbels(1996).局部多项式拟合的优点总结在6.3.3 中.注意,(6.11)中的权,t iw满足 ,1,2,2,11()()()()()0.Tt iTTTTiwitSt StSt St (6.11)这就蕴涵了如果趋势是线性的,tft,则局部线性平滑是无偏的:,11()/TTt it itiiE fwiwt.换句话,无论趋势函数多以陡峭,只估计线性趋势时,局部线性平滑就是无偏的.这对在内部以及边界处的点t的同样成立.也就是说对于估计陡峭趋势,局部线性估计将有小的偏倚.另一方面,因为类似于(6.11)的方程即便是近似地也都不成立,因此,对估计边界区域附近的点估计陡峭趋势,核平滑将有较大的偏差.6.2.7 其他的平滑方法 151 核局部线性平滑有许多别的方法.例如,Gasser 和 Mller(1979)使用了不同于核和局部线性平滑的权形式,Jones(1997)介绍了局部线性平滑的各种形式.Fan 和 Gijbels(1996)给出了各种平滑技术的概述,包括样本和正交级数方法.核回归和局部多项式建模是基于在许多格子点上的局部近似.诸如样条这样的全局逼近方法还能够用于对时间域的平滑.这些思想将在关于状态域平滑的6.4 中介绍.对诸如时域平滑这样的等间隔设计,正交级数方法也非常容易使用.其基本思想是先用正交矩阵对数据进行变换,然后,在高频点向零点有选择地调整系数(或向零点收缩它们).平滑估计能够通过 tapered 系数的逆变换来获得.常用的正交变换包括傅里叶变换和小波变换.它们的统计应用可参阅 Ogden(1997)、Efromovich(1999)和 Vidakovic(1999)等近期出版的专著.6.2.8 季节分量修正 有许多实用的修正季节分量的方法.在此我们概要地介绍一个方法以说明其基本大意.假定(6.1)中的季节分量的周期是p,即 1,0pkjpkkksss.(6.12)后一个约束是一个可识别条件.若此约束不成立时,只要加一个常数到趋势分量tf,并在季节分量修正中减去相同的常数.归因于约束(6.12),当p是一个奇数时,趋势能够方便地用具有(1)/2hp的滑动平均(6.5)来估计.在(6.5)中季节分量平均掉,因而对趋势估计没有贡献.当周期p是偶数时,用如下稍加修改的形式估计趋势 11(0.50.5)/,/2t dt dt dt dtfYYYYpdp .季节分量能够按如下步骤来估计.就一个例子来说,我们假定要处理的月度数据,且周期12p.在 3 月的季节分量的值能用在 3 月所得一切观测值的移去趋势分量后的平均来很好地近似.这就得到估计()/*()/1()/()/()/1Td kpkkjpkjpjd kpsYfTdkpdkp,其中 a表示a的整数部分,/2dp.在上述求和中对上下限所作的限制是为了保证数据不要太接近边界使得在趋势估计中边界影响达到最小.这种初步估计可能不能精确地满足约束(6.12).但这能够容易地通过用下式估计季节分量 ks来作修正 152*11,1,dkkiissdskp.以上方法还被用于没有趋势分量tf的情形.在这种情形,不需要移去趋势,即令0.tf 6.2.9 理论概况*问题(6.3)的理论表述应该得到注意.一个简单的方式是把所得的时间序列 tY看作是来自如下连续过程的离散化样本路径()()().Y tf tX t 这种表述常常被用在金融时间序列建模中.时间单位通常取年,每星期数据被看作是以1/52 的速度抽自连续过程.对金融中的期权定价和风险管理,这种表述是非常有效的.然而,在时域平滑方面,这种述有一些缺点.首先,为了能够相容地估计()f t,我们需要在给定的时间0t的周围用大小为0h 的窗局部化数据.但是,只要过程()X t是连续的,所有的局部数据0():Y ttth都是高度相关的,且当0h 时,相关系数趋于1.这就蕴涵了局部数据变化不大,因而也就不需要局部平滑.正如在图 6.2 中所看到的那样,局部数据变化很大,局部平滑就能改善趋势估计.这样,以上表述从理论的观点来看似乎是病态的.其次,在以上的表述下,趋势()f t和随机误差()X t有相似的光滑度(两者都是连续的).因此,在()Y t中没有希望将随机部分与趋势部分分离开来.一个代替的表述是推广等间隔设计的非线性回归模型到时间序列框架.假定所得到的时间序列是来自模型 (/),1,ttYg t TXtT (6.13)其中g是平滑时间趋势函数,tX是随机过程,0tEX.在这种表述下,我们现在能够利用平滑技术从随机噪声中分离出平滑趋势.一个小的缺点是平滑趋势()(/)f tg t T依赖于观测数量T.这个问题早就出现在具有固定设计的非参数回归文献中.实际上它不是一个严重问题.渐近理论毕竟只是一个工具,为我们理解理论性质提供简化的结构.用(/)g t T建模趋势是捕捉趋势比噪声变化更慢这一特征的简单的技术手段.在以上两种表述之间选择哪一个依赖于所研究的问题.在纵向数据和泛函数据分析中,Hart 和 Wehrly(1986)以及 Silverman(1996)基本上是用前一种表述:人们通过模型()()()Y tf tX t观测到大量独立序列.这种表述对他们的问题是适合的.对时域平滑,模型(6.13)常被假定.例如见 Hall 和 Hart(1990),Robinson(1997),以及 Johnstone和 Silverman(1997).这就保证了能捕捉到时间趋势比随机噪声更光滑这一特征.进一 153 步,它也保证了能相容地估计时间趋势.由公式(6.13)能够获得核和局部线性平滑的渐近性质.估计g的偏倚与具有均匀设计的独立样本情形是相同的.核和局部线性平滑的方差经繁琐的计算也可得到.它们依赖于噪声过程tX的协方差结构.一般地,我们假定tX的自方差函数满足()Cov(,),Xtt kXkXXC kk,(6.14)其中0,XC是常数.在 2.5.2 中定义的分式 ARIMA 过程就满足(6.14).我们将估计(6.10)重写为(/)g t T.对任何/(0,1)ut T,使用(/)iEYg i T和(6.11),我们得到偏倚 1,1,(/)()()(/)()()TiTu iTiTu iwg i Tg ug u i TuEg ug uw.(6.15)注意,这个偏倚不依赖于误差过程()X t.它完全是局部线性拟合的近似误差.为理论叙述的简单,我们假定K有有界支撑.这个假定可以冗长的叙述为代价而得到减弱.特别地,可以使用像高斯核这样的轻尾核.由j表示()jv K v dv.在下面的定理中我们总结了渐近偏倚和方差,定理的证明放在6.6.1.注意,由于时间单位的尺度,/h T和用在一般的非参数回归中的带宽是相同的.定理 6.1 假定K有有界支撑,满足0()1K和1()0K,且当/0h T 时,带宽h.(a)如果()g 存在,且在点u处连续,则 3221()()()()(/)(/)2Eg ug uK gx x To h T.(b)如果自方差函数X满足(6.14),我们有 212212()()|,01,Var()2|log(),1,()|,1.XXjXCK x K yxydxdyhg uCKhhjKh (6.16)定理 6.1 表明,过程tX的协方差结构对渐近方差有强烈的影响.反过来这也影响到渐近最优带宽,并解释了为什么独立数据的数据驱动带宽选择不能直接应用到相依数据.对核估计的类似于定理 6.1 的结果由 Hall 和 Hart(1990)证明.最近,这些结果被Beran 和 Feng(2000)用不同于6.6.1 给出的方法推广到局部多项式拟合.他们还证明了对 anti-persistent 过程,渐近方差具有阶1 2dh.154 局部线性估计的渐近正态性也可以被建立.如果误差过程tX是高斯的,则它的加权平均估计(6.10)还是高斯的.这样,局部线性估计的渐近正态性直接由定理 6.1 得到.此外,在正态假定下,Csrg 和 Mielniczuk(1995)建立了类似于定理 5.4 的最大偏差的渐近分布.然而,对tX的正态假定并不是本质的.正如在 Robinson(1997)中所证明的那样,这个条件可以去掉.我们在此概要地叙述用于本章的技术.令 t是相对于它自身域的鞅差序列,即(|,)0,a.s.tjEjt 假定tX是一双边无穷阶滑动平均过程:2,tjtjjjjXaa 且2t是一致可积的,并满足 2(|,)1,a.s.tjEjt 分式 ARIMA 过程满足这三个假定.考虑加权和,11TTTT ttT ttjjtjtSwXw a,它是鞅差序列的和.由鞅的性质,2,1Var()TT ttjjtSw a,假定这个方差存在.下面的定理由 Robinson(1997)给出.类似的结果还可在 Ibragimov和 Linnik(1971)中发现.定理 6.2 在上面所述的条件下,倘若 1/2,1max(Var()TT ttjTjtw aoS,则有 1/2Var()N(0,1)DTTSS.对于局部线性估计(6.10),易见,11/.TTt iit ittiifE fw Xw 这时渐近正态性变为验证定理 6.2 中所叙述的条件.我们略去细节.6.3 状态域平滑 6.3.1 非参数自回归 155 状态域平滑与非参数预报密切相关.考虑一个平稳时间序列tX.为了简单起见,我们考虑仅基于变量1tX的预报.基于1tXx的tX的最优预报是给定1tXx时,tX的条件期望 1()(|)ttm xE XXx,它在所有的预报函数g中极小化 MSE 21()ttE Xg X.这个函数还称为阶为 1 的自回归函数.当tX是零均值平稳高斯过程时,这个条件均值是线性函数()m xax,条件方差是常数.这就得到一个 AR(1)模型 1tttXaX.一般地,函数()m x不必是线性的,条件方差也不必是常数.然而,总是能够以如下方式表示数据 11()()ttttXm XX,(6.17)其中21()Var(|)ttxXXx.这里,t的条件均值为零,条件方差为 1,即 11(|)0,Var(|)1ttttEXX.非参数平滑技术还能够用于包括自回归函数的估计以外的领域.考虑一个双变量序列(,):1,ttX YtT,它可以被看作是来自平稳过程的一个实现.我们的兴趣是估计回归函数()(|)ttm xE YXx.为便于对问题的理解,我们记()()ttttYm XX,(6.18)其中2()Var(|),tttxYXx满足(|)0,Var(|)1ttttEXX.显然,这个结构包括通过取1ttYX而把估计的自回归函数作为一个特定的例子.下面是三个有用的例子.例 6.1 考虑平稳时间序列tZ.对给定的k,我们取1(),kttttYZXZ.则目标函数变为 1()(|)kkttmxE ZZx.条件方差可以通过用221()()mxm x来估计.特别地,当1()m x小得如例 1.1 中所给的利率差分数据,2()m x基本上就如同条件方差.换句话,对下面图 6.4 中所给的数据,均值回归函数是波动函数的平方 1()Var(|)ttxXXx.这就是由 Stanton(1997)以及 Fan 和 Yao(1998)所给出的波动估计的基础.156 图 6.4 对 12 个月国库券回报用局部线性拟合估计条件方差.(a)具有 Epanechnikov 核和带宽索3.06h 的局部线性拟合的图示;(b)估计条件标准差用局部线性拟合(实曲线),Fan和 Yao(1998)的基于残差的方法(短虚曲线)和具有0.143和1.324的参数模型()xx(长虚曲线)例 6.2 再考虑平稳时间序列tZ.我们取()ttYI aZb,它是区间(,a b上的示性函数,1ttXZ.则目标函数变为 1()(|)ttm xP aZb Zx.特别地,如果a ,我们就得到条件分布估计.进一步,如果ay和by,则当取值小时,()/(2)m x基本上就如同给定1tZx时tZ的条件密度.这个条件密度函数对了解给定1tZx时tZ分布的全貌是非常有用的.特别地,自回归函数是这个分布的中心,波动函数是这个分布的扩展.这个思想形成了 Fan、Yao 和 Tong(1996)估计条件密度(6.5)和与它们相关的泛函(10.3),以及 Hall,Wolff 和 Yao(1999)估计 157 条件分布函数(10.3),Polonik 和 Yao(2000)估计最小量预报区域(10.4)等所用方法的起源.例 6.3 对给定的时间序列tZ,多步预报能够通过令tt dYZ和ttXZ来完成,其中d是预报步长数.对这种情形,我们用非参数方法,基于变量tZ来估计最优d步预报()(|)t dtm xE ZZx,下面的图 6.6 画出了山猫数据的一步和两步预报.把这个方法和例 6.1 和例 6.2 中的技术结合起来,我们能够估计多步预报的条件方差和条件密度.6.3.2 局部多项式拟合 局部多项式拟合是一个用途广泛的非参数技术.它拥有多种好的统计性质.关于这些内容可参阅 Fan 和 Gijbels(1996).令()()vmx是定义在(6.18)中的回归函数v阶导数.局部多项式技术可非常方便地用来估计()()vmx,包括回归函数本身(0)()()m xmx.由于回归函数的形式没有被指定,因而距离0 x远的数据点对0()m x提供了很少的信息.因此,我们只能使用0 x附近的局部数据点.假定()m x在0 x点处有(1)p阶导数.由泰勒展开,对0 x局部邻域的x,我们有 200000()()()()()()2!m xm xm xm xxxxx ()1000()()()!pppmxxxOxxp.(6.19)在统计建模方面,对0 x周围的局部点,我们建模()m x为 00()()pjjjm xxx.(6.20)参数j依赖于0 x,故称之为局部参数.显然,局部参数()0()/!vvmxv.用局部数据拟合局部模型(6.20)可极小化 20010()()pTjtjthttjYXxKXx,(6.21)其中h是控制局部邻域大小的带宽.作为一个说明的例子,我们取21()tttYXX,其中tX是 12 个月国库券回报.带宽为3.06h,它是由预渐近代入法(见6.3.5)用 C-程序“lls.c”计算得到的.在012x 点处(百分数),线段(1)p 用来拟合在阴影区域0 xh中的局部数据,在此对每个数据,权用虚曲线(对应于 Epanechnikov 核)表示.在0 x点处局部截距0是拟合的线段和垂直线段间的交点.这就构成了在点012x 处的回归函数(0)v 的估计.沿着水平轴滑动这个窗,我们就获得在区间3,14上要估计的曲线.条件标准差被展示在图 6.4(b)158 中.基于残差来估计条件方差的方法由 Fan 和 Yao(1998)提出,其计算通过 C 程序“autovar.c”来实现(还可见8.7.2),为比较方便,它用短虚曲线表示.参数模型()m xx常被用来对生产率动态的波动进行建模,它用长的虚曲线表示.正如人们所看到的那样,在参数和非参数方法之间还存在本质差异,这对参数拟合是否合适提出了疑问.选择带宽预渐近代入方法由 Fan 和 Gijbels(1995)提出,见6.3.5.用,0,jjp,表示最小二乘问题(6.21)的解.()0()vmx的局部多项式估计是0()!(0,1,)vvm xvvp.这里,我们不用记号()0()vmx是为了避免由估计回归0()m x的v阶导函数所带来的混淆.事实上,导数()m x是用局部斜率来估计,而不是用估计的回归函数的导数来估计.当0p,局部多项式拟合退化为该回归估计 11()()()TtthtTthtYKXxm xKXx,它还被称为 Nadaraya-Watson 估计.因此,从局部逼近的观点来看,核回归估计是基于局部常数逼近的.见(6.19).使用矩阵记号来表示局部多项式回归更为方便.用X表示相应于(6.21)的设计矩阵:1010001()()1()()ppTTXxXxXxXxX,且令 01,TpYY y.则加权最小二乘问题(6.21)能够写为 min()()TyXW yX,(6.22)其中0(,)Tp,W是对角矩阵,它的第i个元素为0()hiKXx.解向量为 1()TT X WXX Wy.(6.23)为了实现局部多项式估计,我们需要选择阶p,带宽h和核K.当然,这些参数相互关联.当h 时,局部多项式拟合就变成全局多项式拟合,阶p决定模型的复杂性.与参数模型不同,局部多项式拟合的复杂性主要是由带宽来控制.因此,p通常是较小的,故而选择p的问题就变得不重要了.如果目的是估计()vm,则当pv是奇数,局部多项式拟合自动修正边界偏倚.进一步,当pv是奇数,与1p阶拟合(则1pv 是 159 偶数)相比较,p阶拟合包含了一个多余参数,但没有增加估计()vm的方差.不过这个多余参数创造了一个降低偏倚的机会,特别是在边界区域.见 Fan(1992)、Fan 和 Gijbels(1992)、Hastie 和 Loader(1993)、Ruppert 和 Wand(1994).因为这些理由,奇数阶拟合(选择p使和pv是奇数)比偶数阶拟合(选择1p使得pv是偶数)更好.基于理论和实际的考虑,在 Fan 和 Gijbels(1996)中推荐阶1pv.如果主要目的是估计回归函数,我们使用局部线性拟合,如果目标函数是一阶导数,我们就使用局部平方拟合,等等.另一方面,带宽h的选择在多项式拟合中起着重要作用.太大的带宽引起过度平滑,产生过大的建模偏倚,而太小的带宽会导致不足平滑,获得受干扰的估计.带宽可由使用者通过目测检查所得到的估计曲线来主观选择,或由数据通过极小化的估计理论风险来自动选择(见 6.3.5).由于估计基于局部回归(6.21),我们有理由要求一个非负权函数 K.Fan,Gasser,Gijbels,Brockmann 和 Engel(1995)已证明,对所有p的选择和v,最优权函数是23()(1)4K zz,它被称为 Epanechnikov 核.这样,它是一个万能的加权方式,并对比较其他核提供了一个有用的基准.正如在 5.5 所证明的那样,对实际中使用的p和v,其他核具有几乎相同的有效性.因此,核函数的选择并不是至关重要的.将局部多项式估计与其他估计进行比较,包括Nadaraya-Watson估计、Gasser和Mller估计和 Priestley 和 Chao 估计.实际上,由 Fan(1993a)可知,局部线性拟合在所有线性估计中是渐近最小最大的,而在所有可能的估计中几乎是最小最大的.这种最小最大性质由 Fan,Gasser,Gijbels,Brockmann 和 Engel(1995)推广到更一般的局部多项式拟合.6.3.3 局部多项式估计的性质 整个这一节中,我们假定11(,),(,)TTX YXY是平稳序列.令kiF是有随机变量(,),1jjXYjk生成的事件的域.令()k和()k是它们相应的和混合系数.用1ve表示单位向量,其(1)v位置的元素为 1.令,001()()TjT jhtttSKXxXx (6.24)和TTSX WX是(1)(1)pp矩阵,它位于(,)i j的元素是,2T ijS.首先,我们容易证明估计能够写为 011TTTtvvvttXxeWYh,(6.25)其中有效核TvW是核K和一个多项式函数的乘积,其定义如下 11()1,()()/TTpTvvTWteththK thS.(6.26)以上表达式显示除了“核”TvW依赖于设计点1,TXX和位置0 x外,估计v看起来就像传统的核估计.这就解释了为什么局部多项式拟合能够自动地适应各种设计框架和 160 边界估计.图6.5给出了局部常数拟合(0)p 的有效核函数和对Epanechnikov核K在点00.05x 和00.5x 处的局部线性拟合(1)p.它们满足如下矩性质.图 6.5 对局部常数拟合(0)p 和具有核K为 Epanechnikov核的局部线性拟合(1)p 在内点00.5x 处(权由表示)和边界点00.05x(权由表示)分配给局部数据点的有效权.水平实线和虚线分别是真实函数和估计的函数在点00.05x 和00.5x 的高度.它们的差是在这两个点处的偏倚.(a)Nadaraya-Watson 估计;(b)局部线性拟合.为清楚起见,数据()不包含噪声 命题 6.1 有效权TvW满足如下有限矩性质:00,1()0,TqTttvv qtXxXxWv qph,其中如果vq,则,0v q,否则为 1.证明 由TS的定义 001()TqTttvtXxXxWh 161 01100101()()()TtTqvTthitptXxeXxKXxXxS 111,TvTTqv qeeS S.从而得到所要的结论.作为命题 6.1 的结果,当真实的回归函数()m x是阶为p的多项式时,v的局部多项式估计的无偏倚的.为了获得更多有关有效核的知识,我们提供它的渐近形式.我们首先引进一些记号.令S是(1)(1)pp矩阵,它的第(,)i j元素为2ij,其中()jju K u du.定义等价核如下*110()(1,)()()()pTpTvvvKtettK tS tK tSlll,(6.27)其中vSl是1S的(1,1)vl元素.命题 6.2 在定理 5.5 的条件下,如果X的边缘密度f在点0 x处有连续的导数,则在对0,xa b和t一致地有*101()()1()()TvvPTvWtKtOaThf x,其中1/2(log/)TahT Th.对高阶核而言,等价核满足如下矩条件:*,()0,qvv qu K u duv qp.证明 注意到,/()jT jSTh基本上和具有诱导核*()()jKxx K x的核密度估计是相同的.因此,由定理 5.5,对0,xa b一致地有 1,0()()()jT jjPTThSf xO q,(6.28)把(6.28)代入TS的每一个元素就立即得到 1110()1()TPTTHS Hf xOaS,或等价地有 0()1()TPTTf x H HOaSS,其中diag(1,)pHhh,因此,把这个式子代入vTW的定义,我们得到 11101()(1,)()1()()TTpTvvPTvWtettK toaThf xS.这就证明了第一个结果.第二个结果用与命题 6.1 相同的证明可得.由(6.25)和命题 6.2,有 162*011011()()TtvvtPTvtXxKYOaThf xh.(6.29)因此,使用局部多项式估计就像使用具有已知设计密度f的核回归估计一样.这就解释了为什么局部多项式拟合适应于多种设计密度.反过来,核回归估计在f的导数偏大的区域有大的偏倚,即它不能适应高偏斜设计.为了搞清楚这一点,想象真实的回归函数在这样的区域内有大的斜率.对给定的0 x,由于设计密度的导数是大的,故而在0 x的一边比另一边有更多的点.当使用局部平均时,由于局部数据呈现对称状态,故Nadaraya-Watson 估计向着有更多局部数据点的那一边产生偏倚.由于局部数据多是非对称的,故而这个问题在边界区域更显著,见图 6.5.另一方面,如果需要,局部多项式拟合造出非对称权以补偿这类设计偏倚(图 6.5(b).因此,它适合于各种设计密度和边界区域.我们现在给出局部多项式估计的渐近偏倚和方差表达式.对独立数据,我们通过在设计矩阵X上加条件来获得偏倚和方差表达式.然而,对诸如在例 6.1-6.3 中所给出的时间序列,加在X上的条件将意味着几乎是加在整个序列上.因此,我们用渐近正态性而不是用条件期望来导出渐近偏倚和方差.正如在5.3 所解释的那样,状态局部化减弱了局部