平稳时间序列的ARMA模型.doc
Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date平稳时间序列的ARMA模型2 平稳时间序列的ARMA模型第五讲(续)平稳时间序列的ARMA模型1 平稳性有一类描述时间序列的重要随机模型受到了人们的广泛关注,这就是所谓的平稳模型。这类模型假设随机过程在一个不变的均值附近保持平衡。其统计规律不会随着时间的推移发生变化。平稳的定义分为严平稳和宽平稳。定义1(严平稳)设是一个随机过程,是在不同的时刻的随机变量,在不同的时刻是不同的随机变量,任取个值和任意的实数,则分布函数满足关系式 则称为严平稳过程。在实际中,这几乎是不可能的。由此考虑到是否可以把条件放宽,仅仅要求其数字特征(数学期望和协方差)相等。定义2(宽平稳)若随机变量的均值(一阶矩)和协方差(二阶矩)存在,且满足:(1)任取,有;(2)任取,有 协方差是时间间隔的函数。则称 为宽平稳过程,其中为协方差函数。2 各种随机时间序列的表现形式白噪声过程(white noise,如图1)。属于平稳过程。yt = ut, ut IID(0, s2)图1 白噪声序列(s2=1) 随机游走过程(random walk,如图11)。属于非平稳过程。yt = yt-1 + ut, ut IID(0, s2)图2 随机游走序列(s2=1) 图3 日元兑美元差分序列 图4深圳股票综合指数 图5随机趋势非平稳序列(m = 0.1) 图6 随机趋势非平稳序列(m = -0.1)图7 对数的中国国民收入序列 图8 中国人口序列3 延迟算子延迟算子类似于一个时间指针,当前序列值乘以一个延迟算子,就相当于把当前序列值的时间向过去拨了一个时刻,记B为延迟算子,有。特别是差分算子。4ARMA(p,q)模型及其平稳性和可逆性4.1 模型类型及其表示在平稳时间序列的分析中,应用最广泛的是有限参数模型。 p阶自回归模型:用自己的过去和现在的随机干扰表。 是白噪声。q阶移动平均模型:用现在和过去的随机干扰表。p阶自回归和q阶移动平均模型:自己的过去及过去和现在的随机干扰表。其中是白噪声序列。4.2 平稳性是平稳时间序列的反映吗?如果它是平稳时间序列的模型,回归系数应该满足何种条件呢?例 设是一阶自回归模型,即 或,其中则(利用等比级数的通项和公式) = =如果,的系数随着的增加而趋于无穷大,这显然违背了“远小近大”的原则,由此可见,平稳的充分必要条件是,的充分必要条件方程的根在单位圆外。设是一个p阶自回归模型或 其中: 。平稳的充分必要条件是:的根在单位圆外;的根在单位圆内证明请参看附录1。4.3可逆性我们可以考虑到一个时间序列是否可以用它的现在值和过去值来表示现在时刻的随机干扰呢?即 这种表达式称为“逆转形式”。如果一个时间序列具有逆转形式,也就是说逆转形式存在且平稳,通常称该过程具有可逆性。例 设是一阶滑动平均模型,即 或,其中则(利用等比级数的通项和公式) = =对于一阶滑动平均模型,无论取何值,是一个名副其实的平稳序列,但是对于 的“逆转形式”是否存在,则取决于是否小于1。如果,的系数随着的增加而趋于无穷大,这显然违背了“远小近大”的原则,由此可见, 的逆转形式存在的充分必要条件为,的充分必要条件方程的根在单位圆外。可逆的充分必要条件为,方程的根在单位圆外。的根在单位圆内证明参看附录2。由于自回归模型稍微变形,就是用系统的现在和过去值表示随机干扰项,所以自回归模型自然可逆。4.4 ARMA(p,q)的平稳性和可逆性设时间序列是ARMA(p,q)模型令 则模型记为 如果 1. ,; 2. 和无公共因子; 3. 和的根在单位圆外。则是自回归移动平均模型,平稳且可逆。它有传递形式,由此可以认为,任何一个自回归滑动平均模型都可以用一个足够高阶的滑动平均模型逼近。逆转形式,可见任何一个自回归滑动平均模型都可以用一个足够高阶的自回归模型逼近。5 平稳时间序列的统计特征5.1 总体的自相关函数和样本的自相关函数(看参考教材 王燕,应用时间序列分析,中国人大出版社,2005)一、 AR(p)模型的自相关函数AR(p)模型,自相关函数快速收敛于零,但不等于零,“拖尾”。又因为ARMA(p,q)模型的可逆性,即,所以任何一个ARMA(p,q)模型都可以表示为一个足够高阶的AR(p)模型,所以ARMA(p,q)模型与AR(p)模型有相同的统计特性。下面从可以从图18到图25观察时间序列图与其自相关函数图的特点。图9 白噪声序列的自相关函数 图10 白噪声序列的自相关函数图图11 人工模拟序列图图12 人工模拟序列的自相关函数图图13 模拟随机游走序列图图14 模拟随机游走序列的自相关关函数图二、MA(q)的自相关函数结论:MA(q)模型的自相关函数q阶截尾,即在q+1及以后为零。图2-7是模拟一阶移动平均模型趋势图,图2-8是自相关函数图图15 趋势图图16 自相关函数图由此,我们已经有了识别MA(q)模型的工具,自相关函数q阶截尾。但是对于AR(p)和 ARMA(p,q)模型,则无法区别了。2.4.2 偏自相关函数由AR(p)模型本身看,只涉及到步相关性,但序列的自相关函数确是拖尾的。AR(P)模型的偏自相关函数p阶截尾。注:偏自相关函数的概率意义是在给定的条件下,和的相关系数。ARMA(p,q)模型自相关和偏自相关均拖尾,但是快速收敛到零。 表1 自相关和偏自相关特征表模 型AR(p)MA(q)ARMA(P,q)自相关函数拖 尾截 尾拖 尾偏自相关函数截 尾拖 尾拖 尾对一个实际时间序列,我们能掌握的是一段样本数据,所以首先要利用样本数据估计模型的自相关函数和偏自相关函数。【例】利用1997年1月2002年12月到北京海外旅游人数资料绘制自相关和偏自相关图,在这里去掉了2003年的数据是由于非典的流行使2003年到北京旅游的人数锐减,出现奇异值,不具有一般性。如图17所示。图17 1997年1月2002年12月到北京海外旅游人数曲线图Autocorrelations: SARS Auto- Stand.Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 Box-Ljung Prob. ùòòòòôòòòòôòòòòôòòòòôòòòòôòòòòôòòòòôòòòòú 1 .587 .115 . ó*.* 25.892 .000 2 .358 .115 . ó*.* 35.657 .000 3 .166 .114 . ó* . 37.775 .000 4 .074 .113 . ó* . 38.205 .000 5 .068 .112 . ó* . 38.573 .000 6 .183 .111 . ó* 41.281 .000 7 .034 .110 . ó* . 41.377 .000 8 .011 .110 . * . 41.387 .000 9 .095 .109 . ó* . 42.154 .000 10 .253 .108 . ó*.* 47.641 .000 11 .427 .107 . ó*.* 63.578 .000 12 .660 .106 . ó*.* 102.277 .000 13 .386 .105 . ó*.* 115.737 .000 14 .179 .104 . ó* 118.679 .000 15 .038 .103 . ó* . 118.814 .000 16 -.022 .103 . * . 118.860 .000Autocorrelations: SARSPlot Symbols: Autocorrelations * Two Standard Error Limits .图18 97年1月到02年12月到北京海外旅游人数自相关图图18显示滞后一期和滞后两期的自相关函数分别为0.5874和0.35818,超过了两倍标准差,显著不为零,以后的自相关函数均显著为零,直到滞后期为周期的长度12时,自相关函数出现了峰值,为0.66015,这是季节性时间序列的十分典型的特征,该序列从自相关函数看长期趋势并不十分显著。而且可能建立MA模型会产生过多的参数,于是可能适应的AR模型。根据偏相关系数,如图19所示Partial Autocorrelations: SARS Pr-Aut- Stand.Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 ùòòòòôòòòòôòòòòôòòòòôòòòòôòòòòôòòòòôòòòòú 1 .587 .118 . ó*.* 2 .020 .118 . * . 3 -.080 .118 . *ó . 4 .003 .118 . * . 5 .064 .118 . ó* . 6 .197 .118 . ó*. 7 -.255 .118 *ó . 8 .036 .118 . ó* . 9 .223 .118 . ó*. 10 .248 .118 . ó* 11 .239 .118 . ó* 12 .391 .118 . ó*.* 13 -.305 .118 *.*ó . 14 -.165 .118 . *ó . 15 -.044 .118 . *ó . 16 -.029 .118 . *ó .Plot Symbols: Autocorrelations * Two Standard Error Limits .图19 97年1月到02年12月到北京海外旅游人数偏自相关图偏自相关函数图19显示滞后期为1,7,12和13的偏自相关函数分别为0.5874、-0.2555、0.39145和-0.30474,显著不为零,该时间序列的偏自相关函数显示该时间序列可能适应的模型和。我们模拟模型为。表2 模型的参数估计表参数参数估计标准差t 值P值0.4959420.09480105.2314030.00000.7672140.076675610.0059730.000022.7398662.186436110.4004260.0000Standard error 3.1740588 Log likelihood -189.48646AIC 384.97291 SBC 391.80291表2显示,该模型为进一步对模型的适应性进行检验,回归系数均显著外,残差的自相关函数均落在两倍标准差内,可以认为残差序列是白噪声序列,如图20所示。 Auto- Stand.Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 Box-Ljung Prob. ùòòòòôòòòòôòòòòôòòòòôòòòòôòòòòôòòòòôòòòòú 1 -.048 .115 . *ó . .175 .676 2 .039 .115 . ó* . .292 .864 3 .040 .114 . ó* . .416 .937 4 .056 .113 . ó* . .664 .956 5 -.007 .112 . * . .668 .985 6 .112 .111 . ó* . 1.681 .947 7 .028 .110 . ó* . 1.747 .972 8 -.045 .110 . *ó . 1.917 .983 9 .117 .109 . ó* . 3.083 .961 10 .031 .108 . ó* . 3.167 .977 11 -.037 .107 . *ó . 3.286 .986 12 -.047 .106 . *ó . 3.485 .991 13 .130 .105 . ó*. 5.011 .975 14 .025 .104 . ó* . 5.070 .985 15 .017 .103 . * . 5.096 .991 16 .067 .103 . ó* . 5.517 .993 图20 最终模型残差的自相关函数图最终模型残差的白噪声检验结果表明残差序列可以视为白噪声序列,模型是适应的。当模型通过了检验,我们可以用该模型进行结构分析和预测分析了。3 时间序列建模的方法 为了对时间序列建模有一个较全面的了解,下面从样本观测数据出发,介绍建立时间序列模型的基本步骤。Box-Jenkins方法是以序列的自相关函数和偏自相关函数的统计特性为依据,找出序列可能适应的模型,然后对模型进行估计。通常可以考虑的模型ARMA、ARIMA和乘积型季节模型。(一)模型的识别对于一组长度为N的样本观测数据,首先要对数据进行预处理,预处理的目的是实现平稳化,处理的手段包括差分和季节差分等。经过预处理的新序列能较好满足平稳性条件。模型的识别包括差分阶数d、季节差分阶数D、模型阶数、q、k和m的识别。识别的工具是自相关函数和偏自相关函数。如果样本的自相关函数当时显著为零,则序列适应的模型是MA。如果样本的偏自相关函数当时显著为零,则序列适应的模型是AR。若样本的自相关函数和偏自相关函数均拖尾,并且按负指数衰减,则序列是ARMA序列,这时应该从高阶到低阶拟合模型,从中选择最佳的。当自相关函数缓慢下降,或是具有季节变化,那么观测的序列是具有趋势变动或季节变动的非平稳序列,则需要做差分或季节差分,如果差分后的序列的样本的自相关函数和偏自相关函数既不截尾又不拖尾,而在周期的整倍数时出现峰值,则序列遵从乘积型季节模型,否则遵从ARIMA模型。(二)模型的估计当模型的阶数确定之后,利用有效的拟合方法。如最小二乘估计,极大似然估计等方法,估计模型各部分的参数。(三)诊断性检验模型选择检验所选择的模型是否能较好地拟合数据。它包括模型过拟合和欠拟合检验。通过检验的结果,修改模型。时间序列建模应该基于简约的原则,即用尽可能少的模型参数,对模型做出尽可能精确估计。所以在选择模型时应该反复试探,这是一个识别,建模,再识别,再建模的过程。附录1AR模型平稳的充分必要条件。由于 有设有p个根,则可表示为,c为常数,不妨假设为1。则 =用待定系数法,有=(其中是有限实数)再用等比级数通项和公式,有=是把表示为白噪声的加权和的系数,根据前面的结论,如果平稳,其充分必要条件为权系数绝对收敛,权系数绝对收敛的充分必要条件为所有的模小于1,所以其根的模大于1,即在单位圆外。的模大于1,则的模小于1。可见自回归模型的自回归多项式如果有在单位圆上的根,则可以称为时间序列是非平稳的,或存在趋势。附录2MA模型可逆的充分必要条件设时间序列是阶滑动平均模型,有其中: 可逆的充分必要条件是:特征方程的根在单位圆外。证:假设有个根,则=故用待定系数法,有上式为: (用等比级数通项和公式) = =(是加权和的权数)可见,可逆的充分必要条件为绝对收敛,绝对收敛的充分必要条件为诸小于1,故特征方程的根在单位圆外。附录三 ARIMA模型在SPSS中的实现1、定义时间第1步2、定义时间第2步 3、绘制自相关图4、建立ARIMA模型-