《平稳时间序列的判断及建模.ppt》由会员分享,可在线阅读,更多相关《平稳时间序列的判断及建模.ppt(92页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章时间序列的预处理运用时间序列模型进行预测的基本程序 n(一)根据时间序列的散点图、自相关函数和偏自相关函数图以ADF单位根检验其方差、趋势及其季节性变化规律,对序列的平稳性进行识别。一般来讲,经济运行的时间序列都不是平稳序列。运用时间序列模型进行预测的基本程序n(二)对非平稳序列进行平稳化处理。如果数据序列是非平稳的,并存在一定的增长或下降趋势,则需要对数据进行差分处理,如果数据存在异方差,则需对数据进行技术处理,直到处理后的数据的自相关函数值和偏相关函数值无显著地异于零。运用时间序列模型进行预测的基本程序n(三)根据时间序列模型的识别规则,建立相应的模型。若平稳序列的偏相关函数是截尾的
2、,而自相关函数是拖尾的,可断定序列适合AR模型;若平稳序列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定序列适合MA模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA模型。运用时间序列模型进行预测的基本程序n(四)进行参数估计,检验是否具有统计意义。(五)进行假设检验,诊断残差序列是否为白噪声。(六)利用已通过检验的模型进行预测分析。时间序列的预处理n拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法。本章结构n平稳性检验n异常点检验与缺省值的
3、补足n 纯随机性检验2.1平稳性检验 n特征统计量n平稳时间序列的定义n平稳时间序列的统计性质n平稳时间序列的意义n平稳性的检验 特征统计量n平稳性是某些时间序列具有的一种统计特征。要描述清楚这个特征,我们必须借助如下统计工具。概率分布n概率分布的意义n数理统计的基础知识告诉我们分布函数或密度函数能够完整地描述一个随机变量的统计特征。同样,一个随机变量族的统计特性也完全由它们的联合分布函数或联合密度函数决定。概率分布n对于时间序列 ,它的概率分布定义为:n任取正整数 ,任取 ,则 维随机向量 的联合概率分布记为 ,由这些有限维分布函数构成的全体 概率分布n就称为序列 的概率分布族。n概率分布族
4、是极其重要的统计特征描述工具,因为序列的所有统计性质理论上都可以通过概率分布推测出来,但是概率分布族的重要性也就停留在这样的理论意义上。在实际应用中,要得到序列的联合概率分布几乎是不可能的,而且联合概率分布通常涉及非常复杂的数学运算,这些原因使我们很少直接使用联合概率分布进行时间序列分析。特征统计量n一个更简单、更实用的描述时间序列统计特征的方法是研究该序列的低阶矩,特别是均值、方差、自协方差和自相关系数,它们也被称为特征统计量。特征统计量n尽管这些特征统计量不能描述随机序列全部的统计性质,但由于它们概率意义明显,易于计算,而且往往能代表随机序列的主要概率特征,所以我们对时间序列进行分析,主要
5、就是通过分析这些统计量的统计特性,推断出随机序列的性质。特征统计量n均值 n方差n自协方差n自相关系数特征统计量n之所以称它们为自协方差函数和自相关系数,是因为通常的协方差函数和相关系数度量的是两个不同事件彼此之间的相互影响程度,而自协方差函数和自相关系数度量的是同一事件在两个不同时期之间的相关程度,形象地讲就是度量自己过去的行为对自己现在的影响。特征统计量n若前 期的行为对现在时刻行为有一定的影响作用,则 与 可能是相关的而不是无关的。其作用程度具体表现为相关程度的高低。相关程度高,影响作用大,反之亦然。若某一时刻的值对其 期以后的值没有影响作用,则自相关系数几乎为零,可见,系统的动态性完全
6、可用自相关函数来刻画。平稳时间序列的定义n严平稳n严平稳是一种条件比较苛刻的平稳性定义,它认为只有当序列所有的统计性质都不会随着时间的推移而发生变化时,该序列才能被认为平稳。n宽平稳n宽平稳是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩决定,所以只要保证序列低阶矩平稳(二阶),就能保证序列的主要性质近似稳定。平稳时间序列的统计定义 n满足如下条件的序列称为严平稳序列n满足如下条件的序列称为宽平稳序列平稳时间序列n在实践中要获得随机序列的联合分布是一件非常困难的事,而且即使知道随机序列的联合分布,计算和应用也非常不便。所以严平稳时间序列通常只具有理论意义,在实践中
7、用得更多的是条件比较宽松的宽平稳时间序列。严平稳与宽平稳的关系n一般关系n严平稳条件比宽平稳条件苛刻。严平稳是对序列联合分布的要求,以保证序列所有的统计特征都相同;而宽平稳只要求序列二阶平稳,对于高于二阶的矩没有任何要求。通常情况下,严平稳(低阶矩存在)能推出宽平稳成立,而宽平稳序列不能反推严平稳成立。严平稳与宽平稳的关系n但这不是绝对的,两种情况都有特例 不存在低阶矩的严平稳序列不满足宽平稳条件,例如服从柯西分布的严平稳序列就不是宽平稳序列。对柯西分布序列 ,每个 有密度函数 严格地讲,只有存在二阶矩的严平稳序列才能保证它一定也是宽平稳序列。严平稳与宽平稳的关系n当序列服从多元正态分布时,宽
8、平稳可以推出严平稳。从正态随机序列的密度函数可以看出,它的 维分布仅由均值向量和协方差阵决定,换言之,对正态随机序列而言,只要二阶矩平稳,就等于分布平稳了。严平稳与宽平稳的关系n在实际应用中,研究最多的是宽平稳随机序列,以后见到平稳随机序列,如果不加特殊注明,指的都是宽平稳随机序列。如果序列不满足平稳条件,就称为非平稳序列。平稳时间序列的统计性质 n常数均值 n自协方差函数和自相关函数只依赖于时间的平移长度而与时间的起止点无关 n根据这个性质,可以将自协方差函数由二维简化为一维,即平稳时间序列的统计性质n对于平稳时间序列 ,任取 ,定义 为时间序列 的延迟 自协方差函数:n根据平稳序列的这个性
9、质,容易推断出平稳随机序列一定具有常数方差:自相关系数的概念与性质n由延迟 自协方差函数的概念可以等价 得到延迟 自相关系数的概念n规范性 n对称性 n非负定性 n非唯一性 平稳时间序列的意义n时间序列分析方法作为数理统计学的一个专业分支,它遵循数理统计学的基本原理,都是利用样本信息来推测总体信息。n根据数理统计学知识,显然要分析的随机变量越少越好,而每个变量获得的样本信息越多越好。因为随机变量越少,分析的过程越简单,而样本容量越大,分析的结果就会越可靠。平稳时间序列的意义 n时间序列数据结构的特殊性n可列多个随机变量,而每个变量只有一个样本观察值n平稳性的重大意义n极大地减少了随机变量的个数
10、,并增加了待估变量的样本容量n极大地简化了时序分析的难度,同时也提高了对特征统计量的估计精度平稳时间序列的意义n在平稳序列场合,序列的均值等于常数意味着原本含有可列多个随机变量的均值序列 变成了只含有一个变量的常数序列 原本每个随机变量的均值 只能依靠唯一的一个样本观察值 ,都变成了常数均值 的样本观察值平稳性的检验n对序列的平稳性有两种检验方法,一种是根据时序图和自相关图显示的特征做出判断的图检验方法;一种是构造检验统计量进行假设检验的方法。n图检验方法是一种操作简单、运用广泛的平稳性判别方法,它的缺点是判别结论带有很强的主观色彩。所以最好能用统计检验方法加以辅助判断。平稳性的检验(图检验方
11、法)n时序图检验 n根据平稳时间序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界、无明显趋势及周期特征n自相关图检验 n平稳序列通常具有短期相关性。该性质用自相关系数来描述就是随着延迟期数的增加,平稳序列的自相关系数会很快地衰减向零自相关图检验n从第下章我们将知道,一个零均值平稳序列的自相关函数要么是截尾的,要么是拖尾的。因此,如果一个时间序列零均值化以后的自相关函数出现了缓慢衰减或周期性的衰减的情况,则说明序列可能存在某种趋势或周期性。例题n例2.1n检验1964年1999年中国纱年产量序列的平稳性n例2.2n检验1962年1月19
12、75年12月平均每头奶牛月产奶量序列的平稳性n例2.3n检验1949年1998年北京市每年最高气温序列的平稳性例2.1时序图例2.1自相关图例2.2时序图例2.2 自相关图例2.3时序图例2.3自相关图例题n例2.4n检验1990年2006年国家财政用于科学研究的支出序列的平稳性n例2.5n检验1996年5月20日1996年9月27日上海证券交易所每日收盘的综合指数序列的平稳性例2.4程序ndata example;ninput x;nt=intnx(year,01jan1990d,_n_-1);nformat t year4.;ncards;n139.12 160.69 189.26 225
13、.61 268.25n302.36 348.63 408.86 438.60 543.85例2.4程序n575.62 703.26 816.22 975.54 1095.34n1334.91 1688.50n;nproc gplot;nsymbol i=joint v=none;nplot x*t;例2.4程序nproc arima data=example;nidentify var=sha nlag=22;nrun;nquit;例2.5程序ndata example;ninput x;nt=_n_;ncards;例2.5程序nproc gplot;nsymbol i=joint v=non
14、e;nplot x*t;nproc arima;nidentify var=x nlag=9;nrun;nquit;2.2异常点检验与缺省值的补足n为了对某系统进行控制或预测,必须通过观察得到时间序列的样本,然后据此样本建立动态模型。n1 时间序列数据的采集n2 异常点的检验与处理例2.6程序ndata example;ninput x ;nt=_n_;ncards;n0.672104 0.3413 0.3413 -0.1557 0.0639 0.05465 0.1101 0.0824 0.0819 0.2252 0.289234 0.3584例2.6程序n0.1693 0.3001 0.06
15、18 0.1001 0.32914 0.0927 0.3852 0.2278 0.09804 -0.1487 0.0639 0.1880 0.0625 1.5979 -0.1557 -0.1031 -0.108919 0.6952 0.2078 0.2067 ;例2.6程序nproc gplot;nsymbol i=jiont v=dot;nplot x*t;nproc univariate normal;/*也可采用MEANS过程或SUMMARY过程*/nvar x;nrun;nquit;3 缺失值的补足ndata example;ninput price;ntime=intnx(month
16、,01jan2008d,_n_-1);nformat time date.;ncards;n3.41 3.45 .3.53 3.45;nproc expand data=example out=example_1;nid time;nproc print data=example_1;nrun;nquit;2.3 纯随机性检验n拿到一个观察值序列之后,首先是判断它的平稳性。通过平稳性检验,序列可以分为平稳序列和非平稳序列两大类。n对于非平稳序列,由于它不具有二阶矩平稳的性质,所以对它的统计分析要周折一些,通常要进行进一步的检验、变换或处理之后,才能确定适当的拟合模型。2.3 纯随机性检验n如果
17、序列平稳,情况就简单多了,有一套非常成熟的平稳序列建模方法。但是,并不是所有的平稳序列都值得建模。只有那些序列值之间具有密切的相关关系,历史数据对未来的发展有一定影响的序列,才值得我们花时间去挖掘历史数据中的有效信息,用来预测序列未来的发展。2.3 纯随机性检验n如果序列值彼此之间没有任何相关性,那就意味着该序列是一个没有记忆的序列,过去的行为对将来的发展没有丝毫影响,这种序列我们称之为纯随机序列。从统计分析的角度而言,纯随机序列是没有任何分析价值的序列。2.3 纯随机性检验 n为了确定平稳序列还值不值得继续分析下去,我们需要对平稳序列进行纯随机性检验n纯随机序列的定义n纯随机性的性质n纯随机
18、性检验纯随机序列的定义n纯随机序列也称为白噪声序列,它满足如下两条性质 纯随机序列的定义n之所以称之为白噪声序列,是因为人们最处发现白光具有这种特性。容易证明白噪声序列一定是平稳序列,而且是最简单的平稳序列。n例2.7 随机产生1000个服从标准正态分布的白噪声序列观察值,并绘制时序图。标准正态白噪声序列时序图 白噪声序列的性质 n纯随机性 n由于白噪声序列具有如下性质:n这说明白噪声序列的各项之间没有任何相关关系,这种“没有记忆”的序列就是纯随机序列。白噪声序列的性质n纯随机序列各项之间没有任何关联,序列在进行完全无序的随机波动。一旦某个随机事件呈现出纯随机运动的特征,就认为该随机事件没有包
19、含任何值得提取的有用信息,我们就应该终止分析了。n如果序列值之间呈现出某种显著的相关关系:白噪声序列的性质n就说明该序列不是纯随机序列,该序列间隔期的序列值之间存在着一定程度的相互影响关系,这种相互影响关系,统计上称为相关信息。我们分析的目的就是要想方设法把这种相关信息从观察值序列中提取出来。一旦观察值序列中蕴含的相关信息被我们充分提取出来了,那么剩下的残差序列就应该呈现出纯随机的性质。所以纯随机性还是我们判断相关信息是否提取充分的一个判别标准。白噪声序列的性质n方差齐性n所谓方差齐性,就是指序列中每个变量的方差都相等,即n在时间序列分析中,方差齐性是一个非常重要的限制条件。因为根据马尔可夫定
20、理,只有方差齐性假定成立时,用最小二乘法得到的未知参数估计值才是准确的、有效的。如果假定不成立,最小二乘估计值就不是方差最小线性无偏估计,拟合模型的预测精度会受到很大影响。白噪声序列的性质n所以我们在进行模型拟合时,检验内容之一就是要检验拟合模型的残差是否满足方差齐性假定。如果不满足,那就说明残差序列还不是白噪声序列,即拟合模型没有充分提取随机序列中的相关信息,这时拟合模型的精度是值得怀疑的。在这种场合下,我们通常需要使用适当的条件异方差模型来拟合该序列的发展。纯随机性检验n纯随机性检验也称为白噪声检验,是专门用来检验序列是否为纯随机序列的一种方法。我们知道如果一个序列是纯随机序列,那它的序列
21、值之间应该没有任何相关关系,即满足纯随机性检验n这是一种理论上才会出现的理想状态。实际上,由于观测值序列的有限性,导致纯随机序列的样本自相关系数不会绝对为零。n例2.7续 绘制例2.7标准正态白噪声序列的样本自相关图。例2.7续:标准正态白噪声序列样本自相关图样本自相关图样本自相关图纯随机性检验n样本自相关图显示这个纯随机序列没有一个样本自相关系数严格等于零。但这些自相关系数确实都非常小,都在零值附近以一个很小的幅度做着随机波动。这就提醒我们应该考虑样本自相关系数的分布性质,从统计意义上来判断序列的性质。纯随机性检验 n检验原理n假设条件n检验统计量 n判别原则Barlett定理 n如果一个时
22、间序列是纯随机的,得到一个观察期数为 的观察序列 ,那么该序列的延迟非零期的样本自相关系数将近似服从均值为零,方差为序列观察期数倒数的正态分布Barlett定理n根据Barlett定理,我们可以构造检验统计量来检验序列的纯随机性。n假设条件n由于序列之间的变异性是绝对的,而相关性是偶然的,所以假设条件如下确定。假设条件n原假设:延迟期数小于或等于 期的序列值之间相互独立n备择假设:延迟期数小于或等于 期的序列值之间有相关性 检验统计量nQ统计量 nLB统计量 判别原则n拒绝原假设n当检验统计量大于 分位点,或该统计量的P值小于 时,则可以以 的置信水平拒绝原假设,认为该序列为非白噪声序列n接受
23、原假设n当检验统计量小于 分位点,或该统计量的P值大于 时,则认为在 的置信水平下无法拒绝原假设,即不能显著拒绝序列为纯随机序列的假定 例2.7续:标准正态白噪声序列纯随机性检验延迟统计量检验统计量值P值延迟6期2.360.8838延迟12期5.350.9454由于P值显著大于显著性水平 ,所以该序列不能拒绝纯随机的原假设。检验结果n还需要解释的一点是,为什么在本例中只检验了前6期和前12期延迟的Q统计量和LB统计量就直接判断该序列是白噪声序列呢?为什么不进行全部999期延迟检验呢?n这是因为平稳序列通常具有短期相关性,如果序列值之间存在显著的相关关系,通常只存在于延迟时期比较短的序检验结果n
24、列值之间。所以,如果一个平稳序列短期延迟的序列值之间都不存在显著的相关关系,通常长期延迟之间就更不会存在显著的相关关系。n另一方面,假如一个平稳序列显示出显著的短期相关性,那么该序列就一定不是白噪声序列,我们就可以对序列值之间存在的相关性进行分析。假如此时考虑的延迟期数太长,反而可能淹没了该序列的短期相关性。因为平稳序列只要延迟期足够长,自相关系数都会收敛于零。例2.8n对1950年1998年北京市城乡居民定期储蓄所占比例序列的平稳性与纯随机性进行检验 时序图自相关图白噪声检验结果延迟阶数LB统计量检验LB检验统计量的值P值675.460.00011282.570.00012.4 方差的同质性
25、检验方差的同质性检验n方差的同质性是平稳时间序列的一个非方差的同质性是平稳时间序列的一个非常重要的限制条件。常重要的限制条件。n例例 对时序观测值对时序观测值n19,23,21,13,21,24,27,20,20,18,19,15,22,25,27,22 进行方差齐性检验.SAS的F检验ndata example;ndo a=1 to 4;ndo i=1 to 4;ninput x;noutput;nend;nend;SAS的F检验ncards;n19,23,21,13,21,24,27,20,20,18,19,n15,22,25,27,22n;nproc anova;nclass a;nmo
26、del x=a;SAS的F检验nmeans a/hovtest;nrun;nquit;方差的稳定性转换方差的稳定性转换n在时间序列方差不同质的情况下,如果可以对观测数据进行某种转换,使转换后观测数据的方差近似同质,则称这种数据转换为方差的稳定性转换。n例例 观测数据如下:n58,86,92,95,93,97,90,72,67,39,51,63n77,57,57,59,45,45,80,38,36,39,85,94方差的稳定性转换方差的稳定性转换n试先对原始数据进行方差同质性检验;再作平方根反正弦转换后的方差同质性检验。n分析转换前的数据所用的SAS程序。ndata ex;ndo a=1 to
27、4;ndo i=1 to 6;方差的稳定性转换方差的稳定性转换ninput x;noutput;nend;nend;ncards;n58,86,92,95,93,97,90,72,67,39,51,63n77,57,57,59,45,45,80,38,36,39,85,94方差的稳定性转换方差的稳定性转换n;nproc anova;nclass a;nmodel x=a;nmeans a/hovtest;nrun;nquit;方差的稳定性转换方差的稳定性转换n分析转换后的数据所用的SAS程序。ndata ex;ndo a=1 to 4;ndo i=1 to 6;ninput x;ny=arsin(sqrt(x/100);noutput;方差的稳定性转换方差的稳定性转换nend;nend;ncards;n58,86,92,95,93,97,90,72,67,39,51,63n77,57,57,59,45,45,80,38,36,39,85,94n;方差的稳定性转换方差的稳定性转换nproc anova;nclass a;nmodel y=a;nmeans a/hovtest;nrun;nquit;
限制150内