ARIMA预测原理以及SAS实现代码.docx





《ARIMA预测原理以及SAS实现代码.docx》由会员分享,可在线阅读,更多相关《ARIMA预测原理以及SAS实现代码.docx(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-ARIMA定义ARIMA的完整写法为ARIMA(p,d,q)A其中p为自回归系数,代表数据呈现周期性波动Ad为差分次数,代表数据差分几次才能到达平稳序列Aq为移动平均阶数,代表数据为平稳序列,可以用移动平均来处理。获得观察值序列分析结束差分运算拟合ARMA模型平稳性检测方法A方法一:时序图序列始终在一个常数值附近随机波动,且波动范围有界,且没有明显的趋势性或 周期性,所以可认为是平稳序列。下列图明显不是一个平稳序列proc gplot data=gdp;plot gdp*year=l ;symbol c=red i=join v=star;run;symbols c=green i=join
2、 v=none 1=2;run;4一二介仔会介介处i-r-iI1IIr1975198019851990/ /: /: /:/:/ /; :/ X/ ./ |11r- 1I-1Ir t | v1995200020052010另一种确定p、q的方式proc arima data= gdp;identify var=gdp stationarity = (adf=3) ;run;直接对gdp求arima模型,可已看出acf是拖尾,而pacf是1阶截尾,所以最好是p=l ,q=0300002500020000150001000050000gdp”的趋势和相关分析1.0-0.5b o.o -0.5-1.
3、0-1.0-0.5b o.o -0.5-1.0-0123456滞后11111110123456滞后0123456滞后确定p、q的方式理论由于/及比4(0,/模型可以转化为无穷阶移动平均模型,所以/QV勿(p,q)模型的自相关系数不截尾。同理,由于ZRK4()国)模型也可以转化为无穷阶自回归模型,所以4EH4(p,q)模型的偏自相关系数也不截尾。总结/H(p)模型、M4(q)模型和模型的自相关系数和偏自相关系数的规律,见表6.1所示。模型自相关系数偏自相关系数。尿AR(p)拖尾P阶截尾MA(q)阶截尾拖尾ARMA(p,q)拖尾拖尾模型优化指标当一个拟合模型在指定的置信水平。下通过了检验,说明了在
4、这个置信水平口下该拟合 模型能有效地拟合时间序列观察值的波动。但是这种有效的拟合模型并不是惟一的。如果同 一个时间序列可以构造两个拟合模型,且两个模型都显著有效,那么应该选择哪个拟合模型 用于统计推断呢?通常采用AIC和SBC信息准那么来进行模型优化。1. AIC准那么AIC准那么是由日本统计学家赤池弘次(Akaike)于1973年提出,AIC全称是最小信息量准 那么(an information criterion)。AIC准那么是一种考评综合最优配置的指标,它是拟合精度和参 数未知个数的加权函数:AIC=-21n (模型中极大似然函数值)+2 (模型中未知参数个数)(6.68)使AIC函数
5、到达最小值的模型被认为是最优模型。2. BIC准那么AIC准那么也有缺乏之处:如果时间序列很长,相关信息就越分散,需要多自变量复杂拟合 模型才能使拟合精度比拟高。在AIC准那么中拟合误差等于ln(3;),即拟合误差随样本容量 放大。但是模型参数个数的惩罚因子却与无关,权重始终为常数2。因此在样本容量趋于 无穷大时,由AIC准那么选择的拟合模型不收敛于真实模型,它通常比真实模型所含的未知参 数个数要多。为了弥补AIC准那么的缺乏,Akaike于1976年提出BIC准那么。而Schwartz在1978年根据 Bays理论也得出同样的判别准那么,称为SBC准那么。SBC准那么定义为:SBC-21n(
6、模型中极大似然函数值)+ln(n)(模型中未知参数个数)(6.69)它对AIC的改进就是将未知参数个数的惩罚权重由常数2变成了样本容量n的对数ln(n)。在 所有通过检验的模型中使得AIC或SBC函数到达最小的模型为相对最优模型。之所以称为相 对最优模型是因为不可能比拟所有模型。表6. 2河南省历年国民生产总值数据附:完整代码年份(Year)生产总值(亿元)(GDP)人均生产总值(元)(PGDP)年份(Year)生产总值(亿元)(GDP)人均生产总值(元)(PGDP)1978162.92232.319921279.751452.31979190.09266.719931662.761867.4
7、1980229.16316.719942224.432475.21981249.69340.119953002.743312.81982263.3035319963661.184007.41983327.95432.919974079.264430.11984370.04481.619984356.604695.11985451.74579.719994576.104893.71986502.91635.320005137.6654441987609.60755.820015640.115923.61988749.09909.920026168.736436.51989850.711012.3
8、20037048.597570.21990934.651090.620048815.099469.919911045.731201.2data gdp;infile datalines;input year gdp pgdp;format gdp BEST12. 2 pgdp BEST12. 2; datalines;1991 1045. 73 1201.2 1992 1279. 75 1452. 3 1993 1662. 76 1867.4 1994 2224.43 2475.2 1995 3002. 74 3312.8 1996 3661.18 4007.4 1997 4079.26 44
9、30.1 1998 4356.60 4695.1 1999 4576. 10 4893. 7 2000 5137.66 5444 2001 5640. 11 5923. 6 2002 6168.73 6436.5 2003 7048.59 7570.2 2004 8815.09 9469.91978162. 92232.31979190.09266. 71980229. 16316.71981249. 69340. 11982263. 303531983327. 95432.91984370.04481.61985451. 74579.71986502.91635.31987609. 6075
10、5.81988749. 09909.91989850. 711012. 31990934. 651090.6run;/*原始数据散点图*/proc gplot data=gdp;plot gdpyear=l ;symbol c=red i=join v=star;run;/*注symbol常用参数C图形颜色,red红色,black黑色,green绿色,blue蓝色,pink洋红等*/ /* V一观测值的图形,star *, dot_. , cicle_圆圈,diamond 菱形,none 不标 */ /* I一观察值的链接方式,join_线连,spline_光滑连接,needle_作观察值到横
11、轴悬 垂线,none_不连*/proc arima data= gdp;identify var=gdp stationarity =(adf=3);run;/*原始数据对数、差分变换*/ data gdplog;set gdp;loggdp=log(gdp);cfloggdp=dif(loggdp);run;/*对数数据散点图*/proc gplot;plot loggdp*year=l ;symbol c=black i=join v=star;run;/* 一阶差分对数数据散点图*/proc gplot;plot cfloggdp*year=l;symbol c=green v=dot
12、i=join;run;/* 一阶差分对数数据的自相关图、偏自相关图、纯随机性检验、单位根检验*/ proc arima data=gdp_log;identify var=loggdp(1) stationarity = (adf=3) nlag=12;run;/* loggdp(l)这里的数1为差分阶数*/*定阶*/proc arima data=gdp_log;identify var=loggdp(1) nlag=6 minic p=(0:2) q=(0:4);run;/* minic为一定范围模型定阶相对最优模型识别*/*参数估计*/ proc arima data=gdplog; i
13、dentify var=loggdp(1); estimate p=l q=0 0UTEST=b outstat=c;run;/* SAS支持三种估计,默认为条件最小二乘估计,要制定可增加选项:METH0D=ML极大似然估计METHOD=ULS最小二乘估计METHOD=CLS条件最小二乘估计 输出项的含义见王燕P104V;/ *参数估计及预测*/ proc arima data=gdp_log; identify var=loggdp(1) nlag=16; estimate p=l q=0;forecast lead=4 id=year out=results; run;/*绘制预测图*/d
14、ata results;set results;y=exp(loggdp);estimatel=exp(forecast);e195=exp (195);eu95=exp (u95);run;proc gplot data=results;plot y*year=l estimatelyear=2 el95*year=3 eu95*year=3/overlay;symbol1 c=black i=none v=star;symbo12 c=red i=join v=none;symbols c=green i=join v=none 1=2;run;fldp100008000600040002
15、000 0proc arima data= gdp;identify var=gdp stationarity =(adf=3) nlag=12;run;A ADF单位根检验(精确判断)三个检验中只要有一个PrRho小于0.05即可认定为平稳序列,主要是stationarity=(adf=3)起作用proc arima data= gdp;identify var=gdp stationarity = (adf=3) nlag=12;run;增广Dickev-Ful2r单位根检羲类型滞后RholPr RhoTauPr 卡方丰方自相关667.426.00010.8370.7160.6100.50
16、60.4040.3121273.2312.00010.2140.1120.010-0.080-0.148-0.201非平稳序列转换为平稳序列方法一:将数据取对数。方法二:对数据取差分dif函数data gdp_log;set gdp;loggdp=log(gdp);cfloggdp=dif(loggdp);run;/*对数数据散点图*/proc gplot;plot loggdp*year=l ;symbol c=black i=join v=star;run;loggdp1 0 T-/* 一阶差分对数数据散点图*/proc gplot;plot cfloggdp*year=l;symbol
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ARIMA 预测 原理 以及 SAS 实现 代码

限制150内