数据分析学习教案.pptx
会计学1数据分析数据分析第一页,共40页。随机过程概念随机过程概念(ginin)(ginin)及其数及其数字特征字特征2例 7.1 将一个物体的长度进行多次测量,得到一串数(单位:mm)74.52,74.54,74.49,如果进行另一批测量,得到另一串数:74.53,74.51,74.50,各串数一般是不同的,因为存在随机误差.从各批测量总体看,它是随机序列:对于某批具体测量数据,如:74.52,74.54,74.49,称为随机序列的现实.例 7.2 某气象台记录(jl)每一天降雨量.设第 天降雨量 .总体上得 .从试验的总体而言,这是随机序列,具体一列记录(jl)是数列,称为这一随机序列的现实.第1页/共40页第二页,共40页。例 7.3 一口井从井口到水面距离叫埋深,每年按月平均的测量(cling)数据(单位:m)特点:1)有按季节变化趋势 2)埋深有缓慢上升的趋势 月份年份 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 714.34 14.21 14.32 14.84 15.11 15.43 15.54 15.51 15.19 14.51 14.28 13.9113.61 13.41 13.70 14.60 15.08 14.84 14.31 12.90 12.73 12.73 12.38 12.0011.60 11.39 11.44 11.96 12.68 13.39 13.66 13.80 14.22 13.96 13.24 12.6612.36 12.21 12.21 12.84 13.38 13.83 13.75 14.61 14.42 14.51 14.50 14.0313.66 13.28 13.55 13.67 14.33 14.75 15.38 15.74 15.32 15.36 15.01 16.11 14.44 14.12 14.26 15.14 15.88 16.33 16.60 17.22 17.02 17.01 16.88 16.1115.63 15.29 15.36 16.14 16.96 17.26 17.84 17.13 16.15 15.82 15.43 15.09第2页/共40页第三页,共40页。定义 随机过程是指标集 上的一族无限多个随机变量 1)离散 2)连续 随机过程在离散时刻有限个采样值 称为样本.特点:具在相关性.随机过程的数字特征是 的函数,主要有均值(jn zh)函数、方差函数、协方差函数、自相关函数.第3页/共40页第四页,共40页。1.均值函数2.随机过程3.固定 是随机变量,均值为 ;当 变动时,均值是 的函数4.称为随机过程的均值函数.表示(biosh)在各个时刻的摆动中心.刻画随机过程变化的平均趋势.5.2.标准差函数与方差函数6.固定 的方差 变动时,它是 的函数,称为方差函数:7.8.标准差函数 ,它表示(biosh)对均值函数 的偏离程度.第4页/共40页第五页,共40页。3.自协方差函数与自相关函数 随机过程 自协方差函数 几乎有相同的均值函数与方差函数.但 在不同时刻 有明显的相关性;而 在不同时刻 相关性很弱.自协方差函数 刻画 在不同时刻 的线性联系(linx)的密切程度.自相关函数第5页/共40页第六页,共40页。例 7.5 常数,是 上均匀分布随机(su j)变量.称随机(su j)相位余弦波.与 仅是时间间隔 的函数.第6页/共40页第七页,共40页。平稳随机序列与平稳随机过程(guchng)随机过程(guchng)的统计特性不随时间的推移而变化,称平稳随机过程(guchng).常数,常数.令 由此引出平稳随机序列现平稳随机过程(guchng)的定义定义 1.平稳随机序列(平稳随机序列)1)常数 2)与 无关(wgun)2.平稳随机过程 1)常数 2)与 无关(wgun)第7页/共40页第八页,共40页。第8页/共40页第九页,共40页。一类重要(zhngyo)的平稳序列是平稳白噪声序列线性叠加的结果.例 7.6 平稳白噪声序列,令 它是平稳序列,并求 解 得 第9页/共40页第十页,共40页。第10页/共40页第十一页,共40页。第11页/共40页第十二页,共40页。时间序列的定义 1.序列 零均值(jn zh)平稳序列,满足模型其中 是零均值(jn zh),方差是 的平稳白噪声.则称 是阶数为 的自由回归序列,简记 序列.称自回归参数向量,自回归系数.推移算子:算子多项式 则 2.序列 零均值(jn zh)平稳序列,满足 是零均值(jn zh),方差是 的平稳白噪声,则称 是阶数为 的滑动平均序列,简记 序列.算子多项式 则第12页/共40页第十三页,共40页。3.序列 零均值平稳序列,满足 白噪声,称阶数为 的自回归滑动平均序列,简记 序列.算子多项式 若 平稳序列,满足 即 一般(ybn)形式 假定:1)无公共因子,2)平稳性条件:的根全在单位圆外 3)可逆性条件:的根全要单位圆外第13页/共40页第十四页,共40页。例 7.10 设 的自协方差函数(hnsh)则 是 AR(1)序列 解 令 要证 是零均值白噪声序列 时,时,令 则 故 为 AR(1)序列第14页/共40页第十五页,共40页。自协方差函数自协方差函数(hnsh)图形图形第15页/共40页第十六页,共40页。1.ARMA 序列的平稳性 零均值平稳白噪声,若 满足(mnz)定义则称 随机线性序列 是平稳序列 只在当 即 时,故 ,即从而 平稳 算子 传递形式 Green函数第16页/共40页第十七页,共40页。例 7.11(1)AR(1):可证:待递形式 根为 .当 时,.即 的根在单位圆外,满足平稳性条件.(2)AR(2):比较(bjio)两端系数,(3)ARMA(1,1):可证:性质:当 满足平稳性条件,负指数下降.第17页/共40页第十八页,共40页。2.ARMA 序列(xli)的可逆性 逆转形式:逆函数.逆转形式 性质:当 满足可逆性条件,可证:存在例 7.12(1)MA(1):(2)MA(2):(3)ARMA(1,1):第18页/共40页第十九页,共40页。ARMA ARMA 序列的相关序列的相关(xinggun)(xinggun)特特性性20第19页/共40页第二十页,共40页。第20页/共40页第二十一页,共40页。第21页/共40页第二十二页,共40页。第22页/共40页第二十三页,共40页。24模型(mxng)定阶的困难v因为由于样本的随机性,样本的相关系数不会呈现出理论截尾的完美情况,本应截尾的 或 仍会呈现出小值振荡的情况v由于平稳时间序列通常都具有短期相关性,随着延迟阶数 ,与 都会衰减至零值附近作小值波动v当 或 在延迟若干(rugn)阶之后衰减为小值波动时,什么情况下该看作为相关系数截尾,什么情况下该看作为相关系数在延迟若干(rugn)阶之后正常衰减到零值附近作拖尾波动呢?第23页/共40页第二十四页,共40页。例例n n选择合适的模型拟合1950年2008年我国邮路及农村(nngcn)投递线路每年新增里程数序列。第24页/共40页第二十五页,共40页。序列序列(xli)时序图时序图第25页/共40页第二十六页,共40页。白噪声白噪声白噪声白噪声(zoshng)(zoshng)检验检验检验检验n n时序图显示序列没有显著非平稳特征。白噪声(zoshng)检验显示序列值彼此之间蕴含着相关关系,为非白噪声(zoshng)序列。第26页/共40页第二十七页,共40页。序列序列序列序列(xli)(xli)自相关图自相关图自相关图自相关图第27页/共40页第二十八页,共40页。序列序列(xli)偏自相关图偏自相关图第28页/共40页第二十九页,共40页。拟合模型拟合模型(mxng)识别识别n n样本自相关图显示除了延迟样本自相关图显示除了延迟1-31-3阶的自相关系数在阶的自相关系数在2 2倍标准差范围之外,其他阶数倍标准差范围之外,其他阶数的自相关系数都在的自相关系数都在2 2倍标准差范围内波动。根据自相关系数的这个特点可以判断该倍标准差范围内波动。根据自相关系数的这个特点可以判断该序列具有短期相关性,进一步确定序列平稳。序列具有短期相关性,进一步确定序列平稳。n n考察自相关系数衰减向零的过程,可以看到有明显的正弦波动轨迹,这说明自相考察自相关系数衰减向零的过程,可以看到有明显的正弦波动轨迹,这说明自相关系数衰减到零不是一个突然的过程,而是一个有连续轨迹的过程,这是相关系关系数衰减到零不是一个突然的过程,而是一个有连续轨迹的过程,这是相关系数拖尾的典型特征数拖尾的典型特征n n考察偏自相关系数衰减向零的过程,除了考察偏自相关系数衰减向零的过程,除了1-21-2阶偏自相关系数在阶偏自相关系数在2 2倍标准差范围之倍标准差范围之外,其他阶数的自相关系数都在外,其他阶数的自相关系数都在2 2倍标准差范围内做小值无序波动,这是一个典型倍标准差范围内做小值无序波动,这是一个典型的相关系数的相关系数2 2阶截尾特征阶截尾特征n n本例中,根据自相关系数拖尾,偏自相关系数本例中,根据自相关系数拖尾,偏自相关系数2 2阶截尾属性阶截尾属性(sh(sh xng)xng),我们可以,我们可以初步确定拟合模型为初步确定拟合模型为AR(2)AR(2)模型。模型。第29页/共40页第三十页,共40页。例例美国科罗拉多州某一加油站连续美国科罗拉多州某一加油站连续(linx)57(linx)57天的天的OVERSHORTOVERSHORT序列序列 第30页/共40页第三十一页,共40页。序列序列(xli)自相关图自相关图第31页/共40页第三十二页,共40页。序列序列(xli)偏自相关图偏自相关图第32页/共40页第三十三页,共40页。拟合模型拟合模型(mxng)识别识别n n自相关图显示除了延迟自相关图显示除了延迟1 1阶的自相关系数在阶的自相关系数在2 2倍标准差范围倍标准差范围之外,其它阶数的自相关系数都在之外,其它阶数的自相关系数都在2 2倍标准差范围内波动。倍标准差范围内波动。根据这个特点可以判断该序列具有短期相关性,进一步确根据这个特点可以判断该序列具有短期相关性,进一步确定序列平稳。同时,可以认为该序列自相关系数定序列平稳。同时,可以认为该序列自相关系数1 1阶截尾阶截尾(ji wi)(ji wi)n n偏自相关系数显示出典型非截尾偏自相关系数显示出典型非截尾(ji wi)(ji wi)的性质。的性质。n n综合该序列自相关系数和偏自相关系数的性质,为拟合模综合该序列自相关系数和偏自相关系数的性质,为拟合模型定阶为型定阶为MA(1)MA(1)第33页/共40页第三十四页,共40页。例例n n1880-19851880-1985全球全球(qunqi)(qunqi)气表平均温度改变值差分序列气表平均温度改变值差分序列 第34页/共40页第三十五页,共40页。序列序列(xli)自相关图自相关图第35页/共40页第三十六页,共40页。序列序列(xli)偏自相关图偏自相关图第36页/共40页第三十七页,共40页。拟合模型拟合模型(mxng)识别识别n n自相关系数显示(xinsh)出不截尾的性质n n偏自相关系数也显示(xinsh)出不截尾的性质n n综合该序列自相关系数和偏自相关系数的性质,可以尝试使用ARMA(1,1)模型拟合该序列第37页/共40页第三十八页,共40页。AIC准则准则(zhnz)v最小信息量准则(An Information Criterion)v指导思想v似然函数值越大越好 v未知参数(cnsh)的个数越少越好 vAIC统计量第38页/共40页第三十九页,共40页。n ndata example3_1;n ninput x;n ntime=_n_;n ncards;n n0.30-0.45 0.36 0.00 0.17 0.45 2.15n n4.423.48 2.99 1.74 2.40 0.11 0.96n n0.21-0.10-1.27-1.45-1.19-1.47-1.34n n-1.02-0.27 0.14-0.07 0.10-0.15-0.36n n-0.50-1.93-1.49-2.35-2.18-0.39-0.52n n-2.24-3.46-3.97-4.60-3.09-2.19-1.21n n0.780.88 2.07 1.44 1.50 0.29-0.36n n-0.97-0.30-0.28 0.80 0.91 1.95 1.77n n1.800.56-0.11 0.10-0.56-1.34-2.47n n0.07-0.69-1.96 0.04 1.59 0.20 0.39n n1.06-0.39-0.16 2.07 1.35 1.46 1.50n n0.94-0.08-0.66-0.21-0.77-0.52 0.05n n;n nproc gplot data=example3_1;n nplot x*time=1;n nsymbol1 c=red I=join v=star;n nproc arima data=example3_1;n nidentify var=x nlag=8 minic p=(0:5)q=(0:5);n nestimate q=4;n nforecast lead=5 id=time out=results;n nproc gplot data=results;n nplot x*time=1 forecast*time=2 l95*time=3 u95*time=3/overlay;n nsymbol1 c=black i=none v=star;n nsymbol2 c=red i=join v=none;n nsymbol3 c=green i=join v=none l=2;n nrun;40第39页/共40页第四十页,共40页。