第10章 时间序列分析.pptx
课程主讲人:第10章 时间序列分析医学大数据分析时间序列分析高等教育出版社CONTENTS目 录1时间序列概述1.1基本概念2时间序列基本模型分类基本分析方法分解与基本特征2.1确定性时间序列模型2.2随机性时间序列模型1.21.31.41时间序列概述引子时间序列概述 时间序列是一种复杂的数据对象类型。最早的时间序列分析可以追溯到7000年前的古埃及。古埃及人把尼罗河涨落的情况逐天记录下来,然后对这个时间序列长期地观察,结果他们发现尼罗河的涨落是非常有规律的。由于掌握了尼罗河泛滥的规律,使得古埃及的农业迅速发展,从而创建了埃及灿烂的史前文明。 在医学研究工作中,有很多类似的序列,这些序列的指标值随时间变化,有明显的时间先后顺序。比如,人体从清晨到深夜的体温记录、人体餐后血糖浓度的变化、不同睡眠阶段 的脑电波、24小时动态心电图等等。时间序列数据中的观测值不独立,因此不能采用常规的统计方法解决,此时应采用时间序列分析对数据进行处理。基于时间序列模型,可以对医院门诊量、住院人数、药品消耗量、脑电、心电信号等时间序列进行分析和预测。1.1基本概念 所谓时间序列(Times Series),是指同一现象或同一变量在不同时间上的观察值排列而成的数列,也称时间数列,常以Yt表示。形式上由现象所属的时间和现象在不同时间上的观察值两部分组成。这里的时间可以是年份、季度、月份或其他任何时间形式。时间序列是应用较普遍的数据表现形式和数据存储格式。医学领域也存在着大量的时间序列,比如从1955年到2010年的儿童结脑死亡率的变化规律;从1980年到2010年我国高压氧舱数量的增长规律等。时间序列概述基本概念1.2分类时间序列概述分类1.3基本分析方法 对于给定的时间序列,通常可以从绝对增长量、平均增长量、发展速度、增长速度、平均发展速度、平均增长速度等方面进行基本分析。时间序列概述基本分析方法时间序列概述基本分析方法例子:全国卫生机构2000-2008年床位数的统计数据表10-1 卫生机构2000-2008年床位数的动态变化时间序列概述基本分析方法例子:全国卫生机构2000-2008年床位数的统计数据时间序列概述基本分析方法例子:全国卫生机构2000-2008年床位数的统计数据时间序列概述基本分析方法例子:全国卫生机构2000-2008年床位数的统计数据时间序列概述基本分析方法例子:全国卫生机构2000-2008年床位数的统计数据时间序列概述基本分析方法例子:全国卫生机构2000-2008年床位数的统计数据时间序列概述基本分析方法例子:全国卫生机构2000-2008年床位数的统计数据1.4分解与基本特征 时间序列中每一时期形成的的数值都是由许多不同因素共同作用的结果,而这些影响因素往往交织在一起,增加了时间序列趋势分析的困难。在众多因素中,有的因素起长期的、决定性的作用,使时间序列呈现出某种趋势性、周期性和一定的规律性;有的因素则起着短暂、非决定性的作用,使时间序列呈现出某种不规则性。时间序列由于受到各种偶然因素的影响,往往表现出随机性且彼此之间存在统计相关性或存在反映系统动态变化的特征信息。为了分析时间序列的模式或趋势,通常需要先了解时间序列的主要成分,然后再进行分解,据此进行分析。时间序列概述分解与基本特征组成成分长期趋势(Secular Trend)一般用T表示。指现象在较长时期内持续发展变化的一种趋向或状态。即时间序列随时间的变化呈现出逐渐增加或减少的一种长期变化趋势。这些趋势可以分为线性趋势和非线性趋势。不规则变动(Irregular Variation) 一般用 I表示 。是指由于突发事件、偶然因素或不明原因等对时间序列造成的非趋势性、非季节性、非循环性的随机变动。因此,不规则变动是没有规律的,是不可预测的。循环变动(Cyclical Variation )一般用C表示。是指以若干年为周期、不具严格规则的周期性连续变动。与长期趋势不同,它不是朝着单一方向的持续运动,而是涨落相间的如钟摆般的波浪式起伏变化;与季节变动也不同,它的波动时间较长,变动的周期长短不一,变动的规则性和稳定性较差。季节变动(Seasonal Variation )一般用 S表示。是指由于季节的变化而引起的现象发展水平的规则变动01020304时间序列概述分解与基本特征时间序列的组成成分时间序列的组成成分:长期趋势(Secular Trend)01时间序列概述分解与基本特征时间序列的组成成分:季节变动(Seasonal Variation )02时间序列概述分解与基本特征时间序列的组成成分:循环变动(Cyclical Variation )03时间序列概述分解与基本特征时间序列的组成成分:不规则变动(Irregular Variation)04时间序列概述分解与基本特征 一个时间序列通常包括上述4种成分或其中几种变动因素,因此分析时间序列的基本思路就是将其中的变动因素一一分解出来,测定其变动规律,然后再综合反映它们的变动对时间序列变动的影响。采用何种方法分析和测定时间序列中各因素的变动规律或变动特征取决于对这4种变动因素之间相互关系的假设。一般可对时间序列各变动因素关系作三种不同的假设,即加法关系假设、乘法关系假设、加乘混合关系假设,因而形成了加法模型、乘法模型、加乘混合模型。时间序列概述分解与基本特征时间序列的分解时间序列的分解加法模型加法模型假设时间序列中每一个指标数值都是长期趋势、季节变动、循环变动和不规则变动四种变动因素构成,这些因素之间相互独立且其数值可依次相加,即某种成分的变动并不影响其他成分的变动加乘混合模型加乘混合模型是假设时间序列中每一个指标数值都是长期趋势、季节变动、循环变动和不规则变动四种成分中的几种成分做乘法,再与另外的成分做加法。乘法模型乘法模型是假设时间序列中每一个指标数值都是长期趋势、季节变动、循环变动和不规则变动四种成分的乘积。010203时间序列概述分解与基本特征时间序列的分解时间序列的分解:加法模型01时间序列概述分解与基本特征时间序列的分解:乘法模型02时间序列概述分解与基本特征时间序列的分解:加乘混合模型03时间序列概述分解与基本特征2时间序列基本模型 时间序列分析就是通过对时间序列进行观察研究,发现蕴含于时间序列中的事物变化的发展规律,并用此规律对事物的发展变化趋势进行预测或施加控制。对于不同的时间序列有不同的分析模型。时间序列基本模型2.1确定性时间序列模型 时间序列由长期趋势、季节变动、循环变动和不规则变动四种成分组成。前三种成分是依一定的规则而变动,因此在时间序列分析中,设法消除不规则变动,拟合确定型趋势。为了消除不规则变动的影响,一种有效的方法就是取一段时间的观察值的平均值作为下一时刻的预测值,于是便产生了移动平均法和指数平滑法。时间序列基本模型确定性时间序列模型 时间序列由长期趋势、季节变动、循环变动和不规则变动四种成分组成。前三种成分是依一定的规则而变动,因此在时间序列分析中,设法消除不规则变动,拟合确定型趋势。为了消除不规则变动的影响,一种有效的方法就是取一段时间的观察值的平均值作为下一时刻的预测值,于是便产生了移动平均法和指数平滑法。时间序列基本模型确定性时间序列模型移动平均法简单移动平均简单移动平均按照新序列生成方式分为N期移动平均和中心化移动平均。趋势移动平均法当预测目标的基本趋势在某一水平上下波动时,可用一次移动平均法;当预测目标的基本趋势与某一线性模型相吻合时,可用二次移动平均法;当预测序列同时存在线性趋势与周期波动时,用趋势移动平均法。加权移动平均在简单移动平均中,每期数据在求平均时的作用是相同的。但在实际中每期数据所包含的信息量不一样,近期数据包含着更多关于未来情况的信息。因此把各期数据等同看待是不尽合理的,应考虑各期数据的重要性,对近期数据给予较大的权重,这就是加权移动平均法的基本思想。0102031.移动平均法时间序列基本模型确定性时间序列模型移动平均法是对原序列依次求连续若干期的平均数作为时间序列某一期的趋势值,如此逐项递移求得一系列的移动平均数,形成一个新的平均数时间序列。移动平均法假定预测值与其相邻的若干观察期数据拥有密切关系。该方法在一定程度上可以消除历史数据随时间变化引起的不规则变动的影响,从而分析预测时间序列的长期趋势。移动平均法按预测方法的不同分为简单移动平均、加权移动平均和趋势移动平均。N期移动平均数01确定性时间序列模型:移动平均法(1).简单移动平均: 简单移动平均按照新序列生成方式分为N期移动平均和中心化移动平均。中心化移动平均02确定性时间序列模型:移动平均法(1).简单移动平均: 简单移动平均按照新序列生成方式分为N期移动平均和中心化移动平均。N的取值03确定性时间序列模型:移动平均法(1).简单移动平均: 简单移动平均按照新序列生成方式分为N期移动平均和中心化移动平均。确定性时间序列模型:移动平均法(1).简单移动平均: 例题10-1:某地历年某传染病人数的时间序列如下表10-2所示。试用移动平均法预测t=16时的传染病人数。表10-2 某地历年某传染病人数确定性时间序列模型:移动平均法(1).简单移动平均: 例题10-1:试用移动平均法预测t=16时的传染病人数。确定性时间序列模型:移动平均法(1).简单移动平均: 例题10-1:试用移动平均法预测t=16时的传染病人数。确定性时间序列模型:移动平均法(1).简单移动平均: 例题10-1:试用移动平均法预测t=16时的传染病人数。(2).加权移动平均确定性时间序列模型:移动平均法(3). 趋势移动平均法确定性时间序列模型:移动平均法确定性时间序列模型:移动平均法例题10-2:某医院2001-2012年某药品出库量(单位:万盒)如表10-4所示,试用移动平均法(N=3)预测2013年和2014年的药品出库量。确定性时间序列模型:移动平均法例题10-2:试用移动平均法(N=3)预测2013年和2014年的药品出库量。确定性时间序列模型:指数平滑法(1).指数平滑法的原理 一次移动平均实际上认为最近N期数据对未来值影响相同,都加权1/N,而N期以前的数据对未来值没有影响,加权为零。但是二次及更高次移动平均数的权数却不是1/N。次数越高,权数的结构越复杂。但永远保持对称的权数,即两端项权数小,中间项权数大,这不符合一般系统的动态性规律。一般说来,历史数据对未来值的影响是随时间间隔的增长而递减的,所以更切合实际的方法应是对各期观测值依时间顺序进行加权平均作为预测值。这就产生了指数平滑法。 指数平滑法是用时间序列过去取值的加权平均作为未来的预测值,离当前时刻越近的取值,其权重越大。指数平滑法的本质是一种加权移动平均,它既可以用来描述时间序列的变化趋势,也可以实现时间序列的预测。 指数平滑法根据平滑次数的不同又分为一次指数平滑法、二次指数平滑法和p次指数平滑法。 确定性时间序列模型:指数平滑法(2).指数平滑公式确定性时间序列模型:指数平滑法(3).平滑系数的确定确定性时间序列模型:指数平滑法(4).初始预测值的确定例题10-3:某医院某科室2012年1月至11月的门诊收入依次为9.03,9.06,9.12,8.73,8.94,9.30,9.15,9.36,9.45,9.30,9.24,试用指数平滑法预测12月份的门诊收入。确定性时间序列模型:指数平滑法例题10-3:某医院某科室2012年1月至11月的门诊收入依次为9.03,9.06,9.12,8.73,8.94,9.30,9.15,9.36,9.45,9.30,9.24,试用指数平滑法预测12月份的门诊收入。确定性时间序列模型:指数平滑法例题10-3:某医院某科室2012年1月至11月的门诊收入依次为9.03,9.06,9.12,8.73,8.94,9.30,9.15,9.36,9.45,9.30,9.24,试用指数平滑法预测12月份的门诊收入。确定性时间序列模型:指数平滑法确定性时间序列模型:指数平滑法(5).指数平滑的选择 一次指数平滑适用于不包含长期趋势和季节成分的平稳时间序列预测,虽然克服了移动平均法的缺点,但当时间序列的变动出现直线趋势时,用一次指数平滑进行预测,仍存在明显的滞后偏差,需要进行二次指数平滑,即时间序列的变动出现直线趋势时用二次指数平滑;当时间序列的变动表现为二次曲线趋势时,则需要用三次指数平滑。2.2随机性时间序列模型时间序列基本模型随机性时间序列模型 时间序列受偶然因素的影响,出现随机波动,这些随机性波动,看似杂乱无章,其实也是有一定规律的。基于随机性理论,对时间序列进行分析,形成了随机性时间序列模型。拿到一个观察值序列后,首先对它的随机性和平稳性进行检验。根据检验结果可以将序列分为不同的类型,对不同类型的序列采取不同的模型进行分析。随机性时间序列模型:时间序列的随机性和平稳性 对于纯随机序列,又称为白噪声序列,序列的各项之间没有任何相关关系,序列在进行完全无序的随机波动,可以终止对该序列的分析。纯随机序列是没有信息可提取的平稳序列。 对于平稳非白噪声序列,它的均值和方差是常数,现已有一套非常成熟的平稳时间序列的建模方法。如AR模型、MA模型、ARMA (Autoregressive and Moving Average)模型等是最常用的平稳序列拟合模型。 对于非平稳序列,由于它的均值和方差不稳定,处理方法一般是将其转变为平稳序列,这样就可以应用有关平稳时间序列的分析方法。如果一个时间序列经差分运算后具有平稳性,则该序列为差分平稳序列,可以使用ARIMA(Autoregressive Integrated Moving Average)模型进行分析。(1)平稳时间序列的定义随机性时间序列模型:时间序列的随机性和平稳性(1)平稳时间序列的定义随机性时间序列模型:时间序列的随机性和平稳性 如果时间序列Yt,tT在某一常数附近波动且波动范围有限,即有常数均值和常数方差,并且延迟k期的序列变量的自协方差和自相关系数是相等的或者延迟k期的序列变量之间的影响程度是一样的。则称Yt,tT为平稳序列。平稳时间序列没有明显的长期趋势、循环变动和季节变动。我们平常所说的平稳时间序列是指宽平稳时间序列,即在任意时刻,该时间序列的均值为常数,协方差仅与时间间隔有关,不随时间的平移而变化。(2)平稳性检验随机性时间序列模型:时间序列的随机性和平稳性 对序列的平稳性的检验有两种方法,一种是根据时序图、自相关图的特征做出判断的图检验。该方法操作简单,应用广泛,缺点是带有主观性。另一种是根据统计量进行检验的方法。目前最常用的方法是自相关或偏相关函数检验法、单位根检验、参数检验法、逆序检验法、游程检验法等。(2)平稳性检验:时序图检验随机性时间序列模型:时间序列的随机性和平稳性(2)平稳性检验:自相关图检验随机性时间序列模型:时间序列的随机性和平稳性 平稳序列具有短期相关性,这个性质表明对平稳序列而言通常只有近期的序列值对现时值的影响比较明显,间隔越远的过去值对现时值的影响越小。随着延迟期数k的增加,平稳序列的自相关系数 会比较快的衰减趋向于零,并在零附近随机波动,而非平稳序列的自相关系数衰减的速度比较慢,这就是利用自相关图进行平稳性检验的标准。(2)平稳性检验:自相关系数ACF随机性时间序列模型:时间序列的随机性和平稳性 时间序列的自相关系数是用来描述同一个时间序列相差k个时期的两个数据序列Yt,Yt-k之间的依赖或相关程度。其取值范围为-11之间,它的绝对值与1越接近,说明时间序列的自相关程度越高。自相关系数可提供时间序列及其模型构成的重要信息。对于纯随机序列,即一个由随机数字构成的时间序列,其各阶的自相关系数接近于零或等于零。而具有明显的上升或下降趋势的时间序列或具有强烈季节变动或循环变动性质的时间序列将会有高度的自相关。即平稳序列自相关系数会很快衰减至0,而非平稳时间序列通常衰减速度较慢。(2)平稳性检验:偏自相关系数PACF随机性时间序列模型:时间序列的随机性和平稳性 在时间序列中偏自相关是时间序列Yt在给定Yt-1 ,Yt-2 ,Yt-k-1 的条件下,Yt与滞后k期的时间序列之间的条件相关。它用来度量在其滞后1,2,3,k-1期的时间序列的作用已知的条件下,Yt与Yt-k之间的相关程度。(2)平稳性检验:单位根检验随机性时间序列模型:时间序列的随机性和平稳性 单位根检验是指检验序列中是否存在单位根,如果存在存在单位根就是非平稳时间序列。(3)纯随机性检验随机性时间序列模型:时间序列的随机性和平稳性随机性时间序列模型:平稳时间序列模型对于平稳时间序列,常用的模型有:AR模型、MA模型、ARMA模型。(1)p阶自回归模型AR(p)随机性时间序列模型:平稳时间序列模型(2)滑动平均模型-MA(q)随机性时间序列模型:平稳时间序列模型(3)自回归滑动平均模型- ARMA(p,q)随机性时间序列模型:平稳时间序列模型(4)有均值项的ARMA模型随机性时间序列模型:平稳时间序列模型随机性时间序列模型:非平稳时间序列模型 在实际问题中我们常遇到的序列,特别是反映生理、社会、经济现象的序列时,大多数并不平稳,而是呈现出明显的增长或减少趋势,或者含有依时间周期变化的趋势。 Box和Jenkins提出的ARIMA模型,即差分自回归移动平均模型,是国际上流行的一种时间序列预测模型。该方法的核心思想是采用差分方法将非平稳时间序列变成平稳时间序列,然后再通过差分的逆操作得到原序列的预测值。对于有趋势性时间序列通常采用ARIMA模型进行分析。对于有季节性的时间序列,可以采用乘积季节ARIMA模型进行预测,由于这类模型比较复杂,本课程不做介绍。(1)差分(Difference)运算随机性时间序列模型:非平稳时间序列模型(2)ARIMA模型随机性时间序列模型:非平稳时间序列模型(1)对时间序列的平稳性和随机性进行检验随机性时间序列模型:随机性时间序列预测步骤 画出时序图或计算时间序列的自相关系数(ACF)和偏自相关系数(PACF)或计算单位根,判断时间序列为平稳时间序列还是非平稳时间序列;对于非平稳时间序列,通过差分运算转换成平稳时间序列。对时间序列的纯随机性进行检验,当计算出p0.05,说明不是纯随机序列。当一个时间序列被判定为平稳非白噪声序列时,就可以进行时间序列建模。(2)模型识别随机性时间序列模型:随机性时间序列预测步骤(3)模型参数估计随机性时间序列模型:随机性时间序列预测步骤 用时间序列的数据估计模型中所含自回归和移动平均项的参数,并判定所选的模型对数据拟合是否够好?如不恰当则重新选定模型。主要的参数估计方法有矩估计法、最小二乘估计法和极大似然估计法等,一般都由计算机软件实现,这里不作介绍。(4)模型应用随机性时间序列模型:随机性时间序列预测步骤 利用所选模型对时间序列进行一步或多步的预测。利用时间序列模型向前预测的时期越长,预测误差就会越大。例题10-4:表10-9记录了1975-2006年某市居民糖尿病患者的死亡率(死亡率单位:1/10万),请用随机性时间序列模型预测2007-2016年糖尿病患者的死亡率。随机性时间序列模型:随机性时间序列预测步骤例题10-4:表10-9记录了1975-2006年某市居民糖尿病患者的死亡率(死亡率单位:1/10万),请用随机性时间序列模型预测2007-2016年糖尿病患者的死亡率。随机性时间序列模型:随机性时间序列预测步骤检验序列的平稳性01 画出原始序列的时序图和自相关图,计算出单位根;根据图形和计算结果,判断原始序列为非平稳序列,因为非平稳序列一定不是白噪声序列,所以对原始序列不需要进行白噪声检验。例题10-4:表10-9记录了1975-2006年某市居民糖尿病患者的死亡率(死亡率单位:1/10万),请用随机性时间序列模型预测2007-2016年糖尿病患者的死亡率。随机性时间序列模型:随机性时间序列预测步骤对原始序列进行一阶差分,并进行平稳性和白噪声检验02 画出一阶差分后的序列的时序图和自相关图,计算出单位根;根据图形和计算结果,判断一阶差分后的序列为平稳序列;再进行白噪声检验,根据算出的p值,判定一阶差分的序列为非白噪声序列。例题10-4:表10-9记录了1975-2006年某市居民糖尿病患者的死亡率(死亡率单位:1/10万),请用随机性时间序列模型预测2007-2016年糖尿病患者的死亡率。随机性时间序列模型:随机性时间序列预测步骤根据表10-8进行模型定阶03根据自相关图和偏自相关图,确定模型的阶数p和q模型参数估计04用模型预测2007-2016年糖尿病患者的死亡率05例题10-4:表10-9记录了1975-2006年某市居民糖尿病患者的死亡率(死亡率单位:1/10万),请用随机性时间序列模型预测2007-2016年糖尿病患者的死亡率。随机性时间序列模型:随机性时间序列预测步骤例题10-4:表10-9记录了1975-2006年某市居民糖尿病患者的死亡率(死亡率单位:1/10万),请用随机性时间序列模型预测2007-2016年糖尿病患者的死亡率。结果如下:随机性时间序列模型:随机性时间序列预测步骤例题10-4:表10-9记录了1975-2006年某市居民糖尿病患者的死亡率(死亡率单位:1/10万),请用随机性时间序列模型预测2007-2016年糖尿病患者的死亡率。随机性时间序列模型:随机性时间序列预测步骤随机性时间序列模型:关于时间序列预测的几点说明(1)时间序列预测的一个基本假设是:现象在过去的发展趋势会在未来保持下去。如果外部环境发生了重大变化,预测结果很可能是不可靠的。(2)对历史数据拟合最好的模型预测效果不一定是最好的。(3)复杂的模型不一定比简单的模型预测效果好。(4)实际应用中不能机械的根据模型的评价指标选择模型,而应结合定性的分析。THANKS本讲结束高等教育出版社