第六届“认证杯”数学中国数学建模网络挑战赛(共36页).doc
精选优质文档-倾情为你奉上第六届“认证杯”数学中国数学建模网络挑战赛承 诺 书我们仔细阅读了第六届“认证杯”数学中国数学建模网络挑战赛的竞赛规则。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们允许数学中国网站()公布论文,以供网友之间学习交流,数学中国网站以非商业目的的论文交流不需要提前取得我们的同意。我们的参赛队号为:2029参赛队员 (签名) :队员1:杨亚强 队员2:刘垚队员3:魏少良参赛队教练员 (签名):数学建模指导组 参赛队伍组别:本科组专心-专注-专业第六届“认证杯”数学中国数学建模网络挑战赛编 号 专 用 页参赛队伍的参赛队号:(请各个参赛队提前填写好):2029竞赛统一编号(由竞赛组委会送至评委团前编号):竞赛评阅编号(由竞赛评委团评阅前进行编号):题 目 流行音乐发展简史 关 键 词 线性预测倒谱、最小二乘法回归模型、声道系统的数字模型、ARMA模型拟合、参数的极大似然估计、序列预测。摘要 随着数字技术的发展和音乐资源的不断增长,用于处理音乐数据库的音乐信息检索系统受到越来越多的关注,基于原唱片、曲谱时代推断等语义层次信息的音乐检索成为当前研究的一个重要方向。对于它的研究在音乐数据库管理、音乐检索等方面有广阔的应用前景。首先,选择100首流行音乐,对音乐进行预处理,提取音乐的语音信息,分析并提取了声学层和旋律层情感特征参数,用于不同类别的语音分类实验。进一步引入模糊理论,实现了音乐片断的语音成分分析,根据语音的发声过程,建立了语音产生的数字模型。该模型分两个部分对发声器官进行模拟:采用周期的冲击串(或者随机噪声序列)模拟产生浊音(或清音)时的声门激励气流采用时变的数字滤波器模拟声道的系统模型。该时变数字滤波器要反映声道的频率响应特点,决定了它的表达式需要携带一些声道的。然后根据特征参数与年代的公式关系,得出结果。其次, 有些人由于工作或其它什么原因,喜欢若干个时间段的歌曲,这类用户的歌曲年代特征分别是90年代末和最近流行。假如某个时间序列观察值可以判定为平稳序列,计算出样本自相关系数(ACF)和样本偏自相关系数(PACF)之后,就要根据它们表现出来的性质,选择阶数适当的模型拟合观察值序列。即根据样本的自相关系数和样本偏自相关系数性质估计自相关阶数和移动平均阶数。然后得出原唱片的时代。最后, 本文研究的音乐数据均从大型音乐网站上下载而来的,一部流行歌曲怎样才能得以广泛流行,应当从流行歌曲的物理、生理以及心理等方面进行深入地分析研究,比如:流行歌曲自身音乐的物理结构和结合能力,流行歌曲对人和动物的生理影响,人的情感反应等等。最重要的一点,还是应当从人的意识对流行歌曲各要素的接受情况进行分析,将大大有助于改善流行音乐创作和欣赏状况。本文主要采用特征参数分析,利用Matlab软件,对建立的数学模型估计参数绘图、求解。在样本足够大的前提下,本文建立的模型具有很强的普适性,且在对适当处理后的数据做分析时,具有误差小等优点。参赛密码 (由组委会填写)参赛队号: 2029 所选题目: B 题英文摘要(选填)BasicWith the development of digital technology and music resources continues to grow,used to handle music database of music information retrieval system is more and more attention,based on genre,emotion into music retrieval based on semantic level information such as genre,emotional semantic hierarchy of music information retrieval has become an important direction of current research.Music automatic classification is the basis of semantic level music retrieval,and most of the current music automatic classification is based on certain classification standard, seldom consider music classification and detailed, based on the classification of the genres, emotion, the music classification. First of all, in the Pop music, the style of traditional concepts include Pop (Pop), Country (village), Jazz (Sir), Rock (Rock), the R&B (R&B), New Age (New) and so on several major categories, according to music genre, emotion for the first time classification, music to carry a lot of emotional information, music emotion recognition has become the research focus of attention. For its research in music, music retrieval, database management, etc have broad application prospects. This paper puts forward a new kind of pop music emotion recognition based on GMM methods; Pop music is established database; And Thayer emotion cognition model is adopted to analyze and extract the acoustic layer elody emotional characteristic parameter, used for different categories of emotion classification experiments. Experimental results show that the database for this paper adopts the first level of the class accuracy of two types of emotion more than an average of 85%, according to the second level of four types of emotional classification accuracy rate above 65%. Fuzzy theory is introduced to further implement the passion of the music clips composition analysis. Second, in the automatic classification of music to choose music features, can filter out the irrelevant and port characteristics, and thus improve the performance of classifier. Due to the different classification standards and the characteristics of the feature selection method to produce subset is different, so should according to the actual need to select feature selection method and classification method. Through to the commonly used feature sele.一、问题重述近几十年来,流行音乐的风格经历了相当复杂的演变过程,每个时代都有其代表性的人物和风格,歌曲的成功要素也随时间不断改变。请你建立合理的数学模型,对曾今走红的流行歌曲,通过其原唱片或曲谱来推断其所处的时代。并请你写一篇短文向大众简述(在某个时期内)流行歌曲的“成功要素”是如何变化的?二、问题分析首先,选择100首流行音乐,对音乐进行预处理,提取音乐的语音信息,分析并提取了声学层和旋律层情感特征参数,用于不同类别的语音分类实验。进一步引入模糊理论,实现了音乐片断的语音成分分析,根据语音的发声过程,建立了语音产生的数字模型。该模型分两个部分对发声器官进行模拟:采用周期的冲击串(或者随机噪声序列)模拟产生浊音(或清音)时的声门激励气流采用时变的数字滤波器模拟声道的系统模型。该时变数字滤波器要反映声道的频率响应特点,决定了它的表达式需要携带一些声道的。然后根据特征参数与年代的公式关系,得出结果。其次, 有些人由于工作或其它什么原因,喜欢若干个时间段的歌曲,这类用户的歌曲年代特征分别是90年代末和最近流行。假如某个时间序列观察值可以判定为平稳序列,计算出样本自相关系数(ACF)和样本偏自相关系数(PACF)之后,就要根据它们表现出来的性质,选择阶数适当的模型拟合观察值序列。即根据样本的自相关系数和样本偏自相关系数性质估计自相关阶数和移动平均阶数。然后得出原唱片的时代。针对问题一: 音乐信号中的歌曲信息要通过语音特征参数来体现。因此对音乐的年代进行分类与检索技术研究,必须要提取出适合的语音特征参数。本文分别从声学层和旋律层选取了,类特征参数,共建特征。然后,音乐信号的语音帧进行频谱分析,并用频谱特征参数进行描述,整个音乐信号的特征则用各帧音乐的频谱特征参数所组成的特征参数序列来描述。后面分类音乐将以两种重要的特征参数来说明特征提取。 将上述方程相互转化,就可求出线性预测系数。 根据上式即可先从S(n)。求得LPC系数,再由LPC系数用递推的方法得到所需的LPC系数,得出最终分类结果。针对问题二: 一部流行歌曲怎样才能得以广泛流行,应当从流行歌曲的物理、生理以及心理等方面进行深入地分析研究,比如:流行歌曲自身音乐的物理结构和结合能力,流行歌曲对人和动物的生理影响,人的情感反应等等。最重要的一点,还是应当从人的意识对流行歌曲各要素的接受情况进行分析,将大大有助于改善流行音乐创作和欣赏状况。三、模型假设1假设所有的流行音乐已经进行统计整理。2假设都用的是原唱片进行测试。3假设人们对音乐要素的看法是一致的。四、符号说明符号 说明p总频谱对数能量:a是子带的频率下边界b是子带的频率上边界频率质心T音乐情感的整体趋势代表Thayer心理模型横纵坐标区分的四种情感代表似然比S(n)旋律变化峰值/谷值/差值H(z)系统传递函数的频率R(n)预测当前的采样值E(n)短时均方误差信号的协方差R(i)时间差五、模型的建立与求解5.1问题一的求解:首先,我们以100首音乐为例进行研究,我们将所提取的能代表不同类型的音乐声学特征向量又分为三个集合,不同集合中的特征向量将用于训练不同的音乐内容描述分类模型,并用来区分不同类别的歌曲。这三类特征参数集合分别指强度特征集、节奏特征集以及旋律特征集。根据这三个集合相近或类似的特征参数,推断其所处的时代。5.1.1声学层特征参数:(1) 总频谱对数能量: (1)其中是在频率点处的能量,是采样率。(2)子带频谱对数能量:频谱按照音乐八谱原理分为七个不同的子带,范围分别对应,、,。 则每一个子带频谱对数能量为: (2) 其中a与b 分别是子带的频率下边界与上边界。根据统计观察平静的歌曲频域能量多集中在低频子带,而有活力的歌曲能量多集中在高频子带。此特征参数对平有活力歌曲的情感有很好的区分性。(3) 频率质心:也称为亮度,是频谱能量分布的中心,即频率的重心。 (3)(4)带宽:是衡量音频频域范围的指标 (4)不同类别的情感的音乐带宽存在差异。(5) 最大对数能量子带:将特征(2)的7个子带的对数能量与总的频谱对数能相比,取最大的子带并统计其个数作为一个特征参数。5.1.2旋律层特征参数:(1) 子带频谱平均峰值与平均谷值差:将每一帧7个子带频谱向量排序后按照向量的大小取一定范围内的峰值与谷值的平均值,即公式如下: (5) (6)两者求差: (7)(2) 子带幅度包络:将每帧7个子带频谱与汉明窗卷积,将每一子带卷积值求和,代表相应子带的幅度包络特性: (8) (9) (10)(3) 旋律变化峰值/谷值/差值:对于特征(2)幅度包络通过高斯滤波后,将其平滑。为求变化率特性采用求导方法,然后再求自相关,以检测出包络的变化率。高斯滤波过程如下: (11)这里l和是高斯滤波器参数用来控制形状,通常取经验值1,2,4,5。不同的特征参数求得的结果会有不同数量级,去除其相关性,采取归一化的方法: (12)其中向量均值和方差。5.1.3节奏特征集: 由于节奏特征集与情感和音乐的声音,打击的快慢,使用的乐器有很大的关系,因此将在后面的特征分析里面给出详细的解决办法.5.1.4 总结如下表:特征参数列表特征类别特征参数描述维数声学层特征参数集合总频谱对数能量1子带频谱对数能量7频率质心1带宽1最大对数能量子带7旋律层特征参数集合子带频谱平均峰值与平均谷值差7子带幅度包络3强度特征集对应前面所提到的声学层特征。节奏特征集对应上述旋律层特征中的子带频谱平均峰值与平均谷值差。旋律特征集对应上述旋律层特征中的子带幅度包络以及旋律变化峰值/谷值/差值。5.1.5模糊理论分类: 人们对于音乐内容的描述是基于模糊认知的主观描述和感性认识,所以将模糊理论应用到情感分类中是近几年的研究热点。模糊理论是建立在模糊集合基础之上的,是描述和处理人类语言中特有的模糊信息的理论。它的主要概念包括模糊集合(Fuzzy Sets)、隶属度函数(Membership Function)、模糊算子(Fuzzy Operator)、模糊运算(Fuzzy Operation)和模糊关系(Fuzzy Relation)等。其中模糊集合论是模糊数学的基础。定义符合程度的大小可以闭区间0,1之间的实数去度量它。这个数称为该事物的隶属度。也就是该事物隶属于这个模糊概念的程度。模糊概念的外延是一个模糊集合A,那么某一事物的隶属度可以记为:它是随x 的变化而变化的一个关于归属程度的函数,称为隶属函数5.2音频进行第二次分类:音频的实现方法有多种,如矢量量化法、说话人插值法线性多变量回归法(LMR,Linear Multivariate Regression)、动态频率规整法(DFW,DynamicFrequency Warping)、神经网法、高斯混合模型法(GMM,Gaussian MixedModel)、HMM法、基于双线性转换函数法等,以及GMM法与DFW法相结合的方法、GMM法与MAP自适应相结合的方法。文献161采用基于双线性转换函数的方法来实现男声和女声之间的相互转换时的频谱搬移。 5.2.1 声道系统的数字模型: 根据语音的发声过程,第一章中图1-1建立了语音产生的数字模型。该模型分两个部分对发声器官进行模拟:采用周期的冲击串(或者随机噪声序列)模拟产生浊音(或清音)时的声门激励气流采用时变的数字滤波器模拟声道的系统模型。该时变数字滤波器要反映声道的频率响应特点,决定了它的表达式需要携带一些声道的信息。发声时,声道的形状缓慢变化,数字滤波器也必须反映出时变特点。一般通过无损管模型和共振峰可以推导出该数字滤波器的表达式。根据声道的结构,无损管模型将声道看做是多个不同截面积的管子串联而成的系统,而共振峰模型将声道看作是一个谐振腔,共振峰就是这个腔体的谐振频率。基于共振峰理论,可建立三种实用的模型:级联型、并联型和混合型。以下根据共振峰模型推导反映声道特点的时变数字滤波器皿z)的表达式:(1)级联型:级联型认为声道是一组串联的二阶谐振器,每个谐振器的谐振频率对应一个共振峰频率。 (2.1) 式(21)表示有p2个二阶谐振器,展开后可以用一个全极点模型来表示: (2,2)(2)并联型 (2,3)分子与分母无公因子且分母无重根,q<p。式(21)只是全极点的情况,建立式(23)所示零点模型。式(23)分解为部分分式之和就是并联型共振峰模型: (2,4)(3)混合型级联模型对一般元音比较有效,级联数取决于声道长度。而零点模型表示摩擦音与阻塞音的声道比较有效。混合型就是根据需要描述语音特点,切换选择级联型或者并联型,这种模型比较准确。以上通过共振峰模型建立了反映声道特点的数字滤波器表达式斌z),它事实上声道系统的传递函数,语音信号可以看作激励信号通过该时变数字滤波器的输出。语音频谱包络就是该声道系统传递函数的频率响应H(jo)。5.2.2 语音频谱包络提取方: 语音的频谱包络反映声道的滤波特性,这种声道的不同滤波特性由不同的频谱包络反映出来。传统语音频谱包络提取方法主要分时域、频域提取方法,这两种方法都可以推导出声道系统的传递函数。(1)时域提取方法: 根据发声原理,建立如图21所示语音信号s(n)的产生模型:U(n) H(z) S(n)图2-1语音信号墨仍)的产生模型其中:H(z)为声道系统的传递函数,U(n)是声门激励。时域提取方法主要是通过线性预测技术(LPC)推导得到声道系统的传递函数。线性预测分析所包含的基本概念是:当前语音样点能够用过去若干个语音样点的线性组合来逼近。语音样点s(n)用过去的p个语音样点s(n)预测当前的采样值: (2.5)系数为线性预测系数,在某个语音帧中是常量。线性预测系数随语音帧变化而变化。引入激励因素Gu(n),u(n)是单位冲激函数,G是增益系数,线性预测模型可以转换为: (2.6)对式(26)进行z变换,就可以直接推导出声道的系统函数: (2.7) (2.8)通过线性预测得到了声道系统的传递函数式(27),设z= ,H(z)的频率响应就是时域提取方法得到的频谱包络,以下分别讨论式(27)中的参数求解问题。求解线性预测系数:语音信号是短时平稳的,线性预测系数语音信号是短时平稳的,线性预测系数必须在一段语音帧中稳定。线性预测技术以最小均方误差作为估计模型参数的基础,能得到一组线性方程组,方程组的解对应于式(27)中的参数当前帧语音序列为sn(m),帧长度为N,短时均方误差定义为: en(m)为预测误差信号,可以用Sn(m)来表示: (2.9)Sn(m)为第n语音帧中第m个采样点,当m<0或者m>N时,sn(m)=0。式(28)可以表示为: (2,10)短时均方误差最小对应着式(210)达到最小值。将En对ak。求导数,偏导数值为0,可以求最小值。 (2.11)对p个预测系数分别求导,可以得到p个方程: (2.12)为方便对式(212)进行表示,定义短时方差: (2.13)根据式(213)的定义,可将方程组(212)表述为: (2.14)方程组(214)的解就是式(25)中的线性预测系数,代入式(27)中,可以直接得到声道系统的传递函数为了有效的进行线性预测分析,有必要用一种高效的方法来求解线性方程组。系数矩阵的特殊性质使解方程的效率比普通情况的效率要高许多。求解线性方程组(214)的方法常见有三种:自相关法、格型法与协方差法。自相关解法能快速高效的求解一组线性预测系数,并且能保证系统的稳定性。本文对自相关方、法进行介绍。·对于确定性信号序列x(m),自相关函数定义为: (2.15)对于随机性信号序列或周期性信号系列,自相关函数的定义为: (2.16)5.2.3自相关函数具有以下性质:如果序列是有周期的(设周期为Np),则其自相关函数也是同周期的周期函数,即;偶函数,即R(k)=R(-k);当k=0时,自相关函数具有极大值,即;R(0)等于确定性信号序列的能量或随机性序列的平均功率。语音序列为Sn(m)帧长度为N,对于具体的语音帧,通过加窗可以认为语音帧外的序列为0,推导短时方差函数式(213)与自相关函数式(215)关系如下: (2.17)当m<0或者m大于等于N时,Sn(m)=0,变换后为: (2.18)式(218)是关于变量“的方程,而不是两个独立变量i和k的方程,短时方差函数与自相关函数满足如下关系: (2.19)为当前语音帧的第k个自相关值。由于自相关函数是偶函数,所以线性预测方程组(214)可以用自相关量进行表示: (2.21)从方程组(2.21)中可以看出矩阵系数的规律,针对这种特殊的矩阵方程组递推解法。 解法如下: (2.22)对i=1,2,3.p进行递推,最终解得5.3音乐特征提取:音乐特征提取是指从音乐的波形文件中获得一组能够描述音乐信号特征的参数的过程。由于音乐属于语音的一种,我们考虑使用常用的语音信号特征作为音乐特征。语音信号特征常用的有两种:一种是频谱特征;一种是时域特征。语音信号的频谱特征相对于时域特征因其随外界环境的变化较小更易于抽出加窗以及窗移,这是整个音乐特征提取过程中最后也是最重要的一个部分,这一部分的工作是对音乐信号的语音帧进行频谱分析,并用频谱特征参数进行描述,整个音乐信号的特征则用各帧音乐的频谱特征参数所组成的特征参数序列来描述。后面两节将以两种重要的特征参数来说明特征提取。5.3.1 线性预测系数LPC:基于短时段内音乐信号是准平稳的假设,可以利用过去p个时刻的音乐采样值的线性组合以最小的预测误差预测下一个时刻的音乐信号采样值:称为对音乐信号的p阶线性预测。设为一帧的音乐采样序列,将第n个音乐采样值用前p个音乐采样值进行预测,则Sn的预测值为 其中称为p阶线性预测系数。预期误差为: 其中。线性预测系数的求解方法一个语音窗的线性预测系数可由由使这一帧的预测误差e(n)的平方和 最小得到。使E为最小的线性预测系数满足: 可得: 在短时间段内音乐信号可视为一个平稳过程,的自相关函数只是时间差i的函数,即 在这一短时段上,信号的协方差函数为 将上述方程相互转化,就可求出线性预测系数。5.3.2倒谱特征的含义:在语音信号处理中,倒谱特征已经被大量的实验证明是语音最有效的特征之一。由于语音信号是由激励信号与声道频率响应相卷积的结果,可利用将信号作适当的同态滤波将相卷积的两个部分分离,滤波的关键是先将卷积处理化为乘积,然后作对数处理,使之化为可分离的相加部分。同理,音乐的倒谱特征提取过程如图所示:(1)线性预测倒谱特征:音乐信号的倒谱特征与音乐信号的LPC特征是有关系的,因此可以通过音乐信号的LPC系数来得到倒谱系数,这样得到的倒谱系数就称为线性预测倒谱系数LPCC。有,因此有而S(n)中声道分量的Z变化与S(n)的LPC间的关系如下:其中为p的阶线性预测的系数。对z求导,得 将上式左侧的分母移到右侧并令两侧。的同幂项的系数相等可得根据上式即可先从S(n)。求得LPC系数,再由LPC系数用递推的方法得到所需的LPC系数。5.3.3系统结构:该系统主要包括了以下功能(1)格式转换,把音乐文件mp3转换为wav文件,并从中提取30秒的音乐片断,供后续功能模块使用。(2)特征提取,该功能块对输入的音乐wav文件进行预处理、提取语音特征,为模型训练以及识别模块提供语音特征。(3)匹配计算,该功能模块将待识别文件与模型库中的模型进行匹配计算,包括svm和hmm模型的匹配以及和svm删hmm模型的匹配。(4)判决,该功能模块比较待识别音乐文件在各个类别中的匹配情况,决定出最后结果。根据特征参数与年代的公式关系:N为现代所处的年代,C为音乐特征参数。5.4、针对第二种和第三种进行推断:第二种:有些用户由于工作或其它什么原因,喜欢若干个时间段的歌曲,比如有些用户的彩铃库中的歌曲出版年代分别是(1995、1997、1997、2007、2007、2005),这类用户的歌曲年代特征分别是90年代末和最近流行。第三种:有一类用户虽然年经比较大了,但是心态比较年轻,所以一路听下来,什么流行他听什么,这种用户的彩铃库的歌曲就会表现为跨度很大,但基本上是每年最流行的歌曲。ARMA模型的全称是自回归移动平均(auto regression moving average)模型,它是目前最常用的拟合平稳时间序列的模型。ARMA模型又可细分为AR模型、MA模型和ARMA模型三大类。1. 模型具有如下结构的模型称为阶自回归模型,简记为:其中包含三个限制条件:模型的最高阶数为,即;随机干扰序列为零均值的白噪声序列,即;当期的随机干扰与过去的序列值无关,即。1) 中心化的模型当时,式(40.30)又称为中心化的模型。非中心化的序列都可以通过假设满足平稳性条件,在式(40.30)两边取期望,根据平稳时间序列均值为常数的性质,有,且因为为零均值的白噪声,有,所以:如果把非中心化的序列减去上式(40.31)中的,则转化为中心化序列。特别地,对于中心化序列,有。引进延迟算子,设,又称为阶自回归系数多项式,则中心化模型可以简记为:2) 模型的方差要得到平稳模型的方差,需要借助于Green函数的帮助。下面以求模型的方差为例来说明:将第二式代入第一式,有当我们继续将代入上式,一直到,可得到如果,设Green函数为,上式可改为对求方差为模型的协方差对中心化的平稳模型在等号两边同乘,再求期望得到由模型的限制条件,有,再根据平稳时间序列的统计性质,有自协方差函数只依赖于时间的平均长度而与时间的起止点无关,于是可由(40.35)式得到自协方差函数的递推公式:对于模型的自协方差函数的递推公式为:3) 模型的自相关函数由于平稳时间序列有自相关函数,在自协方差函数的递推公式(40.36)等号两边同除以方差函数,就得到自相关函数的递推公式:对于模型的自相关函数的递推公式为:根据式(40.38)可以推出,平稳模型的自相关函数有两个显著的性质:见图402和图403所示是两个平稳模型的理论自相关图。图402 ACF按负指数单调收敛到零图403 ACF按正负相间地衰减到零4) 模型的偏自相关系数对于一个平稳模型,求出滞后自相关系数时,实际上得到的并不是与之间单纯的相关关系。因为这个还会受到中间个随机变量的影响,即这个随机变量既与又与具有相关关系。为了能单纯测度与之间的相关关系,引进了时间序列偏自相关函数( partial autocorrelation function),简记为PACF。它是在剔除了中间个随机变量的干扰之后的滞后自相关系数,计算公式为:式中,。如果我们用过去的期序列值对作阶自回归拟合,即那么有。这说明滞后偏自相关系数实际上等于阶自回归模型第个回归系数的值。根据这个性质很容易计算PACF的值。在公式(8.1.41)中等号两边同乘,求期望并除以,得到取前个方程构成的方程组:该方程组被称为Yule-Walker方程。根据线性方程组求解的Gramer法则,有式中:可以证明对于平稳模型,当时,有,这样。也就是说平稳模型的偏自相关系数具有步截尾性。见图404和图405所示是两个平稳模型的样本偏自相关图。图404 一个AR(1)模型n=101样本偏自相关函数PACF(k)图图405 一个AR(1)模型n=101样本偏自相关函数PACF(k)图由于样本的随机性,样本偏自相关系数不会和理论偏自相关系数一样严格截尾,但可以从图404和图405 中看出,两个平稳模型的样本偏自相关系数1阶显著不为零,1阶之后都近似为零。样本偏自相关图可以直观地验证平稳模型偏自相关系数具有步截尾性。2. 模型具有如下结构的模型称为阶移动平均,简记为: 其中包含两个限制条件:模型的最高阶数为,即;随机干扰序列为零均值的白噪声序列,即。1) 中心化的模型当时,式(40.45)又称为中心化的模型。非中心化的序列都可以通过假设满足平稳性条件,在式(8.1.45)两边取期望,根据平稳时间序列均值为常数的性质,有,且因为为零均值的白噪声,有,所以:如果把非中心化的序列减去上式(40.46)中的,则转化为中心化序列。特别地,对于中心化序列,有。引进延迟算子,设,又称为阶自移动平均系数多项式,则中心化模型可以简记为:2) 模型的方差平稳模型的方差为:3) 模型的自协方差平稳模型的自协方差只与滞后阶数相关,且阶截尾。当时,;当时,;当时,有4) 模型的自相关系数平稳模型的自相关系数为5) 模型的偏自相关系数在中心化的平稳模型场合,滞后阶偏自相关系数为:容易证明平稳模型的偏自相关系数拖尾性。见图406和图407所示是一个平稳模型的样本自相关图和样本偏自相关图。图406 一个MA(1)模型n=101样本自相关函数截尾图图407 一个MA(1)模型n=101样本偏自相关函数拖尾图6) 模型的可逆性容易验证当两个模型具有如下结构时:根据公式(40.50)计算,它们的自相关系数正好相等。即不同的模型却拥有完全相同的自相关系数。这种自相关系数的不惟一性将会导致拟合模型和随机时间序列之间不会是一一对应关系。为了保证一个给定的自相关函数能够对应惟一的模型,我们需要给模型增加约束条件。这个约束条件称为的可逆性条件。把上式(40.52)中两个模型表示成两个自相关模型形式:注意表示成自相关模型时运用公式,其中。显然,当时,模型1收敛,而模型2不收敛;当时,则模型2收敛,而模型1不收敛。若一个模型能够表示成收敛的模型形式,那么该模型称为可逆模型。一个自相关系数惟一对应一个可逆模型。3. 模型具有如下结构的模型称为自回归移动平均模型,简记为: 若,该模型称为中心化模型。模型的限制条件与模型、模型相同。引进延迟算子,中心化模型简记为:式中:,称为阶自回归系数多项式,称为阶自移动平均系数多项式。显然,当时,模型就退化成模型;当时,模型就退化成模型。所以,模型和模型实际上是的特例,它们统称为模型。而模型的统计性质也正是模型和模型统计性质的有机组合。由于模型可以转化为无穷阶移动平均模型,所以模型的自相关系数不截尾。同理,由于模型也可以转化为无穷阶自回归模型,所以模型的偏自相关系数也不截尾。总结模型、模型和模型的自相关系数和偏自相关系数的规律,见表40.1所示。表40.1 拖尾性和截尾性模型自相关系数偏自相关系数拖尾阶截尾阶截尾拖尾拖尾拖尾假如某个时间序列观察值可以判定为平