《相关数列分析.ppt》由会员分享,可在线阅读,更多相关《相关数列分析.ppt(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、现在学习的是第1页,共53页13.1 相关分析13.1.1 相关关系的概念相关关系的概念现象间的关系有两种类型:1函数关系。指现象之间存在着严格的依存关系,即变量之间依一定的函数形式形成的一一对应的关系称为函数关系。2相关关系。又称统计关系,是指两个变量之间存在某种依存关系,但变量 y 并不是由变量 x 唯一确定的,它们之间没有严格的一一对应关系。2 2 2 2现在学习的是第2页,共53页13.1.2 相关关系的种类相关关系的种类1.1.按相关关系涉及的因素多少,可分为单相关与复相关。按相关关系涉及的因素多少,可分为单相关与复相关。2.2.按相关关系的表现形式,分为直线相关和曲线相关。按相关关
2、系的表现形式,分为直线相关和曲线相关。3.3.按相关关系的变动方向,分为正相关和负相关。按相关关系的变动方向,分为正相关和负相关。4.4.按相关关系是否涉及有关影响因素,分为因相关和自相按相关关系是否涉及有关影响因素,分为因相关和自相关。关。3 3 3 3现在学习的是第3页,共53页13.1.3 简单相关系数简单相关系数相关分析的内容主要是研究现象之间有无关系,相关关系相关分析的内容主要是研究现象之间有无关系,相关关系的表现形式和密切程度。相关分析的方法主要有相关图表和相的表现形式和密切程度。相关分析的方法主要有相关图表和相关系数等。当变量关系数等。当变量y y与变量与变量x x之间具有线性相
3、关时,可用简单相之间具有线性相关时,可用简单相关系数测定它们之间的密切程度。计算公式为:关系数测定它们之间的密切程度。计算公式为:4 4 4 4现在学习的是第4页,共53页简单相关系数 r 的取值范围为 1r 1其中,为 x 与 y 变量的协方差,为x变量的标准差,为 y 变量的标准差,、分别表示变量 y 和 x 的 n 个数据的平均值。5 5 5 5现在学习的是第5页,共53页当 r 1时,则 x 与 y 之间为负相关,r 1时,则x 与 y 之间为正相关。当r=1时,则 x 与 y 是完全正相关,r=1时,则x 与 y 是完全负相关。在这两种情形下,两个变量之间的关系是函数关系。当r=0
4、时,则 x 与 y 之间不存在线性相关关系,但有可能存在非线性相关关系。通常有下列判别标准:r 0.3,无相关;0.3r0.5,低度相关;0.5r0.8,中度相关;r 0.8,高度相关。例13.1 6 6 6 6现在学习的是第6页,共53页 需要指出的是,测定简单相关系数时,x 与 y 两个变量是对等的关系,即所研究的两个变量不分彼此,谁作 x,谁作 y 都可以;两个变量只能算出一个相关系数,其值大小反映两变量之间的密切程度;计算相关系数要求两个变量必须都是随机的。7 7 7 7现在学习的是第7页,共53页13.1.4 相关指数简单相关系数只适用于两个变量间的直线相关的测定。而不适用于曲线相关
5、和复相关的测定。若要测定曲线相关或复相关的紧密程度,则需要先进行回归分析,求出回归方程后,再由自变量 x 求出因变量 y 的估值 ,用下列公式计算相关指数(R):(1R1)8 8 8 8现在学习的是第8页,共53页相关指数是一种广义的相关系数,线性相关与曲线相相关指数是一种广义的相关系数,线性相关与曲线相关,单相关与复相关均可应用。对于简单线性相关而言,关,单相关与复相关均可应用。对于简单线性相关而言,相关指数与相关系数是一致的。但是对于曲线相关与复相相关指数与相关系数是一致的。但是对于曲线相关与复相关而言,相关指数与简单相关系数在含义上是不同的。关而言,相关指数与简单相关系数在含义上是不同的
6、。9 9 9 9现在学习的是第9页,共53页13.1.5 时间数列自相关时间数列自相关时间数列自相关是指某个变量(时间数列自相关是指某个变量(y y)自身随时间不同,)自身随时间不同,其数值在前后时期之间表现出一定的依存关系。或者说,任一其数值在前后时期之间表现出一定的依存关系。或者说,任一具体时期的数值都和它前一期或前几期的数值之间存在一定的具体时期的数值都和它前一期或前几期的数值之间存在一定的联系。研究时间数列本身的相关关系,对于分析社会经济现象联系。研究时间数列本身的相关关系,对于分析社会经济现象发展变化的规律性和进行预测,具有重要的意义。发展变化的规律性和进行预测,具有重要的意义。时间
7、数列自相关也有正相关与负相关,直线相关与曲线相关,时间数列自相关也有正相关与负相关,直线相关与曲线相关,简单相关与复相关等不同的形态。下面着重介绍简单的直线自相关,简单相关与复相关等不同的形态。下面着重介绍简单的直线自相关,即本期与前期或某一期数值相关。即本期与前期或某一期数值相关。10101010现在学习的是第10页,共53页设 为y 数列 t 期的数值,为 y 数列 ti 期的数值,I 可以为1,亦可为2,3,4等等,但必须固定递推期。则自相关系数计算公式为:例例13.2 11111111现在学习的是第11页,共53页132 一元线性回归13.2.1 一元线性回归模型如果两个变量之间存在相
8、关关系,并且一个变量(自变量)的变化会引起另一个变量(因变量)按某一线性关系变化,则两个变量间的关系可用一元线性回归模型描述:y=a+bx+e式中:a、b 为回归系数,a为回归直线的截距,b为回归直线的斜率,e 是误差项。一元线性回归模型具有以下特点:12121212现在学习的是第12页,共53页1 1两个变量两个变量 y y、x x 之间必须存在着真实的线性相关关系;之间必须存在着真实的线性相关关系;2 2两个变量两个变量 y y、x x 之间不是对等的关系,一个是因变量,之间不是对等的关系,一个是因变量,一个是自变量。一个是自变量。3 3因变量因变量 y y 是随机变量,自变量是随机变量,
9、自变量x x是非随机变量,是给定的是非随机变量,是给定的数值。数值。4 4回归系数回归系数 b b 有正负之分,有正负之分,b b 为正值,则为正值,则 x x 与与 y y 之间正之间正相关;相关;b b 为负值,为负值,x x 与与 y y 之间负相关。之间负相关。13131313现在学习的是第13页,共53页13.2.2 一元线性回归模型的参数估计一元线回归模型的一元线回归模型的 a a、b b 参数,通常采用最小二乘法估参数,通常采用最小二乘法估计。其要求是误差项计。其要求是误差项 e e 的平方和最小,即:的平方和最小,即:按照这一要求,要导出下列求解 a、b 参数的标准方程组:14
10、141414现在学习的是第14页,共53页求解可得:如果先做相关分析,后做回归分析,则a、b 参数:例13.415151515现在学习的是第15页,共53页13.2.3 回归模型的评价与检验1拟合程度的测定。因变量y的各个观测值点聚集在回归直线 周围的紧密程度,称为回归直线对样本数据点的拟合程度。通常用可决系数 来表示。计算公式为:16161616现在学习的是第16页,共53页称为回归平方和;为离差平方和;其中:为剩余平方和(残差平方和)三者的关系可表示为:17171717现在学习的是第17页,共53页可决系数 的取值区间为 0,1。实际上,可决系数 是线性相关系数 r 的平方,因此,相关系数
11、又可用下列公式求得:r 的正负号与回归系数 b 的正负号相同,越接近于1,表明回归直线对样本数据点的拟合程度越高。可决系数 的实用计算式为:18181818现在学习的是第18页,共53页19191919现在学习的是第19页,共53页2估计标准误差。又称剩余标准差,它是评价回归直线代表性大小或实际值与估计值误差大小的综合性指标。计算公式为:由估计标准误差sy和因变量y的平均值,可计算相对标准误差:20202020现在学习的是第20页,共53页3 3回归系数回归系数 b b 的显著性检验。回归系数的显著性检验。回归系数 b b 是一个估计值,是一个估计值,若若 y y 与与 x x 之间不存在线性
12、关系,则回归系数之间不存在线性关系,则回归系数 b b不具有显著不具有显著性,所建立的回归方程是不能利用的。回归系数性,所建立的回归方程是不能利用的。回归系数 b b 的显著的显著性检验采用性检验采用 t t 检验。其统计量为:检验。其统计量为:21212121现在学习的是第21页,共53页根据给定的显著水平 (通常 =0.05)和自由度,n2,查t分布表得到临界值 ,若 ,则回归系数 b 具有显著性,若 ,则回归为系数 b 不具有显著性,即 b 与 0 的差异是不显著的。4回归方程的显著性检验。回归方程显著性检验是检验整个回归方程是否具有显著性,判断y与x之间是否存在真实的线性相关,亦即对相
13、关系数r进行检验。回归方程的显著性检验采用F检验。首先计算回归方程的F统计量,计算公式为:22222222现在学习的是第22页,共53页 然后,根据给定的显著水平(通常=0.01 或0.05)及自由度(1,n 2)查 F 分布表得到临界值 F。若 F F,则回归方程的回归效果是显著的;F F ,则回归方程的回归效果是不显著的。23232323现在学习的是第23页,共53页 需要说明的是,对于一元线性回归方程而言,t 检验和 F 检验只要作任意一个检验即可。因为只有一个自变量,回归系数 b 具有显著性,则相关系数 r 必定具有显著性。但是,在多元回归分析中,二者之间并不是等价的。24242424
14、现在学习的是第24页,共53页13.2.4 一元线性回归模型的应用一元线性回归模型通过各种检验评价之后,则可利用回归模型一元线性回归模型通过各种检验评价之后,则可利用回归模型进行有关问题的分析、预测和控制。其应用有以下几个方面:进行有关问题的分析、预测和控制。其应用有以下几个方面:1 1边际分析和弹性分析。一元线性回归模型中的回归系边际分析和弹性分析。一元线性回归模型中的回归系数数 b b 就是平均边际变化率,它能说明就是平均边际变化率,它能说明 x x 增加一个单位增加一个单位 y y 能增加多能增加多少个单位。而要说明少个单位。而要说明 x x 增减增减1%1%,y y 能增减百分之几,则
15、可用下列公式能增减百分之几,则可用下列公式测定平均弹性系数(测定平均弹性系数(E E)。25252525现在学习的是第25页,共53页2临界点或平衡点分析。当一元线性回归模型中的 x、y 是一种收支关系时,并且是根据横截面样本数据建立的回归模型,则可用来测定收支相等的临界点。即:y=a+bx 令x=y,则3利用回归模型进行预测。将自变量的预测值 代人回归模型可求得因变量的预测值 。作为与 相对应的 的预测值就是点预测。亦可用利余标准差 和一定的置信概率进行区间预测。26262626现在学习的是第26页,共53页当y 为正态分布,n 较大,自变量x 的预测值 离样本均值 不远时,可用 构建预测区
16、间。(概率为95%,z 为1.96,概率为95.45%,z 为2)。当n 较小(n30)时,并且 不远离 时,需用t 分布构建预测区间。即 。(概率为95%,t 为2;概率为99%,t 为3)。4利用回归模型进行控制。所谓控制,是指预测的反问题,就是说,如果我们要求 y 在确定范围内取值,那么应该把自变量 x 控制在什么数值上或取值范围内。27272727现在学习的是第27页,共53页13.3 多元线性回归 13.3.1 13.3.1 多元线性回归模型多元线性回归模型设y为因变量,为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为:其中,为常数项,为回归系数,又称偏回归系数。2
17、8282828现在学习的是第28页,共53页如果两个自变量 同一个因变量y呈线性相关时,可用二元线性回归模型描述:建立多元线性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是:(1)自变量对因变量必须有显著的影响,并呈密切的线性相关;29292929现在学习的是第29页,共53页(2)(2)自变量与因变量之间的线性相关必须是真实的,而自变量与因变量之间的线性相关必须是真实的,而不是形式上的;不是形式上的;(3)(3)自变量之间应具有一定的互斥性,即自变量之间的相关自变量之间应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之间的相关程度。
18、程度不应高于自变量与因变量之间的相关程度。(4)(4)自变量应具有完整的统计数据,其预测值容易确定。自变量应具有完整的统计数据,其预测值容易确定。30303030现在学习的是第30页,共53页13.3.2 多元线性回归模型的参数估计多元线性回归模型的参数估计用最小二乘法求解参数。以二元线性回归模型为例,求用最小二乘法求解参数。以二元线性回归模型为例,求解回归参数的标准方程组为:解回归参数的标准方程组为:解此方程组可求得 的数值。亦可用下列矩阵法求解:31313131现在学习的是第31页,共53页亦即:亦即:32323232现在学习的是第32页,共53页13.3.3 多元线性回归模型的检验与评价
19、1拟合程度的测定。多重可决系数 ,它是在因变量的总变化中,由回归方程解释的变动(回归平方和)所占的比重,越大,回归方程对样本数据点拟合的程度越强,所有自变量与因变量的关系越密切。计算公式为:33333333现在学习的是第33页,共53页其中:其中:2估计标准误差。即因变量y的实际值与回归方程求出的估计值 之间的平均误差,估计标准误差越小,回归方程拟合程度越强。34343434现在学习的是第34页,共53页其中 k 为多元线性回归方程中自变量的个数。3回归方程的显著性检验。即检验整个回归方程的显著性,或者说评价所有自变量与因变量的线性关系是否密切。通常采用F 检验,F 统计量的计算公式为:353
20、53535现在学习的是第35页,共53页根据给定的显著水平,自由度(k,n-k-1)查F分布表,得到相应的临界值F,若FF,则回归方程具有显著意义,回归效果显著;F F,则回归方程无显著意义,回归效果不显著。4回归系数的显著性检验。检验回归模型中各个回归系数是否具有显著性,以便使模型中只保留那些对因变量有显著影响的因素。检验时先计算统计量ti,然后根据给定的显著水平,自由度n-k-1查 t 分布表,得临界值t或t/2,tt或t/2,则回归系数 bi 与0有显著差异,反之,则与0无显著差异。统计量t的计算公式为:36363636现在学习的是第36页,共53页其中 Cij 是多元线性回归方程中求解
21、回归系数矩阵的逆短阵 的主对角线上的第 j 个元素。对二元线性回归而言,可用下列公式计算:37373737现在学习的是第37页,共53页 其中:其中:38383838现在学习的是第38页,共53页5多重共线性判别。多重共线性是指在多元线性回归方程中,自变量之间有较强的线性关系,这种关系若超过了因变量与自变量的线性关系,则回归模型的稳定性受到破坏,回归系数估计不准确。需要指出的是,在多元回归模型中,多重共线性是难以避免的,只要多重共线性不太严重就行了。判别多元线性回归方程是否存在严重的多重共线性,可分别计算每两个自变量之间的可决系数 ,若 或接近于 ,则应设法降低多重共线性的影响。其办法主要是转
22、换自变量的取值,如变绝对数为相对数或平均数,或者更换其他的自变量。39393939现在学习的是第39页,共53页5D.W检验,当回归模型是根据动态数据建立的,则误差项 e 也是一个时间序列,若误差序列诸项之间相互独立,则误差序列各项之间没有相关关系,若误差序列之间存在密切的相关关系,则建立的回归模型就不能表述白变量与因变量之间的真实变动关系。Dw检验就是误差序列的自相关检验。首先计算误差序列统计量d(Dw值):(00d d44)40404040现在学习的是第40页,共53页然后根据给定的显著水平,自变量个数 k 和样本数据个数 n,查DW 分布表,得到下限值dL 和上限值du,用下列原则作出判
23、别:(1)dud4du 无自相关;(2)0ddL 存在正自相关;(3)4dLd4 存在负相关;(4)dLddu 难以判定;(5)4du d4dL,难以判定。41414141现在学习的是第41页,共53页13.3.4 多元线性回归模型的应用 1 1因素分析。因素分析。因素分析是多元线性回归模型的因素分析是多元线性回归模型的个重要应个重要应用,利用多元线性回归模型可以进行多因素分析。一是利用,利用多元线性回归模型可以进行多因素分析。一是利用回归系数揭示变量间的结构关系,并能揭示主次因素;用回归系数揭示变量间的结构关系,并能揭示主次因素;二是利用弹性系数揭示各个自变量的变动对因变量的影响二是利用弹性
24、系数揭示各个自变量的变动对因变量的影响程度,利用多元线性回归模型测定弹性系数程度,利用多元线性回归模型测定弹性系数 的计算公的计算公式为:式为:(i i=1=1,2 2,k k)42424242现在学习的是第42页,共53页2 2预测。预测。利用多元线性回归模型进行预测,首先应确利用多元线性回归模型进行预测,首先应确定各个自变量的预测值,然后代入回归模型中求因变量的点定各个自变量的预测值,然后代入回归模型中求因变量的点预测值或预测区间,其预测区间的建立与与一元线性回归模预测值或预测区间,其预测区间的建立与与一元线性回归模型相同。型相同。3.3.控制。控制。通过给定被解释变量通过给定被解释变量(
25、因变量因变量)的目标值来控制解的目标值来控制解释变量释变量(自变量自变量)的取值的取值.例例13.5 13.5 43434343现在学习的是第43页,共53页13.4 非线性回归13.4.1 13.4.1 非线性回归模型 在实际问题研究中,变量之间的关系不一定都是线性关系,而是表现为某种曲线关系。1指数曲线:。两边取对数得:44444444现在学习的是第44页,共53页2 2对数曲线:对数曲线:3双曲线:4幂函数:两边取对数得:45454545现在学习的是第45页,共53页5高次方程:可转化为多元线性回归形式:6柯柏道格拉斯函数:,两边取对数得:7S曲线:,46464646现在学习的是第46页
26、,共53页则则 :47474747现在学习的是第47页,共53页13.4.2 13.4.2 非线性回归模型的评价非线性回归模型的评价非线性回归模型一般不能进行有关的统计检验,因为非线性回归模型一般不能进行有关的统计检验,因为许多统计检验都是建立在线性统计模型基础之上的。但是许多统计检验都是建立在线性统计模型基础之上的。但是为了评价非线性回归模型的拟合程度及其估计误差的大小,为了评价非线性回归模型的拟合程度及其估计误差的大小,可计算下列评价指标:可计算下列评价指标:1可决系数 :48484848现在学习的是第48页,共53页2相关指数R:3估计标准误差:49494949现在学习的是第49页,共5
27、3页 以上公式中,为离差平方和。为剩余平方和,即 。例13.6 50505050现在学习的是第50页,共53页13.5 时间数列自回归13.5.1 时间数列自回归模型自回归模型有线性与非线性之分,有一元自回归与多元自回归之分,其中最常用的是线性自回归模型。现简述如下:1一元线性自回归:当 i 取1时,称为一阶一元线性自回归,当 i 取2时,51515151现在学习的是第51页,共53页称为二阶一元线性自回归。究竟应取哪一期的 y 的数据作为自变量,则应分期计算自相关系数来确定。一般来说,本年数据与上年数据关系最密切,本季(月)数据与上年同季(月)的数据关系最密切。2多元线性自回归。又称多阶多元线性自回归,其一般模型为:52525252现在学习的是第52页,共53页13.5.2 自回归模型的参数估计与模型检验自回归模型的参数估计一般采用最小二乘法估计。其参数估计的标准方程组的形式同前几节介绍的基本相同,只要令自回模型中的 即可。自回归模型的评价,亦可计算可决系数 或自相关系数R、剩余标准差 评价模型配合的优良程度。必要时也可进行各种统计检验。53535353现在学习的是第53页,共53页
限制150内