eviews中主成分分析和因子分析详解.pptx
《eviews中主成分分析和因子分析详解.pptx》由会员分享,可在线阅读,更多相关《eviews中主成分分析和因子分析详解.pptx(108页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 主主成成分分分分析析(principal components analysis,简简称称PCA)是是由由霍霍特特林林(Hotelling)于于1933年年首首先先提提出出的的。它它通通过过投投影影的的方方法法,实实现现数数据据的的降降维维,在在损损失失较较少少数数据据信信息息的的基基础础上上把把多多个个指指标标转转化化为为几几个个有有代代表表意意义义的的综合指标。综合指标。1 1 主成分分析主成分分析主成分分析主成分分析第1页/共108页21.1 1.1 主成分分析的基本思想主成分分析的基本思想主成分分析的基本思想主成分分析的基本思想 假如对某一问题的研究涉及假如对某一问题的研究涉及 p
2、 个指标,记为个指标,记为X1,X2,Xp,由这,由这 p 个随机变个随机变量构成的随机向量为量构成的随机向量为X=(X1,X2,Xp),设,设 X 的均值向量为的均值向量为,协方差矩阵为,协方差矩阵为。设设Y=(Y1,Y2,Yp)为对为对 X 进行线性变换得到的合成随机向量,即进行线性变换得到的合成随机向量,即 (1.1)设设 i=(i1,i2,ip),(),A=(1,2,p),则有,则有 (1.2)第2页/共108页3且且 (1.3)由式(由式(1.1)和式()和式(1.2)可以看出,可以对原始变量进)可以看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量行任意的线性变换,
3、不同线性变换得到的合成变量Y的统计的统计特征显然是不一样的。每个特征显然是不一样的。每个Yi 应尽可能多地反映应尽可能多地反映 p 个原始变个原始变量的信息,通常用方差来度量量的信息,通常用方差来度量“信息信息”,Yi 的方差越大表示的方差越大表示它所包含的信息越多。由式(它所包含的信息越多。由式(1.3)可以看出将系数向量)可以看出将系数向量 i 扩扩大任意倍数会使大任意倍数会使Yi 的方差无限增大,为了消除这种不确定性,的方差无限增大,为了消除这种不确定性,增加约束条件:增加约束条件:第3页/共108页4 为了有效地反映原始变量的信息,为了有效地反映原始变量的信息,Y的不同分量包含的的不同
4、分量包含的信息不应重叠。综上所述,式(信息不应重叠。综上所述,式(1.1)的线性变换需要满足下)的线性变换需要满足下面的约束:面的约束:(1),即,即 ,i=1,2,p。(2)Y1在满足约束在满足约束(1)即的情况下,方差最大;即的情况下,方差最大;Y2是在满是在满足约束足约束(1),且与,且与Y1不相关的条件下,其方差达到最大;不相关的条件下,其方差达到最大;Yp是在满足约束是在满足约束(1),且与,且与Y1,Y2,Y p-1不相关的条件不相关的条件下,在各种线性组合中方差达到最大者。下,在各种线性组合中方差达到最大者。满足上述约束得到的合成变量满足上述约束得到的合成变量Y1,Y2,Yp分别
5、称为原始分别称为原始变量的第一主成分、第二主成分、变量的第一主成分、第二主成分、第、第 p 主成分,而且各主成分,而且各成分方差在总方差中占的比重依次递减。在实际研究工作中,成分方差在总方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。的。第4页/共108页51.2 1.2 总体主成分求解及其性质总体主成分求解及其性质总体主成分求解及其性质总体主成分求解及其性质 1.1节中提到主成分分析的基本思想是考虑合成变量的方差大小及其节中提到主成分分析的基本思想是考虑合成变量的方差大小及其对原始变量波动对
6、原始变量波动(方差方差)的贡献大小,而对于原始随机变量的贡献大小,而对于原始随机变量X1,X2,Xp,其协方差矩阵或相关矩阵正是对各变量离散程度和相关程度的度量。,其协方差矩阵或相关矩阵正是对各变量离散程度和相关程度的度量。在实际求解主成分时,一般从原始变量的协方差矩阵或相关矩阵的结构在实际求解主成分时,一般从原始变量的协方差矩阵或相关矩阵的结构分析出发。分析出发。第5页/共108页6 1 1从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分 设设 1是任意是任意 p 1向量,求解主成份就是在约束条件向量,求解主成份就是在约束条件 下,求下
7、,求 X 的线性函数的线性函数 使其方差使其方差 达到最大,即达到最大,且达到最大,即达到最大,且 ,其中,其中 是随机变量是随机变量向量向量X=(X1,X2,Xp)的协方差矩阵。设的协方差矩阵。设 1 2 p 0 为为 的特征值,的特征值,e1,e2,ep为为 矩阵各特征值对应的标准正交特征向量,则对于任意的矩阵各特征值对应的标准正交特征向量,则对于任意的ei 和和 ej,有,有 (1.4)且且 (1.5)第6页/共108页7因此因此 (1.6)当当 1=e1 时有时有 (1.7)此时此时 达到最大值为达到最大值为 1。同理有。同理有 并且并且 (1.8)第7页/共108页8 由上述推导得由
8、上述推导得 (1.9)可见可见Y1,Y2,Yp 即为原始变量的即为原始变量的 p 个主成份。因此,主个主成份。因此,主成分的求解转变为求成分的求解转变为求 X1,X2,Xp 协方差矩阵协方差矩阵 的特征值和特的特征值和特征向量的问题。征向量的问题。第8页/共108页9主成份的性质主成份的性质主成份的性质主成份的性质 性质性质性质性质1 1 Y的协方差矩阵为对角阵的协方差矩阵为对角阵,即,即 (1.10)性质性质性质性质2 2 设设=(ij)pp是随机变量向量是随机变量向量 X 的协方差矩阵,可得的协方差矩阵,可得即即 第9页/共108页10 由此可见,主成分分析是把由此可见,主成分分析是把 p
9、 个随机变量的总方差分解为个随机变量的总方差分解为 p 个不相关随机变量的方差之和个不相关随机变量的方差之和 1 2 P,则总方差,则总方差中属于第中属于第 i 个主成分(被第个主成分(被第 i 个主成分所解释)的比例为个主成分所解释)的比例为 (1.12)称为第称为第 i 个主成分的贡献度。定义个主成分的贡献度。定义 (1.13)称为前称为前 m 个主成分的累积贡献度,衡量了前个主成分的累积贡献度,衡量了前 m 个主成份对原个主成份对原始变量的解释程度。始变量的解释程度。第10页/共108页11 性质性质性质性质3 3记第记第k个主成分个主成分 Yk 与原始变量与原始变量 Xi 的相关系数为
10、的相关系数为r(Yk,Xi),称为因,称为因子载荷,或者因子负荷量,则有子载荷,或者因子负荷量,则有 (1.14)第11页/共108页123 3从相关矩阵出发求解主成分从相关矩阵出发求解主成分从相关矩阵出发求解主成分从相关矩阵出发求解主成分 在实际应用时,为了消除原始变量量纲的影响,通常将数据标准化。考虑下在实际应用时,为了消除原始变量量纲的影响,通常将数据标准化。考虑下面的标准化变化,令面的标准化变化,令 (1.15)其中其中 i,ii 分别表示随机变量分别表示随机变量 Xi 的期望与方差,则的期望与方差,则 第12页/共108页13 原始变量的相关矩阵就是原始变量标准化后的协方差原始变量的
11、相关矩阵就是原始变量标准化后的协方差矩阵,因此,由相关矩阵求主成分的过程与由协方差矩阵矩阵,因此,由相关矩阵求主成分的过程与由协方差矩阵求主成分的过程是一致的。如果仍然采用(求主成分的过程是一致的。如果仍然采用(i,ei)表示)表示相关矩阵相关矩阵R对应的特征值和标准正交特征向量,根据式对应的特征值和标准正交特征向量,根据式(1.9)有:)有:(1.17)由相关矩阵求得的主成分仍然满足性质由相关矩阵求得的主成分仍然满足性质13。性质。性质3可可以进一步表示为:以进一步表示为:(1.18)第13页/共108页141.3 1.3 样本的主成分样本的主成分样本的主成分样本的主成分1 1样本统计量样本
12、统计量样本统计量样本统计量 在实际工作中,我们通常无法获得总体的协方差矩阵在实际工作中,我们通常无法获得总体的协方差矩阵 和相关矩阵和相关矩阵R。因。因此,需要采用样本数据来估计。设从均值向量为此,需要采用样本数据来估计。设从均值向量为,协方差矩阵为,协方差矩阵为 的的 p 维总体维总体中得到的中得到的 n 个样本,且样本数据矩阵为个样本,且样本数据矩阵为 (1.19)第14页/共108页15则样本协方差矩阵为:则样本协方差矩阵为:(1.20)其中其中:(1.21)样本相关矩阵为:样本相关矩阵为:(1.22)样本协方差矩阵样本协方差矩阵 S 是总体协方差矩阵是总体协方差矩阵 的无偏估计量,样的
13、无偏估计量,样本相关矩阵本相关矩阵 是总体相关矩阵是总体相关矩阵 R 的估计量。的估计量。第15页/共108页162 2样本主成份及其性质样本主成份及其性质样本主成份及其性质样本主成份及其性质 由于采用相关矩阵和协方差矩阵求解主成分的过程基本一致,因此本节仅介由于采用相关矩阵和协方差矩阵求解主成分的过程基本一致,因此本节仅介绍基于样本相关矩阵求解主成分的过程。设样本相关矩阵绍基于样本相关矩阵求解主成分的过程。设样本相关矩阵 的特征值为的特征值为 ,且,且与特征值相对应的标准正交特征向量为与特征值相对应的标准正交特征向量为 ,根据式(,根据式(1.17)第)第 i 个样个样本主成分可表示为:本主
14、成分可表示为:(1.23)而且而且 (1.24)(1.25)第16页/共108页17且由式(且由式(1.16)和性质)和性质2可得可得 (1.26)则第则第i个样本主成分的贡献度为个样本主成分的贡献度为 ,前,前m个样本主成份的累个样本主成份的累计贡献度为计贡献度为 另外另外 (1.27)第17页/共108页183 3主成份个数的确定主成份个数的确定主成份个数的确定主成份个数的确定 主成分分析的目的之一是减少变量的个数,但是对于应主成分分析的目的之一是减少变量的个数,但是对于应保留多少个主成分没有确切的回答。通常需要综合考虑样本保留多少个主成分没有确切的回答。通常需要综合考虑样本总方差的量、特
15、征值的相对大小以及各成分对现实的阐述。总方差的量、特征值的相对大小以及各成分对现实的阐述。一般所取一般所取 m 使得累积贡献率达到使得累积贡献率达到85%以上为宜。以上为宜。另一个比较常用的可视的方法是碎石图,首先将特征值另一个比较常用的可视的方法是碎石图,首先将特征值 按照从大到小的顺序进行排列,碎石图是特征值与相应序号按照从大到小的顺序进行排列,碎石图是特征值与相应序号i的(的(i,)图形,其中横轴表示序号,纵轴表示特征值)图形,其中横轴表示序号,纵轴表示特征值 。为了确定主成分的合适个数,选择碎石图斜率变化较大的拐为了确定主成分的合适个数,选择碎石图斜率变化较大的拐弯点,通常在此序号之后
16、的特征值取值比较小,则此序号作弯点,通常在此序号之后的特征值取值比较小,则此序号作为主成分的个数。例如,图为主成分的个数。例如,图1所示的碎石图在所示的碎石图在 i=2 处拐弯,则处拐弯,则 m 选择选择2。第三个经验的判断方法是只保留那些方差大于。第三个经验的判断方法是只保留那些方差大于1的的主成分。主成分。第18页/共108页19例例例例1 1 宏观经济景气波动的主成分分析宏观经济景气波动的主成分分析宏观经济景气波动的主成分分析宏观经济景气波动的主成分分析 本例从一批对景气变动敏感,有代表的指标中筛选出本例从一批对景气变动敏感,有代表的指标中筛选出5个反个反应宏观经济波动的一致指标组:工业
17、增加值增速(应宏观经济波动的一致指标组:工业增加值增速(iva)、工业)、工业行业产品销售收入增速(行业产品销售收入增速(sr)、固定资产投资增速()、固定资产投资增速(if)、发电)、发电量增速(量增速(elec)和货币供应量)和货币供应量M1增速(增速(m1),样本区间从),样本区间从1998年年1月月2006年年12月,为了消除季节性因素和不规则因素,采用月,为了消除季节性因素和不规则因素,采用X-12方法进行季节调整。常用的方法是美国商务部采用的计算方法进行季节调整。常用的方法是美国商务部采用的计算合成指数合成指数CI的方法。特别的,本例利用主成分分析降维的思想,的方法。特别的,本例利
18、用主成分分析降维的思想,提取主成分(提取主成分(PCA),并与合成指数),并与合成指数CI的结果进行比较。的结果进行比较。第19页/共108页203.1 EViews3.1 EViews软件中主成分分析的计算软件中主成分分析的计算软件中主成分分析的计算软件中主成分分析的计算 本节以例本节以例1的数据为例,介绍的数据为例,介绍EViews软件中主成分分软件中主成分分析的实现过程。首先将所涉及的变量建成一个组析的实现过程。首先将所涉及的变量建成一个组(g1),选,选择组菜单的择组菜单的View/Principal Components.,出现如图,出现如图6所所示的窗口。在窗口中有两个切换钮:第一
19、个钮标着示的窗口。在窗口中有两个切换钮:第一个钮标着Components,第二个钮标着,第二个钮标着Calculation,控制着组中各,控制着组中各序列离差矩阵的计算和估计。默认的,序列离差矩阵的计算和估计。默认的,EViews完成主成完成主成分分析使用普通的(分分析使用普通的(Pearson)相关矩阵,也可以在这个)相关矩阵,也可以在这个菜单下重新设定主成分的计算。菜单下重新设定主成分的计算。第20页/共108页211 1ComponentsComponents选择纽选择纽选择纽选择纽 Components按钮用于设定显示主成分和保存方差的特征值和特征向按钮用于设定显示主成分和保存方差的特
20、征值和特征向量。在量。在Display对话框中可以以表的形式显示特征值和特征向量,或者按照对话框中可以以表的形式显示特征值和特征向量,或者按照特征值的大小以线性图的形式显示,或者是载荷、得分的散点图,或者两个特征值的大小以线性图的形式显示,或者是载荷、得分的散点图,或者两个都显示(都显示(biplot)。选择不同的显示方式,对话框中其余的内容也会发生相)。选择不同的显示方式,对话框中其余的内容也会发生相应的改变。应的改变。第21页/共108页22图图图图6 6 主成分估计对话框主成分估计对话框主成分估计对话框主成分估计对话框(1)(1)第22页/共108页23第23页/共108页24 表头描述
21、了观测值的样本区间、计算离差矩阵的方法表头描述了观测值的样本区间、计算离差矩阵的方法以及保留成分的个数(在这个例子中显示了所有的以及保留成分的个数(在这个例子中显示了所有的5个主成个主成分)。分)。表的第一部分概括了特征值(表的第一部分概括了特征值(Value)、相应特征值与)、相应特征值与后一项的差(后一项的差(Difference)、对总方差的累积解释比例)、对总方差的累积解释比例(Cumulative Proportion)等等。由于上述结果的计算采)等等。由于上述结果的计算采用相关矩阵,所以用相关矩阵,所以5个特征值之和等于个特征值之和等于5。第一个成分占总。第一个成分占总方差的方差的
22、72.94%,第二个成分占总方差的,第二个成分占总方差的19.22%。前两个成。前两个成分占总方差的分占总方差的92.16%。表的第二部分描述了线性组合的系数,第一个主成分表的第二部分描述了线性组合的系数,第一个主成分(标为(标为“PC1”)大约等于所有)大约等于所有5个一致指标的线性组合,个一致指标的线性组合,它可以解释为一般的经济景气指数。它可以解释为一般的经济景气指数。输出的第三部分表示计算的相关矩阵。输出的第三部分表示计算的相关矩阵。第24页/共108页25第第1主成分主成分第第2主成分主成分第第3主成分主成分 第第4主成分主成分 第第5主成分主成分特特征征向向量量固定资产投资增速(固
23、定资产投资增速(if)0.449-0.3670.6960.2000.374工业增加值增速(工业增加值增速(iva)0.510-0.153-0.0780.312-0.783货币供应量增速(货币供应量增速(m1r)0.2040.9130.2850.2080.009产品销售收入增速(产品销售收入增速(sr)0.4900.023-0.6540.2930.496发电量增速(发电量增速(elec)0.5080.088-0.020-0.857-0.026特特 征征 值值3.6030.9880.2700.0870.051贡贡 献献 率率0.7210.1970.0540.0180.01累积贡献率累积贡献率0.7
24、210.9180.9720.9901.000表表表表1 1 一致指标组的主成分分析结果一致指标组的主成分分析结果一致指标组的主成分分析结果一致指标组的主成分分析结果 第25页/共108页26 由表由表1可以看出,第可以看出,第1主成分的贡献率为主成分的贡献率为72.1%,已能较,已能较好地反映好地反映5个一致指标的总体变动情况,而且根据它们的特个一致指标的总体变动情况,而且根据它们的特征值可以发现第征值可以发现第2个特征值开始明显变小个特征值开始明显变小(小于小于1),碎石图出,碎石图出现明显的拐弯,同时为了讨论方便,仅选择现明显的拐弯,同时为了讨论方便,仅选择m=1,提取第一,提取第一个主成
25、分反映经济变动。表个主成分反映经济变动。表1中已经给出对应的特征向量,中已经给出对应的特征向量,根据式(根据式(1.23)可以得到对应的主成分序列。)可以得到对应的主成分序列。第26页/共108页27图图图图7 7 主成分估计对话框(主成分估计对话框(主成分估计对话框(主成分估计对话框(2 2)如果在主对话框的如果在主对话框的Display部分选择部分选择Eigenvalues plots,则显示按顺序,则显示按顺序排列的特征值的线性图(碎石图)。在对话框的下面将发生改变,可以选排列的特征值的线性图(碎石图)。在对话框的下面将发生改变,可以选择显示特征值(碎石图)、特征值的差、方差累积贡献率其
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- eviews 成分 分析 因子分析 详解
限制150内