补充材料一 主成分分析.doc
《补充材料一 主成分分析.doc》由会员分享,可在线阅读,更多相关《补充材料一 主成分分析.doc(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流补充材料一 主成分分析.精品文档.补充材料一:主成分分析1.1引言多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。主成分分析(principal components analysis,简称PCA)也称主分量分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程
2、度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,可以得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。我们知道,当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景
3、的“遍历性”越强,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。在多变量的情况下,变量的变异性用协方差矩阵来表示。1.2主成分的几何意义及数学推导 设为m维随机向量,且二阶矩存在,称为的期望向量,称矩阵为的协方差矩阵,其元素为与的协方差,为的方差。由概率论的知识可知协方差矩阵是一个半正定的对称矩阵。下面的引理来自于线性代数:引理1:设为一个阶对称阵,则(1)必有个实的特征值;(2) 的不同特征值对应的特征向量必正交;(3)必可对角化,且存在正交阵,使得其中,的个列向量恰为的个正交的特征向量。为了说清楚主成分分析的思想方法,我们先回顾一下求二次型
4、的标准型问题。设为一个阶二次型,其中为一个阶对称阵,如果做正交变换,那么特别地,当,且为正定阵时,方程表示平面上的一个椭圆,只不过,主轴与坐标轴不平行,但在新坐标轴下,椭圆方程变成了,主轴与坐标轴是平行的,如下图:图1 主成分的几何意义 正交变换,在几何上就是作一个坐标旋转或者反射。由上图可知,同样一个椭圆,在不同的坐标系下表达方式是不一样的,在下要简单得多,也便于研究,与就是椭圆的两个主轴,且均为与的线性组合。以上我们只是对阶二次型的一个特例进行了简单的分析,一般地对阶二次型可以进行同样的分析,由线性代数的知识可知以下结论:引理2:设为一个阶对称阵,为对应的二次型,利用引理1中的正交阵做正交
5、变换,则有其中为的个特征值;,且由前知,m维随机向量的协方差矩阵为对称半正定的,如果设为的特征值,那么由引理2知存在正交阵,使得,此时令m维随机向量,可得的协方差矩阵为由此可知本节主要结论如下:定理1:设为m维随机向量,且二阶矩存在,则必存在的线性组合使得(1),为相互正交的单位长向量;(2)与互不相关(),且;(3);(4)与的相关系数为,并称之为因子负(载)荷量,且满足今后,我们称为第一主成分,称为第二主成分,依此类推。主成分分析把个原始变量的总方差分解成了个互不相关的变量的方差之和。主成分分析的目的是减少变量的个数,所以一般不会使用所有个主成分的,忽略一些带有较小方差的主成分将不会给总方
6、差带来太大的影响。这里我们称为第个主成分的贡献率。第一主成分的贡献率最大,这表明综合原始变量的能力最强,而的综合能力依次递减。若只取前个主成分,则称为主成分的累计贡献率,累计贡献率表明综合的能力。通常取,使得累计贡献率达到一个较高的百分数(如85以上)。1.3实际应用中主成分分析的出发点及综合评价 我们前面讨论的主成分计算是从协方差矩阵出发的,其结果受变量单位的影响。不同的变量往往有不同的单位,对同一变量单位的改变会产生不同的主成分,主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。为使主成分分析能够均等地对待每一个原始变量,消除由于单位的不同
7、可能带来的影响,我们常常将各原始变量作标准化处理,即令显然,的协方差矩阵就是的相关系数矩阵。同样地相关系数矩阵也是一个半正定的对称阵,于是上述对协方差阵所进行的主成分分析可以一模一样地对相关系数矩阵进行。但是,从相关阵求得的主成分与从协差阵求得的主成分一般情况是不相同的。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用相关系数矩阵进行主成分分析。对于研究经济问题所涉及的变量单位大都不统一,采用相关系数矩阵后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。
8、同时,也应该注意到,在实际应用中,总体的分布往往都是未知的,其协方差矩阵与相关系数矩阵更是无法得知,此时,我们只能利用样本数据来估计的协方差矩阵与相关系数矩阵。也就是说,在真正做主成分分析时,我们是用样本协方差阵与样本相关系数阵来代替总体的协方差矩阵与相关系数矩阵进行分析,样本协方差阵与样本相关系数阵的求法如下:设为个随机变量,每个都有个样本观测值,我们称 与 分别为与的样本协方差与样本相关系数,而称与分别为的样本协方差阵与样本相关系数阵。 综上,主成分分析的具体步骤可以归纳为:1. 将原始数据标准化;2. 建立变量的样本相关系数阵;3. 求的特征根为,相应的特征向量为;4. 由累积方差贡献率
9、确定主成分的个数(),并写出主成分为1.4主成分分析实例 主成分分析的一个主要用处是用来对一些部门或单位进行综合排名。 但人们在对这些部门或单位进行综合评价时都会遇到如何选择评价指标体系和如何对这些指标进行综合的困难。一般的作法是,在确定评价指标体系后,再对各指标进行加权从而得到综合分值。但是,如何对指标加权是一项具有挑战性的工作。指标加权的依据是指标的重要性,指标在评价中的重要性判断难免带有一定的主观性,这影响了综合评价的客观性和准确性。由于主成分分析能从选定的指标体系中归纳出大部分信息,根据主成分提供的信息进行综合评价,不失为一个可行的选择。这个方法是根据指标间的相对重要性进行客观加权,可
10、以避免综合评价者的主观影响,在实际应用中越来越受到人们的重视。对主成分进行加权综合。我们利用主成分进行综合评价时,主要是将原有的信息进行综合,因此,要充分的利用原始变量提供的信息。将主成分的权数根据它们的方差贡献率来确定,因为方差贡献率反映了各个主成分的信息含量多少。 设是所求出的m个主成分,它们的特征根分别是,定义权记为,由,构造综合评价函数为这里我们应该注意,从本质上说综合评价函数是对原始指标的线性综合,从计算主成分到对之加权,经过两次线性运算后得到综合评价函数。例1:表1是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是:X1:年末固定资产净值,单位:万元;X2:职工
11、人数据,单位:人;X3:工业总产值,单位:万元;X4:全员劳动生产率,单位:元/人年;X5:百元固定资产原值实现产值,单位:元;X6:资金利税率,单位:%;X7:标准燃料消费量,单位:吨;X8:能源利用效果,单位:万元/吨。表1 某市工业部门13个行业8项指标X1X2X3X4X5X6X7X8冶金9034252455101091192728216.11974350.172电力4903197320351031334.27.15920770.003煤炭6735211393767178036.18.27263960.003化学4945436241815572250498.125.93482260.98
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 补充材料一 主成分分析 补充 材料 成分 分析
限制150内