主成分分析.ppt
《主成分分析.ppt》由会员分享,可在线阅读,更多相关《主成分分析.ppt(89页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第五章 主成分分析n 在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标(变量),例如多元回归分析,判别分析。选择多个指标容易产生了如下问题:n 一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,n 另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。第五章 主成分分析n 基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。那么有什么解决方法呢?n 方法1 直接删除变量法n 方法2 逐步法删选变量
2、。例如:逐步回归法和逐步判别法n 方法3 指标系统聚类法n 方法4 主成分分析法,例如:主成分回归等n 下面来学习主成分分析的相关理论第五章 主成分分析n 主成分分析(principal components analysis)也称主分量分析,是由霍特林(Hotelling)于1933年首先提出的。n 主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。n 通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。第五章 主成分分析n 在研究复杂问题时就可以只考虑
3、少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。第五章 主成分分析 本章主要介绍主成分分析的基本理论和方法、主成分分析的计算步骤及主成分分析的上机实现。n 学习目标n 1.理解主成分分析的基本理论与方法;n 2.了解主成分的性质;n 3.理解主成分的求解方法;n 4.掌握用SPSS软件求解主成分的方法;n 5.正确理解软件输出结果并对结果进行分析。第五章 主成分分析 本章内容安排n 5.1 主成分分析的基本思想与理论n 5.2 主成分分析的几何意义n 5.3 总体主成分及其性质n 5.4 样本主成分的导出n 5.5 有
4、关问题的讨论n 5.6 主成分分析步骤及框图n 5.7 主成分分析的上机实现5.1 主成分分析的基本思想与理论n 5.1.1 主成分分析的基本思想主成分分析的基本思想n 5.1.2 主成分分析的基本理论主成分分析的基本理论5.1.1 主成分分析的基本思想n 主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的一种多元统计方法。n 主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。n 既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构
5、关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。5.1.1 主成分分析的基本思想n 一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:n 1.每一个主成分都是各原始变量的线性组合;n 2.主成分的数目大大少于原始变量的数目;n 3.主成分保留了原始变量绝大多数信;n 4.各主成分之间互不相关n 通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研
6、究工作引向深入。5.1.2 主成分分析的基本理论 设对某一事物的研究涉及个 指标,分别用 表示,这个 指标构成的 维随机向量为设随机向量 的均值为 ,协方差矩阵为 。pPXXX,21),(21pXXXXXpp 对 进行线性变换,可以形成新的综合变量,用 表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足下式:XY1111212121212222p1122 5.1YpppppppppYu Xu Xu XYu Xu XuXu XuXuXL L L()5.1.2 主成分分析的基本理论n 由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量的统计特性也不尽相同。因此为了取
7、得较好的效果,我们总是希望 的方差尽可能大且各 之间互相独立,由于 n 而对任给的常数 ,有n 因此对 不加限制时,可使 任意增大,问题将变得没有意义。我们将线性变换约束在下面的原则之下:XuiiYiY( )()iiiiVar YVar u Xuuc2()iiiiiiVar cu Xcuu cc uuiu( )iVar Y5.1.2 主成分分析的基本理论n 1. ,即 。n 2. 和 相互无关 。n 3. 是 的一切满足原则1的线性组合中方差最大者; 是与 不相关 的所有线性组合中方差最大者;, 是与 都不相关的 所有线性组合中方差最大者。n 基于以上三条原则决定的综合变量 分别称为原始变量的
8、第一、第二、第 个主成分。其中,各综合变量在总方差中占的比重依次递减。在实际研究工作中,通常只挑选前几个方差最大的主成分,从而达到简化系统结构,抓住问题实质的目的。1iiu u222121(1,2,. )iipiuuuipiYjY(; ,1,2,. )iji jp1Y1,pXX2Y1Y1,pXXpY11,pYY1,pXX1,pYYp5.2 主成分分析的几何意义n 由第一节的介绍我们知道,在处理涉及多个指标问题的时候,为了提高分析的效率,可以不直接对 个指标构成的 维随机向量 进行分析,而是先对向量 进行线性变换,形成少数几个新的综合变量 使得各综合变量之间相互独立且能解释原始变量尽可能多的信息
9、,这样,在以损失很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。这一节,我们着重讨论主成分分析的几何意义,为了方便,我们仅在二维空间中讨论主成分的几何意义,所得结论可以很容易地扩展到多维的情况。 pp12(,)pXXXXX1,pYY5.2 主成分分析的几何意义n 设有 个样品,每个样品有两个观测变量 ,这样,在由变量 组成的坐标空间中, 个样品点散布的情况如带状,见图5-1。N21,XX21,XXN图图5-15-15.2 主成分分析的几何意义 由图可以看出这 个样品无论沿 轴方向还是沿 轴方向均有较大的离散性,其离散程度可以分别用观测变量 的方差和 的方差定量地表示,显然,若
10、只考虑 和 中的任何一个,原始数据中的信息均会有较大的损失。我们的目的是考虑 和 的线性组合,使得原始样品数据可以由新的变量 和 来刻画。 在几何上表示就是将坐标轴按逆时针方向旋转 角度,得到新坐标轴 和 ,坐标旋转公式如下: 其矩阵形式为: 其中, 为旋转变换矩阵,由上式可知它是正交阵,即满足 。N1X2X1X2X1X2X1X2X1Y2Y1Y2Ycossinsincos212211XXYXXY1122cossinsincosYXYXU XUIUU,UU15.2 主成分分析的几何意义n 经过这样的旋转之后, 个样品点在 轴上的离散程度最大,变量 代表了原始数据绝大部分信息,这样,有时在研究实际
11、问题时,即使不考虑变量 也无损大局。n 因此,经过上述旋转变换就可以把原始数据的信息集中到 轴上,对数据中包含的信息起到了浓缩的作用。进行主成分分析的目的就是找出转换矩阵 ,而进行主成分分析的作用与几何意义也就很明了了。N1Y1Y2Y1YU5.2 主成分分析的几何意义n 下面我们用遵从正态分布的变量进行分析,以使主成分分析的几何意义更为明显。为方便,我们以二元正态分布为例。对于多元正态总体的情况,有类似的结论。5.2 主成分分析的几何意义n 设变量 遵从二元正态分布,分布密度为:n 令 为变量 的协方差矩阵,其形式如下:n 令n 则上述二元正态分布的密度函数有如下矩阵形式:21XX 、)()(
12、2)()1 (21exp121),(2222122112221222112222122121XXXXXXf21XX 、2221212121XXX5.2 主成分分析的几何意义n 考虑 ( 为常数),为方便,不妨设 上式有如下展开形式:n 令 ,则上面的方程变为:)()(2/12/1211|21),(XXeXXf21)()(dXXd0 222222112112211dXXXX222111/,/XZXZ).1 (222222121dZZZZ5.2 主成分分析的几何意义n 这是一个椭圆的方程,长短轴分别为:n 又令 为 的特征值, 为相应的标准正交特征向量, ,则 为正交阵。 ,有 。因此有:21d1
13、2012, 12( ,) PP120011,PPP P21111 12212222212121212()() () ()11 ()11 ()()dYY X X X X0X P P XXXXX5.2 主成分分析的几何意义n 与上面一样,这也是一个椭圆方程,且在 构成的坐标系中,其主轴的方向恰恰正是 坐标轴的方向。因为 ,所以, 就是原始变量 的两个主成分,它们的方差分别为 ,在 方向上集中了原始变量 的变差,在 方向上集中了原始变量 的变差,经常有 远大于 ,这样,我们就可以只研究原始数据在 方向上的变化而不致于损失过多信息,而 就是椭圆在原始坐标系中的主轴方向,也是坐标轴转换的系数向量。对于多
14、维的情况,上面的结论依然成立。12,YY1122 ,YY XX12,XX1Y12Y12, 212,YY12,YY12, 121Y5.2 主成分分析的几何意义n 这样,我们就对主成分分析的几何意义有了一个充分的了解。主成分分析的过程无非就是坐标系旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐标轴的方向就是原始数据变差最大的方向。n 由上面的讨论可知,求解主成分的过程就是求满足三条原则的原始变量 的线性组合的过程。本节先从总体出发,介绍求解主成分的一般方法及主成分的性质,然后介绍样本主成分的导出。n 5.3节先从总体出发,介绍求解主成分的一般方法及主成分的性质,然后
15、5.4介绍样本主成分的导出。1,pXX5.3 总体主成分及其性质n 5.3.1 从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分n 5.3.2 从协方差矩阵求主成分时主成分的性质从协方差矩阵求主成分时主成分的性质n 5.3.3 从相关阵出发求解主成分从相关阵出发求解主成分 n 5.3.4 由相关阵求主成分时主成分性质由相关阵求主成分时主成分性质 5.3.1 总体主成分n 主成分分析的基本思想就是在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。n 而这里对于随机变量 而言,其协方差矩阵或相关系数矩阵正是对各变量离散程度与变量之间的相关程度的信息的
16、反应,而相关系数矩阵不过是将原始变量标准化后的协方差矩阵。我们所说的保留原始变量尽可能多的信息,也就是指的生成的较少的综合变量(主成分)的方差生成的较少的综合变量(主成分)的方差和尽可能接近原始变量方差的总和。和尽可能接近原始变量方差的总和。1,pXX5.3.1 总体主成分n 因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。一般地说,从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的。下面我们分别就协方差矩阵与相关矩阵进行讨论。5.3.1从协方差矩阵出发求解主成分n (1)从协方差矩阵出发求解主成分 引论:引论:设 阶对称矩阵
17、,将 的特征值 依大小顺序排列,不妨设 为矩阵 各特征值对应的标准正交特征向量,则对任意向量 ,有: 证明略。 12,n AA1212,nn 100max min (5.2)nXxx Axx Axx xx xAAxn5.3.1从协方差矩阵出发求解主成分n 结论:结论:设随机向量 的协方差矩阵为 (p阶对称阵), 为 的特征值, 为矩阵 各特征值对应的标准正交特征向量,则第i个主成分为:此时:令:12(,.)pX XXX12pp pcov( ,)0.,()ijijY Yijvar( ),();iiiiYij1122 (1,2,., )iiipipYXXXip12,p 12( ,)pdiag 12
18、( ,),pP 5.3.1从协方差矩阵出发求解主成分n 由以上结论,我们把 的协方差矩阵 的非零特征值 对应的标准化特征向量 分别作为系数向量, 分别称为随机向量 的第一主成分、第二主成分、第 主成分。 的分量 依次是 的第一主成分、第二主成分、第 主成分的充分必要条件是:n (1) ,即 为 阶正交阵;n (2) 的分量之间互不相关,即 ;n (3) 的 个分量是按方差由大到小排列。12,PY YYX1122 , ,ppYYY XXX120p1,pXXYpXp, 1YXPPPPppYY12,p 12( )( ,)pD Ydiag 5.3.1从协方差矩阵出发求解主成分n 注意:无论 的各特征根
19、是否存在相等的情况,对应的标准化特征向量 总是存在的,我们总可以找到对应各特征根的彼此正交的特征向量。这样,求主成分的问题就变成了求特征根与特征向量的问题。n 于是随机向量 与随机向量 之间存在下面的关系式:12,p XY1122/12 ppiiipiXXPXYXMMK1233 32123X=(X ,X ,X )120=250002X12012250(2)( 1)25002(2)(1)(5)4)(2)(61)038,2,38,E 例 设随机向量的协方差阵为试求 的主成分。解123()01 38200253800000238282022 2202280222 200018001 2 212101
20、2101210001001000(12)E xxxxx 确定特征向量12213310(12)001, 2.414,0 xxxxx 11112311223312=0.383, 0.924,0= 0,0,1 ,0.924,0.383.00.3830.9240.9240.383YXXYXYXX 单位化同理故主成分为123X=(X ,X ,X )411= 141114X设随机向量的协方差阵为试求 的主成分。1231236,3111,33322,02222,0,22 5.3.2 主成分的性质n (2)从协方差矩阵出发求解主成分的性质n 性质1 的协方差阵为对角阵 。n 性质2 记 ,有 。n 定义 5.
21、1 称 为第 个主成 分 的方差贡献率,称 为主成分 的累积方差贡献率。()ijp p11ppiiiiiY12,mY YY11miipiikYk12,(1,2, )kkpkp5.3.2 主成分的性质n 由此进一步可知,主成分分析是把 个随机变量的总方差 分解为 个不相关的随机变量的方差之和,使第一主成分的方差达到最大。第一主成分是以变化最大的方向向量各分量为系数的原始变量的线性函数最大方差为 。 表明了 的方差在全部方差中的比值,称 为第一主成分的贡献率。这个值越大,表明这个新变量 综合 信息的能力越强,也即由 的差异来解释随机向量 的差异的能力越强。 正因如此,才把 称为 的主成分。进而我们
22、就更清楚为什么主成分的名次是按特征根 取值的大小排序的。 p1piiip111i1111YX12,pX XX1XX1YX12,p 5.3.2 主成分的性质n 进行主成分分析的目的之一是为了减少变量的个数,所以一般不会取 个主成分,而是取 个主成分, 取多少比较合适,这是一个很实际的问题,通常以所取 使得累积贡献率达到85以上为宜,即n 这样,既能使损失信息不太多,又达到减少变量,简化问题的目的。n 另外,选取主成分还可根据特征值的变化来确定。图5-2为SPSS统计软件生成的碎石图。 1185% (5.5)miipiimmppm5.3.2 主成分的性质n 由图5-2可知,第二个及第三个特征值变化
23、的趋势已经开始趋于平稳,所以,取前两个或是前三个主成分是比较合适的。这种方法确定的主成分个数与按累积贡献率确定的主成分个数往往是一致的。在实际应用中有些研究工作者习惯于保留特征值大于1的那些主成分。图图5-25-25.3.2 主成分的性质n 定义5.2 第 个主成分 与原始变量 的相关系数 称做因子负荷量。n 因子负荷量是主成分解释中非常重要的解释依据,因子负荷量的绝对值大小刻画了该主成分的主要意义及其成因。在下一章因子分析中还将要对因子负荷量的统计意义给出更详细的解释。由下面的性质我们可以看到因子负荷量与系数向量成正比。kY(,)kiY XiXk5.3.2 主成分的性质n 性质3 由性质3知
24、:因子负荷量与向量系数成正比,与 的标准差成反比关系,因此,绝不能将因子负荷量与向量系数混为一谈。在解释主成分的成因或是第i个变量对第k个主成分的重要性时,应当根据因子负荷量而不能仅仅根据与的变换系数。n 性质4n 性质522111(,)1ppkikkikkiiY X 21(,)pkiiikiY X(,)/ ,1,2, (5.6)kiikkiiY Xk ipiX5.3.2 主成分的性质n 定义5.3 与前 个主成分 的全相关系数平方和称为 对原始变量 的方差贡献率 ,即n 这一定义说明了前 个主成分提取了原始变量 中 的信息,由此我们可以判断我们提取的主成分说明原始变量的能力。211 1,2,
25、 (5.9)mikkikiivip iviX12,mY YYm12,mY YYiXmiXiv5.3.3 从相关矩阵出发求解主成分从相关矩阵出发求解主成分n 考虑如下的数学变换: n 令n 其中, 与 分别表示变量 的期望与方差。于是有n 令n 于是,对原始变量 进行标准化:,1,2,iiiiiXZipiiiiX()0 var()1iiE ZZ11221/2000000ppX1/21() ()ZX5.3.2从相关矩阵出发求解主成分从相关矩阵出发求解主成分n 经过上述标准化后,显然有( ) ( )iEZ01211221/211/211211( ) cov( )()()1ppppiiR Z5.3.3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析
限制150内