多元统计分析讲义(第四章).doc





《多元统计分析讲义(第四章).doc》由会员分享,可在线阅读,更多相关《多元统计分析讲义(第四章).doc(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上注意电子文档使用范围Equation Chapter 1 Section 1多 元 统 计 分 析Multivariate Statistical Analysis主讲:统计学院 许启发(xuqifa1975)统计学院应用统计学教研室School of Statistics2004年9月第三章 主成分分析【教学目的】1 让学生了解主成分分析的背景、基本思想;2 掌握主成分分析的基本原理与方法;3 掌握主成分分析的操作步骤和基本过程;4 学会应用主成分分析解决实际问题。【教学重点】1 主成分分析的几何意义;2 主成分分析的基本原理。1 概述一、 什么是主成分分析1研究背
2、景在实际问题的研究中,为了全面分析问题,往往涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同。实际上,在很多情况下,众多变量间有一定的相关关系,人们希望利用这种相关性对这些变量加以“改造”,用为数较少的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析及典型相关分析便是在这种降维的思维下产生的处理高维数据的统计方法。本章主要介绍主成分分析。主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使
3、它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。概括地说,主成分分析(principal component analysis)就是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。主成分概念最早是由Karl Parson于1901年引进的,1933年Hotelling把这个概念推广到随机向量。在实践中,主成分分析既可以单独使用,也可和其它方法结合使用,如主成分回归
4、可克服多重共线性。2基本思想及意义哲学理念:抓住问题的主要矛盾。主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。通常数学上的处理就是将这个指标进行线性组合作为新的综合指标。问题是:这样的线性组合会很多,如何选择?如果将选取的第一个线性组合即第一个综合指标记为,希望它能尽可能多地反映原来指标的信息,即越大,所包含的原指标信息 度量信息最经典的方差是方差。就越多,的方差应该最大,称为第一主成分。如果第一主成分不足以代表原来个指标的信息,再考虑选取即选择第二个线性组合。为了有效地反映原来的信息,中已包含的信息,无须出现在中,即,称为第二主成分。仿此可以得到个主成分。我们
5、可以发现这些主成分之间互不相关且方差递减,即数据的信息包含在前若干个主成分中,因而只需挑选前几个主成分就基本上反映了原始指标的信息。这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的解决。二、 主成分分析的数学模型及几何意义1数学模型(总体主成分)设有个样品,每个样品观测个指标:,得到原始数据资料阵:。其中,。其协方差矩阵为它是一个阶半正定矩阵。设为个常数向量,考虑如下的线性组合 简记为易知有如果我们希望用代替原来p个变量,这就要求尽可能地反映原p个变量的信息。这里,“信息”用的方差来度量,即越大,表示所含的中的信息越多。但由方差的表达式可知,必须对加以限制,否则无界。而最方便的限制是要
6、求所有具有单位长度,即因此,我们希望在约束条件之下,求使达到最大,由此所确定的随机变量称为的第一主成分。如果第一主成分还不足以反映原变量的信息,考虑采用。为了有效地反映原变量的信息,中已有的信息就不必要再包含在中,用统计的语言来讲,要求与不相关,即于是,在约束条件及之下,求使达到最大,由此所确定的随机变量称为的第二主成分。一般地,在约束条件及之下,求使达到最大,由此所确定的随机变量称为的第主成分。2主成分的几何意义从代数学观点看主成分就是的一些特殊的线性组合,而在几何上这些线性组合正是把构成的坐标系旋转产生的新的坐标系,新坐标系使之通过样品方差最大化方向。下面以二元正态变量为例说明主成分的几何
7、意义。当时,原变量是,设,它们有下图的相关关系:对于二元正态变量,个点的散布大致是一个椭圆,在其长轴方向取坐标轴,在其短轴方向取坐标轴。这相当于在平面上作一坐标变换,即按逆时针方向旋转角度,得或这里的为正交矩阵,即。因此,在坐标系中有如下性质:(1)和为的线性组合;(2)与不相关;(3)与的总方差大部分归结为轴上,而轴上很少。几何意义:一般情况,个变量组成维空间,个样品点就是维空间的个点,对元正态分布变量来说,找主成分的问题就是找维空间中椭球体的主轴问题。2 主成分的推导及性质这里首先从理论上给出总体主成分,探讨总体主成分的性质,而后再给出样本主成分。一、 总体主成分1总体主成分的推导设,其中
8、且,。求主成分的过程就是寻找的线性组合,使相应的方差尽可能地大的过程。设协差阵的特征根为,相应的正交单位特征向量为,则因此,所以,而事实上,当时有由此可知,在约束条件之下,当时,使达到最大值,且。同理可求,且结论:的主成分就是以的特征向量为系数的线性组合,它们互不相关,其方差为的特征根,主成分的名次是按照特征根大小的顺序排列的。2总体主成分的性质性质1:设为的主成分,则其协差阵为由的协差所对应特征根组成的对角阵。性质2:。证明:。NOTE:此性质说明各变量方差之和等于各个主成分的方差之和,即。因此,描述了第个主成分提取的信息占总信息量的份额。为此,可以给出方差贡献率和方差累积贡献率的定义。定义
9、:称为第个主成分的方差贡献率,称为前个主成分的方差累积贡献率。累积贡献率表明了前个主成分提取了中的总信息量的份额。在实际应用中,通常选取,使前个主成分的累积贡献率达到一定的比例(如85%)。这样用前个主成分代替原来的变量而不至于损失太多的信息,从而达到减少变量个数的目的。性质3:。证明:因为, 这里为第个分量为1其余分量为0的单位向量。并且使用了这个结论。所以,。3标准化变量的主成分 一个总体往往由个变量所组成,代表不同性质的个指标,具有不同的计量单位,使得主成分方差的大小取决于量纲的选择,从而导致各主成分方差大小排序的偏误。实施标准化后,使得不同变量或指标反映信息量的大小具有可比性。在实际问
10、题中,不同的变量往往有不同的量纲,由于不同的量纲会引起个变量取值的分散程度差异较大,这时,总体方差则主要受方差较大的变量的控制。若用求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令其中,。这时,的协方差矩阵便是的相关矩阵,其中利用的相关矩阵作主成分分析,平行于前面的结论,可以有如下的定理。定理:设为标准化的随机向量,其协方差矩阵(即的相关矩阵)为,则的第个主成分并且其中为相关矩阵的特征值,为相应的正交单位化特征向量。这时,第个主成分的贡献为,前个主成分的累积贡献为。4标准化和非标准化数据的主成分例:设协方差矩阵和对
11、应的相关矩阵分别为,如果从出发作主成分分析,易求得其特征值和相应的单位正交化特征向量为,则的两个主成分分别为,第一主成分的贡献率为我们看到由于的方差很大,它完全控制了提取信息量占99.2%的第一主成分(在中的系数为0.999),淹没了变量的作用。如果从相关矩阵出发求主成分,可求得其特征值和相应的单位正交化特征向量为,则的两个主成分分别为此时,第一个主成分的贡献率有所下降,为。由此看到,原变量在第一主成分中的相对重要性由于标准化而有很大的变化。在由所求得的第一主成分中的,和的权重系数分别为0.040和0.999,主要由大方差的变量控制。而在由所求得的第一主成分中,和的权重系数反而成了0.707和
12、0.0707,即的相对重要性得到提升。此例也表明,由和求得的主成分一般是不相同的,而且,其中一组主成分也不是第二组主成分的某简单函数。在实际应用中,当涉及的各变量的变化范围差异较大时,从出发求主成分比较合理。二、 样本主成分1样本主成分的导出面讨论的是总体主成分,但在实际问题中,一般(或)是未知的,需要通过样本来估计。设为取处的一个容量为的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为:其中,分别以和作为和的估计,按照前面所述方法,从样本协差阵和相关阵出发求出的主成分称为样本主成分。定理:设是样本协方差矩阵,其特征值为,相应的正交单位化特征向量为,则第个样本主成分为其中为的任一观测值。当依
13、次代入的个观测值时,便得到第个样本主成分的个观测值。这时这时,第个样本主成分的贡献率定义为:。同时为了消除量纲的影响,我们可以对样本进行标准化,即令则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵。由出发所得的样本主成分称为标准化样本主成分。只要求出的特征值及相应的单位正交化特征向量,类似上述结果可求得标准化样本主成分。这时标准化样本的样本总方差为。证明:对于标准化数据矩阵,样本相关矩阵为,其中为相关矩阵的单位正交特征向量所组成的矩阵其特征根分别为,满足。现在考察从而新变量的样本方差为,即对于有最大的方差;有次大的方差,。并且协方差为由于所以,新变量的样本协方差结论:由推导过程可以看到,由
14、变量,经过正交变换得到的新变量不仅彼此不相关,而且它们的方差是特征根。这表明新变量就是所寻求的主成分,为了书写的方便用来表示。2样本主成分的性质性质1:第个主成分的系数向量是第个特征根所对应的标准化特征向量,即若,则性质2:第个主成分的方差为第个特征根,且任意两个主成分都是不相关的,也就是主成分的样本协方差矩阵是对角矩阵。性质3:样本主成分的总方差等于原变量样本的总方差,即事实上,性质4:第个主成分与第个变量样本之间的相关系数为:, 证明过程详见孙慧钧P99。性质4表明特征向量的第个分量描述了第个变量对第个主成分的重要性。习惯上称主成分与变量的相关系数为中变量的载(负)荷量。性质5:第个主成分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 讲义 第四

限制150内