第6章主成分分析报告优秀PPT.ppt
《第6章主成分分析报告优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第6章主成分分析报告优秀PPT.ppt(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章第六章 主成分分析主成分分析第一节第一节 引言引言 第二节第二节 主成分的几何意义及数学主成分的几何意义及数学 推导推导 第三节第三节 主成分的性质主成分的性质 第四节第四节 主成分分析应用中应注意主成分分析应用中应注意 的问题的问题 第五节第五节 实例计算及实例计算及R code第一节第一节 引言引言n多元统计分析处理的是多变量(多指标)问题。多元统计分析处理的是多变量(多指标)问题。n由于变量较多,增加了分析问题的困难性由于变量较多,增加了分析问题的困难性n实际问题中,变量之间可能存在确定的相关性,因实际问题中,变量之间可能存在确定的相关性,因此,多变量中可能存在信息的重叠此,多变量
2、中可能存在信息的重叠n用较少的变量来代替原来较多的变量,并可以反映用较少的变量来代替原来较多的变量,并可以反映原来多个变量的大部分信息原来多个变量的大部分信息n“降维降维”思想思想n主成分分析主成分分析(Principal Component Analysis,PCA)是由是由Hotelling于于1933年首先提出的年首先提出的n思想:思想:n多个变量之间往往存在确定程度的相关性;多个变量之间往往存在确定程度的相关性;n通过线性组合的方式,从这些指标中尽可能多地提取信息通过线性组合的方式,从这些指标中尽可能多地提取信息n当第一个线性组合不能提取更多的信息时,当第一个线性组合不能提取更多的信息
3、时,n考虑用其次个线性组合接着提取过程,考虑用其次个线性组合接着提取过程,n,n直到所提取的信息与原指标相差不多时为止。直到所提取的信息与原指标相差不多时为止。n用较少的主成分得到较多的信息量,得到一个更低维的随机用较少的主成分得到较多的信息量,得到一个更低维的随机向量;向量;n主成分分析既可以降低数据主成分分析既可以降低数据“维数维数”又保留了原数据的大部又保留了原数据的大部分信息分信息第一节第一节 引言引言n变量变量(属性、指标属性、指标)的信息量的信息量n当一个变量只取一个常数值时,供应的信息量特别有限当一个变量只取一个常数值时,供应的信息量特别有限n取一系列不同数据时,可以从中读出最大
4、值、最小值、平均取一系列不同数据时,可以从中读出最大值、最小值、平均数等信息数等信息n变量的变异性越大,说明它对各种场景的变量的变异性越大,说明它对各种场景的“遍历性遍历性”越强,越强,供应的信息就更加充分,信息量就越大供应的信息就更加充分,信息量就越大n主成分分析中的信息主成分分析中的信息-指标的变异性指标的变异性n标准差或方差表示标准差或方差表示n主成分分析的数学模型:主成分分析的数学模型:n设设p个变量构成的个变量构成的p维随机向量为维随机向量为X=(X1,Xp)n对对X作正交变换,令作正交变换,令Y=TX,其中,其中T为正交阵,要求为正交阵,要求Y的各的各重量是不相关的,并且重量是不相
5、关的,并且Y的第一个重量的方差是最大的,其的第一个重量的方差是最大的,其次个重量的方差次之,次个重量的方差次之,n为了保持信息不丢失,为了保持信息不丢失,Y的各重量方差和与的各重量方差和与X的各重量方差的各重量方差和相等和相等第一节第一节 引言引言其次节其次节 主成分的几何意义主成分的几何意义及数学推导及数学推导 一一 主成分的几何意义主成分的几何意义 二二 主成分的数学推导主成分的数学推导 一、主成分的几何意义一、主成分的几何意义n正交变换正交变换=坐标旋转坐标旋转n考虑二维空间:考虑二维空间:n假设共有假设共有n个样品,每个样品都测量了两个指标个样品,每个样品都测量了两个指标(X1,X2)
6、,它,它们大致分布在一个椭圆内们大致分布在一个椭圆内n事实上,散点的分布总有可能沿着某一个方向略显扩张,这事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向个方向就把它看作椭圆的长轴方向n在坐标系在坐标系x1Ox2中,单独看这中,单独看这n个点的重量个点的重量X1和和X2,它们沿,它们沿着着x1方向和方向和x2方向都具有较大的离散性,其离散的程度可以方向都具有较大的离散性,其离散的程度可以分别用分别用X1的方差和的方差和X2的方差测定的方差测定n假如仅考虑假如仅考虑X1或或X2中的任何一个重量,那么包含在另一重中的任何一个重量,那么包含在另一重量中的信息将会损失
7、,因此,干脆舍弃某个重量不是量中的信息将会损失,因此,干脆舍弃某个重量不是“降维降维”的有效方法的有效方法图图 主成分的几何意义主成分的几何意义 一、主成分的几何意义一、主成分的几何意义一、主成分的几何意义一、主成分的几何意义n nn个点在新坐标系下的坐标个点在新坐标系下的坐标Y1和和Y2几乎不相关几乎不相关nY1和和Y2为原始变量为原始变量X1和和X2的综合变量的综合变量nn个点在个点在y1轴上的方差达到最大,在此方向上包含了有关轴上的方差达到最大,在此方向上包含了有关n个个样品的最大量信息样品的最大量信息n欲将二维空间的点投影到某个一维方向上,则选择欲将二维空间的点投影到某个一维方向上,则
8、选择y1轴方向轴方向能使信息的损失最小能使信息的损失最小n称称Y1为第一主成分,称为第一主成分,称Y2为其次主成分为其次主成分n第一主成分的效果与椭圆的形态有很大的关系第一主成分的效果与椭圆的形态有很大的关系:n椭圆越是扁平,椭圆越是扁平,n个点在个点在y1轴上的方差就相对越大,在轴上的方差就相对越大,在y2轴轴上的方差就相对越小上的方差就相对越小n用第一主成分代替全部样品所造成的信息损失也就越小用第一主成分代替全部样品所造成的信息损失也就越小 一、主成分的几何意义一、主成分的几何意义n考虑两种极端的情形:考虑两种极端的情形:n椭圆的长轴与短轴的长度相等,即椭圆变成圆:椭圆的长轴与短轴的长度相
9、等,即椭圆变成圆:n第一主成分只含有二维空间点约一半信息第一主成分只含有二维空间点约一半信息n若仅用这一个综合变量,则将损失约若仅用这一个综合变量,则将损失约50的信息的信息n缘由是:缘由是:n原始变量原始变量X1和和X2的相关程度几乎为零的相关程度几乎为零n它们所包含的信息几乎不重叠它们所包含的信息几乎不重叠n椭圆扁平到了极限,变成椭圆扁平到了极限,变成y1轴上的一条线:轴上的一条线:n第一主成分包含二维空间点的全部信息第一主成分包含二维空间点的全部信息n仅用这一个综合变量代替原始数据不会有任何的信息损失仅用这一个综合变量代替原始数据不会有任何的信息损失n主成分分析效果最志向主成分分析效果最
10、志向n其次主成分不包含任何信息,舍弃它没有信息损失其次主成分不包含任何信息,舍弃它没有信息损失一、主成分的几何意义一、主成分的几何意义二、主成分的数学推导二、主成分的数学推导考虑如下线性变换:考虑如下线性变换:用矩阵表示为:用矩阵表示为:二、主成分的数学推导二、主成分的数学推导二、主成分的数学推导二、主成分的数学推导二、主成分的数学推导二、主成分的数学推导二、主成分的数学推导二、主成分的数学推导二、主成分的数学推导二、主成分的数学推导二、主成分的数学推导二、主成分的数学推导第三节第三节 主成分的性质主成分的性质 一一 主成分的一般性质主成分的一般性质 二二 主成分的方差贡献率主成分的方差贡献率
11、 一、主成分的一般性质一、主成分的一般性质 一、主成分的一般性质一、主成分的一般性质 一、主成分的一般性质一、主成分的一般性质 一、主成分的一般性质一、主成分的一般性质 二、主成分的方差贡献率二、主成分的方差贡献率n主成分分析的目的是削减变量的个数,所以一般不会运用全主成分分析的目的是削减变量的个数,所以一般不会运用全部主成分的,忽视一些带有较小方差的主成分将不会给总方部主成分的,忽视一些带有较小方差的主成分将不会给总方差带来太大的影响差带来太大的影响 二、主成分的方差贡献率二、主成分的方差贡献率n例例 设设X=(X1,X2,X3)的的协协方差矩方差矩阵为阵为其特征其特征值为值为1=5.83,
12、2=2.00,3=0.17相相应应的特征向量的特征向量为为若只取一个主成分,若只取一个主成分,则贡则贡献率献率为为5.83/(5.83+2.00+0.17)=0.72875=72.875%nY1对对第三个第三个变变量的量的因子因子载载荷量荷量为为零零X3与与X1和和X2都不相关,在都不相关,在Y1中未包含有关中未包含有关X3的信息的信息n仅仅取一个主成分就取一个主成分就显显得不得不够够了,故了,故应应再取再取Y2累累计贡计贡献率献率为为(5.83+2.00)/8=97.875%(Y1,Y2)对每个原始变量的相关系数i(Y1,Xi)(Y2,Xi)10.9250.00020.9980.00030.
13、0001.000三、主成分的三、主成分的说说明明n主成分分析成功与否取决于主成分是否有意主成分分析成功与否取决于主成分是否有意义义n载载荷荷n由由Yk=tk1X1+tk2X2+tkpXp 称称tki为为第第k主成主成分分Yk在第在第i个原始个原始变变量量Xi上的上的载载荷,它度量了荷,它度量了Xi对对Yk的重要程度的重要程度n在在说说明主成分明主成分时时,须须要考察要考察载载荷大小荷大小n方差大的那些方差大的那些变变量与具有大特征量与具有大特征值值的主成分有的主成分有较亲较亲密的密的联联系,而方差小的另一些系,而方差小的另一些变变量与具有小特征量与具有小特征值值的主成分有的主成分有较较强强的的
14、联联系系n通常取前几个主成分,因此所取主成分会通常取前几个主成分,因此所取主成分会过过于照看于照看方差大的方差大的变变量,而量,而对对方差小的方差小的变变量却照看得不量却照看得不够够n例例 设设X=(X1,X2,X3)的的协协方差矩方差矩阵为阵为经计经计算,算,的特征的特征值值及特征向量及特征向量为为1=109.793,2=6.469,3=0.738 相相应应的主成分分的主成分分别为别为Y1=0.305X1+0.041X2+0.951X3Y2=0.944X1+0.120X20.308X3Y3=0.127X1+0.992X20.002X3方差大的原始方差大的原始变变量量X3在很大程度上限制了第一
15、主成在很大程度上限制了第一主成分分Y1,方差小的原始,方差小的原始变变量量X2几乎完全限制了第三主几乎完全限制了第三主成分成分Y3,方差介于中,方差介于中间间的的X1则则基本限制了其次主成基本限制了其次主成分分Y2.Y1的的贡贡献率献率为为高高贡贡献率献率归归因于因于X3的方差比的方差比X1和和X2的方差大得多的方差大得多另外,另外,Y1与与X1,X3的相关系数的相关系数远远大于与大于与X2的相关系的相关系数数第四节第四节 主成分分析主成分分析应用中应留意的问题应用中应留意的问题 一一 实际应用中主成分分析的出发点实际应用中主成分分析的出发点 二二 主成分的合理选择与解释主成分的合理选择与解释
16、 三三 如何利用主成分分析进行综合评价如何利用主成分分析进行综合评价 一、实际应用中主成分分析的动身点一、实际应用中主成分分析的动身点n变量单位的影响变量单位的影响n主成分计算从协方差阵动身,变量单位的变更会产生不同的主成分计算从协方差阵动身,变量单位的变更会产生不同的主成分主成分n“大数吃小数大数吃小数”n主成分倾向于多归纳方差大的变量的信息主成分倾向于多归纳方差大的变量的信息n标准化处理标准化处理n从相关阵求得的主成分与协差阵求得的主成分一般从相关阵求得的主成分与协差阵求得的主成分一般状况是不相同的状况是不相同的n这种差异有时很大这种差异有时很大n实际应用中:实际应用中:n假如各指标之间的
17、数量级相差悬殊,特殊是各指标假如各指标之间的数量级相差悬殊,特殊是各指标有不同的物理量纲的话,较为合理的做法是运用有不同的物理量纲的话,较为合理的做法是运用R代替代替n接受接受R代替代替后,可以看作是用标准化的数据做分析,后,可以看作是用标准化的数据做分析,这样使得主成分有现实意义,便于剖析实际问题,这样使得主成分有现实意义,便于剖析实际问题,又可以避开突出数值大的变量又可以避开突出数值大的变量一、实际应用中主成分分析的动身点一、实际应用中主成分分析的动身点n 一、实际应用中主成分分析的动身点一、实际应用中主成分分析的动身点n上例化上例化为为相关相关阵动阵动身身计计算算.X的相关矩的相关矩阵阵
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 报告 优秀 PPT
限制150内