主成分分析的原理与实现精选课件.ppt
《主成分分析的原理与实现精选课件.ppt》由会员分享,可在线阅读,更多相关《主成分分析的原理与实现精选课件.ppt(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于主成分分析的原理与实现1第一页,本课件共有44页2假定你是一个公司的财务经理,掌握了公司的假定你是一个公司的财务经理,掌握了公司的所有数据,这包括所有数据,这包括众多的变量众多的变量,比如,比如固定资产、固定资产、流动资金、每一笔借贷的数额和期限、各种税流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等职工人数、职工的分工和教育程度等等。如果让你向上级或有关方面介绍公司状况,你如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都能够把这些指标和数字都原封不动地摆出去吗原封不
2、动地摆出去吗?引子引子第二页,本课件共有44页3当然不能。当然不能。汇报什么?汇报什么?发现在如此多的变量之中,有很多是相关发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的的。人们希望能够找出它们的少数少数“代表代表”来对它们进行描述。来对它们进行描述。需要把这种有需要把这种有很多变量很多变量的数据进行高度概括,的数据进行高度概括,用少数几个指标简单明了地把情况说清楚。用少数几个指标简单明了地把情况说清楚。第三页,本课件共有44页4主成分分析(主成分分析(Principal Components Analysis)和因子分)和因子分析(析(Factor Analysis)就是把变
3、量维数降低以便于描述、理解就是把变量维数降低以便于描述、理解和分析的方法。和分析的方法。主成分分析也称为主分量分析,是一种通过降维来简化数据结构主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标)的方法:如何把多个变量化为少数几个综合变量(综合指标),而这几个综合变量可以反映原来多个变量的大部分信息,所含的而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。信息又互不重叠,即它们之间要相互独立,互不相关。这些综合变量就叫因子或主成分,它是不可观测的,即这些综合变量就叫因子或主成分,它是
4、不可观测的,即它它不是具体的变量不是具体的变量(这与聚类分析不同),(这与聚类分析不同),只是几个指标的综只是几个指标的综合合。在引入主成分分析之前,先看下面的例子。在引入主成分分析之前,先看下面的例子。什么是主成分分析法?什么是主成分分析法?第四页,本课件共有44页5成绩数据成绩数据53个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史史、英英语语的的成成绩如下表(部分)。绩如下表(部分)。第五页,本课件共有44页6从本例可能提出的问题从本例可能提出的问题能能不不能能把把这这个个数数据据表表中中的的6 6个个变变量量用用一一两两个个综合变量来表示呢?综合变量来表示呢?这这一一两两
5、个个综综合合变变量量包包含含有有多多少少原原来来的的信信息息呢?呢?能能不不能能利利用用找找到到的的综综合合变变量量来来对对学学生生排排序序呢?呢?第六页,本课件共有44页7事实上,以上的三个问题在地理学研究中,也会经常事实上,以上的三个问题在地理学研究中,也会经常遇到。它遇到。它所涉及的问题可以推广到对企业、对学所涉及的问题可以推广到对企业、对学校、对区域进行校、对区域进行分析、评价、排序和分类分析、评价、排序和分类等。等。比如对比如对n个区域进行综合评价,可选的描述区域特征的个区域进行综合评价,可选的描述区域特征的指标很多,而这些指标往往存在指标很多,而这些指标往往存在一定的相关性一定的相
6、关性(既不(既不完全独立,又不完全相关),这就给研究带来很完全独立,又不完全相关),这就给研究带来很大不便。大不便。若选指标太多,会增加分析问题的难度与若选指标太多,会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉对区域影响较大复杂性,选指标太少,有可能会漏掉对区域影响较大的指标,影响结果的可靠性。的指标,影响结果的可靠性。第七页,本课件共有44页8这就需要我们在相关分析的基础上,采用这就需要我们在相关分析的基础上,采用主成分分析法找到几个主成分分析法找到几个新的相互独立的综新的相互独立的综合指标合指标,达到既减少指标数量、又能区,达到既减少指标数量、又能区分区域间差异的目的。分区域间差
7、异的目的。第八页,本课件共有44页9 二、主成分分析的基本原理二、主成分分析的基本原理第九页,本课件共有44页10(一)主成分分析的几何解释(一)主成分分析的几何解释例例中中数数据据点点是是六六维维的的;即即每每个个观观测测值值是是6维维空空间间中中的的一一个个点点。希希望望把把6维维空空间间用用低低维维空空间表示。间表示。先先假假定定只只有有二二维维,即即只只有有两两个个变变量量,语语文文成成绩绩(x1)和和数数学学成成绩绩(x2),分分别别由由横横坐坐标标和纵坐标所代表;和纵坐标所代表;每个学生都是二维坐标系中的一个点。每个学生都是二维坐标系中的一个点。第十页,本课件共有44页11空间的点
8、空间的点如如果果这这些些数数据据形形成成一一个个椭椭圆圆形形状状的的点点阵阵(这这在在二二维维正正态态的的假假定定下下是是可可能能的的)该该椭椭圆圆有有一一个个长长轴和一个短轴。在短轴方向上数据变化很少;轴和一个短轴。在短轴方向上数据变化很少;在在极极端端的的情情况况,短短轴轴如如退退化化成成一一点点,长长轴轴的的方方向向可可以以完完全全解解释释这这些些点点的的变变化化,由由二二维维到到一维的降维就自然完成了。一维的降维就自然完成了。第十一页,本课件共有44页12假定语文成绩假定语文成绩(X1)和数学成和数学成绩绩(X2)的相关的相关系数系数=0.6 。设设 X1 和和 X2 分别分别为标准化
9、后的分数,为标准化后的分数,右图为其散点图。右图为其散点图。第十二页,本课件共有44页13那么随机向量那么随机向量的方差的方差协方差矩阵为协方差矩阵为可以看出,在变量标准化的情况下的方差可以看出,在变量标准化的情况下的方差协方差矩协方差矩阵与其相关矩阵相等。阵与其相关矩阵相等。由求矩阵特征值和特征向量的方法:令由求矩阵特征值和特征向量的方法:令可以求出:可以求出:第十三页,本课件共有44页14对应的特征向量分别为:对应的特征向量分别为:显然,这两个特征向量是显然,这两个特征向量是相互正交的相互正交的单位向量。而且它们与原单位向量。而且它们与原来的坐标轴来的坐标轴 X1 和和 X2 的夹角都分别
10、等于的夹角都分别等于45。如果将坐标轴。如果将坐标轴 X1 和和 X2 旋转旋转45 ,那么点在新坐标系中的坐标(,那么点在新坐标系中的坐标(Y1,Y2)与原)与原坐标(坐标(X1,X2)有如下的关系:)有如下的关系:Y1和和Y2均是均是X1 和和 X2的线性组合的线性组合系数代表什么?系数代表什么?第十四页,本课件共有44页15在新坐标系中,在新坐标系中,可以发现:虽然可以发现:虽然散点图的形状没散点图的形状没有改变,但新的有改变,但新的随机变量随机变量 Y1 和和 Y2 已经不再相关。已经不再相关。而且大部分点沿而且大部分点沿 Y1 轴散开,在轴散开,在 Y1 轴方向的变异较轴方向的变异较
11、大(即大(即 Y1的方差的方差较大)较大),相对来,相对来说,在说,在 Y2轴方向轴方向的变异较小(即的变异较小(即 Y2 的方差较小)的方差较小)。第十五页,本课件共有44页16事实上,随机变量事实上,随机变量 Y1和和 Y2的方差分别为:的方差分别为:可以看出,可以看出,最大变动最大变动方向方向是由特征向量所决定的,而是由特征向量所决定的,而特征值则刻画了对应的方差。特征值则刻画了对应的方差。这只是我们举的一个例子,这只是我们举的一个例子,对于一般情况,数学上也能证明。对于一般情况,数学上也能证明。第十六页,本课件共有44页17在上面的例子中在上面的例子中 Y1 和和 Y2 就是原变量就是
12、原变量 X1和和 X2的第的第一主成分和第二主成分。实际上第一主成分一主成分和第二主成分。实际上第一主成分 Y1 就基本上反映了就基本上反映了 X1 和和X2 的主要信息,因为图中的的主要信息,因为图中的各点在新坐标系中的各点在新坐标系中的 Y1 坐标基本上就代表了这些点坐标基本上就代表了这些点的分布情况,因此可以选的分布情况,因此可以选 Y1 为一个新的综合变量。为一个新的综合变量。当然如果再选当然如果再选 Y2也作为综合变量,那么也作为综合变量,那么 Y1 和和 Y2 则反映了则反映了 X1 和和 X2的全部信息。的全部信息。第十七页,本课件共有44页18 从几何上看,找主成分的问题就是找
13、出从几何上看,找主成分的问题就是找出p维空维空间中椭球体的主轴问题,就是要在间中椭球体的主轴问题,就是要在x1xp的相关矩阵的相关矩阵中中m个较大特征值所对应的特征向量。个较大特征值所对应的特征向量。究竟提取几个主成分或因子,一般有两种方法:究竟提取几个主成分或因子,一般有两种方法:特征值特征值11累计贡献率累计贡献率0.80.8那么如何提取主成分呢?那么如何提取主成分呢?(二)主成分分析的基本思想(二)主成分分析的基本思想第十八页,本课件共有44页19假定有假定有n个地理样本,每个样本共有个地理样本,每个样本共有p p个变量,构成一个个变量,构成一个np阶阶的地理数据矩阵的地理数据矩阵(3.
14、5.1)综合指标如何选取呢?这些综合指标要想尽可能多地综合指标如何选取呢?这些综合指标要想尽可能多地反映原指标的信息,综合指标的表达式中要含有原指反映原指标的信息,综合指标的表达式中要含有原指标,那么我们通常是取原指标的线性组合,适当调整标,那么我们通常是取原指标的线性组合,适当调整它们的系数,使综合指标间相互独立且代表性好。它们的系数,使综合指标间相互独立且代表性好。第十九页,本课件共有44页20 定义:记定义:记x1,x2,xP为原变量指标,为原变量指标,z1,z2,zm(mp)为新变量指标)为新变量指标(3.5.2)可以看出,新指标对原指标有多个线性组合,可以看出,新指标对原指标有多个线
15、性组合,新指标对哪个原指标反映的多,哪个少,取决于它的新指标对哪个原指标反映的多,哪个少,取决于它的系数。系数系数。系数lij的确定原则:的确定原则:zi与与zk(ik;i,k=1,2,m;j=1,2,p)相互无关;)相互无关;第二十页,本课件共有44页21 z1是是x1,x2,xP的一切线性组合中方差最大的一切线性组合中方差最大者者(最能解释它们之间的变化),最能解释它们之间的变化),z2是与是与z1不相关的不相关的x1,x2,xP的所有线性组合中方差最大者的所有线性组合中方差最大者;zm是是与与z1,z2,zm1都不相关的都不相关的x1,x2,xP,的所的所有线性组合中方差最大者。有线性组
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 原理 实现 精选 课件
限制150内