主成分分析原理PPT讲稿.ppt
《主成分分析原理PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《主成分分析原理PPT讲稿.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主成分分析原理第1页,共56页,编辑于2022年,星期四内 容u 一、前一、前 言言u 二、问题的提出二、问题的提出u 三、主成分分析三、主成分分析1.二维数据的例子二维数据的例子 2.PCA的几何意义的几何意义3.均值和协方差、均值和协方差、特征值和特征向量特征值和特征向量4.PCA的性质的性质 u 四、主成分分析的算法四、主成分分析的算法u 五、具体实例五、具体实例 实例实例2u 六、六、结论结论七、七、练习练习2第2页,共56页,编辑于2022年,星期四1.前前 言言假定你是一个公司的财务经理,掌握了公司的假定你是一个公司的财务经理,掌握了公司的所有数据,比如所有数据,比如固定资产、流动
2、资金、每一笔固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等的分工和教育程度等等。如果让你介绍公司状况,你能够把这些指标和数如果让你介绍公司状况,你能够把这些指标和数字都字都原封不动地摆出去吗原封不动地摆出去吗?当然不能当然不能。实例实例1 实例实例2你必须要把各个方面作出你必须要把各个方面作出高度概括高度概括,用一两个指用一两个指标简单明了地把情况说清楚。标简单明了地把情况说清楚。l汇报什么?汇报什么?3第3页,共56页,编辑于2022
3、年,星期四PCA多变量问题是经常会遇到的。多变量问题是经常会遇到的。变量太多,无疑会增加分析问题变量太多,无疑会增加分析问题的难度与复杂性的难度与复杂性.在许多实际问题中,多个变量之间是具有一定的相关关系的。在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,能否在各个变量之间相关关系研究的基础上,用因此,能否在各个变量之间相关关系研究的基础上,用较少的较少的新变量代替原来较多的变量新变量代替原来较多的变量,而且使这些较少的新变量,而且使这些较少的新变量尽可能多地尽可能多地保留原来较多的变量所反映的信息保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的?事实上,这种想法是可以
4、实现的.主成分分析原理主成分分析原理:是把原来多个变量化为少数几个综合指标的一种是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。统计分析方法,从数学角度来看,这是一种降维处理技术。主成分分析方法就是综合处理这种问题的一种强有力的方法。主成分分析方法就是综合处理这种问题的一种强有力的方法。4第4页,共56页,编辑于2022年,星期四(1)(1)如何作主成分分析如何作主成分分析?当当分分析析中中所所选选择择的的变变量量具具有有不不同同的的量量纲纲,变变量量水水平平差差异异很很大大,应应该该选选择择基基于于相相关关系系数数矩矩阵的主成分分析。阵的主成分分
5、析。在在力力求求数数据据信信息息丢丢失失最最少少的的原原则则下下,对对高高维维的的变变量量空空间间降降维维,即即研研究究指指标标体体系系的的少少数数几几个个线线性性组组合合,并并且且这这几几个个线线性性组组合合所所构构成成的的综综合合指指标标将将尽尽可可能能多多地地保保留留原原来来指指标标变变异异方方面的信息。这些综合指标就称为主成分。面的信息。这些综合指标就称为主成分。要讨论的问题是:要讨论的问题是:2.问题的提出问题的提出5第5页,共56页,编辑于2022年,星期四各个变量之间差异很大各个变量之间差异很大6第6页,共56页,编辑于2022年,星期四 (2 2)如何选择几个主成分。如何选择几
6、个主成分。主主成成分分分分析析的的目目的的是是简简化化变变量量,一一般般情情况况下下主主成成分分的的个个数数应应该该小小于于原原始始变变量量的的个个数数。关关于于保保留留几几个个主主成成分分,应应该该权权衡衡主主成成分分个个数数和保留的信息。和保留的信息。(3 3)如如何何解解释释主主成成分分所所包包含含的的几几何何意意义义或经济意义或其它。或经济意义或其它。7第7页,共56页,编辑于2022年,星期四 美美国国的的统统计计学学家家斯斯通通(Stone)(Stone)在在19471947年年关关于于国国民民经经济济的的研研究究是是一一项项十十分分著著名名的的工工作作。他他曾曾利利用用美美国国1
7、9291929一一19381938年年各各年年的的数数据据,得得到到了了1717个个反反映映国国民民收收入入与与支支出出的的变变量量要要素素,例例如如雇雇主主补补贴贴、消消费费资资料料和和生生产产资资料料、纯纯公公共共支出、净增库存、股息、利息、外贸平衡等等。支出、净增库存、股息、利息、外贸平衡等等。l在进行主成分分析后,竟以在进行主成分分析后,竟以97.4的精度,用三个新变的精度,用三个新变量就取代了原量就取代了原17个变量。个变量。实例实例1:经济分析经济分析8第8页,共56页,编辑于2022年,星期四 根根据据经经济济学学知知识识,斯斯通通给给这这三三个个新新变变量量分分别别命命名名为为
8、总总收收入入F1F1、总总收收入入变变化化率率F2F2和和经经济济发发展展或或衰衰退退的的趋趋势势F3F3。更更有有意意思思的的是是,这三个变量其实都是可以直接测量的。这三个变量其实都是可以直接测量的。9第9页,共56页,编辑于2022年,星期四 主主成成分分分分析析就就是是试试图图在在力力保保数数据据信信息息丢丢失失最最少少的的原原则则下下,对对这这种种多多变变量量的的数数据据表表进进行行最最佳佳综综合合简简化化,也也就就是是说说,对对高高维维变变量量空空间间进行降维处理。进行降维处理。很很显显然然,识识辨辨系系统统在在一一个个低低维维空空间间要要比比在一个高维空间容易得多。在一个高维空间容
9、易得多。10第10页,共56页,编辑于2022年,星期四实例实例2:成绩数据成绩数据100个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史史、英英语的成绩如下表(部分)。语的成绩如下表(部分)。11第11页,共56页,编辑于2022年,星期四从本例可能提出的问题从本例可能提出的问题目目前前的的问问题题是是,能能不不能能把把这这个个数数据据的的6 6个变量用一两个综合变量来表示个变量用一两个综合变量来表示呢?呢?这这一一两两个个综综合合变变量量包包含含有有多多少少原原来来的的信信息息呢?呢?能能不不能能利利用用找找到到的的综综合合变变量量来来对对学学生生排排序序呢呢?这这一一类类数
10、数据据所所涉涉及及的的问问题题可可以以推推广广到到对对企企业业,对对学学校校进进行行分分析析、排排序序、判判别别和分类等问题。和分类等问题。12第12页,共56页,编辑于2022年,星期四例中的的数据点是六维的;也就是说,每个观测值是例中的的数据点是六维的;也就是说,每个观测值是6维维空间中的一个点。空间中的一个点。我们希望把我们希望把6维空间用低维空间表示。维空间用低维空间表示。3.1 PCA:二维数据分析二维数据分析13第13页,共56页,编辑于2022年,星期四平均成绩73.769.861.372.577.272.36372.370单科平均成绩74.1747066.473.663.314
11、第14页,共56页,编辑于2022年,星期四15第15页,共56页,编辑于2022年,星期四 先先假假定定数数据据只只有有二二维维,即即只只有有两两个个变变量量,它它们们由由横横坐坐标标和和纵纵坐坐标标所所代代表表;因因此此每每个个观观测测值值都都有有相相应应于于这这两两个个坐坐标标轴轴的的两两个坐标值;个坐标值;如如果果这这些些数数据据形形成成一一个个椭椭圆圆形形状状的的点点阵阵(这这在在变变量量的的二二维维正正态态的的假假定定下下是是可可能能的的).16第16页,共56页,编辑于2022年,星期四3 3.2 2主主成成分分分分析析的的几几何何解解释释平移、旋转坐标轴17第17页,共56页,
12、编辑于2022年,星期四主成分分析的几何解释平移、旋转坐标轴18第18页,共56页,编辑于2022年,星期四主成分分析的几何解释平移、旋转坐标轴19第19页,共56页,编辑于2022年,星期四主成分分析的几何解释平移、旋转坐标轴20第20页,共56页,编辑于2022年,星期四3.2.PCA:进一步解释进一步解释 椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴轴。在在短短轴轴方方向向上上,数数据据变变化化很很少少;在在极极端端的的情情况况,短短轴轴如如果果退退化化成成一一点点,那那只只有有在在长长轴轴的的方方向向才才能能够够解解释释这这些些点点的的变变化化了了;这这样样,由由二二维维到到一一维维
13、的的降降维维就就自自然然完完成了。成了。21第21页,共56页,编辑于2022年,星期四二维数据二维数据22第22页,共56页,编辑于2022年,星期四进一步解释进一步解释PCA当当坐坐标标轴轴和和椭椭圆圆的的长长短短轴轴平平行行,那那么么代代表表长长轴轴的的变变量量就就描描述述了了数数据据的的主主要要变变化化,而而代代表表短短轴轴的的变变量量就就描描述述了数据的次要变化。了数据的次要变化。但但是是,坐坐标标轴轴通通常常并并不不和和椭椭圆圆的的长长短短轴轴平平行行。因因此此,需需要要寻寻找找椭椭圆圆的的长长短短轴轴,并并进进行行变变换换,使使得得新新变量和椭圆的长短轴平行。变量和椭圆的长短轴平
14、行。如如果果长长轴轴变变量量代代表表了了数数据据包包含含的的大大部部分分信信息息,就就用用该该变变量量代代替替原原先先的的两两个个变变量量(舍舍去去次次要要的的一一维维),降降维维就完成了。就完成了。椭圆(球)的长短轴相差得越大,降维也越有道理。椭圆(球)的长短轴相差得越大,降维也越有道理。23第23页,共56页,编辑于2022年,星期四进一步解释进一步解释PCA(续续)对对于于多多维维变变量量的的情情况况和和二二维维类类似似,也也有有高高维维的的椭椭球球,只只不不过过无无法法直直观观地地看看见罢了。见罢了。首首先先把把高高维维椭椭球球的的主主轴轴找找出出来来,再再用用代代表表大大多多数数数数
15、据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量;这这样样,主主成成分分分分析析就就基基本完成了。本完成了。注注意意,和和二二维维情情况况类类似似,高高维维椭椭球球的的主主轴轴也也是是互互相相垂垂直直的的。这这些些互互相相正正交交的的新新变变量量是是原原先先变变量量的的线线性性组组合合,叫叫做主成分做主成分(principal component)。24第24页,共56页,编辑于2022年,星期四正正如如二二维维椭椭圆圆有有两两个个主主轴轴,三三维维椭椭球球有有三三个个主轴一样,有几个变量,就有几个主成分。主轴一样,有几个变量,就有几个主成分。选选择择越越少少的的主主成成分分,降降
16、维维就就越越好好。什什么么是是标标准准呢呢?那那就就是是这这些些被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴长长度度总总和和的的大大部部分分。有有些些文文献献建建议议,所所选选的的主主轴轴总总长长度度占占所所有有主主轴轴长长度度之之和和的的大大约约85%85%即即可可,其其实实,这这只只是是一一个个大大体体的的说说法法;具具体体选选几几个个,要要看看实际情况而定。实际情况而定。25第25页,共56页,编辑于2022年,星期四3.3.均值和协方差均值和协方差 特征值和特征向量特征值和特征向量设有设有n个样本,每个样本观测个样本,每个样本观测p个指标(变量)
17、:个指标(变量):X1,X2,Xn,得到原始数据矩阵:得到原始数据矩阵:26第26页,共56页,编辑于2022年,星期四1.样本均值样本均值显然显然,样本均值是数据散列图的样本均值是数据散列图的中心中心.于是于是 p*n 矩阵的列矩阵的列B具有零样本均值具有零样本均值,称为平均偏差形式称为平均偏差形式M27第27页,共56页,编辑于2022年,星期四2.样本协方差样本协方差 中心中心中心中心 协方差的大小在一定程度上反映了多变量之协方差的大小在一定程度上反映了多变量之间的关系,但它还受变量自身度量单位的影间的关系,但它还受变量自身度量单位的影响响.注意:协方差注意:协方差是对称矩阵且半正定是对
18、称矩阵且半正定28第28页,共56页,编辑于2022年,星期四3.3 3.3 特征值与特征向量特征值与特征向量定义定义为阶方阵,为阶方阵,为数,为数,为维非零向量,为维非零向量,若若则则称为称为的的特征值特征值,称为称为的的特征向量特征向量注注注注并不一定唯一;并不一定唯一;阶方阵阶方阵的特征值,就是使齐次线性方程组的特征值,就是使齐次线性方程组特征向量特征向量 ,特征值问题只针对与方阵;,特征值问题只针对与方阵;有非零解的有非零解的值,即满足值,即满足的的都是都是方阵方阵的特征值的特征值定义定义定义定义称以称以为未知数的一元次方程为未知数的一元次方程为为的的特征方程特征方程29第29页,共5
19、6页,编辑于2022年,星期四例例1:1:从一个总体中随机抽取从一个总体中随机抽取4 4个样本作三次个样本作三次测量测量,每一个样本的观测向量为每一个样本的观测向量为:计算样本均值计算样本均值M M和协方差矩阵和协方差矩阵S S以及以及S S的特征值和特征向量的特征值和特征向量.30第30页,共56页,编辑于2022年,星期四Syntax C=cov(X)AlgorithmThe algorithm for cov is n,p=size(X);X=X-ones(n,1)*mean(X);Y=X*X/(n-1);See Also corrcoef,mean,std,var31第31页,共56页
20、,编辑于2022年,星期四平移、旋转坐标轴M2023/4/732第32页,共56页,编辑于2022年,星期四 为了方便,我们在二维空间中讨论主成分的几何意义。为了方便,我们在二维空间中讨论主成分的几何意义。设有设有n个样本,每个样本有两个观测变量个样本,每个样本有两个观测变量xl和和x2,在由变量,在由变量xl和和x2 所确定的二维平面中,所确定的二维平面中,n个样本点所散布的情况如椭圆状个样本点所散布的情况如椭圆状。由图可以看出这由图可以看出这n个样本点无论是沿着个样本点无论是沿着xl 轴方向或轴方向或x2轴方向都具有轴方向都具有较大的离散性,其离散的程度可以分别用观测变量较大的离散性,其离
21、散的程度可以分别用观测变量xl 的方差和的方差和x2 的方差定量地表示。显然,如果只考虑的方差定量地表示。显然,如果只考虑xl和和x2 中的任何一个,那中的任何一个,那么包含在原始数据中的信息将会有较大的损失。么包含在原始数据中的信息将会有较大的损失。2023/4/733第33页,共56页,编辑于2022年,星期四 如果我们将如果我们将xl 轴和轴和x2轴先平移,再同时轴先平移,再同时按逆时针方向旋转按逆时针方向旋转 角度,得到新坐标轴角度,得到新坐标轴Fl和和F2。Fl和和F2是两个新变量是两个新变量。2023/4/734第34页,共56页,编辑于2022年,星期四 Fl,F2除了可以对包含
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 原理 PPT 讲稿
限制150内