PCA算法的原理及其示例(共7页).doc
《PCA算法的原理及其示例(共7页).doc》由会员分享,可在线阅读,更多相关《PCA算法的原理及其示例(共7页).doc(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上PCA算法的原理及其示例郑琛(北京师范大学,北京 )摘要:主成分分析是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题,对于某些复杂数据就可应用主成分分析法对其进行简化。计算主成分的目的是将高维数据投影到较低维空间。文中介绍了PCA算法的基本概念和基本原理,利用算法在降维和特征提取方面的有效性,结合人脸识别的实例进行详细的阐述。关键字:主成分分析;数据降维;特征提取一、 PCA算法的基本概念 PCA是Principal component analysis的缩写,中文翻译为主成分分析。主成分又称主分量、主元素。它
2、是研究如何通过原来变量的少数几个线性组合来解释随机向量的方差-协方差结构,是数据压缩和特征提取中一种多维向量的统计分析方法1。这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音2和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最有价值的结果之一。二、 PCA算法的原理与基本思想 PCA算法的原理是设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计的方
3、法,也是数学上处理降维的一种方法。 PCA算法的基本思想是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。典型的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称 F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1,F2)
4、=0,则称F2为第二主成分,以此类推可以构造出第三、第四,.,第P个主成分。应当注意,主成分分析本身往往并不是目的,而是达到目的的一种手段,因此,它多用在大型研究项目的某个中间环节。如把它用在多重回归,便产生了主成分回归,这种回归具有优良性质,另外,它在压缩、特征提取及分类应用中非常有用。三、 PCA求解的一般步骤PCA求解:特征方程的根在线形代数中,PCA问题可以描述成以下形式:寻找一组正交基组成的矩阵P,有Y=PX,使得CYYYT是对角阵。则P的行向量(也就是一组正交基),就是数据X的主元向量。对CY进行推导: CY=YYT=(PX)(PX)T=PXXTPT=P(XXT)PT CY=PAP
5、T定义AXXT,则A是一个对称阵。对A进行对角化求取特征向量得:A=EDET则D是一个对角阵,而E则是对称阵A的特征向量排成的矩阵。这里要提出的一点是,A是一个mm的矩阵,而它将有r(rm)个特征向量。其中r是矩阵A的秩。如果rm,则A即为退化阵。此时分解出的特征向量不能覆盖整个m空间。此时只需要在保证基的正交性的前提下,在剩余的空间中任意取得m-r维正交向量填充R的空格即可。它们将不对结果造成影响。因为此时对应于这些特征向量的特征值,也就是方差值为零。求出特征向量矩阵后我们取P-ET,则A=PTDP,由线形代数可知P矩阵有性质P-1=PT,从而进行如下计算: CY=PAPT=P(PTDP)P
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- PCA 算法 原理 及其 示例
限制150内