一个解决大数据集问题的核主成分分析算法.pdf
《一个解决大数据集问题的核主成分分析算法.pdf》由会员分享,可在线阅读,更多相关《一个解决大数据集问题的核主成分分析算法.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 一个解决大数据集问题的核主成分分析算法史卫亚,郭跃飞+,薛向阳(复旦大学 计算机科学与技术系,上海 200433)An efficient Kernel Principal Component Analysis Algorithm for large-scale data set*Shi Weiya,Guo Yue-Fei+,Xue Xiangyang(Department of Computer Science and Technology,Fudan University,Shanghai 200433,China)+Corresponding author:Phn:+86-21-656
2、43922,Fax:+86-21-65643922,E-mail:,http:/Abstract:Kernel principal component analysis(KPCA)is a popular nonlinear feature extraction method in the field of machine learning.It uses eigen-decomposition technique to extract the principal components.But the method is infeasible for large-scale data set
3、because of the store and computational problem.To overcome these disadvantages,a new covariance-free method of computing kernel principal components is proposed.First,a matrix,called Gram-power matrix,is constructed using the original Gram matrix.It is proven by the theorem of linear algebra that th
4、e eigenvectors of newly constructed matrix are the same as the ones of the Gram matrix.Therefore,we can treat each column of the Gram matrix as the input sample for the covariance-free algorithm.Thus,the kernel principle components can be iteratively computed without the eigen-decomposition.The spac
5、e complexity of proposed method is only,the time complexity is reduced to.The effectiveness of proposed method is validated from experimental results.More important,it still can be used even if traditional eigen-decomposition technique cannot be applied when faced with the extremely large-scale data
6、 set.Key words:KPCA;Gram matrix;large-scale data set;covariance-free;eigen-decomposition摘 要:核主成分分析是一种流行的非线性特征提取方法。一般情况下它使用特征分解技术提取核主成分,但是在大数据集情况下因为储存和计算问题是不可行的。为了解决这个问题,本文提出一种大数据集求解核主成分的计算方法。首先使用Gram矩阵生成一个Gram-power矩阵,根据线性代数的理论可知新形成的矩阵和原先的Gram矩阵具有相同的特征向量。因此,我们可以把Gram矩阵的每一列看成核空间迭代算法的输入样本,通过迭代计算出核主成分。
7、提出的算法的空间复杂度只有,在大数据集的情况下时间复杂度也降低为。实验结果证明了所提出算法的有效性。更为重要的是当传统的特征分解技术无法使用的情况下,所提出的方法仍然可以提取非线性特征。关键词:核主成分分析;Gram 矩阵;大数据集;协方差无关;特征分解中图法分类号:TP301文献标识码:A主成分分析是一种用于特征提取和维度减少的经典方法 1。该方法一般使用具有较大方差的主成分而忽略较少重要的成分。尽管主成分分析成功用于维度减少,但是在非线性数据分布情况下该方法不是太好。通常使用核方法2将其推广到核空间使用。其主要思想是把数据映射到高维的特征空间,在映射的特征空间中,可以使用传统的线性算法而实
8、现非线性特征的特征提取。其中不用知道映射函数而采用核技巧就可以计算数据之间的内积。提取的非线性特征被用于许多复杂的应用中,例如人脸识别,图像压缩等。在标准的核主成分计算过程中,需要储存所有数据形成的Gram矩阵3,其空间复杂度为,其中mthe Key Project of the Ministry of Education of China under Grant No.104075(教育部科学技术研究重点项目);the National Key Technology R&D Program of China under Grant No.2007BAH09B03(国家科技支撑计划课题);th
9、e National High Technology Research and Development Program of China under Grant No.2007AA01Z176(国家高技术研究发展计划资助项目(863计划)2表示样本数。另外,对Gram矩阵进行特征分解的时间复杂度为。因为有限的内存容量,当大数据集情况下该方法是不可行的。郑4提出把数据集分成若干小的数据集,然后分别处理。贪婪的核主成分分析方法5通过采样训练集而近似求解特征向量。但是这些方法仍然存在较大的储存问题。在6中,通过把传统的广义Hebbian算法扩展到核空间迭代的求解核主成分,可以避免储存问题,但是这种方
10、法的收敛性不能保证。本文提出了一种大数据集情况下有效的求解核主成分的方法。主要思想是利用线性代数中对称矩阵的性质,首先使用初始的Gram矩阵创建一个新的Gram-power矩阵。因为新构成的矩阵和原先的矩阵具有相同的特征向量,所以我们可以把Gram矩阵的每一列看成核空间迭代算法7的输入样本。通过若干迭代后,可以很容易的求出核主成分。所提出的方法不需要事先存储Gram矩阵,空间复杂度从减少到。另外算法的快速收敛性已经被证明 8。更为重要的是处理非常大数据集情况下,传统的特征分解技术没法使用,所提出的方法仍然可以较好的提取非线性特征。通过在人工合成的数据集以及真实的数据上进行实验,充分证明了所提出
11、算法的有效性。下一部分对核主成分的实现过程进行回顾,同时把常用的一些迭代算法进行比较;在第二部分详细描述本文所提出的方法;然后给出实验结果证明提出算法的有效性;最后给予总结。1 核主成分分析的回顾和迭代算法分析1 1 核主成分分析的回顾假定是输入空间的数据集,其中是d维向量,m是数据集中的总样本数。存在一个函数把数据映射到高维(甚至无限维)的希尔伯特空间。(1)使用这个映射函数,我们可以得到特征空间的数据集。一个核函数被用于计算这些映射数据样本之间的内积,这个核函数定义为,这样在映射的特征空间协方差定义为:(2)它符合特征方程:(3)其 中和分 别 对 应 协 方 差 矩 阵 的 特 征 向
12、量 和 特 征 值。因 为 解可 以 用 全 部 数 据 集 的张程表示为:(4)将公式3和4代到公式2中,可以推导出下面的公式:(5)其中是张程系数,是Gram矩阵,定义为。该矩阵的元素为。理论证明9Gram矩阵是半正定的。为了计算核主成分,一般都是对Gram矩阵采用特征分解的方法。这样得到特征向量后,可以使用公式4计算核主成分。对于任何一个测试样本,其非线性特征为:(6)史卫亚 等:一个解决大数据集问题的核主成分分析算法3在 上 面 的 推 导 中 是 假 定 所 有 数 据 具 有 零 均 值 的,如 果 不 是 的,可 以 得 到,其中3。1 2 迭代算法分析因为传统的特征分解方法需要
13、非常大的内存。为了克服这个不便,一些计算主成分的迭代方法被提出,例如GHA 10,APEX 11。但是这些方法一般收敛速度较慢。翁7利用统计学上的效能估计概念提出了一个增量的协方差无关的方法,该方法不是像传统方法一样特征分解协方差矩阵,而是循环地输入样本向量,与其它迭代方法相比起来,收敛速度快,而且计算复杂度很低。因此我们选用这种方法作为所提出算法的迭代工具。2 提出的核主成分算法一般情况下,映射函数是不知道的,因此,特征空间的样本向量没法明确表示,这样在核空间就没有办法使用上述迭代方法计算核主成分。为了解决这个问题并给出我们的方法,首先给出一个线性代数的定理1213。定理:矩阵和具有相同的特
14、征向量和不同的特征值。证明:假定和分别是矩阵的特征向量和特征值,(7)(8)因此,矩阵的特征向量和特征值即为和。2 1 提出的方法因为Gram矩阵是半正定的,可以得到,因此可以构造一个矩阵Gram-power,定义为。根据前面的定理,新构造的矩阵的特征向量与Gram矩阵的特征向量相同,但有不同的特征值和()。(9)其中,因此,我们可以把矩阵的每一列作为迭代算法7的输入样本,这样经过一些迭代后,就可以迅速得到矩阵的特征向量。而不用像传统方法那样对Gram矩阵特征分解。因为在实际计算中,我们每次只需计算,从而有效地解决了大样本需要存储Gram矩阵的问题。下面,我们具体给出求解矩阵G的特征向量的算法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一个 解决 数据 问题 成分 分析 算法
限制150内