2023年大数据课程报告.docx
《2023年大数据课程报告.docx》由会员分享,可在线阅读,更多相关《2023年大数据课程报告.docx(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023年大数据课程报告 摘 要 流形学习方法作为一类新兴的非线性维数约简方法,主要目标是获取高维观测数据的低维紧致表示,探索事物的内在规律和本征结构,已经成为数据挖掘、模式识别和机器学习等领域的研究热点。流形学习方法的非线性本质、几何直观性和计算可行性,使得它在许多标准的 toy 数据集和实际数据集上都取得了令人满意的结果,然而它们本身还存在着一些普遍性的问题,比如泛化学习问题、监督学习问题和大规模流形学习问题等。因此,本文从流形学习方法存在的问题出发,在算法设计和应用(图像数据与蛋白质相互作用数据)等方面展开了一系列研究工作。首先对流形学习的典型方法做了详细对比分析,然后针对流形的泛化学习
2、和监督学习、表征流形的局部几何结构、构造全局的正则化线性回归模型、大规模数据的流形学习等几个方面进行了重点研究,提出了三种有效的流形学习算法,并和相关研究成果进行了理论与实验上的比较,从而验证了我们所提算法的有效性。 关键词:流形学习,维数约简,正交局部样条判别投影,局部多尺度回归嵌入 I 目录 目录 .II 第1章 研究背景 .1 1.1 流形学习的研究背景 .1 1.2 流形学习的研究现状 .2 1.3 流形学习的应用 .4 第2章 流形学习方法综述 .5 2.1 流形学习方法介绍 .6 第3章 流形学习方法存在的问题 .9 3.1 本征维数估计 .9 3.2近邻数选择 .10 3.3 噪
3、声流形学习.10 3.4 监督流形学习.11 第4章 总结 .11 II 第1章 研究背景 1.1 流形学习的研究背景 随着信息时代的到来,使得数据集更新更快、数据维度更高以及非结构化性等问题更突出。在科研研究的过程中不可避免地遇到大量的高维数据,这就需要一种技术能够使在保持数据信息足够完整的意义下从海量数据集中提取出有效而又合理的约简数据,满足人的存储需求和感知需要。流形学习这一非监督学习方法应运而生,引起越来越多机器学习和认知科学工作者的重视。而在海量的高维数据中,往往只有少量的有用信息,如果想快速高效的搜集到人们想要的、有用的那些少量信息且快速的处理信息,这就需要一些关键技术的支持,即是
4、必须采用相应的降维技术。而流形学习正是在数据降维方面有着重要的贡献。然而,降维的过程与矩阵分析中的内容有着密切的关系。 基于流形的降维方法能充分利用数据中所隐藏的低维有价值信息,进一步提高检索性能。Seung从神经心理学的角度提出“感知以流形的形式存在,视觉记忆也可能是以稳态的流形存储”,为流形提供了与人类认识相关的理由。流形学习的方法主要有主成分分析(PCA)、多维尺度化(MDS)、基于局部切空间排列法(LTSA)和基于等度规映射(ISOMAP)、局部线性嵌入算法(LLE)、拉普拉斯特征映射(LE)等。另外,流形学习方法在人脸识别、图像处理、模式识别、计算机视觉、认知科学、人工智能、人机交互
5、等众多学科中有着广泛的应用。 线性维数约简方法是通过在高维输入空间与低维子空间之间建立线性映射关系,把高维数据样本集投影到低维线性子空间。线性维数约简技术通常假设数据集采样于一个全局线性的高维观测空间。如果所要处理的数据集分布确实呈现出全局线性的结构,或者在一定程度上可以近似为全局线性结构,则这些方法能够有效地挖掘出数据集内在的线性结构,获得数据紧致的低维表示。在线性维数约简方法中,使用最广泛的算法有主分量分析(Principal Component Analysis, PCA)(Jolliffe, 2023; Turk and Pentland, 1991) 1 和线性判别分析(Linear
6、 Discriminant Analysis, LDA)(Duda et al., 2023)。 主分量分析(PCA)主要是根据高维数据在低维空间重构误差最小的原则,来寻找一组最优的单位正交向量基(即主分量),并通过保留数据分布方差较大的若干主分量来达到降维的目的。然而,众所周知,由于 PCA 算法没有利用数据样本的类别信息,所以它是一种非监督的线性维数约简方法。与 PCA 算法不同,LDA 算法考虑到样本的类别信息,它是一种有监督的方法。基于各类样本服从高斯分布且不同类的协方差矩阵相同的假设,LDA 算法在 Fisher 准则下选择最优的投影向量,以使得数据样本的类间散度最大而类内散度最小。
7、由于 LDA 算法利用了样本的类别信息,而样本的类别信息通常有助于改善识别率,因此 LDA 算法更适用于分类问题。 1.2 流形学习的研究现状 流形学习假定输入数据是嵌入在高维观测空间的低维流形上,流形学习方法的目的是找出高维数据中所隐藏的低维流形结构。经过十多年的研究与探索,人们提出了大量的流形学习理论与算法。经典的流形学习方法有等距特征映射算法(ISOMAP)(Tenenbaum et al., 2000)、局部线性嵌入算法(LLE)(Roweis and Saul, 2000; Saul and Roweis, 2023)、Laplacian 特征映射算法(Laplacian Eigen
8、maps,LE)(Belkin and Niyogi, 2023; Belkin and Niyogi, 2023)、Heian特征映射算法(Heian-based Locally Linear Embedding,HLLE)(Donoho and Grimes, 2023)、最大差异展开算法(Maximum Variance Unfolding,MVU)(Weinberger et al., 2023; Weinberger and Saul, 2023; Weinberger and Saul, 2023; Weinberger et al., 2023)、局部切空间排列算法(Local
9、Tangent Space Alignment, LTSA)(Zhang and Zha, 2023)、黎曼流形学习算法(Riemannian Manifold Learning, RML)(Lin and Zha, 2023; Lin et al., 2023)和局部样条嵌入算法(Local Spline Embedding,LSE)(Xiang et al., 2023; Xiang et al., 2023)等。 Tenenbaum 提出的 ISOMAP 算法是多维尺度分析(Multidimensional Scaling, MDS)(Cox and Cox, 1994)在流形框架下的非
10、线性推广,其核心思想是用测地距离代替欧氏距离来表征流形上数据点的内在几何关系。对于样本 2 点和它的近邻点之间的测地距离用它们之间的欧氏距离来代替;对于样本点和近邻点之外的点之间的测地距离用它们之间的最短路径来代替。Bernstein 等人证明了只要样本是随机抽取的,在样本集足够大且选择适当近邻参数k 时,近邻图上两点的最短路径可以逼近它们的测地距离(Bernstein et al., 2000)。当应用于内蕴平坦的凸流形时,ISOMAP 算法能够忠实地捕获数据内在的低维流形结构(De Silva and Tenenbaum, 2023)。 ISOMAP 算法的主要缺点在于: 对样本点的噪声比
11、较敏感; 对于具有较大曲率或稀疏采样的数据集,不能发现其内在的本征结构; 需要计算全体数据集的测地距离矩阵,因此算法的时间复杂度较高。围绕 ISOMAP算法,已经出现了许多相关的理论分析与研究工作。 Balasubramanian 等人对ISOMAP 算法的拓扑稳定性进行了深入探讨 (Balasubramanian and Schwartz, 2023)。对于数据分布所在的低维流形具有较大的内在曲率情况,de Silva 和Tenenbaum 提出了保角等距特征映射算法(conformal ISOMAP)(De Silva and Tenenbaum, 2023)。为了减小 ISOMAP 算法
12、的计算复杂度,de Silva 和 Tenenbaum提出了带标记的等距特征映射算法(Landmark ISOMAP)(De Silva and Tenenbaum, 2023)。 针对 ISOMAP 算法对于数据集噪声敏感的问题,Choi 等人通过观察图中的网络流提出了一种消除临界孤立点的方法以加强 ISOMAP 算法的拓扑稳定性(Choi and Choi, 2023)。在构建近邻图方面,Yang 提出通过构造k 连通图方式来确保近邻图的连通性,以提高测地距离的估计精度(Yang, 2023)。 2023 年,Xiang 等人提出了局部样条嵌入算法(LSE)(Xiang et al., 2
13、023; Xiang et al., 2023)。Xiang 认为,对于嵌入在高维输入空间的低维流形,非线性维数约简的任务实际上是寻找一组非线性的复合映射,即由局部坐标映射(Local Coordinatization Mapping)与全局排列映射(Global Alignment Mapping)复合而成的兼容映射(Compatible Mapping)。在兼容映射的概念框架下,LSE 算法首先通过主分量分析计算每个样本点局部邻域在切空间上的投影获得该邻域所有样本的局部坐标,从而保持流形的局部几何结构信息;然后采用Sobolev 空间的一组样条函数把每个样本点的局部坐标映射成 3 全局唯一
14、的低维坐标。它们均是利用每个样本的局部切空间来捕获流形的局部几何,样本点在切空间的投影来表示样本点的局部坐标。然而它们的主要区别在于全局排列,LTSA 算法是利用仿射变换来进行全局排列,而 LSE 算法是利用样条函数来获得全局唯一的坐标。因此相对于 LTSA 而言,LSE 算法能够实现更小的重构误差。LSE 算法的主要缺点在于:一是无法保持全局尺度信息;二是不能学习具有较大曲率的低维流形结构。除此,如何选择满足要求的样条函数也是一个值得考虑的问题。 不同流形学习算法的区别在于所尝试保持流形的局部邻域结构信息以及利用这些信息构造全局嵌入的方法不同,与以往的维数约简方法相比,流形学习能够有效地探索
15、非线性流形分布数据的内在规律与性质。但是在实际应用中流形学习方法仍然存在一些缺点,比如本征维数估计问题、样本外点学习问题、监督流形学习问题和噪声流形学习问题等。为了解决这些问题,相关的算法也不断涌现出来。Freedman 等提出了一种基于简化单纯复形的流形重构方法来自动估计流形的本征维数(Freedman, 2023)。 为了解决样本外点学习问题,研究人员分别在流形学习的线性化、核化和张量化等方面作了有益的探索(Yan et al., 2023)。Geng 等将样本的类别信息融入到 ISOMAP 算法,提出了一种用于可视化和分类的有监督的等距特征映射算法(S-ISOMAP)(Geng et a
16、l., 2023)。Zhang 等提出了一种基于局部线性平滑的流形学习消噪模型(Zhang and Zha, 2023)。这些方法的提出在一定程度上缓解了目前流形学习方法中存在的一些问题,但是还需要进一步充实和完善。 1.3 流形学习的应用 目前,流形学习方法的应用可归纳为以下几个方面: 1) 数据的可视化。流形学习方法在高维数据的可视化方面有了广泛的应用。人不能直接感知高维数据的内部结构,但对三维以下数据的内在结构却有很强的感知能力。由于流形学习方法可以发现高维观测数据中蕴含的内在规律和本征结构,而且这种规律在本质上不依赖于我们实际观测到的数据维数。因此我们可以通过流形学习方法 4 对高维输
17、入数据进行维数约简,使高维数据的内部关系和结构在低于三维的空间中展示出来,从而使人们能够直观地认识和了解高维的非线性数据的内在规律,达到可视化的目的。 2) 信息检索。随着多媒体和网络技术的迅猛发展,图像和文本信息的应用日益广泛,对规模逐渐庞大的图像和文本数据库如何进行有效的管理已成为亟待解决的问题。灵活、高效、准确的信息检索策略是解决这一问题的关键技术之一。这些图像和文本信息呈现出高维、大规模、非线性结构,利用流形学习方法来处理这些信息,在大大降低时间和空间计算复杂度的同时,能够有效地保留这些信息在原始高维空间的相似性。 3) 图像处理。流形学习给图像处理领域提供了一个强有力的工具。众所周知
18、,图像处理与图像中物体的轮廓以及骨架等密切相关。如果我们把图像中物体的轮廓以及骨架等看成是嵌入在二维平面中的一维流形或者由一组一维流形构成,那么显然流形学习方法凭借其强大的流形逼近能力可以应用于图像处理领域。 第2章 流形学习方法综述 流形学习方法作为一种新兴的非线性维数约简方法,主要目标是获取高维观测数据的低维紧致表示,探索事物的内在规律和本征结构,已经成为数据挖掘、模式识别和机器学习等领域的研究热点。本章首先探讨了流形学习的基础性问题,即高维数据分析的流形建模问题;然后依据保持流形几何特性的不同,把现有的流形学习方法划分为全局特性保持方法和局部特性保持方法,并介绍了每一类方法中有代表性的流
19、形学习算法的基本原理,对各种流形学习算法进行性能比较和可视化分析,最后就流形学习方法普遍存在的本征维数估计、近邻数选择、噪声流形学习、样本外点学习和监督流形学习问题等进行了分析和讨论。 5 2.1 流形学习方法介绍 流形学习的定义:流形是局部具有欧氏空间性质的空间。假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。 流形学习用数学语言描述是:令Y(yi)且: Y是一个光滑的嵌套,其中D d。那么流形学习的目标
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 数据 课程 报告
限制150内