谱聚类算法及其研究进展.doc
《谱聚类算法及其研究进展.doc》由会员分享,可在线阅读,更多相关《谱聚类算法及其研究进展.doc(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date谱聚类算法及其研究进展谱聚类算法及其研究进展摘要:谱聚类具有良好的理论基础,被广泛应用于科学研究与工程应用的各个领域,成为聚类分析领域重要的新兴分支,受到越来越多的研究者的重视。然而,国内相关文献较少,该文从谱聚类算法的产生、研究进展、基础理论及代表算法等方面对谱聚类算法作简要综述,有望使读者对该领域形成初步认识。关键词:谱聚类;聚类;图划分中图分类号:tp311 文
2、献标识码:a 文章编号:1009-3044(2016)19-0159-03spectral clustering and its research progressxing jie-qing, fu chuan-yi(department of modern education technology, qiongtai normal college, haikou 571100, china)聚类作为无监督学习方法,广泛地应用于统计科学、计算机科学、生物学、社会学以及心理学等,成为应用最多的数据分析技术之一。其中,基于谱图划分理论的聚类方法谱聚类,是目前研究较多、有深厚理论基础、应用广泛的聚类
3、方法。与传统的方法(如k-means,em等)相比,它不对样本空间的整体结构做任何假设,能够识别样本点在空间上的非凸分布。因此,谱聚类方法适用于具有任何分布形状的样本空间,从而求解到全局最优解。此外,谱聚类使得聚类算法的研究得到很大的拓展,适用于许多现实应用问题,已成功地应用于文本分析、语音分析、图像分割、机器视觉、商业分析、市场营销、计算生物学等等1-3。目前,谱聚类方法的应用还扩展到医学诊断6、dna和蛋白质等生物信息挖掘5、文本主题分析4等领域。对谱聚类算法的研究具有科学意义和现实意义。同时,谱聚类算法在实现上仅涉及标准的线性代数方法,易于实现。谱聚类算法是以图论当中的谱图理论为基础,重
4、点在于设计合适的距离度量,计算待聚类的数据点之间的距离或相似性,构造邻接图,最后将聚类任务转化为邻接有向图的最优划分问题。本文旨在从基础理论、代表算法、比较分析等方面向读者介绍这种新型的聚类算法。1 谱聚类算法研究进展谱聚类的诞生可以追溯到1973年,donath和hoffman 首次基于邻接矩阵构造了图的划分7。在同一年,fieldler发现图的二划分与laplacian图的第二小特征向量有密切关系,并且建议使用该特征向量进行图的划分8。从此以后,许多研究者加入到谱聚类方法的研究队伍中,例如,pothen, simon, and liou 9、bolla 10、hagen and kahng
5、 11、hendrickson and leland 12、van driessche and roose13和guattery and miller14等。谱聚类逐渐成为流行的聚类方法1-6。在算法扩展和理论分析方面涌现了大量的研究成果。dhillon等人将谱聚类应用于联合聚类问题14,并分析了谱聚类与加权k-means的关系19。bach等人利用谱聚类辅助学习相似性函数9。kempe等人分析了再分布式环境下的谱聚类21。perez等人提出了稀疏核谱聚类并应用于大尺度数据集17。jia等人将集成学习方法应用于谱聚类22。zhang等人设计了基于边界的多路谱聚类方法14。最近,王春腾等分析了维
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 谱聚类 算法 及其 研究进展
限制150内