基于局部保留投影的堆叠隐空间模糊c均值算法-刘欢.pdf
《基于局部保留投影的堆叠隐空间模糊c均值算法-刘欢.pdf》由会员分享,可在线阅读,更多相关《基于局部保留投影的堆叠隐空间模糊c均值算法-刘欢.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 *国家自然科学基金项目(No.61300151)、江苏省自然科学基金项目(No.BK20130155)、江苏省高校自然科学研究项目(No.13KJB520001)资助Supported by National Natural Science Foundation of China (No.61300151), Natural Science Foundation of Jiangsu Province (No.BK20130155), Natural Scientific Research Project of Jiangsu Higher Education Institutions (N
2、o.13KJB520001)收稿日期:2016-01-07;修回日期:2016-03-23;录用日期:2016-05-16Manuscript received January 7, 2016; revised March 23, 2016; accepted May 16, 2016基基于局部保留投影的堆叠隐空间模糊C均值算法*刘 欢1 王 骏1 应文豪2 王士同11(江南大学数字媒体学院 无锡214122)2(常熟理工学院计算机科学与工程学院 常熟215500)摘 要 传统模糊聚类算法在处理复杂非线性数据时学习能力较差.针对此问题,文中基于极限学习机(ELM)理论,结合局部保留投影(LPP
3、)与ELM特征映射,提出压缩隐空间特征映射算法,从而将原始数据从原空间映射至压缩ELM隐空间中.通过连接多个压缩隐空间特征映射,结合模糊聚类技术,提出基于LPP的堆叠隐空间模糊C均值算法.大量实验表明,文中算法对模糊指数的变化不敏感,在处理复杂非线性数据和存在类内差异的图像数据时,能够取得更精确、高效、稳定的学习效果.关键词 隐空间映射,极限学习机(ELM),局部保留投影(LPP),模糊C均值聚类,图像聚类中图法分类号 TP 181 DOI 10.16451/ j. cnki. issn1003-6059.201609005引用格式 刘欢,王骏,应文豪,王士同.基于局部保留投影的堆叠隐空间模糊
4、C均值算法.模式识别与人工智能,2016, 29(9): 807-815.Cascaded Hidden Space Fuzzy C-meansBased on Local Preserving ProjectionLIU Huan1, WANG Jun1, YING Wenhao2, WANG Shitong11(School of Digital Media, Jiangnan University, Wuxi 214122)2(School of Computer Science and Engineering, Changshu Institute of Technology, Cha
5、ngshu 215500)ABSTRACTThe traditional fuzzy clustering algorithms have poor learning ability for complex nonlinear data.Aiming at this problem, a condensed hidden space feature mapping is proposed by combining localpreserving projection (LPP) and extreme learning machine (ELM) feature mapping. Thus,
6、the originaldata is mapped into the condensed ELM hidden space. By connecting several condensed hidden spacefeature mapping together and combining fuzzy clustering methods, the cascaded ELM hidden space isconstructed and a cascaded hidden space fuzzy clustering algorithm is proposed. Experimental re
7、sultsshow that the proposed algorithm is insensitive to fuzzy index and efficient and robust for non-linear dataand image data with intra-class variation.第29卷 第9期模式识别与人工智能Vol.29 No.92016年9月PR & AI Sep. 2016万方数据Key W ords Hidden-Mapping Space, Extreme Learning Machine (ELM), Local Preserving Projecti
8、on(LPP), Fuzzy C-means Clustering, Image ClusteringCitation LIU H, WANG J, YING W H, WANG S T. Cascaded Hidden Space Fuzzy C-means Basedon Local Preserving Projection. Pattern Recognition and Artificial Intelligence, 2016, 29(9):807-815.模糊聚类是一种重要的无监督机器学习方法,在数据挖掘、图像处理和模糊规则提取等领域得到广泛的研究与应用1-3.目前,学者们已经提
9、出许多模糊聚类算法.虽然这些算法能够有针对性地解决现实生活中的一些问题,但是如何对复杂非线性数据进行模糊聚类,从而有效挖掘其中隐藏的类簇结构,始终是当前研究人员面临的一大挑战.在机器学习研究中,核方法4是处理非线性数据的一种有效手段,它使用核函数将原空间中非线性可分的数据映射到高维核空间中,使其线性可分,有利于提高模糊聚类的性能.在模糊聚类分析的研究工作中,核模糊C均值聚类(FCM)5的研究为基于划分的模糊聚类算法处理非线性数据提供了有益思路.但是,在核FCM中,核函数必须满足Mercer条件6,在缺乏先验知识的情况下如何合理选择核函数及相关参数是一个经典难题,这影响核方法在模糊聚类技术中的应
10、用.除了核方法外,是否还存在其它的映射方法生成高维特征空间,用于解决模糊聚类时非线性数据的无监督学习问题,这是本文的研究出发点.近年来,以极限学习机(Extreme Learning Ma-chine, ELM)为代表的单隐层前馈神经网络(Single-Hidden Layer Feedforward Neural Networks, SLFN)快速学习理论得到研究人员的深入研究7-8.在ELM学习理论中,隐节点张成的特征空间构成ELM隐空间,通过激励函数将原始数据映射到高维隐空间中.研究表明,ELM具有如下优势9:1)隐节点参数可以随机生成,有利于ELM隐空间的快速构建;2)构建隐空间使用的
11、激励函数只要满足连续、有界且不是常量函数这几个简单条件即可,有利于用户灵活方便地选取激励函数.但是,为了保证ELM隐空间学习算法学习结果的稳定性,往往需要增加ELM隐节点的数目,这使得该方法在后续学习中的效率面临重大挑战.本文在ELM映射之后,通过引入特征降维技术,得到堆叠隐空间学习结构.首先,把ELM隐空间经过局部保留投影( Local Preserving Projection,LPP)特征降维后得到压缩隐空间,并将其与由原始数据经ELM映射后得到的ELM隐空间进行联合,构成混合隐含层.然后将多个混合隐含层进行串联叠加,从而构成堆叠隐空间.已有研究表明,利用ELM隐空间映射可以有效提高传统
12、聚类算法对复杂非线性数据的无监督学习能力10.本文的堆叠隐空间与ELM隐空间映射的这一特性密切相关,它是由多次ELM隐空间映射经特征降维后串联迭加得到,因此,堆叠能让非线性数据变得线性可分,从而提高堆叠隐空间中聚类算法的学习精度.不失一般性,本文以FCM11为代表展开研究工作.在图像数据中,同一类别中的图像间依然存在着较大的类内差异,传统的以FCM为代表的模糊聚类算法在处理这类图像数据时很难取得令人满意的聚类效果12.已有研究13-14表明,LPP能够有效保持原始数据的局部结构.本文使用LPP对映射到ELM隐空间中的数据进行特征提取,使ELM隐空间中相互接近的点在降维后的低维空间中也保持较近的
13、距离,从而保持原始数据的局部结构,经多次迭加后这一特性更明显.同时,堆叠隐空间学习结构中的ELM非线性映射又能使原特征空间中非线性可分的数据变得线性可分,从而有效提高对复杂非线性数据的无监督学习能力.因此,基于LPP形成的堆叠能较好地模拟非线性数据.本文将LPP融入到堆叠ELM隐空间学习结构中,提出基于LPP的堆叠隐空间模糊C均值算法(Cascaded Hidden Space FuzzyC-means Based on Local Preserving Projection, CELM-LPP-FCM).该算法综合ELM和LPP技术的优良特性,在使用层次化的学习结构对数据对象在不同层次上的表
14、达形式进行抽象的同时,综合使用压缩和扩充手段对低层概念进行重组,得到新的信息表达形式,从而有效提高模糊聚类算法的聚类效果.实验证明,该算法在处理复杂非线性数据尤其是图像数据时能够取得比传统模糊聚类算法更精确、高效、稳定的聚类效果,同时有效克服模糊聚类算法对模糊指数的敏感性问题.1 相关工作1.1 极限学习机隐空间SLFN在许多诸如模式识别、信号处理及短期预808模式识别与人工智能 第29卷万方数据测的领域中得到广泛应用.至今,在提出的SLFN训练算法中,所有的网络隐层节点参数都是通过迭代过程进行多次优化最终确定,但是这些迭代步骤往往会增加参数训练过程的时间复杂度.在ELM中,隐节点张成的特征空
15、间构成隐空间,其映射过程10如下:1)随机生成权重矩阵W沂 RL伊d和偏移量矩阵B = b1,b2, ,bLT,其中,L为随机ELM隐节点数,d为原始数据的维数.2)将原始数据映射到L维的隐空间中.每个输入数据都是一个d维的向量x =x1,x2, ,xdT,该特征映射可以表示为H(x) = h1(x),h2(x), ,hL(x)T =G(w1,b1,x),G(w2,b2,x), ,G(wL,bL,x)T,(1)其中,G(x)为激励函数,映射过程如图1所示.1 LdUNI8f93UNI5165UNI5c42ELMUNI9690 UNI5c42UNI542b1i图1 ELM隐空间特征映射的过程Fi
16、g.1 Process of hidden space feature mapping常用的激励函数有Sigmoid:G(x) = 11 + exp( - x),Sine:G(x) = sin x,Gaussian:k(xi,xj) =exp - 椰 xi - xj椰22滓2 .1.2 FCM及其问题分析FCM是目前最常用的模糊聚类算法之一,其思想直观,便于实现.但是,FCM本身也存在问题:1)来自现实生活中的数据通常具有典型的非线性特性,即至少包含一个具有非凸形状边界的类簇,这使得FCM在原数据空间中难以得到理想的聚类效果;2)模糊指数15是FCM的一个重要参数,取值会严重影响算法性能,在无
17、先验知识的情况下,用户通常很难选取合适的模糊指数以获得满意的聚类效果.针对上述问题,近年来,研究人员改进FCM,其中基于核技术的模糊聚类算法通过引入核技巧将原始特征空间中的数据映射到高维空间中,使非线性数据在高维空间中线性可分,从而提高算法线性可分的能力5-6.但是,在使用核方法的过程中,由于缺乏先验知识,用户通常难以选取合适的核函数及核参数,这制约核方法在模糊聚类算法中的使用及其推广.本文结合ELM隐空间学习理论与LPP,提出堆叠隐空间学习结构,该算法能够有效精简冗余信息并及时补充必要信息,使模糊聚类算法能够发挥更好的性能.2 基于局部保留投影的堆叠隐空间模糊C均值算法2. 1 局部保留投影
18、压缩极限学习机隐空间学习算法在ELM学习技术中,可以通过随机赋值的方法快速生成ELM隐空间,随着隐节点数目的增加,学习精度也不断提高,但是随之而来的一个重要问题是计算效率会逐步降低.此外,由于隐节点生成过程中相关参数随机生成,因此不可避免地会引入大量冗余信息.针对这一问题,本文结合ELM隐空间技术与LPP,提出LPP压缩ELM隐空间学习算法,过程如下.1)根据图1所示过程将原始数据映射到高维ELM隐空间RL中,得到矩阵H = h1(x),h2(x), ,hL(x) 沂 Rn伊L,n为样本点个数.2)设S为相似度矩阵,给定2个数据点之间的相关性Sij,如果2点之间无边相连,Sij = 0,否则将
19、给定一个相关性,此时Sij = 1或Sij =exp - 椰 xi - xj椰2 t ,其中t为邻节点数的常量.3)LPP的目标函数如下:min 移ij(yi - yj)2Sij.设a为投影向量,yi = aThi(x).经过变换后LPP的目标函数变为arg min aTHMHTas. t. aTHDHTa = 1,其中,D为一个对角矩阵,Dii = 移jSij,M = D - S为拉氏矩阵.上述的约束问题可以转换为求解一个广义特征值的问题:HMHTa = 姿HDHTa.因此,最小化目标函数的解就由上述广义特征值姿i908第9期 刘 欢 等:基于局部保留投影的堆叠隐空间模糊C均值算法万方数据对
20、应的特征向量ai给出.其中0 臆 姿1 臆 姿2 臆 臆姿L忆,a = (a1,a2, ,aL忆),L忆为所要提取的特征向量维数.此时Yi =Hia(i =1,2, ,n)为LPP压缩ELM隐空间后得到的特征数据.综上所述,通过上述3步可完成对ELM隐空间的压缩,结构可映射为如图2所示的前馈神经网络模型.LPPUNI9690UNI542bUNI5c42ELMUNI9690UNI542bUNI5c42UNI8f93UNI5165UNI5c42111LPPLLid图2 LPP压缩的ELM隐空间特征映射Fig.2 ELM hidden space feature mapping condensed
21、byLPP原始输入数据经过输入层后,通过ELM特征映射被映射到高维ELM隐空间中,在此过程中,生成ELM隐空间时的随机赋值过程会引入噪声.通过LPP技术压缩高维隐空间,从而有效过滤部分噪声,有利于提高聚类学习过程的性能.2.2 基于局部保留投影的堆叠隐空间模糊C均值算法在隐空间构建过程中,为了使学习器得到更好的表达能力和稳定的学习结果,单隐层前馈神经网络学习模型通常会选择较多的隐节点数目.但是这也增加额外的计算负担.研究表明,在保证学习器泛化能力的前提下,将单隐层结构的ELM隐空间改造为堆叠隐空间结构是降低隐节点数目的有效方法.为此,本文改造上述基于LPP的压缩ELM隐空间映射过程,通过把EL
22、M隐层中的隐节点分散到多个隐含层中,并与LPP隐含层的隐结点结合,形成新的混合隐含层.再将若干个混合隐含层进行叠加,得到堆叠隐空间学习结构,该过程如图3所示.CELM-LPP-FCM步骤描述如下.设堆叠隐空间的层数f,每个隐含层中随机生成的ELM隐节点数L,数据集D的维数d,LPP压缩隐空间的维数L忆,样本点个数n.step 1 随机生成值在0,1内的权重矩阵W 沂 RL伊d及值在0.5,1内的偏移量矩阵B 沂RL伊1.根据式(1)及图1、图3将数据集D从输入层映射到ELM隐含层中,得到高维数据矩阵H(1) 沂Rn伊L.step 2 根据图2,利用LPP压缩ELM隐空间学习算法对ELM隐含层进
23、行压缩,形成LPP隐含层,得到维数为L忆的数据矩阵H(2).step 3 当j = 2,3, ,f.step 3.1 重复step 1.step 3.2 将LPP隐含层与ELM隐含层构成混合隐含层,得到数据矩阵H(3) = H(2),H(1).step 3.3 利用LPP压缩混合隐含层,形成LPP隐含层,得到数据矩阵同样为H(2).step 4 将最终获取的数据H(2)利用FCM进行聚类,输出模糊划分矩阵U. . . .UNI6df7UNI5408UNI9690UNI542bUNI5c42UNI6df7UNI5408UNI9690UNI542bUNI5c42LPPUNI9690UNI542bU
24、NI5c42ELMUNI9690UNI542bUNI5c42LPPLPPLPPUNI8f93UNI5165UNI5c42ELMUNI7279UNI5f81UNI6620UNI5c04UNI8f93UNI5165UNI5c42ELMUNI7279UNI5f81UNI6620UNI5c04UNI8f93UNI5165UNI5c42ELMUNI7279UNI5f81UNI6620UNI5c04图3 堆叠隐空间学习结构Fig.3 Cascaded hidden space learning structureCELM-LPP-FCM将ELM隐空间的单隐层结构改造为堆叠隐空间学习结构.假设从第2层开始,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 局部 保留 投影 堆叠 空间 模糊 均值 算法 刘欢
限制150内