基于非负矩阵分解的大规模异构数据联合聚类-申国伟.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于非负矩阵分解的大规模异构数据联合聚类-申国伟.pdf》由会员分享,可在线阅读,更多相关《基于非负矩阵分解的大规模异构数据联合聚类-申国伟.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计算机研究与发展 DOI:107544issnl000一1239201620148284JournaJ ot乙omputer Kesearch and UeVelopment 53(2):459466,2016基于非负矩阵分解的大规模异构数据联合聚类申国伟 杨 武 王 巍 于 淼 董国忠(哈尔滨工程大学信息安全研究中心 哈尔滨 150001)(shenguoweihrbeueducn)Large-Scale Heterogeneous Data C0-Clustering Based on Nonnegative MatrixFactorizationShen Guowei,Yang Wu,W
2、ang Wei(RPsP口rc矗CP靠fPr D,I霄,b,竹nfi072 SPf甜riy,Yu Miao,and Dong GuozhongH口r6i竹五hgi以PPri竹g U行ivPr5iy,Hn,西i竹150001)Abstract Heterogeneous information network contains multityped entities and interactive relationsSome coclustering algorithms have been proposed to mine underlying structure of different e
3、ntitiesHoweVer,with the increase of data scale,the scale of different class entities are growing unbalanced,and heterogeneous relational data are becoming extremely sparse In order to solve this problem,wepropose a two steps coclustering algorithm FNMTFCM based on correlation matrix decompositionIn
4、the first step, the correlation matrix is built with the correlation relationship of smallertypedentities and decomposed into indicating matrix of smallertyped entity based on symmetric nonnegativematrix factorization Correlation matrix has higher dense degree and smaller size compared with theorigi
5、nal heterogeneous relationship matrix, so our algorithm can process largescale heterogeneousdata and maintain a high pr零eision After that,the indicating matrix of smallertyped can be used asthe input directly,so the heterogeneous relationaI matrix trifactorization is very fast Experiments onarti“cia
6、l and real一world heterogeneous data sets show that the accuracy and perforr_nance of FNMTFCM algorithm are superior to the traditional coclustering algorithms based on nonnegative matrixfactorizationKey words heterogeneous network;coclustering;nonnegative matrix factorization;largescale data;correla
7、tion matrix摘要异构信息网络中包含多类实体和关系随着数据规模增大时,不同类实体规模增长不平衡,异构关系数据也变得异常稀疏,导致聚类算法的时间复杂度高、准确率低针对上述问题,提出了一种基于关联矩阵分解的2阶段联合聚类算法FNMTFCM第1阶段,抽取规模较小的一类实体中的关联关系构建关联矩阵,通过对称非负矩阵分解得到划分指示矩阵与原始关系矩阵相比,关联矩阵的稠密度更高,规模更小第2阶段,将划分指示矩阵作为关系矩阵三分解的输入,进而快速求解另一类实体的划分指示矩阵在标准测试数据集和异构关系数据集上的实验表明,算法准确率和性能整体优于传统的基于非负矩阵分解的联合聚类算法收稿日期:201411
8、24;修回日期:201503 26基金项目:国家“八六三”高技术研究发展计划基金项目(2012AA012802);国家自然科学基金项目(61170242)Thts work was supported by the National High Technology Research and Development Program of China(863 Program)(2012AA012802)and the National Natural Science Foundation of China(61170242)通信作者:杨武(yangwuhrbeueducn)万方数据460 计算机研
9、究与发展 2016,53(2)关键词 异构网络;联合聚类;非负矩阵分解;大规模数据;关联矩阵中图法分类号TP391随着微博、社交网络等异构信息网络的兴起,异构信息挖掘已经成为当前数据挖掘领域中的一个研究热点异构网络中包含多类实体,实体之间存在着复杂的交互关系例如微博中包含用户、消息、标签、词等实体,用户发布消息,消息由词语组成,消息中还包含标签等通过抽取实体间的关系数据进行聚类分析,能够挖掘出异构网络中不同实体间的潜在结构关系联合聚类能够针对不同的实体同时进行聚类分析I2,因而应用广泛传统的联合聚类算法包括基于信息理论的算法ITcC3、基于矩阵谱信息4和矩阵分解的方法由于关系数据中一般都是非负
10、元素,非负矩阵分解方法51成为目前最常用的方法传统的非负矩阵分解仅仅处理同类节点之间的同质关系聚类问题,Long等人61首次在二元关系矩阵上运用块值分解法实现矩阵分解在此基础上,提出了一系列改进的非负矩阵分解方法实现联合聚类7呻采用半监督的非负矩阵分解方法实现联合聚类1 0。”,算法SS-NMF12中融合肯定链接或否定链接等约束信息提高联合聚类算法的准确度,但是真实数据中通常很难获取约束先验知识在处理关系数据时,Wang等人1 3提出了快速的非负矩阵三分解方法FNMTF实现快速的矩阵分解,进而实现联合聚类非负矩阵分解在联合聚类算法取得了很好的效果1“,但是数据本身的几何结构会影响聚类的准确性1
11、16当待分析的异构数据规模增大时,关系数据结构呈现明显变化主要存在以下问题:1)非平衡问题待分析的异构数据规模增大时,异构数据中不同类实体的规模并不呈现统一的增长模式例如微博消息数量呈线性增长时,用户、词和标签等实体并不呈现线性增长模式传统的非负矩阵分解方法的时间复杂度都与矩阵的行和列规模相关,因此处理大规模异构数据时计算时间复杂度较高2)稀疏性问题真实异构网络中的关系数据比较稀疏,随着待分析异构数据规模进一步增大,关系数据变得异常稀疏例如微博中的消息内容最多包含140个字,构建的消息和词之间的关系矩阵非常稀疏当消息规模进一步增大时,由于中文常用词的数量是一定的,因此消息和词之间的关系矩阵变得
12、异常稀疏,消息和用户、标签的关系矩阵同样如此传统的非负矩阵分解方法针对异常稀疏的关系矩阵进行分解时得到的聚类效果并不理想本文针对大规模异构数据分析时出现的非平衡和稀疏性2个问题进行解决针对非平衡增长问题,在非负矩阵分解时提出了2阶段分解方法首先,仅对关系矩阵中的规模较小的一类实体进行分析异构实体之间的关系矩阵非常稀疏,但是同一类实体之间的关联性比较强口7I,通过同类实体之间的关联关系构造的关联矩阵能够明显提高矩阵的稠密度其次,以较小规模的实体聚类结果直接作为第2阶段的输入,在确保大规模实体聚类结果的同时提高了整体处理效率综上所述,本文将针对大规模异构关系数据提出一种基于关联矩阵的2阶段快速联合
13、聚类算法,同时解决非平衡问题和稀疏性问题1 问题定义异构关系数据中包括多类实体,目前的联合聚类算法主要针对二阶异构关系进行联合聚类分析,因此,本文以2类实体之间的异构关系为例叙述二阶异质关系数据采用二部图G一(V,E,w)进行建模,其中VX。UX:,X,和X。为异构关系中的2类实体,实体X。和X:的数量分别为优和扎,E为异构关系对应的边集合,W为边的权重。进一步可将二部图G表示成m x竹的异构关系矩阵R,由于大规模数据中的非平衡问题,可假设m咒传统的联合聚类算法中将x。和X。分别划分到忌。和忌。类(通常是,一是:),本文将针对X。和X:的联合聚类问题转换成针对关系矩阵R的行和列同时进行划分的问
14、题2 2阶段非负矩阵分解框架针对大规模异构关系数据中的非平衡问题和稀疏性问题,本文提出了一个2阶段的非负矩阵分解框架,如图1所示对关系矩阵R的行和列同时聚类可将关系矩阵只分解为F,js,B三个矩阵,如图1(a)所示,其中万方数据申国伟等:基于非负矩阵分解的大规模异构数据联合聚类矩阵F,B分别为2类目标实体的聚类指示矩阵,S为联合类之间相关矩阵本文不直接针对关系矩阵R进行分解,而是分2阶段实现第l阶段针对实体数较少的一类实体X:进行处理,其数量为行从关系矩阵R中抽取同类实体间的关联关系,进而构建关联矩阵C,矩阵C的规模为摊靠对矩阵C进行对称非负矩阵分解,得到指示矩阵曰,如图1(b)所示由于采用同
15、类实体的关联关系,构建的同质关系矩阵C比原来的关系矩阵R要稠密,在某种程度上能够避免非负矩阵分解中的稀疏性问题,进而提高非负矩阵分解的准确性在第2阶段中,将关联矩阵c分解得到的指示矩阵B直接作为关系矩阵R三分解的指示矩阵,如图1(c)所示在矩阵B已知的情况下,可以很容易计算指示矩阵F和矩阵ls由问题定义可知,矩阵C的规模小于原始关系矩阵R的规模m以,因此该框架能够处理大规模异构关系数据口z日x曰圃(a)Relational m删x一-decomp0Sition口;曰回(b)C0丌elation删xsymme研c decomposition口z归囡(c)RelationaI rr蜘x仇一deco
16、mposition baSed on曰TFig 1 The framework of heterogeneous datacoclustering。图1 异构数据联合聚类框架3基于关联矩阵的稀疏联合聚类根据2阶段非负矩阵分解框架,在异构关系矩阵的基础上,联合聚类主要包括关联矩阵构造、关联矩阵分解、基于关联矩阵的异构关系矩阵三分解3部分31关联矩阵构造在异构关系数据中,选择规模较小的一类实体X:,通过异构关系矩阵R构造X:对应的关联矩阵C。文中利用关联强度W。度量实体X:中任意2个实体工。,z,的关联关系,其可通过2个实体z,z,基十义,中买体的l司现概军进仃计算,冥计算方法如式(1)所示:阢,
17、一(-g蠢嚣高,o) 其中概率P(z。,乃)和P(z)计算分别如式(2)(3)所示:产蚩篙; (3)式(2)和式(3)中,N(z:,z,)为X。中的实体z,z,基于X。中实体同时出现次数32关联矩阵分解通过关联关系构造的关联矩阵C,采用对称非负矩阵分解方法进行分解,其对应的目标函数为式(4)所示:-,一|J c一肋7 0 2 stB。,o, (4)其中1|2为矩阵F一范数针对目标函数-,。,可通过非负最小二乘法进行计算,其计算公式如式(5)所示基于关联矩阵c的分解结果为聚类指示矩阵BBHmax(邙,(B?B,),O) (5)由于聚类指示矩阵中每一个实体只属于一个聚类标签,因此,对矩阵B进行二元
18、化,即B中每一行的最大值对应的聚类结果为1,其余对应的都为o二元化后的矩阵B将作为关系矩阵R三分解的输入33 基于关联矩阵的异构关系矩阵三分解传统的非负矩阵分解通常采用的目标函数如式(6)所示,该目标函数中采用两因子分解法,。一忙一耶7 StFjto,B:|o,Fl F=l,Bl BI两因子分解法得到的近似低秩矩阵效果较差,因此Ding等人3提出了正交非负矩阵三分解,其对应的目标函数为式(7)所示,在目标函数中引入了矩阵ls,使得分解得到的矩阵F,B具有实际意义J。一11RFsBl 0 2,stF。o,S。0,B:,O, (7)F7Fj。B7BI由于正交约束条件在某些情况下过于严格,本文中将采
19、用无正交约束的目标函数,如式(8)所示:J。=忙一FsB7 h stF。0,B。,O,S,0)一)一,z一工,zT等。NN,上“一P万方数据计算机研究与发展 2016,53(2)对于目标函数J。,现有的方法中常采用乘法更新的迭代求解方法实现,但是其收敛速度较慢本文将采用快速的迭代求解方法实现,关联矩阵c对称分解得到的矩阵B经过二元化后,直接作为目标函数,。的输入,因此,只需迭代求解矩阵F和ls在优化求解矩阵S的过程中,固定矩阵F,矩阵ls的求解方法如式(9)所示:S=(F7F)1FA=B(口7B) (9)在优化求解矩阵F的过程中,固定矩阵s由于矩阵F为关系矩阵R的行划分指示矩阵,F中的每一行有
20、且只有个元素为1,其余为o,因此求解矩阵F的优化问题可按照行进行处理,其转换为式(10)的优化问题,5一min|rJ一六sBl I|2, (10)其中,为行聚类指示向量,在该向量中,有且只有一个元素为1,其余的元素都为o,因此,式(10)的优化问题可通过式(11)进行快速求解fl,i=arg minff,J一60;厂“一 (11)lO,otherwise其中6。为sBT对应的第是个行向量式(10)可通过向量范式枚举法快速求解,避免了使用矩阵乘法迭代更新求解,提高了算法处理速度面向大规模异构数据的联合聚类算法的整个过程总结如算法1所示在关联矩阵C对称分解的基础上对关系矩阵R进行非负矩阵三分解,能
21、够同时解决非平衡和稀疏性问题算法1中第步为异构关系矩阵迭代求解过程算法1异构数据联合聚类算法FNMTFCM输入:R为关系矩阵,聚类数目壶,N。,为最大迭代次数,占为收敛阈值;输出:F为实体X。聚类指示矩阵,B为实体X:聚类指示矩阵初始化Fo,ls,B。;根据式(1)计算关联矩阵c;根据式(5)得到分解矩阵毋,二元化后得到聚类指示矩阵B;while(ifPrN。,d) 根据式(9)计算s; 根据式(11)计算F;https:wwwhdsutcfrcoclustenngdokuphphttp:wwwsogoucom1absdltcehtml 砒ri把r+1; 计算,;*2次迭代的F一范数差值*en
22、d while4实验及分析本文所有实验都在Matlab下实现,硬件平台为曙光8 core服务器、8GB内存实验中将分别对比算法SSNMF,FNMTF和本文算法FNMTFCM每一组实验分别运行10次,采用随机初始化,最终实验结果中给出平均值41实验数据集本文首先将在联合聚类算法的标准测试数据集1 9上对算法进行全面的评估该数据集给出了2类实体的聚类标签,不仅能够针对算法的准确率等指标值进行对比分析,还能对算法在不同聚类难度等级的数据集下进行对比分析数据集中共计36组数据,通过贝叶斯错误率E,一or作为数据集的难度控制参数,包括5,12,20共3个难度等级,其中5是最容易聚类的数据集,20是最难聚
23、类的数据集每1个难度等级分别对应50,100,200,500共4种规模(行和列的规模相同),可针对节点规模进行聚类算法对比分析每一类节点规模的数据集分别对应3,5,10共3种聚类数目,可针对不同的聚类数进行对比分析为了验证FNMTFCM算法在真实数据集上的效果,将在4个真实的异构关系数据集上进行对比实验其中Title数据为Sogou提供的新闻标题数据集,构建新闻标题和词之间的异构关系数据集weibo数据集收集了2012年“闯红灯”、“丰田汽车回收”、“美国总统大选”、“莫言获得诺贝尔奖”、“我是特种兵”、“杭州烟花大会”、“中国好声音”7个话题对应的新浪微博消息,经过预处理后得到8 023条微
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 矩阵 分解 大规模 数据 联合 申国伟
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内