基于信息理论的网络文本组合聚类-王扬.pdf





《基于信息理论的网络文本组合聚类-王扬.pdf》由会员分享,可在线阅读,更多相关《基于信息理论的网络文本组合聚类-王扬.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2016年 8月 北京航空航天大学学报 August 2016第42卷第8期 Journal of Beijing University of Aeronauties and Astronautics V0142 No8http:bhxbbuaaeduCR jbuaabuaaeducnDOI:1013700jbh1001-596520150507基于信息理论的网络文本组合聚类王扬1”,袁昆1,刘洪甫3,吴俊杰1,包秀国4+(1北京航空航天大学经济管理学院,北京100083; 2北京航空航天大学机械I程及自动化学院,北京1000833东北大学工学院,波-it顿02115;4国家计算机网络与信息安
2、全管理中心,北京100029)摘 要:尽管近年来针对文本聚类问题进行了大量研究,其仍然是数据挖掘领域的一个富有挑战性的问题,特别在弱相关特征乃至噪声特征的处理上,仍然存在诸多挑战。针对这一问题提出了文本聚类的分解-组合算法框架DIAs。该方法首先通过简单随机特征抽样将高维文本数据进行分解得到多样化的结构知识,其优点是能够较好地避免产生大量的噪声特征。然后采用基于信息理论的一致性聚类(ICC)将多视角基础聚类知识组合起来,得到高质量的一致性划分。最后通过在8个真实文本数据集上的实验,证明DIAS算法相较于其他被广泛使用的算法具有明显优势,特别在处理弱基础聚类上具有突出效果。由于在分布式计算上的天
3、然优势,DIAS有望成为大规模文本聚类的主流算法。关 键 词:文本聚类;分解一组合算法;基于信息理论的一致性聚类;K一均值;大数据聚类中图分类号:V221+3;TB553文献标识码:A 文章编号:10015965(2016)081603-09文本聚类在数据挖掘、信息检索和社交媒体挖掘等领域有着广泛应用,其旨在将文档集划分成若干有意义的类别,这是许多实际应用中的关键环节,如对搜索引擎返回的海量结果进行分类浏览,浏览大型文档集合心1,以及从用户产生内容中发现未知的观点1等。尽管文本聚类被广泛研究,但其高维性和稀疏性仍是难以解决的问题。随着近几年社会媒体的快速发展,文本数量出现爆炸式增长,同时文本信
4、息更加短促,这些特征加剧了文本聚类的难度。特征操作H巧o、距离选择M1及子空间聚类1等传统方法在聚类的精度和效率上很难做到均衡。本文针对文本聚类提出了一种分解一组合算法框架DIAS。首先通过采用简单随机特征抽样算法分解高维文本,得到多样化的结构知识,同时又规避了大量噪声特征的产生。然后基于信息理论的一致性聚类(Informationtheoretic Consensus Clustering,ICC)将多视角基础聚类知识组合起来,得到高质量的一致性划分。通过在8个真实文本数据集上的实验,证明了DIAS算法相较于其他主流算法在精度上的优势。DIAS算法中的简单随机特征抽样在处理高稀疏文本时更为高
5、效,一个很小的抽样比例(10)在绝大多数实验数据上即能得到令人满意的效果。此外,实验证明DIAS算法在处理弱基础聚类上具有显著优势,其关键在于充分利用了基础聚类的多样性。由于DIAS算法在分布式计算上的天生优势,其有希望成为大规模文本聚类的主流算法。收稿Et期:2015-07-30;录用日期:2015-09-06;网络出版时间:201510-08 15:21网络出版地址:WWWcnkinetkcmsdetaiL112625V201510081521001html基金项目:国家自然科学基金(71531001,71322104,71171007,71471009);国家“863”计划(SS2014
6、AA012303);中央高校基本科研业务费专项资金$通讯作者:Tel:010-82338497 E-mail:baoxiuguo139conl;f用格式:王扬,袁昆,刘洪甫,等基于信息理论的网络文本组合聚类fJ J北京航空航天大学学报,2016,42(8):16031611WANG Y,YUAN K,LIU H F。et a1Informationtheoretic ensemble clustering on web texts【jJournal of Belting University ofAeronautics and Astronautics,2016,42 f8):1603-161
7、 1(in Chinese)万方数据1604 北京航空航天大学学报 2016年1 DIAS算法基本框架图1阐述了DIAS算法的3个主要阶段:1)第1阶段进行特征子集选择,将高维文本数据按列划分成小的数据集。划分方法应当快速高效,同时保证数据子集的多样性。实验结果表明,如果采用简单随机特征抽样策略,即使采样率低至10,DIAS算法的效果仍然不错。详情参见实验部分。2)第2阶段针对每个数据子集生成一个基础聚类。尽管理论上可采用任何聚类算法,本文推荐采用K一均值算法,可充分利用其高效性和鲁棒性。0l(】O 0l0I属tE2 30 10 01 OO 00 O1 0输人文本数拱3)第3阶段是DIAS的关
8、键,即对基础聚类结果进行融合。一致性聚类算法应当是高效和健壮的,并能从大量的弱基础聚类中进行学习。为满足上述要求,本文提出ICE算法。详情参见第2节。研究发现,DIAS算法在处理海量、高维文本时有天然优势:首先,通过特征选择,DIAS算法既规避了噪声特征,又从文本中得到了多样化的聚类信息,从而降低维度灾难的影响;其次,针对数据子集的聚类适于并行或分布计算,这对于大数据计算是至关重要的。由于DIAS算法的第1、2阶段较为简单,下面主要围绕第3阶段的ICC算法展开研究。0 1 1 ,一4|,亭、,一、,o-、,一、?0?j j一蔓,jq嗲? Io、i睡黟?00 0 、-,。 ,。0I:到0 、。(
9、) 1 ! ! ! !l ,:,i6、:、 ;?: :川 j,7髓、j、;001 0卜鳝0、,一 I:0 1 0 、 、,7, :0。 j:f ,j、。I。:?01 l?,蠢、0 l 一:,o 109。0_蚓_、粤7,j2 基于信息理论的一致性聚类令D表示文本数据集合,IDl=n。假设采用硬聚类划分将D划分成K个数据子集,用集合C=C。I k=1,2,K表示,Cn C,=f2j,V kk,uK C。=D。令向量仃=(L。(d。),。(d2),L。(d。)。,L。将文本d,映射到标签集合1,2,K中,1fn。假设有r个基础聚类H=矾,吼,仉。目标是找到一致性聚类算法以求解下述问题:m。in一Wi
10、u(仃,死)st彬。=1,W。0,lir (1)百式中:U:z:+zn+IR为效用函数;,=(叫。,叫一,W,)。为用户给定的基础聚类权重向量。本文默认训,=W:=W,=1,主要出于两点考虑:充分利用各基础聚类结果的多样性(参见第322节实验部分);在一致性聚类前无从得知各基础聚类结果的准确性。若要自动设置,一种思路是将其L2范式作为约束加入目标函数中。笔者将在未来工作中考虑这个问题。式(1)是一个非凸优化问题,其核心在于选择一个合适的效用函数u,以高效地得到一个较好的一致性聚类结果。21 基于信息理论的效用函数DIAS算法的核心是将基础聚类融合成一个聚类结果,这就要求一致性聚类算法必须具有高
11、效性和健壮性。因此本文提出一个基于信息理论论类一、一HK:一,类理聚、卜一,0I啦聚瓣丁一黪嘉一r,、一OOO0一一O00O一一0O0O一1订_i副孔订刊引f“订引l札嗽一万方数据第8期 王扬,等:基于信息理论的网络文本组合聚类 1605的效用函数,并据此构建高效的ICC算法。根据式(1),效用函数定义在2个划分7r和矾上,因此可视为2个划分的相似度的一个测度。采用表1的可能性矩阵来辅助效用函数定义。如表1所示,仃和死分别有K和K个簇。n:?表示q中的簇c与仃中的簇C;共同包含的样本数目,则Ki Kn。(+O=n笞,n孑=n譬j=l k=l1JK。,1kK令p:?=ni夕n,p2=n:i)+n
12、,p?;=n?;n,可得标准化后的可能性矩阵,并据此定义效用函数。令离散分布P:“=(p:p。+,p芝p。+,p星P。+),V k,P“=(p?:,pl:,p?;,p?:),由此导出定义1。表1可能性矩阵Table 1 Contingency matrixC“ n; n掺 n:; nVj C allc2 ni:cK n甚 n0:定义1如果函数UH满足式(2)定义,那么称其为基于信息理论的效用函数。Ku日(仃,仃i)=一Pk+H(P)+日(P“) (2)=l式中:日为香农熵。因日是凹函数,根据詹森不等式易得K K一Pk+(P)一日(p。+PP)=一H(P)因此,U0。U。越高,效用值越高,说明2
13、种划分的相似度也越高。应注意,U。是非对称的,即如果仃订。,则UH(7r,仃。)UH(死,仃)。选择作为式(1)中的效用函数的主要原因是:可将关于仃的优化问题转化为一个基于信息理论的K一均值聚类问题,这样就能保证高效性和健壮性。为了更好理解转化过程,首先介绍二元矩阵的概念,用于汇总所有基础聚类结果。定义二元矩阵X=(工。,工:,z。)1,其中:z z=(zf1,工f2,工,i,Xf,) 1f,暮(3)(4)(5)很明显,IkiIl=l,Vf,i。根据U。和X的定义,有如下重要定理。定理1 假设仃是D上K个簇c。,C2,C。的一个一致性划分,给定r个基础聚类仃。,死,亿和权重向量w,则m。ax善
14、加-旧,死)铮m乎善。荟。善wiD(Xl,ilira)(6)式中:m=_。I C。d,E C(7)D(x|m)为从z“到m的KLdivergence。证明 易证D(z 0 Y)=一日(工)+H(y)+(z-y)VH(y)因此有X 7y WiD(x。|I m)=(d J rWi(一H(x)+H(m)+k=l dtE CI i=lK rWi(z一m)VH(m)k=l dfE CI i=l(口)由式(7)易知,z。一m=0,故(卢)=o,dtC(理)=一乏三wiH(x。)+埘。H(m)= =l出ECI注l =l d,ci=l一wiH(x。,i)+nWip。+H(m。)kI d,ED i=l 女=I易
15、知(y)为常数,因此有m(a)苗m。ax一善埘i再pt+日(m) (8)因为m=算I C。I=l C。nIJ C。l=望:监,v,得出m:f丛,塑,丝1:Ph v、pI+pt+Pk+7如果用P代替式(8)中的m,并在等式右侧加入常量wiH(P“),可得m于(a)。ax善训-(_E矧Pk+H(P+H(P“)甘m。ax善埘iU一(订,巩) 证毕一=”靴万方数据1606 北京航空航天大学学报 2016年定理1表明,借助从基础聚类中得到的二元矩阵,ICC算法可转换为基于信息理论的K均值聚类。后者由于具有高效性、健壮性和广泛适用性等优点,因而被公认是非常优秀的算法。事实上,近年来许多文献都将信息理论应用
16、到文本聚类上,如Gokcay和Principe1介绍Tvalley seeking聚类算法,并在其中采用信息论测度估计了数据划分的代价;Dhillon等1根据互信息提出了联合聚类算法来进行文本聚类;Cao等M1最近在基于信息理论的K一均值(IKmeans)聚类算法的基础提出了SAIL算法以处理零值困境。22 DIAS算法详解算法1 DIAS输入:文本数据D;簇个数K;随机特征抽样率r。;基础聚类权重w。输出:一致性聚类结果仃。1)以设定的随机特征抽样率r。从D中抽取数据子集Dj,1ir。2)利用K一均值算法对D,进行基础聚类得到仃。,1ir。3)从=万。,死,仃r中构建二元矩阵x。4)调用IC
17、C以计算订+。5)返回仃+。算法2 ICC输入:二元矩阵X;簇个数K;权值w。输出:一致性聚类结果仃+。1)根据x和w的值得到加权二元矩阵x 7。2)在x上执行基于信息理论的K一均值算法得到付。3)返回仃+。算法要点如下:1)算法1第1行中叙述DIAS算法数据集是通过随机特征选择方案生成的。这不仅是算法高效的原因,更重要的是从特征中寻求多样信息,这对得到多样化基础聚类非常关键。本文倾向于取较小的r。值,比如10。2)本文在DIAS算法中采用K一均值算法进行基础聚类。绝大多数情况下,K一均值聚类是高效、稳定的,能够得到相当好的划分效果。应该避免采用复杂的算法,因为这会严重影响效率,而对一致性聚类
18、的精度贡献往往不大。3)ICC算法采用K均值聚类是非常高效的。其时间复杂度为O(如屑),为收敛时迭代的次数(通常不超过20),因为二元矩阵的特点,数据维度为r。r个基础聚类的时间复杂度为0(rlndr。K),d为一篇文档包含的平均词数。可以通过采用并行计算以及设定小的r。值来降低复杂度。值得一提的是,ICC算法的空间复杂度因为数据维度由d减为r,从而得到大幅降低;这一点同样适用于基础聚类,因为基础聚类的数据维度也由d减为由。3 实验结果本节检验DIAS算法的效果。主要关注:影响DIAS算法的主要因素;DIAS算法相较于其他主流聚类算法的优越性;ICC算法对主流一致性聚类算法的优势。31实验设计
19、311 实验数据实验采用8个已经标注的真实文本数据集,它们的主要特征如表2所示。表中:变异系数(coefficient of variation)用来度量真实簇中样本容量不均衡性;密度为文本数据中非零值比例,用来表征文本的稀疏程度。表格中前5个数据集来源于CLUTO101,RCV和News201是有名的标准文本集121,Baike纠则来源于百度百科。312 实验工具DIAS算法基于MATLAB平台编程实现,参数默认值如下:ICC算法的权值设为等值;随机特征抽样率r。=10;对每个数据集采用MATLAB的kmeans函数(相似度采用cosine)运行100遍得到r=100个基础聚类;聚类数设置为
20、真实簇个表2实验数据集Table 2 Experimental data sets万方数据第8期 王扬,等:基于信息理论的网络文本组合聚类 1607数;运行ICC算法10遍取最好的结果。参与比较的算法包括基于信息理论的K均值算法、基于互联矩阵的一致性聚类方法(HCC),均在MATLAB平台实现。为了全面对比,还采用了2个有名的工具:CLUTO41和基于图的一致性聚类工具(GCC)5I。这些工具的参数在实验中根据不同数据集进行优化适配。313聚类有效性评价指标由于所有数据集的簇标签已知,本文采用正向外部效度(Normalized Mutual Information,NMI,记为NMI(0,1)
21、度量聚类的有效性引。NMI基于信息理论中的共有信息概念,目前已被广泛应用于聚类分析的外部评价。32 DIAS算法的影响因素分析321质量因素分析直观来看,基础聚类的好坏应对ICC算法的成功非常重要。问题在于需要多少个高质量的基础聚类才能得到一个好的一致性聚类。DIAS算法采用的简单随机特征抽样算法很难得到大量好的基础聚类。这一推测可以从基础聚类的质量分布中得到验证。从图2可以看出,无论是cacmcisi还是Baike,大部分基础聚类的质量都比较差。关键在于ICC算法能否利用少量相对高质量的基础聚类得到较好的一致性划分。通过实验发现,ICC算法能够利用少量相对高质量的基础聚类得到较好的一致性划分
22、。图2O 1 0 2 0 3 0 4NMlfal cacmcislNMf111 f3aikc图2 cacmcisi和Baike基础聚类质量Fig2 Quality of basic partitionings of cacmcisi and Baike中右侧竖线表明,ICC算法得到的一致性划分的质量高于基础聚类的平均水平,这证明ICC算法能够从少量相对较高质量的基础聚类提取出簇结构的重要信息。进一步,对cacmcisi数据进行敏感性分析,即按照质量从好到坏的顺序依次移除基础聚类,观测ICC算法效果的变化。如图3所示,当移除前20的基础聚类时,ICC算法效果出现急剧下降。而按照从坏到好移除基础聚
23、类时,其性能下降要缓和得多。这充分表明ICC算法可以从少数较高质量的基础聚类中学习,以得到较好的一致性划分结果。图3 cacmcisi上的逐步删除策略Fig3 Stepwise deletion strategy on cacmcisi322 多样性因素分析通常情况下,DIAS算法中随机特征抽样算法只能产生弱基础聚类,较好的几乎没有。那么,ICC算法能否从大量弱基础聚类中进行学习以得到较好结果就显得尤为重要。图4所示为sports和RCV中的基础聚类结果,所有NMI均小于04。通过实验发现,ICC算法能够从这些弱基础聚类中得到较好的一致性划分。图4右侧垂直线表明由ICC算法得到的一致性划分远好
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 信息 理论 网络 文本 组合 王扬

限制150内