书签分享收藏举报版权申诉 / 9

当前位置：首页 > 研究报告 > 论证报告 > 基于信息理论的网络文本组合聚类-王扬.pdf

基于信息理论的网络文本组合聚类-王扬.pdf

上传人：1890****070

文档编号：101408

上传时间：2018-05-12

格式：PDF

页数：9

大小：1.96MB

( 4.5 )

《基于信息理论的网络文本组合聚类-王扬.pdf》由会员分享，可在线阅读，更多相关《基于信息理论的网络文本组合聚类-王扬.pdf（9页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、2016年 8月北京航空航天大学学报 August 2016第42卷第8期 Journal of Beijing University of Aeronauties and Astronautics V0142 No8http：bhxbbuaaeduCR jbuaabuaaeducnDOI：1013700jbh1001-596520150507基于信息理论的网络文本组合聚类王扬1”，袁昆1，刘洪甫3，吴俊杰1，包秀国4+(1北京航空航天大学经济管理学院，北京100083； 2北京航空航天大学机械I程及自动化学院，北京1000833东北大学工学院，波-it顿02115；4国家计算机网络与信息安

2、全管理中心，北京100029)摘要：尽管近年来针对文本聚类问题进行了大量研究，其仍然是数据挖掘领域的一个富有挑战性的问题，特别在弱相关特征乃至噪声特征的处理上，仍然存在诸多挑战。针对这一问题提出了文本聚类的分解-组合算法框架DIAs。该方法首先通过简单随机特征抽样将高维文本数据进行分解得到多样化的结构知识，其优点是能够较好地避免产生大量的噪声特征。然后采用基于信息理论的一致性聚类(ICC)将多视角基础聚类知识组合起来，得到高质量的一致性划分。最后通过在8个真实文本数据集上的实验，证明DIAS算法相较于其他被广泛使用的算法具有明显优势，特别在处理弱基础聚类上具有突出效果。由于在分布式计算上的天

3、然优势，DIAS有望成为大规模文本聚类的主流算法。关键词：文本聚类；分解一组合算法；基于信息理论的一致性聚类；K一均值；大数据聚类中图分类号：V221+3；TB553文献标识码：A 文章编号：10015965(2016)081603-09文本聚类在数据挖掘、信息检索和社交媒体挖掘等领域有着广泛应用，其旨在将文档集划分成若干有意义的类别，这是许多实际应用中的关键环节，如对搜索引擎返回的海量结果进行分类浏览，浏览大型文档集合心1，以及从用户产生内容中发现未知的观点1等。尽管文本聚类被广泛研究，但其高维性和稀疏性仍是难以解决的问题。随着近几年社会媒体的快速发展，文本数量出现爆炸式增长，同时文本信

4、息更加短促，这些特征加剧了文本聚类的难度。特征操作H巧o、距离选择M1及子空间聚类1等传统方法在聚类的精度和效率上很难做到均衡。本文针对文本聚类提出了一种分解一组合算法框架DIAS。首先通过采用简单随机特征抽样算法分解高维文本，得到多样化的结构知识，同时又规避了大量噪声特征的产生。然后基于信息理论的一致性聚类(Informationtheoretic Consensus Clustering，ICC)将多视角基础聚类知识组合起来，得到高质量的一致性划分。通过在8个真实文本数据集上的实验，证明了DIAS算法相较于其他主流算法在精度上的优势。DIAS算法中的简单随机特征抽样在处理高稀疏文本时更为高

5、效，一个很小的抽样比例(10)在绝大多数实验数据上即能得到令人满意的效果。此外，实验证明DIAS算法在处理弱基础聚类上具有显著优势，其关键在于充分利用了基础聚类的多样性。由于DIAS算法在分布式计算上的天生优势，其有希望成为大规模文本聚类的主流算法。收稿Et期：2015-07-30；录用日期：2015-09-06；网络出版时间：201510-08 15：21网络出版地址：WWWcnkinetkcmsdetaiL112625V201510081521001html基金项目：国家自然科学基金(71531001，71322104，71171007，71471009)；国家“863”计划(SS2014

6、AA012303)；中央高校基本科研业务费专项资金$通讯作者：Tel：010-82338497 E-mail：baoxiuguo139conl；f用格式：王扬，袁昆，刘洪甫，等基于信息理论的网络文本组合聚类fJ J北京航空航天大学学报，2016，42(8)：16031611WANG Y，YUAN K，LIU H F。et a1Informationtheoretic ensemble clustering on web texts【jJournal of Belting University ofAeronautics and Astronautics，2016，42 f8)：1603-161

7、 1(in Chinese)万方数据1604 北京航空航天大学学报 2016年1 DIAS算法基本框架图1阐述了DIAS算法的3个主要阶段：1)第1阶段进行特征子集选择，将高维文本数据按列划分成小的数据集。划分方法应当快速高效，同时保证数据子集的多样性。实验结果表明，如果采用简单随机特征抽样策略，即使采样率低至10，DIAS算法的效果仍然不错。详情参见实验部分。2)第2阶段针对每个数据子集生成一个基础聚类。尽管理论上可采用任何聚类算法，本文推荐采用K一均值算法，可充分利用其高效性和鲁棒性。0l(】O 0l0I属tE2 30 10 01 OO 00 O1 0输人文本数拱3)第3阶段是DIAS的关

8、键，即对基础聚类结果进行融合。一致性聚类算法应当是高效和健壮的，并能从大量的弱基础聚类中进行学习。为满足上述要求，本文提出ICE算法。详情参见第2节。研究发现，DIAS算法在处理海量、高维文本时有天然优势：首先，通过特征选择，DIAS算法既规避了噪声特征，又从文本中得到了多样化的聚类信息，从而降低维度灾难的影响；其次，针对数据子集的聚类适于并行或分布计算，这对于大数据计算是至关重要的。由于DIAS算法的第1、2阶段较为简单，下面主要围绕第3阶段的ICC算法展开研究。0 1 1 ，一4|，亭、，一、，o-、，一、?0?j j一蔓，jq嗲? Io、i睡黟?00 0 、-，。，。0I：到0 、。(

9、) 1 ! ! ! !l ，：，i6、：、；?：：川 j，7髓、j、；001 0卜鳝0、，一 I：0 1 0 、、，7，：0。 j：f ，j、。I。：?01 l?，蠢、0 l 一：，o 109。0_蚓_、粤7，j2 基于信息理论的一致性聚类令D表示文本数据集合，IDl=n。假设采用硬聚类划分将D划分成K个数据子集，用集合C=C。I k=1，2，K表示，Cn C，=f2j，V kk，uK C。=D。令向量仃=(L。(d。)，。(d2)，L。(d。)。，L。将文本d，映射到标签集合1，2，K中，1fn。假设有r个基础聚类H=矾，吼，仉。目标是找到一致性聚类算法以求解下述问题：m。in一Wi

10、u(仃，死)st彬。=1，W。0，lir (1)百式中：U：z：+zn+IR为效用函数；，=(叫。，叫一，W，)。为用户给定的基础聚类权重向量。本文默认训，=W：=W，=1，主要出于两点考虑：充分利用各基础聚类结果的多样性(参见第322节实验部分)；在一致性聚类前无从得知各基础聚类结果的准确性。若要自动设置，一种思路是将其L2范式作为约束加入目标函数中。笔者将在未来工作中考虑这个问题。式(1)是一个非凸优化问题，其核心在于选择一个合适的效用函数u，以高效地得到一个较好的一致性聚类结果。21 基于信息理论的效用函数DIAS算法的核心是将基础聚类融合成一个聚类结果，这就要求一致性聚类算法必须具有高

11、效性和健壮性。因此本文提出一个基于信息理论论类一、一HK：一，类理聚、卜一，0I啦聚瓣丁一黪嘉一r，、一OOO0一一O00O一一0O0O一1订_i副孔订刊引f“订引l札嗽一万方数据第8期王扬，等：基于信息理论的网络文本组合聚类 1605的效用函数，并据此构建高效的ICC算法。根据式(1)，效用函数定义在2个划分7r和矾上，因此可视为2个划分的相似度的一个测度。采用表1的可能性矩阵来辅助效用函数定义。如表1所示，仃和死分别有K和K个簇。n：?表示q中的簇c与仃中的簇C；共同包含的样本数目，则Ki Kn。(+O=n笞，n孑=n譬j=l k=l1JK。，1kK令p：?=ni夕n，p2=n：i)+n

12、，p?；=n?；n，可得标准化后的可能性矩阵，并据此定义效用函数。令离散分布P：“=(p：p。+，p芝p。+，p星P。+)，V k，P“=(p?：，pl：，p?；，p?：)，由此导出定义1。表1可能性矩阵Table 1 Contingency matrixC“ n； n掺 n：； nVj C allc2 ni：cK n甚 n0：定义1如果函数UH满足式(2)定义，那么称其为基于信息理论的效用函数。Ku日(仃，仃i)=一Pk+H(P)+日(P“) (2)=l式中：日为香农熵。因日是凹函数，根据詹森不等式易得K K一Pk+(P)一日(p。+PP)=一H(P)因此，U0。U。越高，效用值越高，说明2

13、种划分的相似度也越高。应注意，U。是非对称的，即如果仃订。，则UH(7r，仃。)UH(死，仃)。选择作为式(1)中的效用函数的主要原因是：可将关于仃的优化问题转化为一个基于信息理论的K一均值聚类问题，这样就能保证高效性和健壮性。为了更好理解转化过程，首先介绍二元矩阵的概念，用于汇总所有基础聚类结果。定义二元矩阵X=(工。，工：，z。)1，其中：z z=(zf1，工f2，工，i，Xf，) 1f，暮(3)(4)(5)很明显，IkiIl=l，Vf，i。根据U。和X的定义，有如下重要定理。定理1 假设仃是D上K个簇c。，C2，C。的一个一致性划分，给定r个基础聚类仃。，死，亿和权重向量w，则m。ax善

14、加-旧，死)铮m乎善。荟。善wiD(Xl,ilira)(6)式中：m=_。I C。d，E C(7)D(x|m)为从z“到m的KLdivergence。证明易证D(z 0 Y)=一日(工)+H(y)+(z-y)VH(y)因此有X 7y WiD(x。|I m)=(d J rWi(一H(x)+H(m)+k=l dtE CI i=lK rWi(z一m)VH(m)k=l dfE CI i=l(口)由式(7)易知，z。一m=0，故(卢)=o，dtC(理)=一乏三wiH(x。)+埘。H(m)= =l出ECI注l =l d，ci=l一wiH(x。，i)+nWip。+H(m。)kI d，ED i=l 女=I易

15、知(y)为常数，因此有m(a)苗m。ax一善埘i再pt+日(m) (8)因为m=算I C。I=l C。nIJ C。l=望：监，v，得出m：f丛，塑，丝1：Ph v、pI+pt+Pk+7如果用P代替式(8)中的m，并在等式右侧加入常量wiH(P“)，可得m于(a)。ax善训-(_E矧Pk+H(P+H(P“)甘m。ax善埘iU一(订，巩) 证毕一=”靴万方数据1606 北京航空航天大学学报 2016年定理1表明，借助从基础聚类中得到的二元矩阵，ICC算法可转换为基于信息理论的K均值聚类。后者由于具有高效性、健壮性和广泛适用性等优点，因而被公认是非常优秀的算法。事实上，近年来许多文献都将信息理论应用

16、到文本聚类上，如Gokcay和Principe1介绍Tvalley seeking聚类算法，并在其中采用信息论测度估计了数据划分的代价；Dhillon等1根据互信息提出了联合聚类算法来进行文本聚类；Cao等M1最近在基于信息理论的K一均值(IKmeans)聚类算法的基础提出了SAIL算法以处理零值困境。22 DIAS算法详解算法1 DIAS输入：文本数据D；簇个数K；随机特征抽样率r。；基础聚类权重w。输出：一致性聚类结果仃。1)以设定的随机特征抽样率r。从D中抽取数据子集Dj，1ir。2)利用K一均值算法对D，进行基础聚类得到仃。，1ir。3)从=万。，死，仃r中构建二元矩阵x。4)调用IC

17、C以计算订+。5)返回仃+。算法2 ICC输入：二元矩阵X；簇个数K；权值w。输出：一致性聚类结果仃+。1)根据x和w的值得到加权二元矩阵x 7。2)在x上执行基于信息理论的K一均值算法得到付。3)返回仃+。算法要点如下：1)算法1第1行中叙述DIAS算法数据集是通过随机特征选择方案生成的。这不仅是算法高效的原因，更重要的是从特征中寻求多样信息，这对得到多样化基础聚类非常关键。本文倾向于取较小的r。值，比如10。2)本文在DIAS算法中采用K一均值算法进行基础聚类。绝大多数情况下，K一均值聚类是高效、稳定的，能够得到相当好的划分效果。应该避免采用复杂的算法，因为这会严重影响效率，而对一致性聚类

18、的精度贡献往往不大。3)ICC算法采用K均值聚类是非常高效的。其时间复杂度为O(如屑)，为收敛时迭代的次数(通常不超过20)，因为二元矩阵的特点，数据维度为r。r个基础聚类的时间复杂度为0(rlndr。K)，d为一篇文档包含的平均词数。可以通过采用并行计算以及设定小的r。值来降低复杂度。值得一提的是，ICC算法的空间复杂度因为数据维度由d减为r，从而得到大幅降低；这一点同样适用于基础聚类，因为基础聚类的数据维度也由d减为由。3 实验结果本节检验DIAS算法的效果。主要关注：影响DIAS算法的主要因素；DIAS算法相较于其他主流聚类算法的优越性；ICC算法对主流一致性聚类算法的优势。31实验设计

19、311 实验数据实验采用8个已经标注的真实文本数据集，它们的主要特征如表2所示。表中：变异系数(coefficient of variation)用来度量真实簇中样本容量不均衡性；密度为文本数据中非零值比例，用来表征文本的稀疏程度。表格中前5个数据集来源于CLUTO101，RCV和News201是有名的标准文本集121，Baike纠则来源于百度百科。312 实验工具DIAS算法基于MATLAB平台编程实现，参数默认值如下：ICC算法的权值设为等值；随机特征抽样率r。=10；对每个数据集采用MATLAB的kmeans函数(相似度采用cosine)运行100遍得到r=100个基础聚类；聚类数设置为

20、真实簇个表2实验数据集Table 2 Experimental data sets万方数据第8期王扬，等：基于信息理论的网络文本组合聚类 1607数；运行ICC算法10遍取最好的结果。参与比较的算法包括基于信息理论的K均值算法、基于互联矩阵的一致性聚类方法(HCC)，均在MATLAB平台实现。为了全面对比，还采用了2个有名的工具：CLUTO41和基于图的一致性聚类工具(GCC)5I。这些工具的参数在实验中根据不同数据集进行优化适配。313聚类有效性评价指标由于所有数据集的簇标签已知，本文采用正向外部效度(Normalized Mutual Information，NMI，记为NMI(0，1)

21、度量聚类的有效性引。NMI基于信息理论中的共有信息概念，目前已被广泛应用于聚类分析的外部评价。32 DIAS算法的影响因素分析321质量因素分析直观来看，基础聚类的好坏应对ICC算法的成功非常重要。问题在于需要多少个高质量的基础聚类才能得到一个好的一致性聚类。DIAS算法采用的简单随机特征抽样算法很难得到大量好的基础聚类。这一推测可以从基础聚类的质量分布中得到验证。从图2可以看出，无论是cacmcisi还是Baike，大部分基础聚类的质量都比较差。关键在于ICC算法能否利用少量相对高质量的基础聚类得到较好的一致性划分。通过实验发现，ICC算法能够利用少量相对高质量的基础聚类得到较好的一致性划分

22、。图2O 1 0 2 0 3 0 4NMlfal cacmcislNMf111 f3aikc图2 cacmcisi和Baike基础聚类质量Fig2 Quality of basic partitionings of cacmcisi and Baike中右侧竖线表明，ICC算法得到的一致性划分的质量高于基础聚类的平均水平，这证明ICC算法能够从少量相对较高质量的基础聚类提取出簇结构的重要信息。进一步，对cacmcisi数据进行敏感性分析，即按照质量从好到坏的顺序依次移除基础聚类，观测ICC算法效果的变化。如图3所示，当移除前20的基础聚类时，ICC算法效果出现急剧下降。而按照从坏到好移除基础聚

23、类时，其性能下降要缓和得多。这充分表明ICC算法可以从少数较高质量的基础聚类中学习，以得到较好的一致性划分结果。图3 cacmcisi上的逐步删除策略Fig3 Stepwise deletion strategy on cacmcisi322 多样性因素分析通常情况下，DIAS算法中随机特征抽样算法只能产生弱基础聚类，较好的几乎没有。那么，ICC算法能否从大量弱基础聚类中进行学习以得到较好结果就显得尤为重要。图4所示为sports和RCV中的基础聚类结果，所有NMI均小于04。通过实验发现，ICC算法能够从这些弱基础聚类中得到较好的一致性划分。图4右侧垂直线表明由ICC算法得到的一致性划分远好

24、于最好的基础聚类。这说明尽管基础聚类的质量均较差，ICC算法依然可以充分利用其聚类结果的多样性来生成较好的划分。该结论也适用于classic、mm、reviews和News20等数据集，如图5所示。以上结果表明，基础聚类的多样性是ICC算法成功的关键因素。为了更好地理解上述结论，接下来直接度量基础聚类的多样性。令s。i=NMI(覆，仃i)表示基础聚类仃i和巧的相似度。定义关联加权矩阵M。=Wit7i(1i，Jr)和加权相似度矩阵M，=埘。Wisi一。F表示矩阵的Frobenius范数。则基础聚类的多样性测度可定义为div=1一F(M，)F(M。) (9)式中：r ， F(M：)=(埘。础jSl

25、j)2)“如如mO万方数据1608 北京航空航天大学学报 2016年)2 0 3 0 4 0 5NMI(a)sports0 1 0 2 0 3 0 4 0 5 0 6NMI(b)RCV图4 sports和RCV基础聚类质量Fig4 Quality of basic partitionings of sports and RC x,classic mill reviews sports RCVNews20l基fi：；聚类多佯睫 *ICC苒法聚楚效果e一最f#基础聚类效果图5基础聚类的多样性Fig5 Diversity of basic partitioningsl 00 80 604芝Z0 20

26、-0 2F(M。)=(w一)2)“i=1 j=ldiv越大，表明基础聚类的多样性越好。借助div，可以研究基础聚类的多样性和一致性划分的质量之间的关系。图5展示的是除cacmcisi和Baike之外的所有数据集的实验结果，其中采用每个数据集中最好的基础聚类的质量作为比较研究的基准。如图5所示，借助基础聚类的多样性，所有数据集的聚类结果都得到了提升。上述结果揭示了多样性因素对ICC算法的重要性，即在大部分情况下多样性因素相比于质量因素，对文本的一致性聚类影响更大。这尤其适合处理高稀疏性文本，因为文本中往往会充斥着大量弱相关项和无关项，很难期望能从文本数据中得到足够多的高质量基础聚类。323 基础

27、聚类的生成策略的影响分析基础聚类的生成策略对DIAS算法的影响主要归结为以下2个问题：默认的10的特征抽样率是否太低；多少基础聚类是合适的。下面对上述问题进行实验分析。表3所示为通过设置DIAS算法中不同的抽样比例来观测聚类性能的变化。如图6所示，尽管不同数据集要求的最优抽样率均不相同，但10的策略在除了News20以外的所有数据集上均可得到满意效果。这主要归功于文本中存在大量的噪声特征，而低抽样率恰好可以忽略这些噪声特征。如果更进一步考虑效率和空问的问题，则10策略在处理大文本数据时更具有优势。比如，当特征抽样率r。I50时，拥有32GB RAM的计算机也会出现内存溢出的情况，如表3“NA”

28、所示。表3特征抽样率的敏感性分析Table 3 sensitivity analysis of feature sampling rate基础聚类个数基础聚类个数(b)reviews图6基础聚类数量的影响Fig6 Impact of number of basic partitioningsO8642OO00O三勺万方数据第8期王扬，等：基于信息理论的网络文本组合聚类 1609为研究基础聚类个数的影响，对每个数据集中已生成的100个基础聚类进行随机抽样，以不同的特征抽样率L得到不同的基础聚类子集，在此基础上采用ICC算法进行一致性聚类。重复实验100次，观测不同r。值下聚类性能的变化。图6显

29、示了在数据集mm和reviews上的结果。显然，随着r。值越趋近于100时，ICC算法能产生更高质量和更稳定的结果，但其实当r。=50时的结果已经很令人满意了。33 DIAS算法与单聚类算法的比较将DIAS算法与被广泛认可的文本聚类算法进行比较，如基于余弦距离的K均值(采用CLUTO)和基于信息理论的K一均值(采用IKmeans)。特征处理方法TDIDF也加入对比实验。表4列示了3种算法的聚类结果，其中表现最好的用粗体标示，次好的用下划线标示，内存溢出错误用NA标示。采用TDIDF加权的结果用idf表示，没有采用的则用none表示。表4聚类质量的对比Table 4 Comparison of

30、clustering quality0428 3 04886 0165 0 0220 307064 07209 0450 8 0547 108167 0716l 0781 7 0000006129 0605 3 05706 0529 80523 8 06742 04722 0665405580 05927 05864 059490343 8 04909 0164 l 059120522 2 055l 7 O50l 3 05441表4所示结果对比明显。首先，采用TFIDF的方法除了IKmeans外，均能有效地提高文本聚类效果。例如，采用TF-IDF的DIAS算法相较于没有TFIDF的，在8个数据

31、集中的6个能表现得更好。相似情况也发生在CLUTO上。其次，DIAS算法无论在有或没有TFIDF的情况下，都比广泛使用的CLUTO和基于信息理论的IK。means表现得更好。基于TFIDF的DIAS算法是所有算法中性能最好的，其在3个数据集上表现最好，在4个数据集上表现次好。综上所述，DIAS算法与公认较好的文本聚类算法相比，仍具有较强的竞争力。而TFIDF确实能够提高DIAS的聚类效果。34 ICC算法与其他集成方法的比较ICC算法是DIAS算法中最重要的一环，但它不是一致性聚类的唯一方法。在文献中还有其他一些诸如GCC。16和HCC171的一致性聚类算法。GCC包括CSPA、HGPA和MC

32、LA 3种不同的算法，本文选择性能最好的算法作比较。HCC算法是一种以互联矩阵为基础、对所有基础聚类进行信息集成的信息凝聚层次聚类算法。本文以默认值运行GCC算法和HCC算法，并将它们的聚类结果与ICC算法进行比较。如图7所示，ICC算法相较于其他2种算法具有明显的优势，在cacmcisi、classic、spots和News20这4个数据集上尤为突出。值得注意的是，HCC算法在classic、spots和RCV上表现较差。这表明HCC算法在实际运用中的健壮性不够好，并且其复杂度达到了0(n3)，进一步阻碍了其在大规模文本数据集上的应用。相比于HCC算法，GCC算法表现得更为稳定和快速，但和I

33、CC算法相比还是有较大的差距。NMImm 1 0News20ICC一GCC一HCC图7不同一致性聚类算法比较Fig7 Comparison of different consensusclustering algorithms4 相关工作1)文本聚类方面的相关工作特征转换和特征选择是文本聚类中2个主要技术8|。特征转换是将原始高维空间映射到低维空问进行分析处理，方法包括主成分分析HJ、隐性语义索引1 9|、独立成分分析1和随机映射旧1I。特征选择也称为子空间聚类。多采用自底而上或自顶而下的搜索策略来发现子集中存在的相关关系。自底而上方法是根据密度的单调性，将邻近区域内密度超过阈值的子空间继续进

34、行聚类，而对原始子空间进行修剪，其得到的子空间集往往涵盖了各式各样的簇类心2。4|，但聚类效果与密度阈值参数紧密相关，而该参数往往又难以确定。自顶而下方法通过属性选择和评价的多次迭代将聚类和子空间选择结合起来旧5”1，其所需要的迭代开销大，耗时长，效率较低。更多细节可以参考文献7。10545758112458AO818Z266312O0“pOO000OO3418477O661438A6O32O65_451324O“p0O0O00O：l篱翟万方数据1610 北京航空航天大学学报 2016正本文针对文本聚类问题提出了DIAS算法框架，并对其中核心的基于信息理论的组合聚类算法进行了理论和实验研究，得

35、到如下结论：1)通过采用简单随机特征抽样产生基础聚类，DIAS算法可以得到多样化的结构知识并同时减少文本的高维稀疏性带来的噪声特征的影响。2)基于信息理论的组合聚类可转化成K均值聚类问题，大大提高组合学习的效率。3)大量数据实验表明，DIAS算法可以从弱基础聚类中学习得到高质量的一致性划分，并能很好地适应分布式计算要求，有望成为未来文本大数据聚类的主流算法之一。参考文献(References)1ZAMIR 0，ETZIONl 0，MADANI O，et a1Fast and intuitiveclustering of web documentsCProceedings of the 3 rd

36、 Inter-national Conference on Knowledge Discovery and Data MiningeNew York：AIAA，1997：2872902CUTTING D R，KARGER D R，PEDERSEN J O，et a1Scattergather：A clusterbased approach to browsing large documentcollectionsCProceedings of 15th ACM International Con-ference on Research and Development in Informatio

37、n RetrievalNew York：ACM1992：318-3293CHA M，KWAK H，RODRIGUEZ P，et a1I tube，you tube，everybody tubes 1 Analyzing the worlds largest user generatedcontent video systemCProceedings of the 7th ACM SIGCOMM Conference Oil Internet MeasurementNew York i ACM，2007：1144DUDA R O，HART P E，STORK D GPattern classif

38、icationM2nd edNew York：WileyInterseienee，2000i14155JOLLIFFE I TPrincipal component analysisM2nd edNewYork：Springer，2002：8-216CAO J，wu Z，wu J，et a1Sail：Summationbased incrementallearning for informationtheoretic text clusteringJIEEETransactions on Cybernetics，2013，43(2)：5705847wu J，LIU H，XIONG H，et a

39、1K-means-based consensus clustering：A unified viewJIEEE Transactions on Knowledgeand Data Engineering，2015，27(I)：1551698GOKCAY E，PRINCIPE J CInformation theoretic clusteringJIEEE Transactions on Pattern Analysis and Machine Intelligence，2002，24(2)：1581719DHILLON I，MALLELA S，MODHA DInformationtheoret

40、icco-clusteringCProceedings of the 9th ACM SIGKDD Inter-national Conference on Knowledge Discovery and Data MiningNew York：ACM，2003：89-9310Digitical Technology Center(DTC)CLUTOSoftware for clus-tering highdimensional datasetsDSOL(200610-18)201501-30hnp：glarosdtcumnedugkhomeclutoelutooverview11CAt DT

41、he 20 newgroups data setDSOL(2008_01-14)2015_01-30http：WWWcadzjueducnhomedengcaiDataTextDatahtml12CAI D，WANG X，HE XProbabilistic dyadic data analysis withlocal and global consistencyCProceedings of the 26th International Conference on Machine Learning(ICML09)NewYork I ACM，2009：1051 1213LI R LEnglish

42、 text segmentation corpusDSOL(201 11030)20151-30http：WWWdatatangcomdata1196814ZHAO Y，KARYPIS GEmpirical and theoretical comparisonsof selected criterion functions for document clusteringJMachine Learning，2004，55(3)：31133115STREHL A，GHOSH JCluster ensemblesA knowledge reuseframework for combining par

43、titionsJJournal of MachineLearning Research，2003，3：583-61716ZHONG S，GHOSH JGenerative model-based document clus-tering：A comparative studyJKnowledge and InformationSystems，2005，8(3)：374-3841 7FRED A L N，JAIN A KCombining multiple clusterings usingevidence accumulationJIEEE Transactions on Pattern An

44、alysis and Machine Intelligence，2005，27(6)：83585018AGGARWAL C C，ZHAI CMining text dataMNew York：Springer，2012：818619BERRY M W，DUMAIS S T，OBRIEN G WUsing linear algebra for intelligent information retrievalJSIAM Review，1995，37(4)1573-59520HYVARINEN A，OJA EIndependent component analysis I AI-gorithms

45、and applicationsJNeural Networks，2000，13(4-5)：411-43021BOUTSIDIS C，ZOUZIAS A，DRINEAS PRandom projeetionsfor Kmeans clusteringCAdvances in Neural InformationProcessing SystemsCambridge i M1T Press，2010 1298-30622AGRAWAL R，GEHRKE J，GUNOPULOS D，et a1Automaticsubspace clustering of high dimensional data

46、 for data miningapplicationsCProceedings of the ACM SIGMOD Intemational Conference on Management of DataNew York I ACM，1998：9410523CHENG C H，Fu A W，ZHANG YEntropybased subspaceclustering for mining numerical dataCProceedings of the5th ACM SIGKDD International Conference on Knowledge Dis万方数据第8期王扬，等：

47、基于信息理论的网络文本组合聚类 161lcovery and Data MiningNew York：ACM，1999：84-93 29杨燕，靳蕃，KAMEL M聚类组合研究的新进展J计算机24GOIL S，NAGESH H，CHOUDHARY AMAFIA：Efficient and 工程与应用，2008，44(11)：142144scalable subspace clustering for very large data setsCPro- YANG Y，JIN F，KAMEL MLatest development of clusteringceedings of the 5th ACM SIGKDD International Conference on ensembleJComputer Engineering an

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

此文档不允许下载，请继续在线阅读

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于信息理论网络文本组合王扬

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：基于信息理论的网络文本组合聚类-王扬.pdf
链接地址：https://www.taowenge.com/p-101408.html