基于复杂网络的文本关键词提取算法研究-刘通.pdf
《基于复杂网络的文本关键词提取算法研究-刘通.pdf》由会员分享,可在线阅读,更多相关《基于复杂网络的文本关键词提取算法研究-刘通.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第33卷第2期2016年2月计算机应用研究Application Research of ComputersV0133 No2Feb2016基于复杂网络的文本关键词提取算法研究刘通(上海交通大学安泰经济与管理学院,上海200030)摘要:将复杂网络理论应用于文本挖掘技术,构造基于词汇共现性关系的词f12概念复杂网络,对文本词f12的重要性指标进行计算分析,挖掘文本中主题的关键词。在计算词;12重要性指标时,综合考虑目标词汇的频率以及其相邻节点的贡献度。通过实验对比,证实了该网络节点评价指标与基于加权度和加权集聚系数的综合指标相比具有优越性。此外,通过复杂网络社区合并的手段,发现了关键节点之间的
2、网络拓扑关系,即核心网络。通过分析核心网络,可以获得关键词和文本主题的对应关系,为进一步的文本分析提供有效的理论基础。关键词:复杂网络;关键词提取;网络社区中图分类号:TP3911 文献标志码:A 文章编号:10013695(2016)02-036505doi:103969jissn1001-3695201602010Algorithm research of text key word extraction based on complex networksLiu T0ng(Antai College ofEconomicsManagement,Shanghai胁昭触msity,Shangh
3、ai 200030,China)Abstract:。nle passage aims at solving text mining problem with the apphcation of the theoretical support in complex networksBy constructing the complex network based on the COexistence relationship among山e word concept nodesit couldrank and analysis the wordsimportance index and disc
4、over the key words of the passageWhile building up the wordsimportance index,it considered the frequency of both the target word node and its neighbor nodesIt designed an algorithm experiment between the node evaluation index of the passage and the integrated index which was the combination of weigh
5、ed degree and weished clustering coefficientne result of the experiment proves the superiority of the algorithmAdditionallywiththe idea of merging network communities,the algorithm developed the topology structure among the key nodes,the core networkWhile analyzing the core networkit is possible to
6、discover the mapping relationship between the key words and the textlatent topics,and this result踮well provided important theoretical basis for further text mining researchKey words:complex networks;key word extraction;network communityO引言文本关键词提取是文本处理的重要技术之一。通过提取文本中的关键词,可以结构化地表示目标文本,在保留文本关键信息的条件下尽可能
7、地对文本内容进行压缩。基于关键词的文本特征向量,是文本信息检索、文本主题挖掘以及文本分类、聚类等数据挖掘操作的基础数据结构。传统的关键词提取算法是基于TFIDF指标对文档集中的词汇进行重要性分析。在文本分析之前需要预先知道词汇在语料库中出现的文档频率,然后根据该词汇在某一篇文档中出现的词频对词汇的重要程度进行分析。基于TFIDF的思想,许多学者对词汇的重要程度的量化方式进行改进,衍生出新的算法,如词汇出现位置、词汇的互信息度旧“1、关键词汇候选集等统计量在具体应用时被综合考虑。近年来,随着复杂网络这一学科的发展,已经有不少学者开始将复杂网络的思想运用到文本分析的应用领域中”。o。赵鹏等人发现了
8、自然语言中词汇节点复杂网络的小世界效应,提出了针对中文文档复杂网络的关键词提取算法o。该研究将文档转换成基于文档特征量的复杂网络,构造了基于词汇概念节点的度和集聚系数的综合指标对词汇重要性进行分析排序。该方法比单纯基于词频去考虑文本中词汇的关键度更加全面客观,将文本中关键词的挖掘问题转换为在复杂网络中寻找关键节点的问题。复杂网络中关键节点的挖掘算法目前已经比较成熟,主要考虑的指标有节点的度J、集聚系数哺1以及边介数9 o等指标。具体到文本分析的问题中,大部分学者往往考虑的是无向的有权复杂网络。其中,谢凤宏等人训曾经利用复杂网络的有权特征构造了基于节点加权聚类系数和节点边介数的评价指标,挖掘了文
9、本中的关键词汇概念。赵辉等人【1“通过构造基于节点加权度、节点加权集聚系数以及节点边介数三个要素的综合指标对关键词进行分析排序。左晓飞【1 2在基于复杂网络的文本分析过程中,通过合并相邻词汇构成词汇短语并基于语义网络对相似语义节点进行合并,对基于文本的复杂网络进行降维。刘红红等人引通过构建文本信息对应的复杂网络,从网络节点度和强度、节点间最短路径以及节点集聚系数等方面分析网络的拓扑结构,从而获得文本主题显著性、文本内容连贯性以及一致性等文本结构性信息。本文意在借用复杂网络的结构对文本中的词汇概念关系进行全面的构造,去挖掘文本中的重要概念。首先,已有研究在关键词提取时选用的复杂网络统计参数仍有弊
10、端,因此本文将基于对各统计参数的特性分析,重新构造合适的关键词提取重要性评价指标。通过对复杂网络节点进行重要性排序,本文将分析节点重要性指标统计量的分布规律,选择合适的阈值去收稿日期:20140916;修回日期:2014一ll一04作者简介:刘通(1990),男,北京人,博士研究生,主要研究方向为数据挖掘、计算机仿真(biUaaatttsohucorn)万方数据计算机应用研究 第33卷提取关键概念节点。另外,已有的基于复杂网络的关键词提取算法的返回结果是一个单维度的关键词集合,并不能反映文本的主题信息和文本的结构信息。本文则考虑提供一个基于图模式的关键词提取结果,充分利用复杂网络拓扑性质反映文
11、本最主要的特征信息。因此,本文借用复杂网络社区重叠41的现象,挖掘关键词之间的关联关系,构造基于关键概念的复杂网络,并基于该网络去寻找关键词与文本主题的对应关系。该算法返回的基于关键概念的核心网络将提供一种对应原文本重要的结构化抽象,为文本信息的进一步结构化处理分析提供更加可靠的数据结构。1 相关理论对于复杂网络中节点的度指的是特定节点相邻节点的个数,属于局部统计量。度越大的概念节点重要性越大,反映的是重要的词汇概念更频繁地与其他词汇概念相关联。因此,网络节点的度是很好的能够反映词汇重要程度的指标,一般大多数的算法都参考该指标对网络节点的重要性进行评价。网络节点的集聚系数反映的是网络节点的邻居
12、节点之间互为邻居的概率,即邻居节点之间的关联紧密程度。一般讨论认为,一个节点的邻居节点之间的紧密程度高,反映了这个节点的所在社区是一个紧密耦合的结构,也体现了这个节点的重要性。对文本词汇网络处理时,通常的情况是,一个节点的度越大,它的集聚系数是全链接的可能性就越低。笔者通过实验分析,一般的情况是,处于长句中间的词汇,在特定语义窗口内去挖掘邻居节点,会导致较大的度和较小的集聚系数,而这样的词汇却往往是比较关键的概念节点。因此,运用集聚系数指标去挖掘关键词很难避免句长因素的干扰。节点的介数指的是任意两节点间最短路径通过该节点的比例,反映的是概念节点在网络全局结构中的影响力。因此,节点的介数是一个全
13、局统计指标,计算复杂网络节点介数的时间复杂性较高,对于中长文档来说,考虑节点的介数统计量,系统应用的性价比并不高。综上所述,本文决定从网络节点“度”的统计指标人手去挖掘文本中的关键词概念集合。然而,概念节点的“度”只能反映出节点的邻居“个数”,但是不能反映出节点的邻居“质量”。一般情况是,节点本身越重要,其相关联的概念节点也往往更加重要。这一假设来自于互联网链接分析应用的Page-Rank算法。PageRank算法假设:a)在Web图模型中,如果一个页面节点接收到的其他网页指向的人链数量越多,那么该页面越重要;b)指向当前页面的入链质量不同,质量高的页面通过链接向其他页面传递更多的权重,所以越
14、是质量高的页面指向当前页面,则当前页面越重要。类似地,本文提出以下假设:a)在词汇概念网络中,如果一个词汇节点的邻居节点越多,则这个词汇越重要;b)某个邻居节点对当前节点的贡献率与邻居节点的重要性成正比,与该邻居节点和当前节点之间的距离成反比;C)某一节点的重要性不仅与邻居节点的数量和质量有关,也与自身出现的频率相关。注意,本文的算法与PageRank算法的区别在于:PageRank算法是在初始赋值条件下的反复迭代过程,因为没有先验知识表明互联网网页之间的重要性的差异。而本文中,词汇概念本身的出现频率已经可以反映该词汇的重要性指标,只需要额外考虑复杂网络节点形的重要性指标:Freq(职)一寺毒
15、5Freq(wk)IMP(Wi)=a_=_!一+1毒。(暖)一i甲毳。Freq(Wk)2Neicontribui。n(E)=q。N一。(叫)AuthorietgnDor ty(髟)wiEn IJAuthority(髟,Wi)=Freq()Strength(Wi,巧) strength(Wi,巧)_”量。南(1)(2)(3)(4)其中:Authority()是彬邻居节点所分配的权重,其具体值取决于肜自身的频率和其与目标节点之间的语义距离。首先看式(3),Strength(形,彤)表示形与之间的链接强度。在具体计算时依照式(4),针对某一邻居节点,首先找到所有E与目标词汇阢同时出现的情况。例如在句
16、子Sentence。中同时出现,则计算获得孵与形的出现坐标位置之差,即语义距离,然后取其倒数即可。根据式(2),NeiContribution(形)表示所有邻居节点的权重贡献率之和。式(1)是综合词汇的频率及其邻居节点权重贡献率的综合性指标,称为词汇重要性指标。a是加权比率,在求重要性指标之前要首先根据其各自的统计分布作归一化处理。根据上述公式获得词汇重要性指标之后,根据预先设定的比例提取出总词汇集合s的核心子集S,再根据核心子集中的节点的关联关系构建核心节点的复杂网络,成为关键网络。通过分析关键网络,讨论该网络的拓扑结构,可以得到对应于原文本的主题及其包含的主题词集合。2算法及程序设计21文
17、本预处理首先将文本进行切词,划分为基于词汇的特征向量,并对词汇基于词性进行过滤。考虑选择词性为“名词”和“形容词”的内容构建词汇复杂网络。为了消除可能出现的干扰条件,本文选择四川大学停用词表对语义含量低的词汇进行过滤。切词并过滤出的词汇构成待分析词集s,程序统计了S中每一个词汇肜的频率和与其他词汇节点的链接关系,构成复杂网络G。在构造复杂网络G时,需要根据边值的权重对复杂网络进行简化,删除无效的边。如果Strength(形,形)小于阈值P,则删除该边,保留边值权重大于该阚值的图的结构,为简洁表述图仍命名为G。通过实验,P取值为05效果较好。22获得关键网络根据上述公式计算所有的词汇节点的关键度
18、指标,并根据关键度指标进行排序,选择比例为口的词汇作为核心词汇集s+。口也可以称之为对关键词进行提取的压缩比。例如,整篇文挡的词汇集合容量为1 000、压缩比为01,则取重要性排序前100位的词汇为核心词汇集,即候选的关键词集合。实际上,真正的压缩比(最终提取的关键词比例)有可能比口要小,后面实验部分将对此内容进行详尽解释。比较中的词汇节点町进一步可以构成新的网络G。选竺兰攀咐一=一p万方数据第2期 刘 通:基于复杂网络的文本关键词提取算法研究 367择s中的节点职和彤+,判断两核心节点的关联关系。找到两核心节点在原复杂网络图G中对应的节点彤和形,计算其各自所在网络社区的重合度。定义网络社区重
19、合度算法如下: 。、 Ineighbor(Wi)nneighbor()I ,。dap(W-,)2忑际面可箭可可蕊i钉5)定义链接关系为6(Wi,吖):f 1 o”。d8p(E,町)妒 (6)6( ,吖)= 。 (6)。 【0 dse其中:p也是预先设定的阈值。23提取关键词在基于S构造核心网络G之后,基于图G对关键词进行挖掘。在G网络之中,每一个节点对应于一个核心词汇形。核心词汇职+在原网络G中的映射职与其周围的节点共同构成一个网络社区7 J。相邻的社区根据网络重合度可以合并成一个更大的社区,此过程可以不断迭代下去,直到不能融合新的社区。这样,整个网络G可以划分为若干网络社区,每一个网络社区便
20、对应于原文档的一个主题。按照这个思路,网络G+就更加容易解释,其中的每一个节点町是原网络中每个社区的特征节点,G中任意两个节点的链接的含义是这两个节点所代表的原网络社区基于共享关系可以进行合并。需要注意的是,G+中有可能出现孤立节点,在本文中孤立节点是要被删除不予考虑的,其原因是孤立节点所代表的网络社区与整个网络主体偏离较大,不代表文章主流信息内容。因此,在过滤掉孤立节点的情境下,网络G+中的节点容量小于s的容量,G的拓扑结构将其划分为若干子图,每一个子图中的节点对应于一个特定的主题。就此,完成了对文章主题的划分以及对应主题词提取的过程。整个关键词提取的流程如图1所示。文本预处理,i;l螽魏
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 复杂 网络 文本 关键词 提取 算法 研究 刘通
限制150内