gmap一种基于ap聚类的共词分析方法-郭崇慧.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《gmap一种基于ap聚类的共词分析方法-郭崇慧.pdf》由会员分享,可在线阅读,更多相关《gmap一种基于ap聚类的共词分析方法-郭崇慧.pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、情报学报 2017年11月 第36卷 第11期 Journal of the China Society for Scientific and Technical Information, Nov. 2017, 36(11): 1192-1200 收稿日期:2016-09-09;修回日期:2017-04-16 基金项目:国家自然科学基金( 71171030,71421001) ,文化产业发展专项资金资助项目(教财司预函 2013228 号) ,软件架构国家重点实验室开放课题基金( SKLSAOP1703) 。 作者简介:郭崇慧,男, 1973 年生,教授,博士生导师,主要研究方向为系统优化方法
2、、数据挖掘与机器学习, E-mail: ;曹梦月,女, 1991 年生,硕士研究生,主要研究方向为文本挖掘。 GMAP:一种基于AP聚类的共词分析方法 郭崇慧1,2,曹梦月1( 1. 大连理工大学系统工程研究所,大连 116024; 2. 软件架构国家重点实验室(东软集团) ,沈阳 110179) 摘 要 文献计量学领域中的共词分析方法主要分为三个阶段:术语收集阶段、共现频率统计阶段以及聚类分析阶段,传统共词分析方法在以上三个阶段存在主观性过强、信息量不足,聚类不稳定、成员划分不合理、类团解释缺少语义分析等问题,导致了领域主题发现容易存在偏差。本文针对传统共词分析方法存在的缺陷提出了一种新的共
3、词分析方法 GMAP 共词分析方法,即将 g 指数、互信息概念以及 AP 聚类算法融入共词分析方法中。首先,使用 g 指数确定高频关键词的个数;其次,使用互信息概念对共现矩阵进行包容化处理;最后,使用 AP算法进行聚类得出领域主题。为了验证 GMAP 的可行性和有效性,对中国古村落(传统村落)领域文献进行数值实验,结果显示 GMAP 共词分析法优于传统共词分析方法,为改进共词分析方法提供了一个新的研究思路。 关键词 共词分析; g 指数;互信息; AP 聚类 GMAP: A Co-word Analysis Method Based on AP Clustering Guo Chonghui1
4、,2and Cao Mengyue1(1. Institute of Systems Engineering, Dalian University of Technology, Dalian 116024; 2. State Key Laboratory of Software Architecture (Neusoft Corporation) Shenyang 110179) Abstract: Co-word analysis, which is a bibliometric method, includes three processes: a term collection proc
5、ess, co-occurrence frequency statistics, and a clustering analysis process. A traditional co-word analysis has certain prob-lems including strong subjectivity, insufficient information, unstable clustering, unreasonable cluster members, and the lack of a semantic cluster analysis. As a result, devia
6、tions easily occur when detecting the domain topics. In this paper, a new co-word analysis, called GMAP (g-index, mutual information affinity propagation), is proposed, which integrates a g-index, mutual information theory, affinity propagation clustering, and co-word analysis. First, we use a g-ind
7、ex to choose the number of high-frequency keywords. Second, we use mutual information theory to trans-form a co-occurrence matrix into a similarity matrix. Finally, we use an affinity propagation clustering algorithm to find the domain topics. This study examined articles of the ancient Chinese vill
8、age domain. The experimental results show that a GMAP co-word analysis is superior to a traditional co-word analysis, which provides a new research idea for co-word analysis improvements. Key words: co-word analysis; g-index; mutual information; affinity propagation clustering 1 引 言 1986 年法国文献计量学家 C
9、allon 等1首先提出共词分析方法。共词分析方法作为文献计量领域的经典分析方法,至今已有 30 年的历史。共词分析方法能够快速揭示领域主题,学者们在不同领域进行万方数据第 11 期 郭崇慧等: GMAP:一种基于 AP 聚类的共词分析方法 1193 了深入的研究,如聚合体化学2、物联网3、图书情报学4、医疗健康5、推荐系统6、机构库领域的知识构建7等。共词分析方法有两个假设条件8:文章作者对关键词的选取是经过深思熟虑的,与文章内容密切相关;两个关键词同时出现在一篇文章中的概率越高表示关系越紧密。在此基础上,共词分析方法一共分为三个阶段:术语收集阶段、共现频率统计阶段以及聚类分析阶段。前两个阶
10、段的处理对最后阶段的结果有很大影响。共词分析方法前 两阶段是数据预处理,为聚类分析提供合理的数据来源。 随着研究的深入,学者们对共词分析方法进行了不同方面的优化, 如高频关键词的选定9和包容化指数的选择10。此外, Ding 等11在动态主题探测和追踪时,将传统的共词分析方法与 HDP(层次狄利克雷过程)进行对比,指出了传统的共词分析方法在同义词处理方面存在缺陷。聚类分析是共词分析方法最后一个阶段,也是展示成果的重要阶段。共词分析方法中常用的聚类方法是层次聚类算法3,12-13。层次聚类的相似系数、类团间距离的度量方式以及类团的划分都是由用户设置,具有很强的主观性。文献 14表明层次聚类属于网
11、状聚类,没有明确的聚类中心,聚类结果受所有成员共现关系的影响,是共词聚类分析法中存在的主要问题。冒纯丽等15尝试使用 CRUE 聚类算法解决传统聚类算法由于类团非球状且类团大小相异较大导致聚类效果不理想等问题,但该算法不是选取数据集中某个数据点代表一类,而是选取最具代表性数据点乘以一个合适的收缩因子 使该数据点更靠近类的中心。徐硕等16为了解决共词聚类结果与真实结果差异,将共词分析方法三个阶段合并成一个阶段,使用最大频繁项集方法进行挖掘,得到的类团术语集合可重叠,同时避免了共词分析前两个阶段对结果的影响,但该方法仍需人工设定合适的最小支持度阈值,得到的类没有明确的聚类中心。此外,类团的命名和解
12、读需要具备扎实的相关领域知识以及很强的逻辑推理分析能力。崔雷等17针对共词聚类分析结果中类团的命名和语义分析问题提出使用代表性论文来表示某领域高频主题词共词聚类分析类团内容的设想,为共词聚类的最终结果的语义分析提供了新的研究方向,规范了共词聚类分析流程。 以往的研究从不同层面为共词聚类提供了不同的规范化思路,但没有解决自动化生成聚类中心以及合理对类团进行语义分析的问题。为了解决这两个问题,本文首先从共词分析方法的数据预处理阶段进行改善,利用 g 指数确定高频关键词数量消除人工主观性,然后利用互信息概念对共现矩阵进行包容化处理以便更好地反映出关键词之间的依赖信息,最后,使用 AP 算法进行聚类得
13、出领域主题。因此, 本文提出了基于 AP 聚类的 GMAP( g-index, mutual information affinity propagation)共词分析方法,数据预处理阶段使用 g 指数和互信息概念,在聚类分析阶段使用 AP 聚类方法, 可以克服传统层次聚类方法没有明确聚类中心、类团成员划分不合理、类团语义分析不充分问题,进而得出领域主题。为了验证本文提出的 GMAP 方法的可行性和有效性,选择了中国古村落领域文献进行分析。中国古村落又名传统村落,是中华民族的宝贵的物质和非物质文化遗产,有关中国古村落文献近年来呈指数增加,本文选择对古村落领域文献的研究热点探测能帮助相关学者了解
14、该领域研究现状及发展趋势,同时也有助于古村落文化遗产的传播。 2 相关工作 传统的共词分析方法主要分为三个阶段:术语收集阶段、共现频率统计阶段以及聚类分析阶段。每一阶段又包括不同的步骤。术语收集阶段包括领域的选择和高频词的确定;共现频率统计阶段包括共现矩阵的构建和相似矩阵的构建;聚类分析阶段主要是层次聚类分析。共词分析方法流程如图 1 所示。 图 1 共词分析方法 2.1 术语收集 共词分析方法的术语搜集阶段主要选择能够代表领域研究内容的高频词,常用确定高频词的方法万方数据1194 情 报 学 报 第 36 卷 有两种。一种是根据人工主观判断,选择合适数量的高频词;另一种是根据 Donohue
15、18于 1973 年提出的齐普夫第二定律,即 1(1 1 8 )/2TI=-+ + ( 1) 其中,1I 表示词频为 1 的词数量, T 为高频词的阈值。 杨爱青等9为了解决共词分析中高频词选取主观性强的缺陷,借鉴 g 指数思想提出一种基于 g 指数的主题词选取方法 词频 g 指数,并与齐普夫第二定律进行对比,利用 g 指数选择的高频词进行聚类分析结果更优。根据 g 指数的计算方法,可将词频 g 指数定义为:某一个研究主题关键词的数量为 g,关键词按照词频降序排列,当且仅当此研究主题的关键词中,有 g 个关键词其累计出现频次不少于2g 次, 而 g+1 个关键词其累计出现频次少于2(1)g +
16、 次。记iF 为对应序号为 i 的关键词的出现次数,则对于所有的 i ,有1iiFF- 以及 21giiFg= ( 2) ()1211giiFg+=+( 3) 当同时满足( 2)和( 3)两个条件时,选择前 g 个关键词作为高频关键词构建共现矩阵。 2.2 共现频率统计 共现频率统计阶段是以术语收集阶段为前提的。该阶段的核心是对高频词共现矩阵进行包容化处理得到相似矩阵,目的是从共现矩阵中挖掘出更有意义的知识。构建相似矩阵最常用的是等值系数矩阵 E ,即: 2()/( )ij ij i jEc cc= ( 4) 其中,ijc 表示关键词 i 和关键词 j 共同出现的次数,ic 表示关键词 i 出
17、现的次数,jc 表示关键词 j 出现的次数。ijE 越大表示关键词 i 和 j 之间的相似性越大,越容易聚成一类。 路青等10提出了使用互信息概念改善共词矩阵包容化的方法,提高了共词矩阵的信息含量。互信息共现词对 MI( , )ij的计算公式: ,2()log , ( , ) 0MI( , ) () ( )min(MI), ( , ) 0PijPi jij PiP jPi j=( 5) 其中, ()P i 表示关键词 i 独立出现的概率, ()P j 表示关键词 j 独立出现的概率,,()P ij 表示二者共同出现的概率。当,()P ij 大于 0 时, MI 值与关键词共同出现的概率成正比,
18、表示关键词共同出现的概率越大,二者之间关联程度越大;当,()P ij 为 0 时,不能对 0 取对数,于是将 MI 值置成矩阵中最小值,表示关键词之间关联程度最小。 MI 值大于 0 表示关联程度强, MI 值等于 0 表示关联程度弱, MI 值小于 0表示不存在关联关系。 2.3 聚类分析 聚类分析是共词分析方法最后一个阶段也是展示研究结果的重要部分,传统的共词分析方法使用层次聚类算法进行聚类分析。层次聚类阶段的输入是距离矩阵(由相似矩阵可计算得出) 。层次聚类方法分为凝聚型与分裂型,凝聚层次聚类法是聚类分析方法中使用最多的方法,原理是从点作为个体类团开始,每一步合并两个最接近的类,需要定义
19、类之间的邻近性概念。凝聚层次聚类中类与类之间邻近性有不同技术,主要有单链( single link) 、全链( complete link)和组平均( group average)19。 AP( Affinity Propagation)聚类算法是 2007 年Frey 等20提出来的, AP 聚类算法通过基于数据点的相似度信息进行传播来找到最优的类代表点集合,使得所有数据点到最近的类代表点的相似度之和最大。 与其他聚类算法不同的是 AP 聚类算法将所有数据点都作为候选的类代表点,从而避免了聚类结果受限于初始类代表点的选择。 AP 聚类算法的输入是点对之间的相似性(或相似特征) ,对相似度矩阵
20、的对称性没有特殊要求的特点使得 AP 聚类算法可以用于人脸图像的聚类,基因数据检测等多种领域21。AP 聚类不仅成功地解决了诸多静态数据的聚类问题, Sun 等22提出的增量式 AP 聚类可用于解决增量数据的聚类问题。 3 GMAP共词分析方法 为了解决传统共词分析方法不同阶段在领域主题揭示时存在的问题,本文提出一种名为 GMAP 的共词分析方法,方法流程如图 2 所示。 GMAP 的基本思想为:首先,使用 g 指数筛选特定领域文献中的高频关键词,并统计高频关键词共现次数构建共现矩阵;其次,使用互信息概念处理高频关键词共现矩阵,得到相应的相似矩阵;最后, 使用 AP 聚类算法进行聚类分析, 揭
21、示领域主题。 万方数据第 11 期 郭崇慧等: GMAP:一种基于 AP 聚类的共词分析方法 1195 图 2 GMAP 共词分析法 AP 聚类是在相似度矩阵基础上进行聚类,点ix 与点kx 之间的相似性记为 (, )s ik , 要为每个数据点 k 设置参考值 (,)pskk= , (,)s kk 值越大,相应点 k 被选中作为类代表点可能性越大。 AP 聚类算法中两个重要信息度矩阵为代表矩阵 ( ),mnRrik = 和适选矩阵( ),mnAaik=。 AP 算法的迭代过程就是这两个信息量交替更新的过程。 ( ),rik 表示kx 适合作为ix 的类代表点的代表程度 (responsibi
22、lity) , 即kx 对ix 的吸引度; (, )aik 表示点ix 选择kx 作为类代表点的合适程度 (avaliablity) ,即ix 对kx 的归属度。对任意ix 计算所有数据点的代表程度 (, )rik 和适选程度 (, )aik之和,则ix 的类代表点为 kx : arg max( ( , ) ( , )kaik rik+ ( 6) AP 算法的核心步骤是两个信息量的交替更新过程,公式如下: ,(, ) (, ) max (, ) (, )kk krik sik aik sik- + ( 7) ,(,) min0,(,)max0, ( , )ii ikif i k a i k r
23、 k kri k +( 8)if ,ik=,(,) max(0,(,)ii kakk ri k( 9) 迭代公式( 7)两边同时加上 (, )aik ,则 ,(, ) (, ) (, )(, ) max (, ) (, )kk krik aik sikaik aik sik+-+( 10)如果迭代次数超过设定值或聚类中心不改变时停止计算, AP 聚类算法的输出是各类团的代表点与各类团的成员。 与传统层次聚类方法不同, AP 聚类每一次输出的类团的代表点都是真实存在的数据点,而不是通过求均值得到的不真实的数据点, 因此 AP 聚类结果更能反映实际情况,解决传统共词分析方法聚类不稳定问题。另外,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- gmap 一种 基于 ap 分析 方法 郭崇慧
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内