一个基于超图的词义归纳模型-钱涛.pdf
《一个基于超图的词义归纳模型-钱涛.pdf》由会员分享,可在线阅读,更多相关《一个基于超图的词义归纳模型-钱涛.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第48卷第1期 四川大学学报(工程科学版) v0148 N。12016年1月 JOURNAL OF SICHUAN UNIVERSITY(ENGINEERING SCIENCE EDITION) Jan2016文章编号:1009-3087(2016)01-0152-06 DOI:1015961jjsuese201601023一个基于超图的词义归纳模型钱涛1,一,姬东鸿1,戴文华2(1武汉大学计算机学院,湖北武汉430072;2湖北科技学院计算机科学与技术学院,湖北咸宁437100)摘要:针对词义归纳如何学习多个上下文实例中的高阶语义关系的问题,提出一个基于超图的词义归纳模型。首先,采用基于词汇
2、链的方法发现目标单词的上下文实例间的高阶语义关系;然后,用上下文实例表示结点,用词汇链发现超边来构建超图;最后,使用一个基于最大密度超图谱聚类算法发现词义。实验基于Semeval-2013 WSI任务,与普通图模型进行比较,其在词义检测与词义评级2个指标上分别提升了56和64。关键词:词义归纳;超图;高阶语义关系中图分类号:TP391 文献标志码:AA Hypergraph Model for Word Sense InductionQIAN Ta01”,Jt Donghon91,DAI Wenhua2(1School of Computer,Wuhan Univ,Wuhan 430072,C
3、hina;2College of Computer Sciand Techn01,Hubei Univof Sciand Techn01,Xianning 437100,China)Abstract:In order to learn the higherorder semantic relatedness among multiple instance of target word,a hypergraph_model was pro-posed for word sense inductionFirst,a lexical chain based method was used for d
4、iscovering the higherorder semantic relatednessThena hypergraph Was constructed,in which nodes represent the instances of contexts where a target word occurs,and hyperedges wereformed by lexical chainsFinally,a maximum density based hypergraph clustering method was used for finding word sensesExperi
5、ments based on Semeval-2013 WSI task showed that this model gives an improvement of 56and 64in sense detection and senseranking respectively,compared to the traditional graph modelKey words:word sense induction;hypergraph;higherorder semantic relatedness不同于词义消歧(word sense disambiguation,WSD)任务需给定一个已
6、由人工构建的固定的词义集,词义归纳(word sense induction,WSI),也称词义学习(word sense learning)任务被定义为从大规模语料中自动发现目标单词的词义。由于词义消歧需要大量标注语料且存在词义缺失等问题,词义归纳受到越来越多的关注,它在词典编撰、信息检索、机器翻译等领域有着非常重要的应用。WSI通常被看作是一个非监督的聚类问题。其算法输入是目标单词的上下文实例;其输出是上下文实例的分组,每一组表示一个词义。传统的求解WSI的方法大多基于向量空间模型,如上下文向量、单词替代向量口。等。此类方法首先将目标单词的上下文实例表示成基于频度统计或概率分布的特征向量,
7、然后使用各种方法,如kmean、meanshift层次聚类等对向量进行聚类,聚类结果表示为归纳的词义。最近,图模型被广泛应用到WSI任务。它通常把单词表示为结点,单词间的共现关系表示边,利用识别出的高密度子图来表示归纳的词义。Widdows和Dorow。31提出从句法树来抽取单词关系。Klapaftis和Manandhar【41通过单词的搭配来识别单词关系。这些方法大都是在局部的上下文中利用频度统计或搭配来计算2个向量或结点间的相似关系,其本质是二元语义关系。为了表达单词间复杂的语义关系,Bordagl51提出采用多词搭配来构建多个单词收稿日期:20150429基金项目:国家自然科学基金重点项
8、目资助(61133012;61373108);国家社会科学基金重点项目资助(1l&ZDl89)作者简介:钱涛(1975一),男,博士生,讲师研究方向:自然语学处理E-mail:taoqianwhueducahttp:jsueseSCUeducn万方数据第1期 钱涛,等:一个基于超图的词义归纳模型 153间的高阶语义关系;Klapaftis和ManandharMl提出一个基于超图的词义归纳模型,其超边根据多词频度统计来构造。这些方法仅考虑了局部的语义关系,而忽略了全局视角下的语义相似关系,使得WSI性能受到一定程度的限制。WSI任务中面临的一个关键挑战是如何学习多个上下文实例间的高阶语义关系。作
9、者基于词汇链动机,提出一个全局视角下的词义归纳超图模型,其中目标单词的每个实例表示为一个结点,多实例间的高阶语义关系表示为超边。模型采用基于词汇链的方法来识别超边,词汇链抽取采用基于统计的LDA(1atent Dirichlet allocation)话题模型。提出的一个基于最大密度的超图聚类方法被用于发现词义。针对聚类数较多的情况,采用一种高内聚度和低分离的合并策略来减少聚类数。l提出的超图模型所提超图模型主要分为以下3步:Step 1:采用LDA话题模型自动抽取词汇链;Step 2:利用词汇链构建超图;Step 3:对超图进行聚类,每一类表示一个词义。下面分别详细描述以上3个步骤。11词汇
10、链抽取词汇链是文本语义相关的单词序列集合。它为文本结构和文本话题提供非常重要的线索。它能表示全局的语义相似关系o 7|。例如,给出单词“菜单”的3个上下文实例:1)如何显示电脑上的菜单?2)您可以通过菜单打开设备或储存卡上的所有应用程序。3)Windows 8操作系统取消开始菜单一度被全世界用户吐槽。其中,3个单词“电脑一应用程序一操作系统”构成一个词汇链。根据这个词汇链,可推导出3个实例中的目标单词“菜单“表示同一个词义:“计算机显示屏上可操作选项”。这个词汇链本质上表示了3个实例间一种全局的高阶语义关系。词汇链方法是自然语言处理应用中的一个重要技术。它已经被成功运用于词义消歧、单词错误检测
11、、文本摘要话题跟踪和文本分割等自然语言处理任务。词汇链抽取主要分为2类方法。一类方法使用知识库如WordNet或Thesauri作为背景知识来度量多个单词间的语义关系。此类方法的主要不足是结果依赖于知识库,知识库的大小直接影响了词汇链的好坏。另一类方法是基于统计的方法。作者借鉴了Remus和Biemann旧。提出的采用LDA自动抽取词汇链的方法。LDA话题模型是一个基于文本生成的概率模型,其目标是从大规模文档中揭示文档内部的相关隐藏结构。基本思想是将每一个文档表示为话题概率分布,每个话题表示单词概率分布。采用LDA话题模型来建立词汇的语义关联度,并用它自动构建词汇链。在提出的模型中,目标单词的
12、上下文实例代替话题模型中的文档。词汇链被看作话题,所有共享同一话题的单词构成一条词汇链。词汇链通常从篇章和文本中抽取,它们的话题分布是相同的。然而,实验中的上下文实例从不同的文本中抽取出,它们的话题分布是不同的。因此,不能简单把共享同一话题的单词构成一条词汇链,而是必须同时考虑单词与上下文的话题分布。即当训练完LDA模型后,同时使用了文档话题分布0。=p(z d),话题单词分布妒。=P(W I石)和单词的抽样话题。下面的算法描述了词汇链抽取过程。在算法中,为了保证词汇链的质量,需过滤掉那些生成概率小于阀值7的单词,可用式(1)表示:P(彬,d z)p(z d)p(W z)y (1)阀值y直接影
13、响了模型的评估结果,在第26节将对其进行详细的分析。需要说明的是,研究的词汇链没有方向性,是无向链。采用无向链把话题相关的单词所在句子连成一条超边能较直观地表示构建超边的过程。算法词汇链抽取算法输入:training set D of target word,hyper-parameters of LDA model;semantic threshold y。输出:lexical chain set S。1 日,9,Z+_LDA(D)2 for each topic z3 lc=” lc is a lexical chain4 for each doc d5 for each word W i
14、n doc d6 if(z。=z and P(W,d I彳)y)7 lcadd(埘)8 Sadd(1c)9 return12超图构建图的边通常只连接2个结点。而超图H=(y,万方数据154 四川大学学报(工程科学版) 第48卷E)是图的一种泛化,其边连接多个结点。它比图能更直观表示各类更复杂的数学和计算科学问题。已被广泛应用到各类实际问题I中,如电路设计,数字线性代数、复杂网络、论文引用等。在构建超图时,每一个上下文实例表示一个结点,同一词汇链中单词所在实例构成一条超边。超边的权重对应于词汇链的权重,权重用式(2)表示:p(z di)p(叫i z)W(e)=!LT丁一 (2)l乙l其中,词汇链
15、c对应于超边e,I cI为词汇链的单词个数,z为词汇链的抽样话题。下面给出一个超图构建的实例,初始给定单词“菜单”的7个上下文实例:1)通常会向餐厅索要菜单和酒水价格表。2)服务员向每位客人发放一份菜单。3)客人在iPad显示的菜单上点的菜同步显示到后堂。4)预先选定的菜单,逐道列举菜名。5)可以通过菜单打开设备或储存卡上的所有应用程序。6)Windows 8操作系统取消开始菜单一度被全世界用户吐槽。7)如何显示电脑显示屏上的菜单?一共抽取出4条词汇链(相同下划线的词构成一条词汇链)。分别表示如下(每个词表示为“词群实例序号”):链1:餐厅#1一服务员舵一客人群2,3;链2:酒水#l一菜名#4
16、;链3:iPad#3一电脑#7;链4:应用程序#5一操作系统#6一电脑#7。图1为所构建的超图。图1中,秽。为第i个实例,ei为第i个词汇链所构建超边。例如,e。为词汇链1中的3个词所对应的实例结点秽。、秽:、口,所构成的超边。图1超图构造实例Fig1 A case of hypergraph construction13超图聚类构造的超图满足“小世界”图属性,即具有高内聚系数和低平均路径长度性质。从另一方面解释,结点的度与给定度的结点数满足分布:P(k)=cka,其中,k为结点的度,P(k)为度为k的结点的频率。图2为动词“add”超图的结点度一频率图。0001001010 lOO结点度图2
17、动词“add”超图的结点度一频率图(口=1)Fig2 VertexS degree-frequency mapping of verb“add”(d=1)超图聚类算法一般分为2类:一类是基于最小分切技术,另一类是基于最大密度。因为“小世界”图结点通常构成高相关联的组块,采用Schype算法一1作超图聚类。Schype算法是基于最大密度的谱聚类算法。最大密度聚类算法是NP难问题,然而根据泛化的PerronFrobenius理论9,任意的超图都存在唯一且符号为正的主特征向量,在线性时间能检索出最大密度子图。该算法主要优点是把超边看作整体进行处理,且不需要预先设置聚类数。其处理过程描述如下:1)先计
18、算主特征向量,检索最大密度子图;2)从超图中去除该子图的超边及结点;3)重复上述步骤直到没有结点在超图中。由于该算法常常生成许多细粒度的类,使用Tan和Kumaru驯的方法对聚类结果作进一步合并处理。合并时采用以下2个度量方法:内聚度(cohesion)和分离度(separation)。一个类Ci的内聚度定义为:#(e I省,Ye)日(Ci)=型坐生百T一(3)b z其中,#(el z,Ye)为在类ci中包含结点x,y的超边数,I c;I为ci的结点数。2个聚类Ci、Ci的分离度定义为:#(e I石,Ye)s(ci,q)=1一(堕钱万而_)(4)通常把比平均内聚度高的类定义为高内聚类;万方数据
19、第1期 钱涛,等:一个基于超图的词义归纳模型 155如果Ci是q的最低分离度类,则把2个聚类ci和e定义为低分离,反之亦成立。直觉地,具有高内聚、低分离的2个类有非常高的语义相似关系。因此设定如下合并规则:2个高内聚类是低分离,则合并2类,如此循环直到收敛。2实验与评估采用Semeval-2013 WSI【11 o任务来评估及验证提出的模型。21 数据集Semeval-2013 WSI任务的测试数据从美国开放语料库(OANC)抽取,它包含4 806个实例、50个单词,其中,20个名词、20个动词、10个形容词。非监督的训练语料从ukWacH纠语料库中抽取。此外,使用trial数据集作为开发集用
20、于调参。22实现细节训练数据从uKwac中抽取,每个单词抽取1104上下文实例,每个实例包含目标单词的一个句子窗口。此外,实例还选择l104不包含任何目标单词的句子作为辅助语料库。实验采用TreeTagger标注词性,去掉停用词,仅仅考虑名词作为特征;同时,去除与目标单词在整个ukWac语料库中共现频率少于50次的单词。实验时,分别对每个目标单词作LDA训练,训练数据为2104,其中,1104为目标单词实例,1104为辅助实例。具体地,采用JGibbLDA作话题估计与推断,需要调整的参数为:话题数k、文档一话题狄利克雷分布超参仅和话题一单词分布超参口。在实验中分别用如下值测试3个参数:后=1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一个 基于 超图 词义 归纳 模型 钱涛
限制150内