基于排序集成的自动术语识别方法_粟超.pdf





《基于排序集成的自动术语识别方法_粟超.pdf》由会员分享,可在线阅读,更多相关《基于排序集成的自动术语识别方法_粟超.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 29 卷第 1 期计算机应用与软件Vol.29 No 12012 年 1 月Computer Applications and SoftwareJan 2012基于排序集成的自动术语识别方法粟超(复旦大学计算机科学技术学院上海 201203)收稿日期:2011 03 23。粟超,硕士生,主研领域:文本挖掘,Web数据挖掘。摘要自动术语识别是信息抽取和文本挖掘等领域的关键步骤之一。基础自动术语识别算法采用某些方面的特征信息,有明显的局限性,引入局部 Kemeny 最优的方法来处理自动术语识别问题,并提出新的集成方法。实验结果表明该方法显著改善了自动术语识别的精准度。关键词排序集成自动术语识别
2、文本挖掘信息抽取中图分类号TP301文献标识码ARANK AGGREGATION-BASED AUTOMATIC TERM RECOGNITIONSu Chao(School of Computer Science,Fudan University,Shanghai 201203,China)AbstractAutomatic term recognition(ATR)is one of the key steps in the fields of information extraction and text mining As the basicATR algorithms use cha
3、racteristic information of certain aspects,they have noticeable limitations The paper introduces the local Kemenyoptimal method to deal with ATR issue,and presents a new rank aggregation method Experiment results show that the method has significantlyimproved the accuracy of automatic term recogniti
4、onKeywordsRank aggregationAutomatic term recognitionText miningInformation extraction0引言自动术语识别 ATR(Automatic term recognition)要解决的问题是如何从特定领域的文本语料库中自动提取出相关的术语。这里术语指的是能表示领域知识的关键名词性单词或词组。术语提取是进一步分析术语间关系的前提,可以为知识抽取、文本挖掘、链接分析等提供结构化知识单元。由于其重要性,自动术语识别问题已经得到了广泛的研究和关注。已有的自动术语识别方法通常包括两个步骤:第一步是预处理阶段,它利用词性标注器和名
5、词短语切分器等语言学工具来处理文本语料库,从而提取出候选术语的集合;而关于术语变体识别技术,可以根据一个术语的词根形态来得到与此相关的具体实现方式。第二步基于统计的术语识别,简言之,就是利用统计信息来赋予每个候选术语一个相应的权重,并输出具有最高权重的 k 个候选术语作为自动识别的结果。不同的 ATR 方法采用了不同的统计信息,常见的 ATR 算法包括有 TFIDF、C-Value、Weirdness 和 GlossEX 等。这些算法大多是关注于候选术语在领域语料库(或背景语料库)的某种统计信息,据此判断候选术语项作为术语的可能性,从而产生候选术语项的排序。然而,不同的 ATR 算法关注于术语
6、所应具备特性的不同方面,因此,它们对于来自特定领域的同一个语料库的术语候选项会计算得到不同的排序结果。本文关注和研究一种排序集成问题,即如何从多个不同的排序结果中产生一个全局的排序。为此,本文设计并实现了局部 Kemeny 最优方法,以及两个基础集成方法来解决问题。本文首先介绍了 7 种已有的用于解决 ATR 问题的基础算法;然后详细描述了使用局部 Kemeny 最优化方法来对这 7 种基础算法进行集成;最后在一个生物领域的 GENIA 语料库上进行了实验验证。1统计学的 ATR 算法ATR 算法的核心部分是对候选术语的排序,目前采用的特征指标大多基于术语的分布特征、结构特征和领域相关性信息等
7、,表 1 对 7 种 ATR 算法所采用的特征进行了归纳总结。表 17 种 ATR 算法所采用的特征算法名称术语的分布特征术语的构词特征术语的领域聚合度候选项是否预处理是否参考背景语料TF有无无有无TFIDF有无有有无C-value有有无有无GlossEX有有无有有Weirdness有无无有有RIDF有无有有无LR有无无有有(1)Term Frequency(TF)是一种单纯的词频统计算法。在第 1 期粟超:基于排序集成的自动术语识别方法197某领域经常出现的词组有更大的可能是该领域的术语。通常用于在语料库中统计候选词,在语义预处理之后,对候选词进行排序。(2)TfIdf 则在 TF 的基础上
8、增加对于术语分布的考量。频率一定的情况下,候选术语在某些文档中集中出现,而在其它文档中没有,说明这个候选术语更有区分性,适合用来分类。Idf反文档频率是指文档的总数除以候选术语在语料库出现的文档个数。Tf 词频(Term Frequency)是候选术语在语料库中出现的次数。表达式为:TfIdf(i)=Tf(i)Idf(i)(1)候选术语的 Tf 越高,那么它越可能分布在语料库里,但 Idf反而会减少,这样就对于分值有所抑制,希望候选术语频率高的情况下能够集中于少量的文档,可以推断这很可能是对于领域语料库的介绍和描述。(3)C-value 算法3 同样基于 TF 的思想。但它同时参考了术语的长度
9、和嵌套词的影响。它认为长度愈长的术语更难以出现,对于比较长的候选术语在其频率上会有相应的加权。因为一些候选术语是被嵌套词,这样它的嵌套词会多次累计频率,而很可能它自身并没有实际意义,所以需要进行相应的罚分来得到最终的分数。具体的计算公式是基于三个方面的因子:提取频率更高的术语,对于作为更长候选术语子串的嵌入术语进行罚分,以及考虑候选术语的长度。(4)RIdf 是对 Idf 方法的调整,Idf 因子受频率影响较大。频率较低的候选术语所存在的文档个数往往比频率高的更少,更有可能获取更高的 Idf,因此单纯考虑反转频率有明显的缺点。RIdf 根据候选术语的频率来估算出该项在语料库中的泊松分布1,从而
10、得出候选术语在某个文档中出现的泊松概率。当二项分布的 n 很大而 p 很小时,泊松分布可作为二项分布的近似,其中 在这里就是 f(i)/D,那么可以得到文档没有该术语的泊松概率为 1/e,即上式 k=0。候选术语的 Idf 和其泊松概率的对数之和就是 RIdf 的值,表示为:RIdf(i)=Idf(i)+log(1 p(0;(i)(2)其中 p 是参数为(i)=f(i)/D(候选术语在每个文档中的平均数)的泊松分布,f(i)是候选术语 i 在语料库中的数量,而 1 p(0;(i)是指文档中出现单词 i 的泊松概率。(5)Weirdness 方法则利用术语在语料库和背景语料库的比率来得到最终的分
11、值。它认为候选术语在语料库中出现的频率比在普通的文本里面出现的频率明显要高。假设一个候选术语在语料库中出现频率和在背景语料库中出现的频率一样,那么它很可能不是术语。这种算法表现的是一种差异化的思想,它认为术语应当是在该领域语料库中有大量的描述。它以单词为基本处理单位,候选术语会有 t 个单词,那么对候选术语中的每一个单词求出其比率,其几何平均值就是候选术语的分值。(6)Likelihood Ratio(LR)1 是反应术语真实性的一种指标。这种算法的设计思想和 Weirdness 比较相似,但是与 Weird-ness 不同的是,它使用似然比来进行一种平滑2。对于候选术语的二项式分布的表达式为
12、:LR=logL(fs,ns,p)+logL(fg,ng,p)logL(fs,ns,ps)logL(fg,ng,pg)(3)候选术语在领域语料库和背景语料库的出现次数分别是 fs和 fg,其概率分别是 ps和 pg,ns是语料库中候选术语的总频率,而 ng是背景语料库里候选术语的频率之和。其中 p=(fs+fg)/(ns+ng),L(k,n,x)=xk(1 x)n k。(7)GlossEX4 结合了两个方面的思想。一种是用域相关性息的度量 TD 来进行评估的;TD 与 Weirdness 方法类似。另一种度量方法是使用了术语凝聚度 TC 来进行评测的。当一个术语出现的频率越高组成它的单词频率也
13、就越高。在此基础上提出假设,如果这些单词更集中于形成某个候选术语而不是组合成其它的项,那么说明这个候选术语有更高的组成凝聚度,可以推断具有明显的特征含义。术语凝聚度 TC 的具体实现可以参考文献 4。这两种度量方法可以用参数来进行线形的结合,表达式为:GlossEx(t)=TD(t)+TC(t)(4)其中 t 为候选术语,和 是两个常量参数。2排序集成的方法为了能够较好地融合基础的 ATR 算法,进一步提高识别的精准度,本文引入排序集成的方法进行研究,主要采用了局部Kemeny 最优方法8 来解决 ATR 问题。下面先引入几个相关的定义,再给出一种新的基础集成方法。定义 1K-distance
14、 和 是基于同一候选术语集合(1,n)的两个排序序列,和 的 K-distance 标记为 K(,)。对于候选术语对 i,j(1,n),如果有 (i)(j)但是 (i)(j),则为一个逆序对。两个序列的逆序对之和就是 K(,)的值。定义 2SK,Kemeny 最优有 m 个已经生成的排序序列(1,2,m),序列 是根据这 m 个序列的重新排序,式(5)为 SK 的计算公式:Sk(,1,2,m)=mi=1K(,i)(5)如果有序列 使得 SK(,1,2,m)达到最小值,那么序列 为序列集(1,2,m)的 Kemeny 最优。定义 3孔多塞标准将每个候选术语与所有其它候选项成对比较,一次一个。只要
15、一个候选术语在大多数投票上的得分高于另一个候选项,那么它便击败了那个候选项。击败所有其它候选项的便是孔多塞赢家。这方法被称为孔多塞标准。Kemeny 最优满足孔多塞标准。然而当序列个数达到 4 时,Kemeny 最优就是一个 NP 难问题。因此本文使用局部 Kemeny最优方法来进行自动术语识别。局部 Kemeny 最优方法最初是由 Cynthia Dwork 等人提出的,应用于元搜索引擎的开发,生成的结果序列既符合扩展的孔多塞标准,又能够高效地运行。局部 Kemeny 最优方法包括两个步骤:(1)利用基础的排序集成方法来得到一个初始的排序序列,这里可以使用波达计数方法,也可以使用本文提出的
16、Kicker 方法。(2)基于序列(1,2,m),对排序序列 进行局部Kemeny 最优化,生成序列 使得与序列 保持一致,并且满足扩展的孔多塞标准。2 1基础的集成方法波达计数5 是一种投票机制方法。先通过各个 ATR 算法根据自己的判别标准对于各个候选术语进行排列。如果候选者在选票中排第一位,它就得最高分值;排第二位得一个稍小的分值依此类推。通过候选术语在序列中的位置来确定分值,最后的投票积分之和越高,说明该候选术语表现越好。为一198计算机应用与软件2012 年个 ATR 算法所产生的候选术语序列,如果候选术语 i,则(i)表示候选术语 i 在 中的位置。计分公式为:w(i)=1(i)1
17、|(6)Kicker 方法是在波达计数上的改进。在 ATR 算法生成的m 个序列中,该方法认为术语应该尽量出现排序序列前 n 的位置(本文通过大量的实验,表明不论提取术语量 k 为何值,阈值n 设置为 k 的 2 倍时效果最好)。需要记录候选术语 i 在序列 的前 n 项中出现的总次数 c(i)。候选术语 i 遍历所有的序列。如果在序列 的前 n 项中出现过,那么 c(i)加 1,若没有则扫描下一个序列直到所有的序列都进行了扫描。计分表达式为:Kicker(i)=t(i)log(c(i)(7)t(i)指算法的波达计数公式 t(i)=R(1,2,m),也可以使用其它递增函数(递增函数满足当任意序
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 排序 集成 自动 术语 识别 方法

限制150内