一种领域合成词的抽取方法.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《一种领域合成词的抽取方法.pdf》由会员分享,可在线阅读,更多相关《一种领域合成词的抽取方法.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 12 卷第 6 期太赫兹科学与电子信息学报Vo1 12, No 6, 20142014 年 12 月Journal of Terahertz Science and Electronic InformationTechnologyDec文章编号: 2095-4980(2014)06-0870-05一种领域合成词的抽取方法刘剑1,2(1.中国科学院计算技术研究所,北京 100190 ;2.解放军外国语学院,河南洛阳 471003)摘要:构建领域本体的首要任务是获取领域相关的概念,这些概念很多是由常用词典库中没有收录的领域合成词组成,因此抽取领域合成词对于领域本体的构建至关重要。本文基于语言规
2、则和统计技术,提出一种结合改进互信息和语言模板的领域合成词抽取方法。首先利用改进的互信息算法抽取由多字词单位构成的高频次候选领域合成词,在此基础上,利用语言模板匹配抽取低频次候选领域合成词,最后由专家进行检验,得到领域合成词集。实验结果表明,该算法的领域合成词提取准确率达到88.22 %,适用于从大规模网页文本中自动高效地抽取领域合成词。关键词: 领域本体;互信息;语言模板;领域合成词10.11805/TKYDA201406.0870中图分类号 : TN911.7 ; TP391.1文献标识码 : Adoidoi:A method of domain compound words extrac
3、tionA method of domain compound words extractionLIU Jian(1.The Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China;2.PLA University of Foreign Languages,Luoyang Henan 471003,China)1,2Abstract:Abstract:The primary task of constructing domain ontology is to obtain the re
4、levant domain concepts.Many of these concepts are composed of domain compound words which are not included in the commondictionaries. So it is essential to extract domain compound words for the construction of domain ontology.Based on linguisticrules and statisticaltechniques,a hybrid extractionmeth
5、od combining the improvedmutual informationand languagetemplatesis proposed.Firstly,it extractshigh frequencycandidatedomain compound words formed by a multi -word units using improved mutual informationalgorithm.Onthis basis, it extracts low frequencycandidatedomain compound words by language templ
6、ates.Finally,domain compoundwords can be obtainedthroughexpertscheck. Experimentalresultsshow that thealgorithmachievesa precisionof 88.22 %, which indicatesthis techniqueis fit for automaticallyandeffectually extracting domain compound words from large corpora.Key words:Key words: domain ontology;m
7、utual information;language templates;domain compound words近年来,在大数据背景下将实验科学、理论科学与计算科学统一起来而形成的数据密集型科学范式(Data-Intensive Science Paradigm,亦称第四范式 ),注重采用语义本体技术对数据、信息和知识进行处理与管理,建立知识本体、知识图式和受控词表,从而将领域内知识结构化1。领域本体通过形式化描述领域内知识,使得领域内的概念、概念之间的关系直观呈现,并将其结构化地表示-出来,从而可以方便地获得和使用知识2 3。因此,领域本体构建的首要任务是获得与该领域相关的领域概念4。领
8、域概念主要由领域合成词构成,这些合成词很多没有收录在常用的领域词典中,而且很多时候以多字词组合的形式出现。在互联网的大数据背景下,特定领域新的概念层出不穷,在获取大量领域文本语料的基础上,迫切需要一种适应性较强的领域合成词抽取方法,以便快速、准确地抽取与领域相关的领域合成词。1现有工作目前国内外对于领域合成词抽取的方法主要有:语言模板法、统计分析法以及混合法5。其中语言模板法6收稿日期:2013-12-11;修回日期:2014-03-17基金项目:国家 973 计划资助项目(2012CB316303);国家自然科学基金资助项目(60933005)第 6 期刘剑:一种领域合成词的抽取方法871也
9、称作语言规则法,该方法通过对领域概念的词法结构进行分析,获得领域概念的构词规则,然后依据这些规则构建抽取领域合成词的匹配语言模板。在领域文本语料的处理过程中,使用语言模板进行匹配,抽取符合模板要求的领域合成词。语言模板法抽取的合成词准确率高,能够抽取低频次的领域合成词,但是对语言本身和模板有很强的依赖性。统计分析法的基本思路是通过对大量领域文本领域的统计分析,找出领域合成词的使用规律,又可以细分为基于统计度量的方法7和基于机器学习的方法8。基于统计度量的方法核心思想认为词在领域内出现的频率代表了该词在领域内的相关程度,可以根据设定阈值对领域术语进行抽取。基于机器学习的方法根据某种机器学习算法对
10、训练语料学习生成模型,采用模型对测试语料进行术语抽取实验。统计分析法对语言本身没有很强的依赖性,对于低频次和多字词组合的领域合成词抽取效果很差。语言模板法或统计分析法各自有优势和不足,因此在实际抽取领域合成词时还可以将以上2种方法结合起来-使用9 11。混合法可以更加准确和高效地抽取领域合成词,本文提出的领域合成词抽取方法,就是将统计分析法和语言模板法相结合的混合抽取方法。2领域合成词的抽取本文提出一种结合改进互信息方法和语言模板法的混合抽取方法。该方法主要由2个抽取模块组成:一是统计分析法中的改进互信息法,主要针对高频次、多字词组合的领域合成词;二是语言模板法的模板匹配,主要针对低频次的领域
11、合成词。领域合成词的抽取过程如图1所示。extraction of domain compound wordswith delimiterimproved mutual information(statistical analysis)domaincorpusChinese wordsegmentationstringcollectiontemplate matching(language template)expertscorrectioncollection of domain(compound words)Fig.1 Extraction process of domain compou
12、nd words图 1 领域合成词的抽取流程该方法在中文分词的基础上,针对分词后的字符串集合,首先利用改进的互信息算法,计算多个相邻字符串之间的互信息,抽取出高频次候选领域合成词,在此基础上,对于低频次相邻字符串,利用语言模板进行模板匹配,抽取出低频次候选领域合成词,最后,领域专家进行校验,得到最终的领域合成词集。2.1 文本预处理本文研究非结构化网页文本数据的中文领域合成词抽取,抽取过程的第1步是中文文本的预处理工作。文本预处理主要包括分词、词性标注和分隔符切分等,为后续的合成词抽取做准备。1) 中文文本分词和词性标注不同于英语或其他语言,汉语的词和词之间没有明显的区分标记。因此,中文文本分
13、词是提取领域合成词的基础步骤和关键环节。 本文采用自主开发的机械分词系统对文本语料进行中文分词和词性标注,分词系统带有一个8万词左右的基础词典。另外,也可以将已有领域词典添加到基础词典中,以提高中文分词效果。2) 分隔符切割领域文本语料中通常含有一些与该领域不相关的高频词语,比如连词和副词:并且、不过、果然等等,还有符号、习惯用语、成语、时间等,这些词语和标点符号与领域知识无关,通过它们将文本切割成较小的字符串集,合成词抽取运算只需要计算那些被分隔符切割开的字符串集合,在一定程度上减少了合成词抽取的运算量,也有利于提高合成词抽取的准确性。本文通过将中文停用词、符号、习惯用语、成语等约2万个词条
14、作为分隔符放入分隔符表,在分词的同时将中文文本切割成小段的字符串集合,用于接下来的合成词抽取。2.2 抽取方法文本语料通过中文分词预处理,文本中由多个词语构成的领域合成词可能被切分为多个词,如“国际货币基872太赫兹科学与电子信息学报第 12 卷金组织”,被切成“国际”、 “货币”、 “基金”和“组织” 4个词。本文针对分词后的小段字符串集,首先利用改进的互信息算法,抽取高频次候选领域合成词,然后使用语言模板进行匹配,抽取低频次候选领域合成词。1) 基于改进互信息的计算在统计语言模型中,可以用互信息来量化2个字符串关联的紧密程度。如果一个字符串集是一个完整的合成词,那么这个合成词的各个组成成分
15、之间具有较高的关联系数,这个系数就是计算的互信息值。设字符串集S=t1,t2,ti,其中 S是被切割后的某一段字符串集,ti为字符串集 S中经过词典机械分词后的一个词串,用MIS表示S中各个词串之间的互信息值,互信息有多种计算表达式,本文采用简化的互信息计算表达式:f (t1t2ti)P(t1t2ti)f (t1t2ti)LMIS=(1)P(ti) P(t1t2ti)f(ti)f (ti) f (t1t2ti)f(t t t )iii1 2iLL式中:P()表示概率;f()表示频率;L为词串总数。MIS越大,则t1,t2,ti之间的关联程度越紧密,S越有可能是一个完整的合成词。对于给定的阈值r
16、,若MISr则可以将S作为候选合成词。实验表明,传统的互信息计算方法比较适合计算2-gram之间的紧密程度,对于大于2-gram的计算,上式计算结果并不好,因为多词组合的合成词,互信息计算值被其中某单个词的出现频率弱化掉了,因此需要适当地补偿多词术语的计算值。本文提出在原有MIS的计算基础上,增加补偿值Ni(i为S中的组合词个数)。改进后的多词组合的合成词互信息计算公式如下:MISf (t1t2ti)Ni(2)f (ti) f (t1t2ti)iNi是与组合词中词串个数有关的参数,在实验验证基础上,本文设置补偿值Ni=ilog2i。结果表明,增加补偿值的方法可以大幅度提高多词组合的中文领域合成
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 领域 合成词 抽取 方法
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内