基于混合内容线索特征的语义组块标注研究-白如江.pdf
《基于混合内容线索特征的语义组块标注研究-白如江.pdf》由会员分享,可在线阅读,更多相关《基于混合内容线索特征的语义组块标注研究-白如江.pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、情报学报2017年4月 第36卷第4期Journal of the China Society for Scientific and Technical Information,April 201 7,36(4):382391一=基于混合内容线索特征的语义组块标注研究白如江1,冷伏海2,廖君华1(1山东理工大学科技信息研究所,淄博255049;2中国科学院科技战略咨询研究院,北京 100190)摘 要 大数据时代背景下,实现科技文献深层语义理解逐渐成为情报学研究的热点话题,本文利用词频统计和共词分析方法分析了科技文献内容浅层语法特征、上下文特征和核心线索词特征,构建了混合内容线索特征集合,采用
2、条件随机场模型,对NSF碳纳米管研究领域项目数据进行了语义组块标注实验。实验结果表明,在BSUB、I-SUB、BACT、I-ACT、BGOL、I-GOL、BIMP7种标签标注中,增加混合内容线索特征后的精度值分别达到8443、8909、8438、8987、5133、5037、3783,与没有增加的标注结果相比精度值有了明显提升。特别是BSUB、I-SUB、BACT、I-ACT四种标签,在增加了内容线索特征后精度值提升了10以上。关键词 内容线索特征;条件随机场;语义组块标注Research on Semantic Chunk Annotation Based onMixed Content C
3、luesBai Rujian91,Leng Fuhai2 and Liao Junhual(1Institute ofScientific and Technical Information,Shandong University of Technology,Zibo 255049;2Institutes ofScience and Development,Chinese Academy ofSciences,Beijing 100190)Abstract:In the big data era,how to improve the semantic understanding for the
4、 academic papers iS one of the hottopics in intelligence researchThis paper using word frequency statistics and COword analysis method to analyze theshallow grammatical features,context feature and the core clue word feature of the academic contentWe construct amixed content clue character set,and u
5、sing conditional random field model to annotate the semantic chunkThe NSFresearch of carbon nanotubes project data was taken as experiment datasetResults show that the precision value ofBSUB,I-SUB,BACT,I-ACT,BGOL,I-GOL,BIMP7 is 8443,8909,8438,8987,513350373783,respectively,compared to the precision
6、of content clue features nonadded,the value improved significantlvIn particular,BSUB,I-SUB,BACT,I-ACT four tags,the increase in the content of the characteristics of the clues toenhance the accuracy of the value of more than 1 0Key words:content clues;conditional random field;semantic chunk annotati
7、on引 言近年来,随着大数据时代的来临,信息技术的迅猛发展,不同领域的各种类型科技文献成几何增长,特别是在一些热点领域内的文献数量大大超出了情报人员或科技工作者的人工阅读、分析量。并且一个研究领域内往往存在大量不相容的矛盾结论,有限的人工阅读文献很有可能得出误导性的结论,所以在现在与未来的情报研究工作中,系统性的语义分析科技文献摘要、全文的需求越来越强烈。收稿日期:20160715;修回13期:2017-01-12基金项目:国家社会科学基金项目“未来新兴科学研究前沿识别研究”(1 6BTQ083)。作者简介:自如江,男,1979年生,博士,副研究馆员,主要从事文本数据挖掘与科技情报分析领域的研
8、究工作,E-mail:brjsduteducn冷伏海,男,1963年生,博士,研究员,主要从事科技信息分析与竞争情报领域研究丁作;廖君华,女,1979年生,硕士讲师,主要从事信息管理领域的研究。万方数据第4期 自如江等:基于混合内容线索特征的语义组块标注研究 383此外,在科技情报工作中,为了更好的掌握一个学科的研究进展和知识脉络,人们需要借助各种有效的学术检索工具的帮助,如Google scholar、百度学术等。然而,每次检索到的相关文献数量庞大。因此,如果想全面了解相关工作,势必需要“一篇都不能少”地进行阅读。究其原因是目前的学术检索系统在文档表示上词袋模型仍然处于主导地位。这样的处理虽
9、然带来了计算上的便利,但同时也失去了对学术文本的深层语义理解。比如,目前的系统无法揭示出“某篇文献的具体研究目标是什么?某篇文献中用到的具体研究工具是什么?”句子“developingcontrolled chemical vapor deposition methods”中的研究方法是什么?凶此,在海量科技文献时代,为了提升科技情报分析能力,必须对学术文本做深度的语义分析,揭示出科技文献全文中蕴含的丰富语义信息。2 相关研究科技文献蕴含着大量的语义组块信息,比如,“研究目的”、“研究方法”、“应用前景”、“研究性能”、“实验设备”等。如何利用自然语言处理技术标注出这些组块信息,提升科技文献语
10、义理解,学者们进行了大量研究,归纳起来主要有三种方法:基于规则的标注方法;基于统计机器学习的标注方法;混合标注方法【l。3。21基于规则的方法基于规则的方法具有直观性、有效性和易实现等特性,因此,早期研究集中在基于规则的标注方法,有代表性研究有:Bourigault4运用浅层分析和词与句子间的依存关系制定抽取规则,抽取文献中的复杂词项。Dagan等5将候选标注块限定为一个名词词组字符串,根据限定字符串的特征制定抽取规则。Smaranda等J开发了一个基于规则的在线医学文档定义(Definition)抽取系统,该系统首先根据手工判定的线索词(cuephrases)(如is defined as,
11、is called等)筛选候选词组,然后再利用语法分析技术进行深层的定义词组判定。Westerhout等71在Smaranda等【6】的工作基础上添加词性标注特征(Part ofSpeech,POS)模板,将定义抽取的性能进行了进一步提升。基于手工或半自动制定的语义块抽取规则可以非常有效准确的抽取相关语义块信息,但是它的缺点也非常明显。首先,基于规则的标注在规则构建阶段会非常耗时费力;其次,基于规则的标注泛化能力较差,因为需要标注的语义块表现形式会多种多样,不同的数据集会有不同的表现特征,因此,很难编制一个覆盖所有特征的规则集合,较好地抽取规则集合在特定数据集上会表现出非常好的性能,一旦数据集
12、发生变化,标注性能往往会有很大的衰减;最后,基于规则的标注召回率会非常低,因为如果严格匹配抽取规则提高精度的话,势必会漏掉许多符合语义块信息的词或词组。22基于统计机器学习的方法为了解决基于规则标注遇到的瓶颈,近年来基于数据驱动的统计机器学习标注方法研究广泛展开,并逐渐成为主流。在语义组块标注方面使用的统计学习模型有:隐马尔科夫模型(Hidden MarkovModel,HMM)8,支持向量机(Support Vector Machine,SVM)91,最大熵马尔科夫模型(Maximum EntropyMarkov Model,MEMM)10和条件随机场模型(Conditional Rando
13、m Fields,CRFs)1。121等。Fahmi等13运用有指导的机器学习方法从DutchWikipedia中抽取出了医学领域的定义语义块。他们综合运用了朴素贝叶斯(naive Bayes),最大熵(Maximum Entropy,MaxEnt)和条件随机场模型进行语义块标注。研究发现从每篇文档的第一个句子标注相关定义的准确率达到了759,而条件随机场模型的标注准确率甚至达到了922,当然,论文中提到这个成绩的取得离不开Wikipedia中良好的结构化文档13。Cho等【161提出了一种运用多种分割表示方法(segment representations,SRs)(如IB02、IOBE、B
14、I、BIS、BIES等)提高条件随机场模型性能,在BC2GMR14、CoNLL2003151两个数据集上实验证明他们提出的方法可以有效提高标注性能。基于统计机器学习的标注方法不仅克服了手工编制抽取规则费时耗力的缺点,而且提高了系统的鲁棒性,一定程度上提高了系统召回率。但是,基于统计机器学习标注方法需要克服的最大困难就是训练数据集的获取和机器模型参数训练,只有数据量足够大,标注足够准确的训练数据集才能保证标注模型的有效性。23混合的方法基于规则的标注方法和基于机器学习的标注方法各有优势和缺点,近年来专家学者们往往将两者结合起来进行标注研究。通常有两种混合方式进行,万方数据384 情 报 学 报
15、第36卷一种是首先利用规则标注方法标注出候选词项,然后利用统计机器学习方法进行筛选判别;另一种方法是先利用机器学习的方法筛选出候选词项,然后利用规则标注方法判别候选词项。在实际应用中更加倾向于第一种方法,首先利用规则标注方法大体筛选出符合标准的句子或词项,然后利用机器学习模型(如最大熵、条件随机场等)进行候选词项的类型标注。Roxana等1引开发了一种蛋白质相互作用信息抽取系统(ProteinProtein Interaction information extraction system,PPIES),该系统将工作集中在蛋白质命名实体识别和类型判定上。首先该系统运用词典查找法处理蛋白质相关词
16、汇归一化、首字母大写以及简写等问题,然后利用条件随机场模型对检测到的蛋白质名称进行类型判别。在JNLPBA04数据集U7上进行试验,精度、召回率和F值分别为7725,7504和7613,与SVM等模型比有了明显的性能提升1 8|。综上所述,由于条件随机场模型允许融合更好更多的利用待识别文本中所提供的新特征,从而比其他概率模型有更好的性能表现。本文将研究如何利用条件随机场模型,融合科技文本内容线索特征,提升语义组块标注性能,实现科技文献内容深度语义理解,进而为科技情报分析提供证据支持。3条件随机场条件随机场模型(Conditional Random Fields,CRFs)是2001年由Laff
17、erty19提出的一种判别式概率模型,常用于标注或分析序列资料,如自然语言或是生物序列。该模型结合了最大熵模型和隐马尔可夫模型的特点,综合考虑了观测变量联合概率分布情况,从而克服了最大熵马尔科大模型标注偏移(Label Bias)问题。条件随机场将给定的输入序列X得到的状态序列条件概率定义为:1 r KPY=熹eXp屯(y纠,yt,x)(1)_、7 t=l k=l其中,z(x)为归一化因子,使在给定输入X上所自可能状态序列Y的概率之和为1;T为输入输出序列的长度;K为特征数量;为特征函数;五为特征函数丘的权重。利用条件随机场模型对科技文本内容进行语义组块标注效果如图1所示。对句子“CNT ya
18、rns fabricated by dry spinning from MWCNT arrays”进行语义组块标注后,“CNT yarns”被标注为“目标对象”,“dry spinning”被标注为“制备方法”,“MWCNT arrays”被标注为“原始材料”。i冀j聪豫s fabricated by du蹲嚣嚣g from鬻W麓F鳓ys图1基于CRF的语义组块标注4科技文献语义组块类型针对科技文献中存在哪几种语义组块类型这个问题,Graetz2 0通过对大量科技文献的分析,提出了科技文献摘要语句分类问题。他将摘要中的语句分为四种语轮(Move),分别是:问题(Problem)、解决方案(So
19、lution)、评估(Evaluation)和结论(Conclusion o Liakata等2总结了前期对科技文献论述结构的相关研究成果,针对医学领域科技文献写作特点,提出了核心科研概念(Core ScientificConcepts,CoreSCs),该概念将目标、方法、结果等按照类型进一步细分,在句子级别水平上提出了1 1种类型,分别为假设(Hypothesis),动机(Motivation),目标(Goal),对象(Object),背景(Background),方法(Method),实验(Experiment),模型(Model),观察(Observation),结果(Result)和
20、结论(Conclusion o根据前期研究结果,本文确定了“研究目的”、“研究方法”、“应用前景”、“研究性能”、“实验设备”、“实验材料”6种语义组块类型。在表示方法上采用标准的BIO组块表示方法,具体表示标签及含义见表1。表1语义组块标签标签 含义研究目的开始字符研究目的中间字符研究方法开始字符研究方法中间字符应用前景开始字符应用前景中间字符研究性能开始字符研究性能中间字符实验设备开始字符实验设备中间字符实验材料开始字符实验材料中间字符结束字符9PP吼一眦一旧一眦眦一嗽删剡脚一脚B一B,BB一B一B一O万方数据第4期 白如江等:基于昆合内容线索特征的语义组块标注研究 3855混合内容线索特
21、征条件随机场模型最主要的优点是随着特征集合的增加并不需要改变模型适应特征函数。本文在前期研究工作基础上提出了使用浅层语法特征、上下文特征和内容线索特征的混合内容线索特征集合用于条件随机场语义组块标注。51浅层语法特征浅层语法特征是条件随机场模型最常用的特征之一,主要包括词性特征(Part of Speech,POS)、拼写特征(Orthographical features)、前后缀特征(Prefix and suffix features)以及Chunking特征221。(1)词性特征词性特征是对输入的文本标注上对应的词性信息。如名词、动词、形容词等。根据词性的相关特征可以帮助CRF模型实现
22、语义组块的识别。比如名词后面m现动词的概率会比较大一些。(2)拼写特征拼写特征可以很好的辅助判断词的相关信息,比如“Carbon Nanotubes(CNT)”,这是个专有名词,在文献中固定书写格式是首字母大写,“CNT”是碳纳米管的缩略词,也是固定的书写格式。也就是说如果有首字母大写或者全部大写的词出现,在很大可能上是专有名词。再如“strength of 5 GPa”,这里出现了数字,意味着表述相关性能参数指标。如果将上述因素考虑进条件随机场模型特征集合,可以有效地提高标注性能。(3)前后缀特征在科学研究领域很多专有名词有固定的前后缀信息,比如,“nanotubes”的前缀“nano”可以
23、表明是与纳米相关的事物。此外,利用后缀信息还可以很好地判断句子的时态,比如,“applied”的后缀“ed”可以表明该事物的过去式或被动语态。由于前后缀长度不尽相同,可以使用两个、三个或四个,有关实验表明二个或四个是最有效的选择2 31。(4)Chunking特征Chunking是对一段输入的文本(Text)进行短语(Phrase)划分,将具有相似语法特点的词(Token)组成一个短语。这些划分的短语具有互斥特性,不会有重合,也就是说一个词只能属于一个短语。通过Chunking可以将文本中简单的语法结构识别出来2 41。短语识别出来后,每个词就标注上一个标签。52上下文特征上下文特征用于获取词
24、、词性的上下文信息。上下文特征可以考虑当前词前后一个、两个或者更多的词的信息,考虑得越多,对标注的准确性帮助越大,但是考虑得越多同样会带来负面影响,那就是标注时间的消耗,因为特征越复杂,时间消耗越大。不同的标注任务对上下文考虑得长度会有不同的要求,大量实验证明取前后两个词在性能和速度上是最好的选择2 31。例如,“Th西research will address aspects ofRaman scattering from carbon nanotubes”这个句子,如果利用当前词前后两个词一2,2的上下文特征可以得到表2所示的特征集合。53 内容线索特征科技文献中提到的研究方法、目的等语义
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 混合 内容 线索 特征 语义 标注 研究 白如江
限制150内