模式学习在QA系统中的有效实现.pdf
《模式学习在QA系统中的有效实现.pdf》由会员分享,可在线阅读,更多相关《模式学习在QA系统中的有效实现.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计算机研究与发展ISSN 100021239CN 1121777TPJournal of Computer Research and Development43(3):449455,2006 收稿日期:2004-12-27;修回日期:2005-05-17 基金项目:国家自然科学基金项目(60435020);上海市科技攻关计划基金项目(035115028)模式学习在QA系统中的有效实现杜永萍1,2黄萱菁1吴立德11(复旦大学计算机科学与工程系 上海 200433)2(北京工业大学计算机学院 北京 100022)(dypzdj yahoo1com1cn)Effectively Implementi
2、ng a Pattern Learning Method in the Question AnsweringSystemDu Yongping1,2,Huang Xuanjing1,and Wu Lide11(Department of Computer Science and Engineering,Fudan University,Shanghai200433)2(Institute of Computer Science,Beijing University of Technology,Beijing100022)AbstractOpen domain question answerin
3、g(QA)represents a challenge of natural language processing,aiming at returning exact answers in response to natural language questions1A novel pattern learningmethod for QA is developed1The key idea is to get answers using answer patterns learned from the Web1Although many other QA systems use the p
4、attern based method,the method in this paper is implementedautomatically and it can handle the problems other systems fail,such as the weakness of pattern restrictionand so on1The experiment result on the TREC data indicates that the method is effective1It solves not on2ly the questions relying on s
5、imple patterns,but also the questions that need complex patterns for answer ex2traction1The question number of the latter is about 80%in the question set of the TREC1Key wordsquestion answering;pattern learning;answer extraction摘 要 开放领域的问题回答(question answering)是自然语言处理领域中具有挑战性的研究方向1 提出了一种基于模式学习实现问题回答
6、的方法,核心思想是利用机器学习方法得到的答案模式获取问题答案1 该方法优势在于:模式学习完全自动化实现;解决了目前普遍存在的模式约束性弱及答案缺乏语义类型限制等缺陷1 在TREC测试集上的实验结果表明,它不但解决了简单模式所覆盖的问题集,同时也解决了需要较强约束性模式进行答案抽取的问题集,而后者的问题数目在TREC测试问题集中占约80%1关键词 问题回答;模式学习;答案抽取中图法分类号 TP3911 引 言面向开放领域的问题回答(question answering,QA)这一自然语言处理研究领域中具有挑战性的研究方向已经受到广泛关注,由美国国家标准技术局(National Institute
7、 of Standards and Technology,NIST)和国防部高级研究计划局(Defence AdvancedResearch Projects Agency,DARPA)组织召开的一年一度的文本检索会议(text retrieval conference,TREC)设立了问题回答这一项子任务,对问题回答系统进行科学的评测,该会议已经成为文本检索领域最具有权威性的评测会议1通常意义下的文本检索输入的查询是关键词,返回相关文本,而问题回答输入的查询是自然语言描述的问题,要求返回问题的精确答案1 国内,中科院计算所研究开发的人物关系问答系统1,引入逻辑推理机制,使系统具有依据一定的策
8、略进行推理的能力,但限定于人物关系的问答1一个完整的问题回答系统包含3个主要组成模块1 第1模块是问题分析,它决定答案类型并且生成查询;第2模块是检索,根据第1模块输出的查询在文档集上搜索,返回相关文档或片段,这些文档或片段可能包含了答案;第3模块是答案抽取,分析第2模块返回的文档或片段并且抽取出问题的精确答案1问题回答区别于通常意义下文本检索的关键在于答案抽取模块,该模块可以采用不同策略实现,如:逻辑推理2,利用WordNet等 外 部 知 识 资源3,4、模式匹配57等1 由于答案在语料中表达形式灵活,给准确识别带来很大难度,采取模式匹配是一种有效方法1模式在信息抽取(informatio
9、n extraction)中具有普遍应用,大部分IE系统也都要获取对应抽取信息的模式,如基于结构化数据的WHISK、半结构化语料 的RAPIER、自 由 文 本 的AUTOSLOG和CRYSTAL等8,91 但IE系统在获取模式时都需要进行语料标注工作,这项巨大的工程也是模式创建的瓶颈1InsightSoft6开发的问题回答系统在TREC评测中取得了好成绩,它拥有数量庞大的模式,这些模式由语义块(semantic block)组合而成,具有较高的准确率,但需要耗费巨大的人力资源1 目前,也有其他的问题回答系统实现了自动学习简单模式并用于问题回答,如:ISI5和新加坡国立大学7,但这些简单模式存
10、在以下两大缺陷:(1)模式的组成成分中只能够包含问题中的一个元素(词或短语),导致约束性较差1 对于一些比较长的复杂问题,在进行模式匹配抽取答案时,需要多个问题元素出现在侯选答案句中进行约束,而这是简单模式所无法覆盖的1(2)模式匹配得到的答案缺乏语义信息限制1问题:“Where are the Rocky Mountains located?”片段:“in imitation of the Rocky Mountainsin the background,continues to lie”模式:“theNA M EinANSW ER,”模式中的“NA M E”代表问题元素“the Rocky
11、Mountains”,模式匹配将在片段中抽取到答案“thebackground”,但该问题答案类型为“LOCATION”,该答案不满足这一限制1本文将介绍利用Web资源学习不同问题类型的答案模式,实现问题回答系统中的答案抽取1 值得指出的是,本文提出的方法既解决了上述缺陷,又不需要人工参与,并且取得了满意的结果1 本文的第2节介绍问题分析;第3节介绍对于不同的问题类型自动学习其答案模式的算法;第4节介绍问题回答系统中基于模式匹配实现答案抽取;第5节介绍利用TREC问题集对该方法做性能分析和评价12 问题分析不同的问题回答系统采用不同的问题分类体系,基于疑问词或基于答案类型等1 本文提出一种新的
12、基于答案类型和问题结构的问题分类体系,同时融入了问题的语义信息和结构信息1211 问题元素(Q Tag)我们对问题定义了一套标记集合QTag如表1所示,它们构成了问题的不同元素1Table 1Symbol Set of Question Element表1 问题元素标记集Q TagDefinitionExampleQ FocusKey word of the questionWhat country is the holy city of Mecca located in?Q NameEntity(Q LCN Q PRN)Name entity of the questionWhat coun
13、try is the holy city of Mecca located in?Q Verb(Q BeVerb Q DoVerb)Main verb of the questionWhat country is the holy city of Mecca located in?Q BNPNoun phrase of the questionWhat country is the holy city of Mecca located in?054计算机研究与发展 2006,43(3)Q Tag集合包含4类标记Q Focus,Q Name2Entity,Q Verb及Q BN P1 其中,Q
14、NameEntity包含Q L CN(地名),Q PRN(人名)等多种实体名;Q BN P包含问题中除QFocus和Q NameEntity已经标识之外的名词短语1212 问题分类在介绍问题分类之前首先介绍两个概念:问题模式和答案类型1(1)问题模式将问题中每个不同的元素用其对应的QTag标记替换,即生成问题模式(Q Pattern)1问题:What country is the holy city of Mecca lo2cated in?问题模式:WhatQFocusisQ BN PofQL CN Q DoVerbin?(2)答案类型在我们的问题回答系统中采用的答案类型分类体系如表2所示:
15、Table 2Answer Type Concept表2 答案类型分类体系Answer TypeAnswer TypeLCNMNYPRNABBRORGBNPNUMMANNERDATREASONPCTQUOTATION 如下所示为基于问题模式和答案类型进行问题分类的实例1 目前我们的问题库(TREC的2393个问题)包含了483种问题类型1问题类型:LCNWhatQ BeVerb Q FocusinQ L CN?问题:What is the oldest national park in theU1S1?What is the most populous city in the UnitedSt
16、ates?3 模式学习及评价我们针对每个不同的问题分类类型学习其答案模式,即答案可能出现的上下文,以实现问题回答中的答案抽取1 模式学习与评价流程如图1所示1下面结合示例解释算法描述,Q Tag,Answer作溪模式学习的训练样例,A nswer为TREC在官方网站上公布的正确答案1问题类型:LCNWhatQ BeVerb Q FocusinQ L CN?问题:What is the oldest national park in theU1S1?Q Tag:Q BeVerb=“is”,Q Focus=“the oldest na2tional park”,Q L CN=“the U1S1”A
17、 nswer:“Yellowstone”Fig11Architecture of pattern learning and evaluation1图1 模式学习与评价流程图311 模式学习模式学习算法:(1)构造查询1 查询由两部分组成:“QTag+A nswer”(QTag不包含Q BeVerb),示例问题的查询为“the oldest national park”+“the U1S1”+“Yellowstone”1(2)检索1 提交查询给搜索引擎Google,保存返回结果的前100个片段1(3)片段选取1100个片段中,满足如下两个约束条件的片段将用做模式抽取1约束1:包含答案(此例为“Y
18、ellowstone”)1约束2:包含出现在答案前后的各10个词1154杜永萍等:模式学习在QA系统中的有效实现(4)模式抽取1 标记替代(泛化操作)1泛化1:将出现在片段中的各问题元素用相应的Q Tag标记替换1泛化2:答案用标记 A 替换1包含Q Tag和 A 的最短片段将作为我们的答案模式1 例:片段:“Established in 1872,Yellowstone isthe oldest National Park in the U1S1 ”答案模式:“,AQ BeVerb QFocusinQL CN”312 模式评价学习到的答案模式并非全部完全可靠,也可能会抽取出错误答案1 因而,
19、我们有必要对这些模式做一评价以提高问题回答系统总体性能1答案模式是针对不同的问题分类类型而学习的,同样,我们也根据问题类型对它们分别进行评价1评价采用数据挖掘中的指标:可信率(Conf idence)1评价算法:(1)随机选取属于某问题类型C的k个问题Qi(i=1,k),重复步骤(2)(3)1(2)将由问题Qi的Q Tag构成的查询提交给Google,返回的前100个片段中包含问题答案的片段构成片段库Si,库中片段数目为n(n100)1(3)利用该问题类型的答案模式库中的每个模式p在Si中进行匹配,统计模式被匹配的次数m和其中匹配抽取到正确答案的次数c(cm),计算Ci(p)=cm1(4)该问
20、题类型的答案模式库中每个模式p的可信率为Conf idence(p)=ki=1Ci(p)k1 可信率越高的模式抽取到正确答案的可靠性越高,而低可信率的模式则不能保证其正确性1 表3列举出了部分问题类型的答案模式与其相应的可信率1 我们学习到的答案模式其有效性在于模式中可以包含多个问题元素,如“A,QFocusinQL CN”包含两个问题元素“Q Focus”和“Q L CN”1包含越多问题元素的模式具有较强的约束性,匹配抽取到的答案也具有更高的可靠性1 若只允许模式中包含一个问题元素,首先其可靠性不能保证;其次,对于较复杂问题很难确定惟一的一个包含该问题信息的问题元素用做模式学习1Table
21、3Sample of Answer Patterns表3 答案模式示例Question TypeAnswer PatternConfidenceLCNWhatQ BeVerb Q FocusinQ LCN?(Sample question:What is the largest city in Ger2many?),AQ BeVerb Q FocusinQ LCNA,Q FocusinQ LCNofA 1Q LCNsQ Focus Q FocusinQ LCN,A0195018401610159DATWhen didQ LCN Q DoVerb Q BNP?(Sample question:W
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式 学习 QA 系统 中的 有效 实现
限制150内