问题理解增强的阅读理解方法研究.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《问题理解增强的阅读理解方法研究.doc》由会员分享,可在线阅读,更多相关《问题理解增强的阅读理解方法研究.doc(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、问题理解增强的阅读理解方法研究Machine Reading Comprehension based on Question Understanding EnhancementI中 文 摘 要机器阅读理解是指基于给定上下文机器自动回答相应的问题 Liu S , Zhang X , Zhang S , et al. Neural Machine Reading Comprehension: Methods and TrendsJ. 2019,9(18).,不仅是人工智能及自然语言处理领域的一个研究热点,更是一个挑战。机器是否正确、充分地理解问题是研究阅读理解任务的关键和基础。本文针对模型对问题理
2、解不充分提出了相应的解决策略,主要工作如下:(1)提出一个基于多维度问题理解的阅读理解方法。本文通过问题类型识别、问题重要词识别、添加外部知识等多个维度提高模型对问题的理解。多维度问题理解的解答策略的主要思想是:a.人工标注部分数据训练一个初标注TextCNN模型并得到所有数据的问题类型;b.通过句法分析树和人工制定的规则获得问题的重要词;c.针对问题重要词在模型中加入外部知识;d.将之前所有的信息融入到阅读理解模型中。在DuReader2.0数据集上进行方法检验,融入多维度问题理解的阅读理解模型比基线模型的Rouge-L值和Bleu-4值分别提高了8,2%、7%。(2)针对隐式问题提出了相应
3、的理解策略。我们将不包含疑问词的问句定义为隐式问题,处理此类问题的主要思想为:a.首先判断问句是否为隐式问题;b.对隐式问题进一步分为两类:一般隐式问题和复杂隐式问题;c.针对一般隐式问题,基于规则的方法添加疑问词将其转换为显式问题;针对复杂隐式问题,依据问题答案使用TextRNN模型识别问题中缺失的疑问词并将其转换为显式问题。实验结果表明:融入隐式问题处理的阅读理解模型比基线模型的Rouge-L值和Bleu-4值分别提高了3.6%、2%,融入隐式问题处理和多维度问题理解方法的阅读理解模型比基线模型的Rouge-L值和Bleu-4值分别提高了9.5%、7.8%。(3)设计并实现了一个针对中文篇
4、章片段抽取式的阅读理解原型系统。本文依据上述研究方法设计并实现了一个针对中文篇章片段抽取式的阅读理解系统。本系统解答的大致思路为:首先对问题和篇章进行预处理,并判断问题是否为隐式问题,如果是则先将其转换为显式问题,如果不是不做任何处理;然后对问题进行分类、识别问题中的重要词,针对问题中的重要词加入相应的外部知识,并将以上问题的特征一起输入到阅读理解模型中;最后,通过attention机制对篇章和问题交互建模,从篇章中找到与问题句关系较大的句子作为答案句输出。本文提出的融入隐式问题处理多维度问题理解的阅读理解方法在对真实问题的解答上取得了一定的效果,说明该方法使模型更有效的理解问题。关键词:多维
5、度;隐式问题;问题理解;阅读理解ABSTRACTMachine reading comprehension means that the machine automatically answers questions relevant to the given context. It is not only a research hotspot in the field of artificial intelligence and natural language processing, but also a challenging task. Whether the machine unde
6、rstands questions correctly and comprehensively is the key and foundation of reading comprehension. In this paper, we proposes corresponding solutions for the models do not fully understand questions. The main works of this article are as belows:(1) The reading comprehension method based on multi-di
7、mensional questions understanding is proposed. This paper improves understanding of questions in the model through the multiple-dimensional method such as question types, question important words, and the external knowledge. Firstly, the TextCNN model is trained get all data types using the human-an
8、notated data and; secondly, the question important words are obtained through syntax analysis tree and rules; then, add question important words external knowledge to the model; finally, we integrate all information about questions into the reading comprehension model. The experiments on relevant da
9、taset show that: with the integration of multi-dimensional questions understanding, the metrics of Rouge-L and Bleu-4 of the reading comprehension model increase by about 8.2% and 7% respectively .(2) The reading comprehension strategy based on implicit questions is explored. We define implicit ques
10、tions that the question excluding interrogative word. The main idea for dealing with this questions is to transform implicit problems into explicit problems. First of all, we judge whether a question is an implicit question. The next, the implicit problem is divided into general implicit problem and
11、 complex implicit problem. For general implicit questions, we add the missing interrogative words to question based on rules. For complex implicit questions, we use the TextRNN model to identify missing interrogative words to question based on the answer and turn it into an explicit question. Lastly
12、, we incorporate it into the reading comprehension model. Experiments show that: the metrics of Rouge-L and Bleu-4 of the proposed method increase by 3.6% and 2%, respectively;the metrics of Rouge-L and Bleu-4 of the final model increase by 3.6% and 2%, respectively .(3) A prototype reading comprehe
13、nsion system for Chinese text is implemented. we implement a reading comprehension system based on the above methods. First, this system preprocesses the questions and the contexts and determines whether the question is implicit question. If the problem is an implicit problem, it will be converted t
14、o an explicit problem. If the problem is not an implicit problem, nothing will be done. Next, question types, question important words and external knowledgeis are integrated into the reading comprehension model. Finally, the informations of contexts and questions are obtained through the attention
15、mechanism. And the sentences of context that has the most relationship with the question are found as the answer.The reading comprehension strategies are proposed in this article, which incorporates implicit problem processing and multi-dimensional questions understanding. The methods has achieved g
16、erat results in reading comprehension model, indicating that the methods make the model understand questions more effectively.Key words:multidimensional;implicit problem;question understanding;reading comprehensionIII第一章 绪论11第一章 绪论第一章 绪论本章主要介绍研究任务的背景及意义,国内外针对阅读理解和问题理解两方面的研究现状,并简要介绍了论文主要的研究内容和组成结构。1.
17、1 研究背景及意义早在20世纪70年代,随着人工智能的发展,人们越来越意识到机器理解文本的重要性,机器阅读理解技术研究随之开始。所谓阅读理解,是指给定一段篇章和相关问题,要求机器准确理解问题和篇章所表达的信息并自动给出相应的答案。阅读理解是人工智能领域的一项重要任务,其研究可以极大的促进自然语言的进步。1999年,Hirschman提出了第一个阅读理解系统Deep Read 李济洪,杨杏丽,王瑞波,等.基于规则的中文阅读理解问题回答技术研究J. 中文信息学报,2009,23(4):3-10.,该系统采用模式匹配技术和附加的自动化语言处理技术(词干提取、名称识别、语义类识别和代词解析),并发布了
18、一个基于3-6年级小学生故事的阅读理解数据集,促进了机器阅读理解任务的发展。近年来,研究学者主要利用人工神经网络对阅读理解开展研究工作,主要思想是将问题和篇章共同作为输入进行嵌入式表示和编码,然后通过注意力机制对两者建模获得交互信息,最终从篇章中选取合适的片段作为答案输出。例如,Attentive Reader模型、AOA Reader模型、Match-LSTM模型等。除此之外,国内外许多科研机构、高校和公司对阅读理解的关注越来越多,创建了大量英文、中文阅读理解数据集,极大地促进了阅读理解技术的发展。例如:多项选择型数据集 MCTest;填空型数据集CNN&Dailymail;片段抽取型SQu
19、AD数据集;中文大规模数据集DuReader等。随着大规模数据集发布和人工神经网络技术的快速发展,机器阅读理解渐渐成为自然语言处理研究领域的热门任务之一。阅读理解任务的发展不仅可以评估计算机对自然语言的理解情况,还可以推动自动问答任务的发展,帮助自动问答系统更好的理解文本信息。随着自动化的日益普及,阅读理解任务还可以为高考自动批阅系统提供服务,提升自动批阅系统的准确率。不仅如此,阅读理解任务的进步还可以帮助各类搜索引擎更精确地理解提问意图从而反馈给用户更准确的答案。但是,由于自然语言灵活性高复杂性大,而问题字数少语义信息丰富,深度学习模型只是将问题输入到模型通过注意力机制隐式建模,模型对问题的
20、理解并不充分,进而影响答案句的筛选。1.2 国内外研究现状1.2.1阅读理解研究现状目前,阅读理解的研究主要从数据集和模型两方面开展。(1)阅读理解数据集基于深度学习的阅读理解模型需要通过大量的数据进行训练学习。一些企业、学校和评测机构纷纷从不同角度提出了自己的数据集。表1.1各类数据集的规模大小数据集规模语言MCTest2600余个问题和660篇故事英文CNN&DailymailCNN数据集约有90k篇文章和380k个问题英文Dailymail数据集约有197k篇文章和879k个问题SQuAD500多篇文章和超过100000个问题答案对英文MS MARCO10万个问题和20万篇不重复的文档英
21、文RACE大约 28000 个文章和100000 个问题英文CMRC 201718256 个问题和对应篇章中文SQuAD2.0500多篇文章和超过150000个问题答案对英文DuReader约100万篇文章和20 万个问题中文COQA8000个对话的127000问题答案对英文HotpotQA113K个问答对英文CJRC约10,000篇文档和50,000个问答对中文DuReader2.0约100万篇文章和20 万个问题中文2013 年,微软建立了一个小规模基于儿童故事的多项选择阅读理解数据集 MCTest Matthew Richardson, Christopher J.C. Burges,
22、and Erin Renshaw. MCTest:a challenge dataset for the open-domain machine comprehension of textC./ Proceedings of the Conference on Empirical Methods in Natural Language Processing,2013:193-203.,其中数据集中的问题采用众包形式;Hermann 等人于2015年发布了一个填空型的大规模英文阅读理解数据集CNN&Dailymail,其中CNN数据集和Dailymail数据集分别来自美国有线电视新闻网的文章和每
23、日新闻的文章 Hermann K M,Koisk T,Grefenstette E,et al. Teaching machines to read and comprehendC/ Proceedings of the Conference on Neural Information Processing Systems,2015.;2016 年,斯坦福大学建立了SQuAD数据集,阅读材料来自英文维基百科,问题和答案由人工标注 Pranav R,Jian Z,Konstantin L,et al.SQuAD:100,000+ questions for machine comprehensi
24、on of textC./Proceedings of the Conference on Empirical Methods in Natural Language Processing,2016:2383-2392. ;同年微软发布了一个问题来自真实查询的英文数据集 MS MARCO Payal B,Daniel C,Nick C,et al.MS MARCO:a human generated machine reading comprehension datasetJ. arXiv:1611.09268,2016.,问题答案是由人工参考真实网页材料撰写 ;2017 年,卡内基梅隆大学发
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 问题 理解 增强 阅读 方法 研究
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内