(本科)14-问答系统 ppt课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《(本科)14-问答系统 ppt课件.ppt》由会员分享,可在线阅读,更多相关《(本科)14-问答系统 ppt课件.ppt(80页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、课程主讲人:14-问答系统 2第第 14 章章 问答系统问答系统教材:教材: 刘挺等刘挺等自然语言处理自然语言处理 高等教育出版社,高等教育出版社,2021自然语言处理自然语言处理3第14章 问答系统o 14.1 问答系统概述问答系统概述 o 14.2 检索式问答检索式问答o 14.3 知识库问答知识库问答o 14.4 社区型问答社区型问答o 14.5 阅读理解式问答阅读理解式问答4第14章 问答系统14.1问答系统概述问答系统概述 o 14.2 检索式问答检索式问答o 14.3 知识库问答知识库问答o 14.4 社区型问答社区型问答o 14.5 阅读理解式问答阅读理解式问答问答系统问答系统o
2、 问答系统n问答系统是自然语言处理的重要应用,它接受用户以自然语言形式描述的问题,并从大量的异构数据中通过检索、匹配、推理等步骤获得准确答案。nQuestion Answering (QA) is an interactive human computer process that encompasses understanding a user information need, typically expresses in a natural language query; retrieving relevant documents, data, or knowledge from sel
3、ected sources; extracting, qualifying and prioritizing available answers from these sources; and presenting and explaining responses on an effective manner.o 定义n 输入:自然语言的问句,而非关键词的组合o 谁获得1987年的诺贝尔文学奖?n 输出:直接答案,而非文档集合o 约瑟夫布罗茨基5问答系统是下一代搜索引擎的基本形态问答系统是下一代搜索引擎的基本形态6Prof. Oren EtzioniTuring CenterUniversit
4、y of Washington以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜索引擎的基本形态Nature2011.8问答系统研究对于自然语言理解的意义问答系统研究对于自然语言理解的意义o 美国认知心理学家认为,判别计算机理解自然语言的4个标准是:问答系统、自动摘要、复述和机器翻译。计算机只要达到以上标准之一,就认为它理解了自然语言o 自然语言理解:词语层面、句子层面、篇章层面、篇章之间、语言之间的基本问题,在问答系统中都会出现。另一方面,问答系统和信息检索密切相关,信息检索中的基本问题在问答系统中也同样存在o 问答系统是自然语言理解研究人员追求的目标之一,它的研究会带动自然
5、语言理解的发展o 问答系统研究本身也有重要应用价值7问答系统技术应用:问答系统技术应用:WATSON8金融辅助决策企业服务辅助医疗nWATSON应用于辅助医疗n全美每年20%的诊断(1.5 million)是错误或者不完全的n从海量医疗档案以及医学期刊进行Deep Mining,挖掘有用的医疗信息,用户的病历作为Clue,挖掘最合适的诊疗方案n医生不再需要花费大量的时间去阅读海量的医学期刊,以获取知识的更新n用户也可以及时获得医疗咨询服务问答系统类型问答系统类型o检索式问答系统n答案来源于固定的文本语料库或互联网Web文档库,系统通过查找相关文档并抽取答案完成问答。o知识库问答系统n回答问题所
6、需的知识以结构化形式存储,问答系统需要在理解问题的基础之上,通过查询相关知识点,并结合知识推理获取精准答案。o社区问答系统n一种基于社区的网络服务,用户可以在系统中提出问题和回答问题,积累下来的问答数据能够回答用户提出的后续类似问题。o阅读理解式问答系统n一类利用文档回答用户问题的任务,它要求计算机系统在“阅读”完给定一篇文本之后回答相应问题。910第14章 问答系统o 14.1 问答系统概述问答系统概述14.2 检索式问答检索式问答o 14.3 知识库问答知识库问答o 14.4 社区型问答社区型问答o 14.5 阅读理解式问答阅读理解式问答11基于Web检索的问答技术互联网信息检索的需求:互
7、联网信息检索的需求: 随着互联网的快速发展和个人计算机的广泛普及,越来越多的信息越来越多的信息流入到互联网中。用户可以通过互联网方便快捷地获取所需信息获取所需信息。搜索引擎:搜索引擎: 优点: 一种成熟的信息检索方式,可以准确准确并有效有效地帮助用户获取所需信息,满足用户的信息需求。 缺点: 传统的搜索引擎要求用户输入精炼出的关键词关键词,但普通用户可能难以用少量的关键词准确表述其查询意图。 搜索引擎返回的结果不是简单准确的答案简单准确的答案而是相关网页的列表相关网页的列表,由于网页列表中通常包含大量的噪声数据噪声数据和广告数据广告数据,用户仍需自行自行浏览网页并判断信息质量浏览网页并判断信息
8、质量。12基于Web检索的问答技术基于基于WebWeb检索的问答系统(检索的问答系统(Web-based QAWeb-based QA):): 以开放的互联网上的互联网上的WebWeb文档文档作为知识来源知识来源,从搜索引擎返回的相关页面中抽取抽取用户所提问题的答案用户所提问题的答案 同时具有搜索引擎搜索引擎和问答系统问答系统的优点: 信息来源广泛来源广泛,并随时进行更新,具有时效性时效性 能利用自然语言自然语言进行更人性化人性化的交互交互架构架构13基于Web检索的问答技术架构:架构:问题理解模块问题理解模块 用户提出以自然语言表述的问题之后,问题理解模块主要负责分析分析用户的提问,对问题进
9、行分类分类,并生成生成相应的相应的查询语句查询语句。段落检索模块段落检索模块 系统将问题理解模块生成的查询提交给搜索引擎,并对返回的相关页面进行重排序重排序,从而得到最有可能包含答案的段落或段落集合段落或段落集合。答案抽取模块答案抽取模块 利用相关算法从检索返回的段落中抽取抽取出用户所提问题的最佳答案最佳答案。该模块可能会利用到问题理解模块得到的问题类别、关键词等信息。14问题理解技术n问题理解技术问题理解技术通过分析分析用户提出的自然语言问题,了解用户的查询意图查询意图,并根据查询意图生成查询语句生成查询语句,主要包括 问题分类问题分类:根据答案类型更准确地定位答案 问题扩展问题扩展:在文档
10、检索过程中,将问题形式化转换成为搜索引擎易理解的查询后,对查询进行扩展 问题的形式化转换问题的形式化转换:将问题转化为搜索引擎可以接受的查询,然后将该查询输入搜索引擎来检索相关文档15(1)问题理解技术1.1.问题分类问题分类 问题分类是问答系统中一个重要的任务,能够帮助问答系统根据答案类根据答案类型型更准确地定位答案更准确地定位答案,或者根据不同的问题类型选择不同的定位答案的选择不同的定位答案的策略策略。 问题分类技术通过根据问题对应答案的实体类型答案的实体类型来对问题进行分类。 例子例子: : 对于问题“圣索菲亚大教堂在哪?”,其对应答案的实体类型是“地址”,因此将该问题归为“地址”类别
11、下表列出一部分由哈尔滨工业大学社会计算与信息检索研究中心参考UIUC的分类体系标准,结合中文的特点提出的中文问题分类体系标准16(1)问题理解技术1.1.问题分类问题分类基于规则的方法 通过人工设计一系列特定的规则特定的规则,来判断问题类型。 例如,最典型的方法是采用提问词来判断,比如包含“在哪”的问题一般会归类为“地址”,包含“何时”的问题一般会归类为“数字”。基于学习的方法 基于传统机器学习的方法 基于传统机器学习的方法通过提取问句中的特征问句中的特征,来训练一个分类模型。 基于深度学习的方法 基于深度学习的方法则直接将文本转换为向量表示向量表示,利用神经网络直接进行分类。17(1) 问题
12、理解技术1.1.问题分类问题分类基于学习的方法 基于传统机器学习的方法 基于传统机器学习的方法通过提取问句中的特征问句中的特征,来训练一个分类模型。例如SVM,逻辑回归等。常用的特征有词法特征、句法特征和语义特征。 典型的词法特征词法特征有bag-of-word、 unigram、疑问词等; 典型的句法特征句法特征包括词性、中心词、中心词词性等; 典型的语义特征语义特征包含复述词、上位词、命名实体等。例如:哈工大中文问句分类标准18(1) 问题理解技术1.1.问题分类问题分类基于学习的方法 基于深度学习的方法 基于深度学习的方法则直接将文本转换为向量表示,利用神经网络直接进行分类,无需手工提取
13、特征。 例如:基于基于CNNCNN的问题分类模型的问题分类模型19(1) 问题理解技术1.1.问题分类问题分类基于CNN的问题分类模型 在Embedding层中,先使用词向量将问题转化为向量表示转化为向量表示 在卷积层中,使用卷积操作对问题和答案进行特征提取特征提取,然后再经过池化层得到问题的分布式表示分布式表示 将这个表示通过全连接层线性变换映射到问题类别个数(图中为两类) 经过softmax变换后就得到该问题在每个分类下的概率概率 损失函数使用交叉熵,其定义如下:其中h(xi)表示xi的预测分类概率,yi表示xi的真实分类。预测分类中为真实分类的概率越接近1,则损失函数的值越小20(1)
14、问题理解技术2.2.问题拓展问题拓展问题扩展是在文档检索过程中,将问题形式化转换成为搜索引擎易理解的查询后,对查询进行扩展对查询进行扩展。问题扩展主要对问题关键词的同义词和复述词进行扩展,来提高文档的召回率提高文档的召回率。例如 问题是关于“充电宝”的,而“充电宝”和“移动电源”是同义词,用“移动电源”来扩展查询,就能够避免包含“移动电源”的相关文档被遗漏。21(1)问题理解技术2.2.问题拓展问题拓展问题扩展典型的方法有:基于同义词表同义词表的问题扩展和基于复述复述的问题扩展。一般步骤: 对问题进行关键词抽取关键词抽取,构成查询集合Q = t1, t2, . tn 在同义词表或者复述词表中找
15、到所有关键词对应的同义词或复述词所有关键词对应的同义词或复述词集合T = t1, t2, . tm 加入到查询集合中构成扩展后的查询扩展后的查询: Qexp= QT = t1,t2,.tn,t1,t2, .tm复述词和同义词不同之处在于: 一个词的复述词和其所在的上下文语境相关复述词和其所在的上下文语境相关,要求用其复述词替换后不改变原句的意思; 而一个词的同义词仅仅与这个词的意思相关同义词仅仅与这个词的意思相关,而与上下文语境无关,因此使用基于复述的方法能够更准确地扩展问题更准确地扩展问题。22(1) 问题理解技术3.3.问题的形式化转换问题的形式化转换问题的形式化转换,旨在将问题转化为搜索
16、引擎可以接受的查询搜索引擎可以接受的查询,然后将该查询输入搜索引擎来检索相关文档。由于搜索引擎接受的输入是一组关键词的集合,所以这一步需要对问题进行关键词抽取。构建的关键词集合质量构建的关键词集合质量会直接影响到返回相关文档的质量。 如果查询过于宽泛,那么将会返回大量无关的文档; 如查询过于具体,则有可能会遗漏包含正确答案的文档。简单的启发式方法启发式方法 依靠简单的字符串操作对问题实现重写对问题实现重写 比如根据单词的词性可以将问题“When was paper clip invented”改写成“The paper clip was invented”,这样转化是为了更容易匹配到相关文档。
17、更复杂的规则改写规则改写 例如考虑到动词的变化,将问题“When did Nixon visit China”改写成“Nixon visited China”要比改写成“Nixon did visit China”更合理。事实上,问题形式化转化针对不同的领域,解决方式也不同,因此没有统一的解决方案,更多地需要设计者针对特定问题和检索系统设计有效的策略23(2)段落检索技术 段落检索技术是Web-based QA系统与搜索引擎间的纽带 Web-based QA系统通过调用搜索引擎提供的查询接口或直接利用爬虫技术获取调用搜索引擎提供的查询接口或直接利用爬虫技术获取搜索结果搜索结果 将搜索结果中排名
18、靠前的视为候选文档集合搜索结果中排名靠前的视为候选文档集合 再利用段落检索技术从候选文档集合中抽取最有可能包含答案的段落从候选文档集合中抽取最有可能包含答案的段落,作为段落检索的返回结果经典的段落检索技术经典的段落检索技术 基于词汇的检索算法 只利用了词汇的文本信息,缺少对语义的建模。 基于语义的检索算法 会使用一些语义分析技术或利用外部知识(如: WordNet)获取词汇的语义信息。 基于语言模型的检索算法 一般根据候选段落生成问题的概率对段落进行排序。24(2)段落检索技术 段落检索算法流程段落检索算法流程 (1)对搜索引擎返回的文档集合进行分段分段 (2)对用户查询和段落集合建立索引建立
19、索引,将其转化为向量表示向量表示 (3)利用相关性估计算法相关性估计算法计算查询和段落间的相关度,并对段落重新排序重新排序25(3)答案抽取技术 答案抽取技术是Web-based QA中最重要的也是最核心的技术 答案抽取的质量好坏直接影响到了返回给用户的答案的质量和正确性返回给用户的答案的质量和正确性。 答案抽取模块将检索出来的文档或段落进行详细的分析分析,抽取出最后的答案抽取出最后的答案。 答案抽取的主要思想是通过识别问题和答案间存在的词汇、语法、语义上的关联词汇、语法、语义上的关联,结构化的匹配结构化的匹配两者间的信息。 根据答案的粒度不同可以将答案抽取分类两类: 词和短语级别的答案抽取。
20、 句子级别的答案抽取,也被称为答案句选择。26(3)答案抽取技术 词和短语级别的答案抽取:词和短语级别的答案抽取: 主要是利用问题类别、命名实体以及其他语法语义特征语法语义特征或利用阅读理解算法阅读理解算法准确定位答案所在的位置定位答案所在的位置,将精准的答案片段精准的答案片段返回给用户。 这类答案抽取算法可以很好地回答事实类的问题事实类的问题,即答案是一个实体的问题。 但由于自然语言的复杂性自然语言的复杂性,这类算法较难设计难设计,其准确率也相对较低准确率也相对较低。27(3)答案抽取技术 句子级别的答案抽取:句子级别的答案抽取: 这类算法将候选段落进行分句分句,将每一句话都作为候选答案句将
21、每一句话都作为候选答案句,计算候选答案句和问题之间的相关程度,并根据相关程度进行排序排序,将排序靠前的句子作为答案返回给用户。 这类算法虽不能返回最精确的答案片段不能返回最精确的答案片段,但该类算法相对简单相对简单,更容易设计容易设计,其准确率也相对较高准确率也相对较高。 同时这类算法可以更好地回答非事实类问题非事实类问题或其他无法用简单的词或短语回答的无法用简单的词或短语回答的问题问题。 答案句选择答案句选择主流方法:主流方法: 基于文本匹配的算法 常见的是利用诸如编辑距离、 Jaccard相似度等算法计算问题和答案句间的相似度。这类算法实现实现简单简单,但无法获取语义信息无法获取语义信息,
22、同时问题和答案之间的结构也相差悬殊,所以其准确率不高准确率不高。 利用机器学习的算法 这类算法先手工抽取问题和答案间的特征手工抽取问题和答案间的特征(如问题类别、命名实体、词共现等),再将这些信息转化为向量表示向量表示,输入到机器学习模型机器学习模型(如: SVM 、决策树、逻辑回归模型等)中,得到问题和答案间的相似度得分 利用深度学习的算法 这类算法无需手工提取特征无需手工提取特征,神经网络神经网络可以很好地获取问题和答案间的文本及语义特征,构建出两者的关系,获取两者间的相关程度。28(3)答案抽取技术 输入层:使用词向量词向量将问题和答案转化为向量表示向量表示 编码层:使用BiLSTMBi
23、LSTM对问题和答案进行编码,得到问题和答案的分布式表示问题和答案的分布式表示。这里对问题和答案进行编码的BiLSTM共享结构和参数共享结构和参数,该模型可以选择3种简单的方式处理BiLSTM 的输出,生成问题和答案的特征向量:平均池化、最大池化或BiLSTM每个方向最后时刻输出向量的拼接。 输出层:使用余弦相似度余弦相似度计算问题和答案的向量表示间的距离向量表示间的距离,作为模型的输出,也是问题和答案间相关程度的评价指标。 该模型使用一种排序模型常用的损失函数:hinge losshinge loss。其中a+是正确答案,a是从答案集中随机抽取的错误答案,M是常数项。hinge loss的训
24、练目标是使正确答案与错误答案间的得分差异扩大,从而使正确答案的排名靠前。 基于基于LSTMLSTM的答案句选择模型(的答案句选择模型(QA-LSTMQA-LSTM) 主要思想是利用BiLSTMBiLSTM分别获取问题和答案的分布式表示分布式表示,再利用余弦相似度余弦相似度评价它们之间的距离。 该模型可以分为3部分:输入层、编码层和输出层。29(4)相关数据集及评价方法 TRECTREC(Text Retrieval ConferenceText Retrieval Conference,文本检索会议)是信息检索领域最权威的评测,文本检索会议)是信息检索领域最权威的评测会议,自会议,自19911
25、991年至针对问答、检索等领域发布了评测任务。本节以年至针对问答、检索等领域发布了评测任务。本节以TREC QATREC QA评测任务评测任务为主,从中选取几个典型任务简要介绍,这些数据集都能够在为主,从中选取几个典型任务简要介绍,这些数据集都能够在TRECTREC官网获取到。官网获取到。 TREC QATREC QA中中问题分类任务问题分类任务 问题分类任务版本较多,分类体系也不尽相同 这些问题类别的均为人工标注得到 该任务的评测指标一般为准确率,即分类预测正确的问题占所有问题的比例。同其他分类任务一样,问题分类任务的评价指标还有精确率、召回率、 F1 值等。30(4)相关数据集及评价方法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科14-问答系统 ppt课件 本科 14 问答 系统 ppt 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内