开题报告文件综述及范文.docx
《开题报告文件综述及范文.docx》由会员分享,可在线阅读,更多相关《开题报告文件综述及范文.docx(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 开题报告文件综述及范文 (一)前言局部 基于的问答系统,又称为基于Web的问答系统、Web问答系统,是指基于开发的问答系统。55是World Wide Web的简称,是由CERN54的Tim Berners-Lee于19xx年开发的。只有十余年的历史,却已经得到很大的进展,现在的规模浩大,已经拥有数十亿网页和数千万网址,并且这个数字正以惊人的速度增长。已经成为一个全球性的信息根底设施,对于满意人们的信息需求来说,这是一个抱负的资源。毫无疑问,是一个开放领域的学问库,那么,基于的问答系统,就是开放领域的问答系统。 传统的信息检索系统,也就是基于web的搜寻引擎,诸如“GOOGLE”和North
2、ernLight,返回的是和用户查询相关的文本,而不是用户问题的答案,和传统的信息检索系统不同,Web问答系统能够准确答复用户用自然语言提出的问题,以信息点而不是包含答案信息的文档作为返回结果。作为比一般信息检索更进一步的讨论,基于Web的问答系统同样面临海量的问题,但更强调准确性57。面对英文的问答技术正在快速走向有用,但是,目前的问答系统大多局限在某个特定领域或者特定范围之内,能够答复的问题类型也比拟简洁,真正的面对Web开放域的问答系统的正确率和准确性都不高,还不能供应良好的商业效劳57。 依据以自然语言方式提交的用户查询,从系统文档集合或中,检索出相关文本或网页,并将其返还给用户,这种
3、系统称为问答式检索系统,也称问答式搜寻引擎、智能搜寻引擎。 作为一种界面友好的信息检索系统,问答式检索系统需要做的,就是正确理解自然语言形式的用户查询,充分领悟用户的查询意图,并检索出与用户需求最相关的文本或者网页。相应的,它所需要的技术主要包括两个:用户查询处理技术、信息检索技术。 (二)主体局部 1.基于的问答式检索系统的典型流程如下: (1)从上采集大量的网页并加以索引,存入数据库。由于系统不断从 采集新的网页以及对原有网页进展更新,所以系统的数据库是不断更新的。这是一个预处理的过程。 (2)承受用户用自然语言提交的查询; (3)对用户查询进展分析,将其从自然语言形式转换为系统的内部表示
4、; (4)利用内部表示的用户查询,对系统的数据库进展检索; (5)假如检索结果为空,那么向用户说明,转(2); (6)假如检索结果只是一个网页,那么直接将它提交给用户,转(2); (7)假如检索结果是多个网页,那么根据肯定规章将它们进展排序并提交给用 户,转(2)。 2.为了开发一个上述通用的、面对全部领域的问答式检索系统,至少需要通过网页采集器(Crawler)建立一个较大的网页数据库,并且这个网页数据库必需不断的更新,这是工作量很大并且代价昂贵的一项任务。为了削减工作量,快速开发,很多问答式检索系统是基于现有搜寻引擎开发的,详细流程如下: (1)承受用户用自然语言提交的查询; (2)对用户
5、查询进展分析,理解用户的意图; (3)抽取出用户查询中的关键词,并利用语义词典(WordNet、HowNet等), 进展关键词扩展; (4)将上述关键词提交给搜寻引擎(如Google等),进展检索; (5)将搜寻引擎返还的前N个网页提交给用户; (6)转(1)。 这种问答式检索系统,所做的工作主要是对用户查询进展分析,抽取出其中的关键词,并进展关键词扩展。 (三)现有典型的问答式检索系统 1.Start 718 Start是世界上第一个基于Web的问答系统,自从19xx年x月开头,它持续在线运行至今。Start的,是MIT人工智能试验室InfoLab Group的Boris Katz及其同事。
6、 不同于信息检索系统(例如搜寻引擎),Start旨在供应给用户“精确的信息”,而不是仅供应一系列简洁的链接。现在,Start能够答复数百万的多类英语问题,包括“place”类(城市、国家、湖泊、天气、地图、人口统计学、政治和经济等)、电影类(片名、演员和导演等)、人物类(诞生日期、传记等)、词典定义类等。 Start是一个基于学问库的问答式搜寻引擎,系统包含两个学问库(“START KB”、“Internet Public Library”)以及一个搜寻引擎。假如通过这两个学问库就能答复用户的问题,那么系统立即给出精确的答案;否则,首先解析用户输入,得到其中的关键词,然后利用这些关键词,通过系
7、统自身的搜寻引擎进展检索,最终将得到全部相关文本,以链接的形式提交给用户,供用户点击并在翻开的网页中自行查找答案。 测试结果说明,Start是一个优秀的问答系统。 2.AnswerBus 对于每一次用户查询,AnswerBus返还5个网页链接,并给出XML和TXT格式的“Possible answers”。 3.IONAUT 为了更加正确理解用户的查询意图,IONAUT建议用户查询以“who”、“where”、“when”等关键词开头,从而标明需求的类别。 对于每一次用户查询,IONAUT返还10个网页链接(Top Ten Documents),并且对每个网页的内容进展扼要介绍。 4.LAMP
8、 为了更加正确理解用户的查询意图,LAMP列出person、organization、location、date、time、money、percent等7种查询类别,让用户进展选择。与上述各系统不同,LAMP并不是返还网页链接,而是直接返还答案。 5.QuASM QuASM(Question Answering using Semi-Structured Metadata)不是用来答复推理类、过程类问题的,并且答案可能是过时的。这是由于,它的数据库是固定的,其中的数据来源于网站.fedstats.gov及其相关链接,并且这些数据是经过人工处理的。 6.AskJeeves 对于自然语言形式的用户
9、查询,AskJeeves返还文本形式的答案,并给出答案的来源-包含答案的网页链接。例如,对于问题“Who is President Clinton?”,系统精确的答复:“Bill Clinton spent the 1970s as a law professor and then ”,并且附上Clinton总统的照片,以及答案的来源:包含答案的网页链接。 7.Encarta Encarta是微软的产品。Encarta回答下列问题较快,答案也比拟精确。 8.“小灵通”56 “小灵通”是中科院计算所开发的一个中文问答式检索系统,系统的关键模块包括:模板库,用户查询分析器,检索-排序器,治理程序等
10、。其中的核心是模板库。“小灵通”虽然基于Web,但并非面对全部领域,而是面对旅游领域。 (四)问答式检索系统技术分析 一般来说,问答式检索系统主要需要两种技术:用户查询处理技术、信息检索(IR)技术。由于信息检索(IR)技术目前已经比拟成熟,所以不再赘述,这里主要争论问答式检索系统所面临的第一个问题:如何正确理解用户用自然语言提出的查询。 假如存在一个优秀的自然语言理解系统,可以精确无误的理解用户查询的语义,问题自然解决了。问题是,如此优秀的自然语言理解系统,到现在为止还没有消失,所以我们不得不寻求其它的替代解决方案。 第一种方法,对用户查询进展浅层分析,识别出其中的关键词,然后利用查 询扩展
11、技术,借助HowNet、WordNet等语义词典,将关键词的同义词、近义词等高度相关的词,一并提交给后继的检索系统。这种方法,虽然允许用户使用自然语言查询,但并没有充分利用用户查询的信息,特殊是语义信息,其力量等同于一般的词表法。很多号称自然语言查询的系统其实都是这么做的。 其次种方法,就是使用问句模板。AskJeeves就是这样的系统,系统拥有一个问句模板库,并且为这些问句模板构造有页面作为答案;“小灵通”拥有237个模板,掩盖了大局部旅游常见的问题类型。假如系统面对的领域特别狭窄,如“小灵通”,那么这种方法的好处是显而易见的,数量很少的问句模板就可以掩盖绝大多数的用户提问方式。但假如系统面
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 开题 报告 文件 综述 范文
限制150内