第二章信息检索.pptx
《第二章信息检索.pptx》由会员分享,可在线阅读,更多相关《第二章信息检索.pptx(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一节 信息检索的基本原理一、信息检索的概念二、信息检索的基本原理三、信息检索的类型第1页/共53页一、信息检索的含义 广义的信息检索:是指将大量分散、无序的信息按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程,包括信息的存储与检索两个方面。狭义的信息检索:是指依据一定的方法,从已经组织好的大量有关信息集合中,查找并获得特定相关信息的过程。第2页/共53页二、信息检索的基本原理 信息检索的实质就是将需要查找的信息特征转换为检索系统能够识别的检索提问标识,然后通过与检索系统中的信息存储标识进行匹配比对,将与提问标识一致的信息记录提取出来就是检索的命中信息。为了保证信息能存得进、取得
2、出,就必须使信息存储所依据的规则与信息检索时所依据的规则尽量做到一致。提问提问(检检索索)语言语言信息标信息标识语言识语言匹配匹配第3页/共53页信息处理人员信息处理人员用户用户信息分析、著录、标引信息分析、著录、标引信息需求分析信息需求分析检索语言检索语言信息的表示信息的表示检索提问检索提问数据库数据库匹配比对匹配比对输出检索结果输出检索结果信息检索的基本原理第4页/共53页三、信息检索的类型按信息检索的内容,信息检索可分为:?数据检索?事实检索?文献检索第5页/共53页信息检索的类型1、数据检索 是以数值、图表等信息形式为检索对象,从所收藏的资料中查找出特定数据的过程,又称“数值检索”。即
3、检索系统中存贮的是大量的数据,其中包括各种数字数据和非数字数据。数字数据包括参数、电话号码、银行帐号、观测数据、统计数据;非数字数据包括图表、图谱、市场行情、化学分子式、物质的各种特性等,并提供一定的运算推导能力。数据检索是一种确定性的检索,信息用户检索到的各种数据是经过专家测试、评价、筛选过的,可直接用来进行定量分析。第6页/共53页数据检索第7页/共53页信息检索的类型2 2、事实检索 是指以直接提供可用的特定事实信息为目的的信息检索。其检索对象包括事实、概念、思想、知识等非数值信息,同时它也可能包括一些数据信息,但需要针对查询要求,由检索系统进行分析,推理后,再输出最终结果。第8页/共5
4、3页事实检索第9页/共53页信息检索的类型3 3、文献检索 是以文献为检索对象的信息检索,根据检索结果的不同,文献检索可细分为书目检索和全文检索。它是一种相关性检索。如查找“张爱玲的作品”第10页/共53页书目检索第11页/共53页全文检索第12页/共53页 信息检索(Information Retrieval)与文献检索(Document Retrieval)是两个不同的概念,文献检索是信息检索的一种最基本的、最主要的形式。第13页/共53页三、信息检索的类型按信息检索的手段划分1 1、手工信息检索 指将分析检索课题确定的检索标识通过人工动手翻阅的方法去与书本式检索工具中的存储标识进行匹配,
5、获取与标识相符的信息线索的信息检索方法。2 2、计算机信息检索 指通过计算机来处理检索者的检索提问,将检索者输入检索系统的检索提问(检索标识)按检索者预先制定的检索策略与数据库中的存储标识进行类比、匹配运算,从而检索出所需要信息的检索方法。第14页/共53页第15页/共53页第二节 信息检索方法 直查法:不依靠任何检索工具或系统,从本专业最新核心期刊或其他文献中直接阅读原文或浏览最新目次而获取文献的方法。第16页/共53页第二节 信息检索方法 顺查法:一种根据检索课题的起始年代,利用所选定的检索工具,按照从旧到新、由远及近、由过去到现在的时序逐年查找,直至满足课题要求为止的查检方法。顺查法由于
6、是逐年查找,漏检较少,查全率高,在检索过程中不断筛选,剔除参考价值较小的文献。又由于对准需求口径,误检的可能性较小,查准率也较高。适用于那些主题较复杂,研究范围较大,研究时间较久的科研课题。因是逐年逐卷地查检,检索工作量大,费时、费力,多在缺少评述文献时采取。第17页/共53页第二节 信息检索方法 逆查法:也叫倒查法,与顺查法相反,是利用所选定的检索工具,按照由新到旧、由近及远、由现在到过去的逆时序逐年前推查找,直至满足课题要求为止的查检方法。这种方法多用于新课题、新观点、新理论、新技术的检索,检索的重点在近期信息上,只需查到基本满足需要时为止。倒查法的目的是要获得某学科或研究课题最新或近一段
7、时间内所发表的文献或研究进展状况。此方法省时,查得的信息有较高的新颖性,但查全率不高。第18页/共53页第二节 信息检索方法 抽查法:是利用检索工具进行重点抽查检索的方法。它是针对某学科的发展重点和发展阶段,抓住该学科发展较快,文献信息发表较多的年代,拟出一定时间范围,进行逐年检索的一种方法。使用这种方法检索效果和检索效率较高,但漏检的可能性较大,因此使用此法时必须熟悉学科的发展特点。第19页/共53页第二节 信息检索方法 追溯法:以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。这种方法在所检索的领域没有专门的检索工具,或需要查找某一课题的研究历史时比较常用。它对于了解特定研究方向
8、的发展轨迹、代表人物和代表性成果具有独特的效果。第20页/共53页第三节第三节 信息检索途径信息检索途径1 1、著者途径 通过的文献著者(机构)的名称来查找。检索知名学者或核心机构时,该途径有较强的实用性。2 2、题名途径 通过文献的题名来查找,包括文献的篇名、书名、刊名等。第21页/共53页第三节第三节 信息检索途径信息检索途径3 3、分类途径 按学科分类体系来检索文献。这一途径是以知识体系为中心分类排检的,较能体现学科系统性,反映学科与事物的隶属、派生与平行的关系。4 4、主题途径 通过反映文献资料内容的主题词来检索文献,便于用户对某一问题、某一事物和对象作全面系统的专题性研究。第22页/
9、共53页第三节第三节 信息检索途径信息检索途径5 5、代码途径 通过信息的某种代码来检索,如图书ISBN号、期刊ISSN号、专利号、报告号等。6 6、其他途径 利用检索工具的特殊索引,如事物的化学分子式、环系索引等。第23页/共53页第四节第四节 信息检索技术信息检索技术 在信息检索中,为了构建信息检索的表达式,常用四种运算:布尔逻辑运算 截词运算 位置运算 限制运算第24页/共53页布尔逻辑运算 利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。布尔逻辑算符是用来表达概念之间关系的一类运算符。基本的布尔逻辑算符有三
10、种:逻辑“与”、逻辑“或”、逻辑“非”。布尔逻辑组配是现行计算机检索的基本技术。第25页/共53页布尔逻辑运算逻辑“与”,具有概念交叉和限定关系的一种组配。其含义是检索出的记录必须同时含有所有的检索词。用符号“and”或“*”表示,其逻辑表达式为:A*B 或A and B如:山株萸的药用价值(山株萸*药用价值)逻辑“与”起到缩小检索主题范围的作用,用逻辑“与”组构的检索词越多,检索范围越小,专指性越强,有助于提高查准率。第26页/共53页布尔逻辑运算逻辑“或”,用于两个或两个以上概念之间的并列关系运算,表示概念的相加,其含义是检出的结果中只需满足检索项中的任何一个或同时满足即可。用符号“or”
11、或“+”表示,其逻辑表达式为:A or B或 A+B 如:数据挖掘在图书馆工作中的应用 图书馆*(数据挖掘+知识发现)逻辑“或”主要用来其组配表达相同概念的检索词,如同义词、近义词、相关词等,以提高查全率。第27页/共53页布尔逻辑运算逻辑“非”,是具有概念删除关系的一种组配,可从原检索范围中剔除一部分不需要的内容,即检出的记录中只能含有NOT算符前的检索词,不能同是含有其后的检索词。用符号“not”或“-”,其逻辑表达式为:A not B或 A-B如:非儿童的心理测试 心理测试 -儿童 逻辑“非”缩小了检索范围,提高了检索的专指度。第28页/共53页截词运算 截词运算就是用一个词的局部作为检
12、索标识进行信息检索,只要信息存储系统中有信息的标识符能和这个“局部”匹配,那么这个信息就为命中信息。截词运算是通过在检索词的词干上加一个截词符号,以表示对该词的各种词性的完整词进行检索。使用截词符具有布尔逻辑运算符“OR”的功能,能扩大检索范围,同时还可以减少输入检索词的误差,它是提高查全率,防止漏检的有力手段。第29页/共53页截词运算的基本形式后截断:或称右截断,也称前方一致。它是将截词符放在一串字符的后面,用以表示查找以相同字符串开头,而结尾不同的所有检索词。如:comput?表示computer、computers、computing、computation等。前截断:或称左截断,也称
13、后方一致。它是将截词符放在一串字符的前面,用以表示查找以相同字符串结尾,而开头的前缀不同的所有检索词。如:?computer表示minicomputer、microcomputer等中截断:也称前后一致、中间屏蔽符,是一种用截词屏蔽词中不同字符的方法。如“woman”和“women”,可用“wom?n”代替;“defence”和“defense”可用“defen?e”代替。第30页/共53页截词运算包括有限截词和无限截词有限截词一个截词符只代表一个字符如:wom*n 可检索出:woman、women(中间截断)chip?可检索出:chips(右截断)无限截词一个符号可代表任意多个字符如:com
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 信息 检索
限制150内