信息检索基本方法.ppt
《信息检索基本方法.ppt》由会员分享,可在线阅读,更多相关《信息检索基本方法.ppt(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、信息检索基本方法2.1 检索工具2.1.1 检索工具的定义检索工具的定义检索工具是人们用来报道、存储和查找各检索工具是人们用来报道、存储和查找各类信息的工具。包括传统的二次、三次印类信息的工具。包括传统的二次、三次印刷型检索工具,缩微阅读检索工具,基于刷型检索工具,缩微阅读检索工具,基于计算机的光盘检索系统、联机检索系统,计算机的光盘检索系统、联机检索系统,以及基于以及基于Internet的网络信息检索系统、网的网络信息检索系统、网上工具书、搜索引擎、上工具书、搜索引擎、Archie、Wais等各等各种信息检索工具和检索系统。种信息检索工具和检索系统。检索工具的类型检索工具的类型按照检索手段的
2、不同,检索工具可分为手工检索工具、机械检索工具和计算机检索系统。按照著录形式的不同可分为:目录型检索工具、题录型检索工具、索引型检索工具、文摘型检索工具、全文型检索工具等。按照载体形式的不同可分为:书本式检索工具、卡片式检索工具、缩微式检索工具和机读式检索工具等。2.1.2 手工检索工具手工检索工具是传统的检索工具,主要是各种类型的工具书。工具书是人们根据一定的需要,广泛收集某一范围的有关资料,按特定体例或方式编排,提供基本知识和文献线索的一种特殊类型的图书,是检索文献信息的重要工具。根据工具书的体例和功用,可分为检索类工具书、词语类工具书、资料类工具书、表谱类工具书、图录类工具书和边缘类工具
3、书六种类型。2.1.2.1 检索类工具书 按著录内容划分,检索类工具书大致可分为以下四种:目录、题录、文摘、索引。目录(Bibliography/Catalogue):通常是以文献的“本”、“种”、“件”等为单位,对一批相关文献外表特征的揭示和报道。例如:全国新书目、全国总书目、全国报刊简明目录等。题录(Title):它报道和揭示单篇文献的外表特征,是在目录的基础上发展起来的一种检索工具。它与目录的主要不同点在于著录的对象不同,目录的著录对象是整部文献,而题录的著录对象是文献中的论文或部分内容。例如:美国化学题录、中文科技期刊题录数据库等。文摘(Abstract):是系统著录、报道、积累和揭示
4、文献信息外表特征和内容特征的检索工具,是重要的二次文献。它是对文献中的论文或内容进行浓缩,概括地描述其主要论点、数据、结论等,并著名其出处,按一定的规则编排起来的一种检索工具。文摘分三种:指示性文摘、报道性文摘和评论性文摘。例如:新华文摘、经济学文摘等。索引(Index):是将文献信息中的题名、人名、地名、字句及参考文献等分别摘录出来,并著名出处,按一定的规则编排起来的一种检索工具。例如:经济科学论文索引、社会科学引文索引(Social Science Citation Index,SSCI)等。2.1.2.2 词语类工具书词语类工具书包括各类字典、词典,主要提供字词的形、音、义和使用方法,以
5、及学科名词术语的含义、演变和发展。字典以字为单位,按一定次序排列,说明形体、读音、意义和用法;词典,也作辞典,以词语为单位,按一定次序排列,解释词汇的概念、含义和用法。例如:辞海、汉语成语大词典、社会科学大词典等。2.1.2.3 资料类工具书 资料类工具书能够为读者提供各种基本知识或某一课题的具体资料。主要包括百科全书、年鉴、手册、名录、类书、政书等。百科全书是人类知识的总汇,是记录人类知识最全面、最系统的大型综合性工具书。它概述了人类切知识领域的基本资料,对每一学科提供定义、原理、方法、历史及现状、系统和参考书目等方面的资料,被誉为“工具书之王”、“没有围墙的大学”。年鉴是汇辑一年内时事动态
6、、学科发展和各项统计资料等重要资料,按年度出版的工具书。手册也称指南、便览、大全等,是把某一学科或某一专题的概括性又具体实用的知识、资料和数据汇编在一起。名录是专门收录人名、地名、机构名以及其他事物名,按照一定规则进行排序,并予以简要揭示和介绍的工具书。类书是收录古代文献资料,按类别或韵目编排,提供检索、征引使用的工具书。政书是汇集历代或某一朝代的政治、军事、经济、文化、外交等方面的法律、法令和法规制度史料的工具书。2.1.2.4表谱类工具书表谱类工具书是以表格或其他较为整齐的形式,记录史实、时间、地理等资料,并附以简略的文字说明,以反映史实和时间。主要包括年表、历表和专门性历史表谱3种类型。
7、年表是按年代顺序编制,专供查考历史年代、历史纪元及历史大事的检索工具。如中华人民共和国大事记等。历表是一种把不同历法的历日按一定的次序汇编在一起,以相互对照的表格,提供查找和换算不同历法的年、月、日的工具书。专门性历史表谱主要用于查考人物、职官、地理和数据等专题资料,如中西回史日历等。2.1.2.5图录类工具书图录类工具书是以图形、图像、符号等为主体,附以简略的文字说明,以反映各种事物、人物的空间特征和形象特征的工具书。它包括地图、历史图录、文物图录、人物图录、艺术图录、科技图像等。地图是地球表面自然和社会现象在平面图上的缩影,以反映各种事物和景象的地理分布及其在空间与时间上的相互制约、内在联
8、系和发展动态。历史图录是以图形、图像等揭示历史人物和事物的工具书。2.1.2.6边缘类工具书边缘类工具书主要指那些介于工具书与非工具书之间,既具有一般图书的阅读功能,又具有工具书的查检功用的文献。它主要包括资料汇编、史书、方志等。资料汇编有针对性地摘编文献信息的片断或全文,按专题或学科分类编排,提供读者阅读或查检。包括法规资料汇编、条约资料汇编、统计资料汇编等。2.1.3 机械检索工具机械检索工具是手工检索工具向计算机检索系统过渡的中间检索工具。它主要包括两种类型:机电检索工具(如打孔机)和光电检索工具(如缩微机)。机械检索工具利用机械装置改进信息资源的存储和检索方式,但是只能对某一固定存储形
9、式的信息资源进行特定检索,过分依赖于设备,检索操作复杂,成本很高,并且检索质量和效率也不理想。所以很快被计算机检索系统所取代。2.1.4 数据库数据库的类型:数据库的类型多种多样。数据库有网状数据库、层次数据库、面向对象数据库、Web数据库、多媒体数据库、移动数据库、智能数据库、实时数据库、并行数据库、分布式数据库、联邦式数据库、模糊数据库、演绎数据库和统计数据库等。数据库的类型1 1.按信息处理层次划分,数据库可分为书目数据库、文摘数据库和全文数据库。全文数据库:全文数据库(Full-text database)是将文献全文以机读版的形式存储起来,并可与相应的软件配合提供文中检索和全文输出的
10、数据库。数据库的类型22.按照收录的文献类型划分分为期刊论文数据库、书目及图书全文数据库、专利数据库、学位论文数据库和产品数据库等。3.根据收录文献信息的范围划分分为综合性数据库和专业性数据库。4.按媒体信息划分分为文本数据库、数值数据库、声音数据库、图像数据库、视频数据库和多媒体数据库。2.1.4.3数据库的结构数据库一般由文档、记录、字段这三个自上而下的层次构成。通常一个数据库至少包括一个顺排文档和一个倒排文档。顺排文档是按文献记录的输入顺序(即文献序号)排列的文档,又称为主文档。它将全部记录按照存取号的大小顺序依次排列形成文献信息集合,是数据库的主体内容。倒排文档倒排文档是把顺排文档中的
11、标引词抽出,按标引词的字母顺序依次排列而成的文档。如果将顺排文档看作是某种印刷型检索工具的正文部分,那么倒排文档就相当于它的辅助索引。字段(Field)在文摘数据库中,一条记录应包含原始文献的题名、作者、出处、出版时间、分类号、文摘、主题词或关键词等字段。每一个字段都有一个相应的标识符,以便计算机识别。例如在Dialog系统中,常用标识符及含义为:标识符 字段名au=作者字段jn=期刊名称字段py=出版年字段cs=机构名称字段dt=文献类型字段la=语种字段2.1.5计算机检索系统 计算机检索系统一般可分为光盘检索系统、联机检索系统和网络检索系统等。联机检索(Online Retrieval)
12、是20世纪60年代发展起来的一种提供人机对话的检索技术,是指用户利用终端设备(包括检索终端、调制解调器和打印机),通过国际(卫星)通信网络,与本地计算机检索系统或远程计算机检索系统的主机联结,从而检索世界各地存储在计算机数据库中的信息资料。联机检索系统联机检索系统主要有以下四种服务方式:(1)回溯检索(RS,Retrospective Search)是用户对检索系统中积累多年的文献信息数据库进行检索,查找一定时间范围内或特定时间以前的文献信息的一种联机检索方式。通过RS进行专题检索或情报调研,可全面系统地了解有关文献信息的线索。(2)定题检索(SDI,Selective Disseminati
13、on of Information)是指在回溯检索的基础上,定期从文献数据库中检索出回溯检索日之后出现的新的文献信息的一种联机检索方式。(3)联机订购联机检索的结果通常是一些文摘或题录形式的二次文献。联机检索系统可以为用户提供原始文献的联机订购服务。(4)电子邮件联机检索系统为用户提供E-mail和电子邮政的功能。2.1.5.3 网络检索系统网络检索系统是通过因特网提供网络数据库、出版物、书目、动态信息等网上信息资源查询和利用的检索系统。早期的网络检索工具主要是基于传输和下载网上信息,包括远程登录(Telnet)、文件传输服务(FTP)、电子邮件(E-mail)、电子公告栏(BBS)、新闻组(
14、USENET)等。FTP获取信息资源的最大问题是查找需要的资料必须预先知道这些资料存放在哪个文件服务器中,随着FTP服务器的增多,这个问题变得越来越严重,于是人们就开发出Archie、WAIS、Gopher系统,以解决寻找FTP资源的困难。2.2 检索途径信息检索途径一般包括文献信息的内容特征途径和外表特征途径。内容特征途径:主题途径 分类途径 代码途径外表特征途径:题名途径 责任者途径 机构名称 编号途径 其它途径内容特征途径1.主题途径主题途径是按文献信息的内容主题进行检索的途径,对课题进行主题概念分析,提炼主题概念,选择能表达主题概念的语词,确定主题词、关键词、叙词或标题词。传统的手工检
15、索依据的是各种主题索引或关键词索引,主题索引或关键词索引按检索词的字顺排列,用户根据确定的检索词按照字顺进行查找,从检索词下的索引款目,即可找到所需文献的线索。计算机检索视检索系统的检索规则而定,如检索系统提供了主题词索引,用户必须先查主题词索引,然后使用规范的检索词才能检索。2.分类途径分类途径是一种按照文献信息所属学科(专业)类别进行检索的途径。对课题内容进行分类分析,按分类法进行分类,获取分类号。传统的手工检索依据的是按分类编排的分类目次表或分类索引,按类逐级进行检索。计算机检索时提交分类号进行检索即可。分类检索能较好地满足族性检索的要求,提高课题信息的查全率。2.3 检索标识检索标识,
16、即检索词,是指能表达检索课题主题概念和信息需求的名词术语、分类号、名称及代码等的总称,包括主题词、关键词、名称、分类号、分子式、专利号及各种号码等。它与检索途径相对应,是检索途径的具体化。如主题途径的检索标识就是主题词,分类途径的检索标识是分类号,著者途径的检索标识是著者姓名,其它的则依此类推。检索标识的确定 检索标识的确定,一般应考虑以下基本原则:(1)检索标识必须反映课题内容和信息需求。(2)检索标识和数据库的标引标识应相一致。(3)所选检索工具或系统具有叙词表或主题词表的,优先选用叙词或主题词作为检索词。(4)要从词表规定的专业范围出发,选用各学科内具有检索价值的基本名词或术语。(5)如
17、选择的检索词无词表可查,或在词表中未反映时,检索词为自由词,这时还应选取该词的同义词、近义词、广义词、狭义词、分子式、分类号、登记号、专利号、化学物质俗名、商品名等,使用多个词试检,或通过逻辑“或”组配进行检索。2.4 检索方法2.4.1 工具法 又称常用法或直接法,是指直接利用检索工具检索文献信息的方法,这是信息检索中最常用的一种方法。它又分为顺查法、倒查法和抽查法。2.4.2 引文法引文法又名追溯法,是查找某一篇文献被哪些文献所引用,或者利用文献末尾所附参考文献和注释为线索逐一地追溯查找原始文献的方法。文献之间的引证和被引证关系反映了文献之间存在的某种内在联系,某一篇文献后所附的参考文献、
18、其参考文献的参考文献,以及该文献被引用的文献,组成了一条学术链,从一定程度上反映了某一课题研究的轨迹。循着这些轨迹去查找,不仅可以利用前人的学术成果,节省很多时间和精力,而且可能在原来的基础上有新的发现。引文索引是采用引文法快速查找文献信息的有效工具,但容易产生漏检。2.4.3 循环法循环法又称为综合法、交替法,它是把工具法和引文法结合起来查找文献信息的方法。循环法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法。循环法的好处是能够综合工具法和引文法的优点,因为任何检索工具,都有文献收录的范围、主题报道的重点和倾向等,以引文法进行补充,可以扩大
19、文献线索,发现更多有价值的文献信息。按照引文规律,有价值的文献在发表后最初几年(例如五年)内被引用的次数较多,但以后趋于减少,因此,追溯检索的年限不宜过长。2.5 计算机检索技术计算机信息检索的实质是“匹配运算”,即由检索者把检索提问变成计算机能识别的检索表达式输入到计算机中,由计算机自动对数据库中各文档进行扫描、匹配。掌握计算机检索技术,快速准确地构建计算机能识别的检索表达式是进行计算机检索的重要环节。计算机检索技术主要指检索词的组配技术和检索表达式的构成规则。检索词包括主题词、关键词、名称、分类号、分子式、专利号及各种号码等。检索表达式简称为检索式,是一个既能反映检索课题内容、又能为计算机
20、识别的算式,是进行计算机检索的依据,又称为检索提问式。检索表达式主要是运用各种逻辑运算符号、位置逻辑算符、截词符及其它限制符号等,把检索词连接组配起来,确定检索词之间的关系,准确表达检索课题的内容。2.5.1 布尔逻辑算符(1)逻辑“与”运算符为“AND”或“*”。用于交叉概念或限定关系的组配,实现检索词概念范围的交集,可以缩小检索范围,提高查准率。如检索式为:A AND B或者A*B,表示检出同时含有检索词A和检索词B的记录。凡是使用“AND”的检索式检索,AND两侧的检索词必须同时出现在检索字段中。例如:检索“人口控制”或者“控制人口”方面的文献信息,可用如下检索式:人口 and 控制(2
21、)逻辑“或”运算符为“OR”或“+”。用于检索词并列关系(同义词、近义词)的组配,实现检索词概念范围的并集,它可以扩大检索范围,防止漏检,有利于提高查全率。如检索式为:A or B,表示检出所有含有检索词A或检索词B的记录。在一篇文献记录中只要含有检索词A和检索词B中的任何一个即算命中。例如:检索有关“计算机”的文献资料,因为“计算机”也称为“电脑”,因此可用如下检索式:计算机 OR 电脑(3)逻辑“非”运算符为“NOT”或“-”。它是一种排斥关系的组配,用来从原来的检索范围中排除不需要的概念。如“A NOT B”,表示检出含有检索词A,但同时不含检索词B的记录。逻辑“非”和逻辑“与”运算的作
22、用类似,可以缩小检索范围,增强检索的准确性。此运算适用于排除那些含有某个指定检索词的记录。但如果使用不当,将会排除有用文献信息,从而导致漏检。例如:检索有关能源方面的文献信息,但不包括核能。energy NOT nuclear 布尔逻辑算符的逻辑关系图:逻辑“与(AND)”、逻辑“或(OR)”、逻辑“非(NOT)”三种布尔逻辑算符的逻辑关系图:2.5.2 位置算符以Dialog系统为例介绍几种常用的位置算符:(W)(WITH):表示该算符两侧的检索词之间不得有其他任何的字或词,而且检索词顺序不能颠倒,但允许有空格或标点符号。也可用()表示。如检索式:American()Literature,可
23、以用来检索有关American Literature的文献信息。(nW)(nWord):表示算符两侧的检索词之间最多可以插入n(n=1 2 3)个词,但检索词顺序不能颠倒。如:knowledge(1w)economic,表示含有短语knowledge economy或者knowledge-based economy的文献信息都可命中。位置算符2(N)(NEAR):表示在此算符两侧的检索词必须相连,不得插入其它词,但词序可以颠倒。如:chemistry(N)physics,表示含有短语chemistry physics或者physics chemistry的文献信息都可命中。(nN)(nNEAR
24、):表示在此算符两侧的检索词之间最多可以插入n(n=1 2 3)个词,且词序可以颠倒。如:economic(2n)recovery,表示economic recovery或recovery of the economic等文献信息都可命中。位置算符3(F)(FIELD):表示在此算符两侧的检索词必须同时出现在同一字段内,如篇名字段、文摘字段、叙词字段等,但两词的词序和中间插入的词数不限。如:economic(F)knowledge,一篇标题为“the Economic Impact of Knowledge-Based”的文献记录为命中文献,因为算符两侧的检索词在同一标题字段中。(S)(SUB
25、FIELD):表示在此算符两侧的检索词必须出现在同一个子字段中,如关键词字段中的一个关键词就是一个子字段。但两词的词序和中间插入的词数不限。它比(F)的限制更严。(L)算符(LINK):表示两个检索词之间存在从属关系或限制关系。如果其中一个为一级主题词,另一个就为二级主题词。如control(L)stability。2.5.3 截词检索(1)有限截断。指限定截去有限个字符。如:用“?”表示截断1个字符,输入product?,能够检索出含有product、products的记录。用“?”表示截断2个字符,依此类推。(2)右截断。截去某个词的词尾,使词的前方保持一致,也称为前方一致检索。截词符(通
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 基本 方法
限制150内