计算机检索基本原理.doc
《计算机检索基本原理.doc》由会员分享,可在线阅读,更多相关《计算机检索基本原理.doc(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、网络资源与信息检索本章具体内容安排: 2.1 计算机检索基本原理概述2.2 计算机检索基本原理2.3 文献信息数据库的基本概念2.4 计算机检索策略的构建与调整要求:初步掌握计算机检索的基本原理、基本类型及其检索策略的构建与调整。第二讲 计算机检索基本原理2.1 计算机检索基本原理概述2.1.1计算机检索概念 通过计算机进行的文献信息检索称为计算机检索。 随着计算机技术、远程通讯技术和信息存储技术的飞速发展,信息检索由手工检索过渡到了计算机信息检索。计算机检索的成功应用,为我们更为及时、准确、全面地继承、利用和发展人类的科研成果提供了先进的手段。2.1 计算机检索基本原理概述2.1.2计算机检
2、索发展第一个阶段:脱机检索阶段(50年代至60年代) 脱机检索(Offline Retrieval):即批处理检索 检索要求 检索系统 检索结果 检索人员检索策略成批检索用户 缺点:1. 地理上的障碍(远、不便于检索结果的获取)2. 时间上的迟滞(定期检索,不能及时获取)3. 封闭式的检索(指检索策略一经输入系统就不能更改,更不能依据机检应答来修改检索式) 2.1 计算机检索基本原理概述第二个阶段:联机检索阶段 (Online Retrieval)(60-80年代) 终端设备 通讯网络 检索系统用户 检索策略人机对话 获取信息 三个时期:60年代开发试验;70年代末应用阶段;80年代以后进入信
3、息计算机卫星通信三维一体的新阶段,即以信息文献不受地区、国家限制而真正实现全世界资源共享为目的的国际联机信息检索阶段。 2.1.1联机检索阶段优缺点优点:1.速度快效率高2.检索范围广泛全面3.检索图径多方便灵活4.检索内容新实时性强5.检索辅助功能完善缺点:1.检索的费用高2.检索系统及其文档如数据库收录、标引、特点较难了解熟悉3.检索技术和技巧不宜掌握2.1.2 国际著名的联机检索系统著名的国际联机检索系统有美国的DIALOG系统、ORBIT系统、BRS系统以及MEDLARS系统,还有欧洲的ESA/IRS系统、英国的BLAESE系统等。 这些系统很快发展成为国际性情报检索系统,数据库种类及
4、其检索存储记录都在迅速增加,如:美国的Dialog系统,1984年就有200多个数据库,其中包括美国的医学索引、荷兰医学文摘、美国生物学文摘、美国化学文摘等。 如今此联机检索系统仍然是世界上最有影响的联机检索系统。 2.1 计算机检索基本原理概述第三阶段:光盘检索阶段 1983年,出现了一种新的存储器,CD-ROM光盘。光盘检索具有储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),因可随时修改检索策略而具有很高的查全率和查准率等优点。 Chemical Abstracts Index光盘(1987-1991):由美国化学文摘社与美国剑
5、桥光盘公司联合研制,收录1987-1991年化学文摘的全部内容。 2.1 计算机检索基本原理概述Science Citation Index(SCI)光盘(科学引文索引):由美国费城科学情报研究所编辑出版,收录1961年以来有关生命科学、医学、物理、化学、农业、工程技术、行为科学等方面的文献及引文。 CAJ(中国学术期刊):是由清华大学开发研制,分题录、文摘、全文三个层次的数据库,其中全文数据库是国内最常用的全文数据库。2.1 计算机检索基本原理概述第四阶段:网络化检索阶段 进入90年代,随着卫星通讯、公共数据通讯、光缆通讯技术以及信息高速公路事业在全世界的迅猛发展,计算机情报检索走向了全球大
6、联网。 网上资源具有信息的时效性、内容的广泛性、访问的快速性、搜索的网络性和资源的动态性五大特点,那么要及时、准确、有效地获取与自身需求相关的实用信息,对所有网络用户都非常具有挑战性。 2.1 计算机检索基本原理概述INTERNET就是这个时期的最杰出代表。它能够跨越时空,进行实时信息检索、资源共享的国际性计算机网络。 INTERNET飞速的发展,已成为人们进行全球范围的合作、信息交流与资源共享的不可替代的通讯交流方式。 随着计算机技术的智能化、数据库载体的高密度化和多媒体化、通讯技术的网络化,计算机情报检索将走向办公室化、家庭化。 2.2 计算机检索基本原理一般地说,计算机检索包括信息的存储
7、和检索两个部分,即对应数据库的建立和查找两个部分。2.2.1信息存储 就是文献标引人员对文献内容进行主题分析,即把文献包含的信息内容分析成若干能代表文献主题的概念,并用词表、分类表等规范化标识的情报检索语言对文献主题进行标引、按所选数据库结构的索引结构输入到计算机进行存储,同时把入选文献中的其他特征标识(标题、著者、文摘、原文出处等)也一起输入计算机,编制成一系列索引数据库,这便是信息的存储。 2.2.1.1.信息的存储主要包括的内容信息采集:对广泛且分散的信息资源进行有针对性的采集。信息著录:对所收集的原始信息的外表特征如题名、著者、文献出处和内容特征如分类号、主题词、摘要进行描述,形成一条
8、条款目或记录过程。信息标引:就是根据一定的规则和程序,对文献内容进行分析,然后赋予每篇文献以一定数量的内容标识如分类号、主题词、关键词作为存贮和检索的依据。它的作用是为信息存贮与检索这两环节之间提供某种连接物。信息的整序:就是将采集到的无序信息进行有序化组织的过程。2.2 计算机检索基本原理2.2.2 信息检索 信息检索作为信息存储的逆过程,是将描述特定用户所需信息的提问特征与信息存储的检索标示进行异同的比较,从中找出与用户提问特征一致或基本一致的信息. 1、检索者对检索课题进行主题分析、明确检索范围,形成能代表情报需求的若干主题概念。 2、把这些主题概念转换成计算机信息检索语言,即用数据库检
9、索工具书对各概念选词和进行逻辑组配,编制成检索提问式。 3、用计算机检索系统功能在文献资料数据库中将信息需求主题概念和数据库内文献主题概念标识进行匹配,找到命中文献。 用图表示如下:计算机检索原理的示意图2.3 文献信息数据库的基本概念2. 3.1数据库的定义和类型 一、数据库定义:根据ISO/DIS 5127号标准(文献与情报工作术语),数据库(database)的定义为:“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。”通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合,数据库是计算机技术与情报检索技术相结合的产物,是现代重要的信息
10、资源管理工具,是情报检索系统的核心部分之一。数据库的质量直接影响情报检索系统的功能和效率。2.3 文献信息数据库的基本概念二、数据库类型 按照国际上通用的分类方法,常划分为以下类型:1.参考数据库(reference databases):指引用户到另一信息源以获得原文或其他细节的一类数据库。包括书目数据库和指南数据库两种。 (1)书目数据库(bibliographic databases) 指存储某个领域的二次文献(如文摘、题录、目录等书目数据)的一类数据库。例如,美国化学文摘数据库CA Search,中国机械工程文摘数据库,各国生产发行的机读目录(MARC)等,即属于此类型。(2)指南数据
11、库(reference databases) 指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引用户获取更详细的信息的一类数据库。亦称指示性数据库。例如,各种机构名录数据库、人物传记数据库、产品数据库、软件数据库、研究开发项目数据库、基金数据库等,均属此类。2.3 文献信息数据库的基本概念2.源数据库(source databases): 提供原始资料或具体数据的数据库。它又可分为以下几种类型:(1)数值数据库(numeric databases) 指专门提供以数值方式表示的数据(或包括其统计处理表示法)的一种源数据库,如各种统计数据库、财务数据库、科学技术数据库等。(2
12、)文本-数值数据库(textual-numeric databases):同时提供文本信息和数值数据的一种源数据库,如某些公司信息库、产品市场报告数据库、读物数据库和物性数据库等。(3)全文数据库(full-text databases) 指存储文献全文或其中主要部分的一种源数据库,简称全文库,如法律法规全文库、期刊全文库等。2.3 文献信息数据库的基本概念(4)术语数据库(terminological bank) 指专门存储名词术语信息一种源数据库,各种电子化辞典也包括在内。(5)图像数据库(graphics databases) 指用来存储各种图像或图形信息及有关文字说明资料的一种源数据库
13、,主要应用于建筑、设计、广告、产品目录、图片或照片等资料类型的计算机存储与检索。 除了上述几种类型的数据库以个,还有能同时存储多种不同类型数据的数据库混合型数据库(mixed databases)。2.3 文献信息数据库的基本概念2.3.2 数据库的构成 从使用观点来看,数据库主要由文档、记录、字段三个层次构成。1、文档: 若干个逻辑记录构成的信息集合称为文档(file)。用户选择所需的联机系统数据库时,多数数据库以单一的文档编号出现。此时文档(file)的概念和数据库(database)相当。但有些数据库因规模庞大,被分成若干个文档。例如,在DAILOG系统中,CA Search数据库被分成
14、308号(1967-1971),309号(1977-1981),311号(1982-1986)和312号(1986-)等文档。2.3 文献信息数据库的基本概念2记录 记录是由若干字段组成的文献单元,是计算机检索系统存储文献款目和标引的信息载体。 在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或题录。比较典型的COMPENDEX,INSPEC,美国专利数据库的记录。2.3 文献信息数据库的基本概念3字段:是文献著录的基本单元,它是对实体的具体属性进行描述的结果。在书目数据库中,记录中含有题名、著者、出版年、主题词、文摘等字段。 文献数据库字段分为基本字段和辅
15、助字段两类。基本字段和辅助字段在检索策略的构成方法上往往有些区别。 基本字段通常是默认的主题途径检索范围,如果需要查找专门的基本字段或者辅助字段,通常要以某种方法予以指定。常见的字段名称和代码(也称段码)如下表所示。文献数据库中常见的字段和段码2.4 计算机检索策略的构建与调整检索策略 是为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导。 也可以说,所谓检索策略,就是在分析课题内容实质的基础上,确定检索系统、检索途径和检索词,并科学安排各词之间的位置关系、逻辑关系和查找步骤等。2.4.1 计算机检索策略的构建一 信息检索技术1、布尔逻辑 规定检索词之间的逻辑关系的算符,称为布
16、尔逻辑算符。布尔逻辑算符包括逻辑“或(OR)”、逻辑“与(AND)”和逻辑“非(NOT)”。(1)、逻辑“或”(OR)运算符 也可用“+”代替,是用来组配具有同义或同族概念的词,如同义词、相关词等。其含义是,检出的记录中,至少含有两个检索词中的一个。OR算符的基本作用是扩大检索范围,增加命中文献量,防止漏检,提高检索结果的查全率,OR运算符还有一个去重的功能。2.4.1 计算机检索策略的构建例如,如果以提问式“SS PIPE TUBE”检索EI COMPENDEX (1998)文档,所得结果为: S1 3954 PIPE (管子) S2 4206 TUBE(管) S3 7759 PIPE OR
17、 TUBE(2)逻辑与(AND)运算符 也可用*代替,用来组配不同检索概念。其含义是检出的记录必须同时含有所有的检索词。AND算符的基本作用是对检索词加以限定,逐步缩小检索范围,减少命中文献量,提高检索结果的查准率。在实际检索中,不同概念组面之间以及同一组面内的不同含义的词之间通常使用AND算符。2.4.1 计算机检索策略的构建例如:以提问式“SS COMMUNICATION(通讯) AND SATELLITE(卫星)检索EI COMPENDEX(1998)文档,所得结果为: S1 25331 COMMUNICATION S2 4068 SATELLITE S3 1253 COMMUNICAT
18、ION AND SATELLITE(3)逻辑非(NOT)运算符 也可用-代替,但在检索时建议使用NOT,以避免与词间的分隔符-混淆,NOT算符是排除含有某些词的记录的,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。2.4.1 计算机检索策略的构建NOT算符的基本作用是缩小检索范围,但并不一定能提高文献命中的准确性,往往只是起到减少文献输出量的作用。在联机检索中,可降低检索费用。例如,以PATENT NOT GERMAN检索EI COMPENDEX(1998)文档,所得结果为: S1 669 PATENT (专利) S2 9019 GERMAN(德国) S3 638 PAT
19、ENT NOT GERMAN2优先处理算符“( )” 上述逻辑OR和AND算符的使用方法,如果归纳成一个模式,比如有A、B、C、D四个检索词(其中A和B,C和D分别为同义概念),2.4.1 计算机检索策略的构建检索提问可以分成三组: ?S1 A OR B ?S2 C OR D ?S S1 AND S2 在实际检索中,上例检索提问可改为: ? S (A OR B)AND(C OR D) 计算机输出的检索结果与上述三组式的提问策略是一样的。3位置算符 位置算符又称邻接算符(adjacent operators),适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。 2.4.1 计算机检索策略的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 检索 基本原理
限制150内