第二讲计算机检索基本原理精选文档.ppt
《第二讲计算机检索基本原理精选文档.ppt》由会员分享,可在线阅读,更多相关《第二讲计算机检索基本原理精选文档.ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二第二讲计算机算机检索基本原理索基本原理本讲稿第一页,共五十五页第三讲第三讲中文数据库资源中文数据库资源 第六讲第六讲英文全文数据库检索英文全文数据库检索网络资源与信息检索课程安排第四讲第四讲搜索引擎检索搜索引擎检索 第二讲第二讲计算机检索基本原理计算机检索基本原理第七讲第七讲数字信息资源综合利用数字信息资源综合利用 第五讲第五讲英文综合参考数据库检索英文综合参考数据库检索第一讲第一讲概述概述主讲主讲:高景山高景山本讲稿第二页,共五十五页v本章具体内容安排:本章具体内容安排:v2.1计算机检索基本原理概述计算机检索基本原理概述v2.2计算机检索基本原理计算机检索基本原理v2.3文献信息数据库
2、的基本概念文献信息数据库的基本概念v2.4计算机检索策略的构建与调整计算机检索策略的构建与调整v要求:初步掌握计算机检索的基本原理、基本要求:初步掌握计算机检索的基本原理、基本类型及其检索策略的构建与调整。类型及其检索策略的构建与调整。第二讲第二讲 计算机检索基本原理计算机检索基本原理本讲稿第三页,共五十五页2.1计算机检索基本原理概述计算机检索基本原理概述v2.1.1计算机检索概念计算机检索概念通过计算机进行的文献信息检索称为计算机通过计算机进行的文献信息检索称为计算机检索。检索。随着计算机技术、远程通讯技术和信息存储随着计算机技术、远程通讯技术和信息存储技术的飞速发展,技术的飞速发展,信息
3、检索由手工检索过渡到了信息检索由手工检索过渡到了计算机信息检索计算机信息检索。计算机检索的成功应用,为我。计算机检索的成功应用,为我们更为及时、准确、全面地继承、利用和发展人们更为及时、准确、全面地继承、利用和发展人类的科研成果提供了先进的手段。类的科研成果提供了先进的手段。本讲稿第四页,共五十五页2.1计算机检索基本原理概述计算机检索基本原理概述v2.1.2计算机检索发展计算机检索发展v第一个阶段:脱机检索阶段(第一个阶段:脱机检索阶段(50年代至年代至60年代)年代)v脱机检索:即批处理检索脱机检索:即批处理检索检索要求检索要求检索系统检索系统检索结果检索结果检索人员检索人员检索策略检索策
4、略成批检索成批检索用户用户v缺点:缺点:1.地理上的障碍地理上的障碍:远、不便于检索结果的获取远、不便于检索结果的获取2.时间上的迟滞时间上的迟滞:定期检索,不能及时获取定期检索,不能及时获取3.封闭式的检索封闭式的检索:指检索策略一经输入系统就不指检索策略一经输入系统就不能更改,更不能依据机检应答来修改检索式能更改,更不能依据机检应答来修改检索式本讲稿第五页,共五十五页2.1计算机检索基本原理概述计算机检索基本原理概述v第二个阶段:联机检索阶段第二个阶段:联机检索阶段(OnlineRetrieval)()(60-80年代年代)v终端设备终端设备通讯网络通讯网络检索系统检索系统用户用户检索策略
5、检索策略人机对话人机对话获取信息获取信息v三个时期:三个时期:60年代开发试验;年代开发试验;70年代末应用阶段;年代末应用阶段;80年代以年代以后进入信息后进入信息计算机计算机卫星通信三维一体的新阶段,即:信息文卫星通信三维一体的新阶段,即:信息文献不受地区、国家限制而真正实现全世界资源共享为目的的国际献不受地区、国家限制而真正实现全世界资源共享为目的的国际联机信息检索阶段。联机信息检索阶段。本讲稿第六页,共五十五页2.1计算机检索基本原理概述计算机检索基本原理概述v著名的国际联机检索系统有著名的国际联机检索系统有:美国的美国的DIALOG系统系统;美国美国OnlineRetrievalof
6、BibliographicInformationTime-Share,ORBIT系统系统,文献信息分时联机检索,文献信息分时联机检索;1976年书目检索服务社年书目检索服务社(BRS)的联机检索系统的联机检索系统;”医学文献分析与检索系统医学文献分析与检索系统”MEDLARS系统,系统,还有还有”欧洲空间组织情报检索服务中心欧洲空间组织情报检索服务中心”的的ESA/IRS系统、英国的系统、英国的BLAESE系统等。系统等。v这些系统很快发展成为国际性情报检索系统,数据库种类及其检索这些系统很快发展成为国际性情报检索系统,数据库种类及其检索存储记录都在迅速增加,如:美国的存储记录都在迅速增加,如
7、:美国的Dialog系统系统,1984年就有年就有200多个数据库,其中包括多个数据库,其中包括美国的美国的医学索引医学索引、荷兰、荷兰医学文摘医学文摘、美国美国生物学文摘生物学文摘、美国、美国化学文摘化学文摘等。等。v如今此联机检索系统仍然是世界上最有影响的联机检索系统。如今此联机检索系统仍然是世界上最有影响的联机检索系统。本讲稿第七页,共五十五页2.1计算机检索基本原理概述计算机检索基本原理概述v第三阶段:光盘检索阶段第三阶段:光盘检索阶段v1983年,出现了一种新的存储器,年,出现了一种新的存储器,CD-ROM光光盘。光盘检索具有储量极大而体积微小,要求设盘。光盘检索具有储量极大而体积微
8、小,要求设备简单,可随地安装,使用方便、易于操作,检备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),索费用低(不需要昂贵的联机检索通讯费用),因可随时修改检索策略而具有很高的查全率和查因可随时修改检索策略而具有很高的查全率和查准率等优点。准率等优点。例:例:ChemicalAbstractsIndex光盘(光盘(1987-1991):由美国化学文摘):由美国化学文摘社与美国剑桥光盘公司联合研制,收录社与美国剑桥光盘公司联合研制,收录1987-1991年年化学文摘化学文摘的全部内容。的全部内容。本讲稿第八页,共五十五页2.1计算机检索基本原理概述计算机检索基本
9、原理概述v科学引文索引科学引文索引(光盘光盘)SCI(ScienceCitationIndex):由美国费城科学情报研究):由美国费城科学情报研究所编辑出版,收录所编辑出版,收录1961年以来有关生命科学、年以来有关生命科学、医学、物理、化学、农业、工程技术、行为科学医学、物理、化学、农业、工程技术、行为科学等方面的文献及引文。等方面的文献及引文。v中国学术期刊全文光盘(中国学术期刊全文光盘(CAJ):是由清华大学):是由清华大学开发研制,分题录、文摘、全文三个层次的数据开发研制,分题录、文摘、全文三个层次的数据库,其中全文数据库是国内最常用的全文数据库。库,其中全文数据库是国内最常用的全文数
10、据库。本讲稿第九页,共五十五页2.1计算机检索基本原理概述计算机检索基本原理概述v第四阶段:网络化检索阶段第四阶段:网络化检索阶段v进入进入90年代,随着卫星通讯、公共数据通讯、年代,随着卫星通讯、公共数据通讯、光缆通讯技术以及信息高速公路事业在全世界的迅光缆通讯技术以及信息高速公路事业在全世界的迅猛发展,计算机情报检索走向了全球大联网。猛发展,计算机情报检索走向了全球大联网。v网上资源具有信息的时效性、内容的广泛性、网上资源具有信息的时效性、内容的广泛性、访问的快速性、搜索的网络性和资源的动态性五大访问的快速性、搜索的网络性和资源的动态性五大特点,那么要及时、准确、有效地获取与自身需求特点,
11、那么要及时、准确、有效地获取与自身需求相关的实用信息,对所有网络用户都非常具有挑战相关的实用信息,对所有网络用户都非常具有挑战性。性。本讲稿第十页,共五十五页2.1计算机检索基本原理概述计算机检索基本原理概述v INTERNET就是这个时期的最杰出代表。它能就是这个时期的最杰出代表。它能够跨越时空,进行实时信息检索、资源共享的国够跨越时空,进行实时信息检索、资源共享的国际性计算机网络。际性计算机网络。INTERNET飞速的发展,已飞速的发展,已成为人们进行成为人们进行全球范围的合作、信息交流与资源全球范围的合作、信息交流与资源共享的不可替代的通讯交流方式。共享的不可替代的通讯交流方式。v随着计
12、算机技术的智能化、数据库载体的高随着计算机技术的智能化、数据库载体的高密度化和多媒体化、通讯技术的网络化,密度化和多媒体化、通讯技术的网络化,计算机计算机情报检索将走向办公室化、家庭化。情报检索将走向办公室化、家庭化。本讲稿第十一页,共五十五页2.2计算机检索基本原理计算机检索基本原理v 一般地说,计算机检索包括:一般地说,计算机检索包括:信息的存储信息的存储和和检索检索两个部分,即对应数据库的建立和查找两个部分。两个部分,即对应数据库的建立和查找两个部分。v2.2.1 2.2.1 信息存储信息存储 就是文献标引人员对文献内容进行主题分就是文献标引人员对文献内容进行主题分析,即把文献包含的信息
13、内容分析成若干能代表析,即把文献包含的信息内容分析成若干能代表文献主题的概念,并用词表、分类表等规范化标文献主题的概念,并用词表、分类表等规范化标识的情报检索语言对识的情报检索语言对文献主题进行标引文献主题进行标引、按所选、按所选数据库结构的索引结构输入到计算机进行存储,数据库结构的索引结构输入到计算机进行存储,同时把入选文献中的其他特征标识(标题、著者、同时把入选文献中的其他特征标识(标题、著者、文摘、原文出处等)也一起输入计算机,文摘、原文出处等)也一起输入计算机,编制成编制成一系列索引数据库,一系列索引数据库,这便是信息的存储。这便是信息的存储。本讲稿第十二页,共五十五页2.2计算机检索
14、基本原理计算机检索基本原理v2.2.2信息检索信息检索v1、检索者对检索课题进行、检索者对检索课题进行主题分析、主题分析、明确检索范明确检索范围,形成能代表情报需求的若干主题概念。围,形成能代表情报需求的若干主题概念。v2、把这些主题概念转换成计算机、把这些主题概念转换成计算机信息检索语言,信息检索语言,即用数据库检索工具书对各概念选词和进行逻辑即用数据库检索工具书对各概念选词和进行逻辑组配,编制成检索提问式。组配,编制成检索提问式。v3、用计算机检索系统功能在文献资料数据库中将、用计算机检索系统功能在文献资料数据库中将信息需求主题概念和数据库内文献主题概念标识信息需求主题概念和数据库内文献主
15、题概念标识进行进行匹配,匹配,找到命中文献。找到命中文献。v用图表示如下:用图表示如下:本讲稿第十三页,共五十五页计算机检索原理的示意图计算机检索原理的示意图本讲稿第十四页,共五十五页2.3文献信息数据库的基本概念文献信息数据库的基本概念v2.3.1数据库的定义和类型数据库的定义和类型v一、数据库定义:根据一、数据库定义:根据ISO/DIS5127号标准号标准(文献与情报工作术语),数据库(文献与情报工作术语),数据库(database)的定义为:)的定义为:“至少由一种文档组至少由一种文档组成,并能满足某一特定目的或某一特定数据处理成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据
16、集合。系统需要的一种数据集合。”通俗地说,数据库通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互就是在计算机存储设备上按一定方式存储的相互关联的数据集合,数据库是计算机技术与情报检关联的数据集合,数据库是计算机技术与情报检索技术相结合的产物,是现代重要的信息资源管索技术相结合的产物,是现代重要的信息资源管理工具,是情报检索系统的核心部分之一。理工具,是情报检索系统的核心部分之一。数据数据库的质量直接影响情报检索系统的功能和效率库的质量直接影响情报检索系统的功能和效率。本讲稿第十五页,共五十五页2.3文献信息数据库的基本概念文献信息数据库的基本概念v二、数据库类型二、数据库类型按照国际
17、上通用的分类方法,常划分为以下类型:按照国际上通用的分类方法,常划分为以下类型:1.参考数据库(参考数据库(referencedatabases):指引用指引用户到另一信息源以获得原文或其他细节的一类数据户到另一信息源以获得原文或其他细节的一类数据库:包括书目数据库和指南数据库两种。库:包括书目数据库和指南数据库两种。(1)书目数据库(书目数据库(bibliographicdatabases)指存储某指存储某个领域的二次文献(如文摘、题录、目录等书目数据)个领域的二次文献(如文摘、题录、目录等书目数据)的一类数据库。例如,美国化学文摘数据库的一类数据库。例如,美国化学文摘数据库CASearch
18、、EI,中国机械工程文摘数据库,各国生产发行的机读目,中国机械工程文摘数据库,各国生产发行的机读目录(录(MARC)等,即属于此类型。)等,即属于此类型。本讲稿第十六页,共五十五页2.3文献信息数据库的基本概念文献信息数据库的基本概念v(2)指南数据库(指南数据库(referencedatabases)指存储关于某些机构、人物、出版物、项目、指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引用户获取更程序、活动等对象的简要描述,指引用户获取更详细的信息的一类数据库。亦称指示性数据库。详细的信息的一类数据库。亦称指示性数据库。例如,各种机构名录数据库、人物传记数据库、例如,
19、各种机构名录数据库、人物传记数据库、产品数据库、软件数据库、研究开发项目数据库、产品数据库、软件数据库、研究开发项目数据库、基金数据库等,均属此类。基金数据库等,均属此类。v2.源数据库(源数据库(sourcedatabases):提供原始资料或具体数据的数据库。它又可分提供原始资料或具体数据的数据库。它又可分为以下几种类型:为以下几种类型:本讲稿第十七页,共五十五页2.3文献信息数据库的基本概念文献信息数据库的基本概念(1)数值数据库)数值数据库(numericdatabases)指专门提供指专门提供以数值方式表示的数据(或包括其统计处理表示法)以数值方式表示的数据(或包括其统计处理表示法)
20、的一种源数据库,如各种统计数据库、财务数据库、的一种源数据库,如各种统计数据库、财务数据库、科学技术数据库等。科学技术数据库等。(2)文本)文本-数值数据库(数值数据库(textual-numericdatabases):同时提供文本信息和数值数据的一种源数据库,如某:同时提供文本信息和数值数据的一种源数据库,如某些公司信息库、产品市场报告数据库、毒物数据库和物些公司信息库、产品市场报告数据库、毒物数据库和物性数据库等。性数据库等。(3)全文数据库()全文数据库(full-textdatabases)指存储文献指存储文献全文或其中主要部分的一种源数据库,简称全文库,如全文或其中主要部分的一种源
21、数据库,简称全文库,如法律法规全文库、期刊全文库等。法律法规全文库、期刊全文库等。本讲稿第十八页,共五十五页2.3文献信息数据库的基本概念文献信息数据库的基本概念(4)术语数据库()术语数据库(terminologicalbank)指专门存储名词术语信息一种源数据库,各种指专门存储名词术语信息一种源数据库,各种电子化辞书也包括在内。电子化辞书也包括在内。(5)图像数据库()图像数据库(graphicsdatabases)指用来存储各种图像或图形信息及有关文字说明资指用来存储各种图像或图形信息及有关文字说明资料的一种源数据库,主要应用于建筑、设计、广告、产料的一种源数据库,主要应用于建筑、设计、
22、广告、产品目录、图片或照片等资料类型的计算机存储与检索。品目录、图片或照片等资料类型的计算机存储与检索。除了上述几种类型的数据库以个,还有能同时存除了上述几种类型的数据库以个,还有能同时存储多种不同类型数据的数据库混合型数据库(储多种不同类型数据的数据库混合型数据库(mixeddatabases)。)。本讲稿第十九页,共五十五页2.3文献信息数据库的基本概念文献信息数据库的基本概念2.3.2数据库的构成数据库的构成从使用观点来看,数据库主要由文档、记录、字段三从使用观点来看,数据库主要由文档、记录、字段三个层次构成。个层次构成。1、文档:、文档:若干个逻辑记录构成的信息集合称为文档(若干个逻辑
23、记录构成的信息集合称为文档(file)。用户选择所需的联机系统数据库时,多数数据库)。用户选择所需的联机系统数据库时,多数数据库以单一的文档编号出现。此时文档(以单一的文档编号出现。此时文档(file)的概念和数)的概念和数据库(据库(database)相当。但有些数据库因规模庞大,被)相当。但有些数据库因规模庞大,被分成若干个文档。例如,在分成若干个文档。例如,在DAILOG系统中,系统中,CASearch数据库被分成数据库被分成308号(号(1967-1971),),309号号(1977-1981),),311号(号(1982-1986)和)和312号号(1986-)等文档。)等文档。本讲
24、稿第二十页,共五十五页2.3文献信息数据库的基本概念文献信息数据库的基本概念2记录记录记录是由若干字段组成的文献单元,是计算机检索系记录是由若干字段组成的文献单元,是计算机检索系统存储文献款目和标引的信息载体。统存储文献款目和标引的信息载体。在全文数据库中,一个记录相当于一篇完整的文献;在书在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或题录。比较典型的目数据库中,一个记录相当于一条文摘或题录。比较典型的EI(COMPENDEX),),INSPEC,美国专利数据库的记录。,美国专利数据库的记录。本讲稿第二十一页,共五十五页2.3文献信息数据库的基本概念文献
25、信息数据库的基本概念3字段:字段:是文献著录的是文献著录的基本单元基本单元,它是对实体的具体属性进它是对实体的具体属性进行描述的结果。在书目数据库中,记录中含有题名、著行描述的结果。在书目数据库中,记录中含有题名、著者、出版年、主题词、文摘等字段。者、出版年、主题词、文摘等字段。文献数据库字段分为文献数据库字段分为基本字段和辅助字段基本字段和辅助字段两类。两类。基本字段和辅助字段在检索策略的构成方法上往往有基本字段和辅助字段在检索策略的构成方法上往往有些区别。些区别。基本字段通常是默认的主题途径检索范围,如果基本字段通常是默认的主题途径检索范围,如果需要查找专门的基本字段或者辅助字段,通常要以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 计算机 检索 基本原理 精选 文档
限制150内