数字信息资源检索概述精.ppt
数字信息资源检索概述第1页,本讲稿共33页数字信息资源数字信息资源(digital information resources)(digital information resources),亦可称,亦可称为电子资源(为电子资源(Electronic ResourceElectronic Resource),是以数字代码方式),是以数字代码方式将图、文、声、像等信息存储在磁光电介质上,通过计算机将图、文、声、像等信息存储在磁光电介质上,通过计算机或具有类似功能的设备阅读使用的资料。电子资源应包括正或具有类似功能的设备阅读使用的资料。电子资源应包括正式出版的电子文献,也包括非正式出版的各种电子资源。式出版的电子文献,也包括非正式出版的各种电子资源。数字信息资源概念数字信息资源概念第2页,本讲稿共33页电子资源特点电子资源特点(1)(1)存储介质和传播形式发生变化存储介质和传播形式发生变化 (2)(2)以多媒体作为内容特征以多媒体作为内容特征 (3)(3)信息资源类型多种多样信息资源类型多种多样 第3页,本讲稿共33页(4)(4)多层次的信息服务功能多层次的信息服务功能 (5)(5)更新速度快、时效性强更新速度快、时效性强 (6)(6)具备功能强大的检索系统具备功能强大的检索系统(7)(7)不受时间、地域限制不受时间、地域限制 第4页,本讲稿共33页计算机信息检索系统的组成计算机信息检索系统的组成硬件硬件hardwarehardware软件软件softwaresoftware数据库数据库databasedatabase硬件,可以说是硬件环境,是和计算机检索有关的各种硬件硬件,可以说是硬件环境,是和计算机检索有关的各种硬件设备的总称。如:大型的计算机主机(服务器)、存储器设备的总称。如:大型的计算机主机(服务器)、存储器(硬盘或光盘)、网络、输入输出设备、计算机终端或个人(硬盘或光盘)、网络、输入输出设备、计算机终端或个人计算机(计算机(PCPC)等。)等。软件,与计算机检索相关的数据库系统软件及相关应用软件。包软件,与计算机检索相关的数据库系统软件及相关应用软件。包括信息采集、存储、信息标引加工、建库、词表管理、用户检索括信息采集、存储、信息标引加工、建库、词表管理、用户检索界面、提问处理、网络发布、数据库管理等模块。界面、提问处理、网络发布、数据库管理等模块。数据库,指按一定方式、以数字形式存储、可通过数据库,指按一定方式、以数字形式存储、可通过计算机存取、相互关联的数据集合。计算机存取、相互关联的数据集合。第5页,本讲稿共33页计算机信息检索类型计算机信息检索类型联机检索联机检索(online retrieval)(online retrieval)联机检联机检索中心索中心检索终端检索终端通信设施通信设施信息量大,更新快主仆式检索模式检索费用高 是指用户利用计算机终端设备是指用户利用计算机终端设备,通过通信线路或通过通信线路或网络网络,在联机检索中心的数据库进行检索并获得信息在联机检索中心的数据库进行检索并获得信息的过程的过程.第6页,本讲稿共33页光盘数据库检索光盘数据库检索单机光盘检索单机光盘检索联机光盘检索联机光盘检索客户端客户端客户端客户端客户端客户端光盘服务器光盘服务器系统软件系统软件局域网局域网局域网局域网光盘驱动器光盘驱动器数据库数据库联机光盘检索是指把单用户系统发展成多用户的局域联机光盘检索是指把单用户系统发展成多用户的局域网系统,通过网络(如校园网)连接多个用户终端,网系统,通过网络(如校园网)连接多个用户终端,用服务器管理多组光盘数据库及其检索系统。用服务器管理多组光盘数据库及其检索系统。第7页,本讲稿共33页联机光盘检索的特点:联机光盘检索的特点:1 1 由于存储介质和空间的限制,数据库数量没有联机由于存储介质和空间的限制,数据库数量没有联机检索多,信息量不够大,且更新速度较慢,一般为检索多,信息量不够大,且更新速度较慢,一般为月更新或季更新。月更新或季更新。2 2检索模式以客户端检索模式以客户端/服务器方式为主,检索效率得服务器方式为主,检索效率得到提高。到提高。3 3系统访问通过局域网就可以进行,不受大的网络环境系统访问通过局域网就可以进行,不受大的网络环境的影响,不需支付网络通信费。的影响,不需支付网络通信费。第8页,本讲稿共33页网络数据库检索网络数据库检索网络数据库网络数据库(web-database)(web-database)检索,是指用户在自己的客检索,是指用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索,这户端上,通过互联网和浏览器界面对数据库进行检索,这一类检索系统都是基于互联网的分布式特点开发和应用的。一类检索系统都是基于互联网的分布式特点开发和应用的。即即数据库分布式存储数据库分布式存储,不同的数据库分散在不同的数,不同的数据库分散在不同的数据库生产者的服务器上;据库生产者的服务器上;用户分布式检索用户分布式检索,任何地方,任何地方的终端都可以访问并存储数据;的终端都可以访问并存储数据;数据分布式处理数据分布式处理,任,任何数据都可以在网上的任何地点进行处理。何数据都可以在网上的任何地点进行处理。第9页,本讲稿共33页InternetInternetWWWWWW服务器服务器1 1数据库,系统数据库,系统客户端客户端1 1客户端客户端3 3WWWWWW服务器服务器2 2数据库,系统数据库,系统WWWWWW服务器服务器3 3数据库,系统数据库,系统客户端客户端3 3网络数据库分布方式及访问模式网络数据库分布方式及访问模式第10页,本讲稿共33页网络数据库检索特点:网络数据库检索特点:1 1 数据库和系统分布式管理,信息量大,响应速数据库和系统分布式管理,信息量大,响应速度快,更新速度也快。度快,更新速度也快。2 2 检索模式以客户端检索模式以客户端/网关服务器网关服务器/服务器方式为服务器方式为主,提高检索效率。主,提高检索效率。3 3 检索费用较低。检索费用较低。第11页,本讲稿共33页电子资源的主要检索方式电子资源的主要检索方式二次检索二次检索高级检索高级检索简单检索简单检索命令检索命令检索第12页,本讲稿共33页简单检索简单检索(simple search(simple search、easy search easy search、quick search quick search、basic basic search)search)简单检索,又称基本检索、快速检索,即为简单检索,又称基本检索、快速检索,即为用户提供一个简单的检索界面,帮助非专业或初用户提供一个简单的检索界面,帮助非专业或初入门用户方便提交的检索式。入门用户方便提交的检索式。页面上通常只有一个检索框,页面上通常只有一个检索框,不提供或提很少的检索入口,不提供或提很少的检索入口,不使用或很少使用组配算符。不使用或很少使用组配算符。第13页,本讲稿共33页第14页,本讲稿共33页二次检索二次检索(refined search)(refined search)二次检索,又称再次检索,是在已有的检索结二次检索,又称再次检索,是在已有的检索结果中进一步检索。果中进一步检索。进一步准确、精细地选择文献信进一步准确、精细地选择文献信息,有效淘汰相关度不高的检索息,有效淘汰相关度不高的检索结果,使检索效率最大化结果,使检索效率最大化第15页,本讲稿共33页第16页,本讲稿共33页高级检索高级检索(advanced searchadvanced search、guided searchguided search、expert searchexpert search)高级检索,也称复杂检索、向导式检索、专高级检索,也称复杂检索、向导式检索、专家检索。它包含组配检索,即将两个或两个以上家检索。它包含组配检索,即将两个或两个以上的检索词用不同的组配算符组合起来,如布尔逻的检索词用不同的组配算符组合起来,如布尔逻辑组配、位置算符组配等,使检索更为灵活,检辑组配、位置算符组配等,使检索更为灵活,检索结果更为准确。索结果更为准确。使用各类组配算符、使用检索限定、使用各类组配算符、使用检索限定、选择检索入口,其检索功能与简单检选择检索入口,其检索功能与简单检索基本一致,但检索结果更为准确。索基本一致,但检索结果更为准确。第17页,本讲稿共33页第18页,本讲稿共33页命令检索命令检索(command search)(command search)命令检索,又称指令检索,由检索命令检索,又称指令检索,由检索用户自行输入各种检索命令进行检索。用户自行输入各种检索命令进行检索。第19页,本讲稿共33页检索钱伟长在清华大学以外的机构工作期间所发表的,题检索钱伟长在清华大学以外的机构工作期间所发表的,题名中包含名中包含“流体流体”、“力学力学”文章。文章。题名题名=流体流体#力学力学 and(and(作者作者=钱伟长钱伟长 not not 机构机构=清华大学清华大学)第20页,本讲稿共33页检检索索技技术术布尔逻辑检索截词检索位置检索其它检索字段检索第21页,本讲稿共33页 利用布尔逻辑运算符利用布尔逻辑运算符(boolean(boolean operators)operators)(逻辑(逻辑“与与andand”、逻辑、逻辑“或或oror”、逻辑逻辑“非非notnot”)连接检索词,形成逻辑表达)连接检索词,形成逻辑表达式,计算机按表达式的指令进行逻辑运算,检式,计算机按表达式的指令进行逻辑运算,检索出数据库中与表达式相符的文献信息。索出数据库中与表达式相符的文献信息。布尔逻辑检索布尔逻辑检索第22页,本讲稿共33页ABABABA or B 或或 A+BA and B 或或 A*B A not B 或或 A-B第23页,本讲稿共33页截词检索截词检索(truncation)是利用检索词的词干或不完整词形进行检索的方法。是利用检索词的词干或不完整词形进行检索的方法。所谓不完整词形,就是检索词被从某一位置截断,该词的所谓不完整词形,就是检索词被从某一位置截断,该词的局部用通配符号局部用通配符号(“?”、“*”或或“$”)代替。计算机代替。计算机根据作为检索指令的词干或不完整词形与数据库中的信根据作为检索指令的词干或不完整词形与数据库中的信息进行匹配,凡是与检索词串相匹配的部分,即为命中息进行匹配,凡是与检索词串相匹配的部分,即为命中部分。部分。第24页,本讲稿共33页任意任意截断截断前截断前截断后截断后截断前后截断前后截断任意一致任意一致前方一致前方一致结果结果后方一致后方一致嵌入嵌入截断截断在检索词中间嵌入截断符号。在检索词中间嵌入截断符号。第25页,本讲稿共33页无限截断无限截断有限截断有限截断 截词检索的最大优点是使模糊检索成为截词检索的最大优点是使模糊检索成为可能。当对检索对象的了解不是很确切时,可能。当对检索对象的了解不是很确切时,可以有效地集中相关的文献信息;同时,可以有效地集中相关的文献信息;同时,它可以简化检索步骤,扩大检索范围,提它可以简化检索步骤,扩大检索范围,提高查全率。高查全率。第26页,本讲稿共33页位置检索位置检索 是一种对多个检索词在源文献中是一种对多个检索词在源文献中相对位置进行限定性查找的方法。位相对位置进行限定性查找的方法。位置检索检索通过位置算符置检索检索通过位置算符(position(position operators)operators)来实现对检索词位置的限来实现对检索词位置的限定。定。第27页,本讲稿共33页字段检索字段检索(field searching)字段检索,即指定检索词出现的字段,字段检索,即指定检索词出现的字段,被指定的字段也称检索入口。检索时,系统被指定的字段也称检索入口。检索时,系统只对指定的字段进行匹配运算,提高了效率只对指定的字段进行匹配运算,提高了效率和查准率。和查准率。第28页,本讲稿共33页第29页,本讲稿共33页表表5-1 5-1 数据库常用检索字段列表数据库常用检索字段列表西文数据库常用字段中文数据库常用字段字段名称字段代码TitleTI题名AuthorAU作者Keyword,TopicKW关键词Descriptor,SubjectDE主题词Corporate Source,CompanyCS机构(作者单位)AbstractAB文摘Document TypeDT文献类型Journal Name,Publication TitleJN期刊名称Publication YearPY出版年ISSN/ISBNISSN/ISBNISSN/ISBNFull_textFT全文第30页,本讲稿共33页其它检索技术其它检索技术 嵌套检索(优先算符,嵌套检索(优先算符,nestingnesting):即用括号将):即用括号将优先检索的检索式括起来,系统会首先检索括号中优先检索的检索式括起来,系统会首先检索括号中的概念。如:的概念。如:(cross country OR nordic)AND skiing(cross country OR nordic)AND skiing 限制检索限制检索(limiting search)(limiting search):在输入检索式时在输入检索式时,使用一些限定来缩小或约束检索结果的方法,也称使用一些限定来缩小或约束检索结果的方法,也称检索限定。检索系统通常以菜单的方式将所有可供检索限定。检索系统通常以菜单的方式将所有可供限定的内容排列出来,供检索用户选择。最常见的限定的内容排列出来,供检索用户选择。最常见的检索限定包括出版时间、语种、是否需要核心期刊检索限定包括出版时间、语种、是否需要核心期刊等。等。第31页,本讲稿共33页检索技巧检索技巧v检索结果过多,很多文献不相关?检索结果过多,很多文献不相关?进一步限定检索,提高检准率进一步限定检索,提高检准率 缩检缩检 更加准确地描述检索需求;更加准确地描述检索需求;严格限定检索范围:学科领域、时间、文章类型,关键严格限定检索范围:学科领域、时间、文章类型,关键词出现的字段等;词出现的字段等;选择与检索主题密切相关的词和专业术语,如:选择与检索主题密切相关的词和专业术语,如:kidney kidney disease OR renal failuredisease OR renal failure,避免使用过于宽泛的词,避免使用过于宽泛的词汇,如:汇,如:influenceinfluence;使用词组检索或位置检索;使用词组检索或位置检索;在检索结果的基础上进行二次检索;在检索结果的基础上进行二次检索;第32页,本讲稿共33页检索技巧检索技巧v检索结果过少,漏掉了相关文献?检索结果过少,漏掉了相关文献?放宽检索要求,提高检全率放宽检索要求,提高检全率 扩检扩检 去掉某个方面的检索要求;去掉某个方面的检索要求;放宽检索范围:学科领域、时间、文章类型,关键词出现的字段放宽检索范围:学科领域、时间、文章类型,关键词出现的字段等;等;将描述检索主题的词想全,包括同义词及缩写形式;将描述检索主题的词想全,包括同义词及缩写形式;如:如:NPC OR NPC OR Nasopharyngeal carcinomaNasopharyngeal carcinoma 使用单数单词检索,可以检索到大多数单词单数、复数和所有使用单数单词检索,可以检索到大多数单词单数、复数和所有格,不规则单词除外;格,不规则单词除外;如:如:city city 可以检索出可以检索出 city,cities,city city,cities,citys,citiess,cities使用通配符;使用通配符;第33页,本讲稿共33页