网络信息检索基础知识.ppt
《网络信息检索基础知识.ppt》由会员分享,可在线阅读,更多相关《网络信息检索基础知识.ppt(120页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、网络信息检索基础知识、方法网络信息检索基础知识、方法与技巧与技巧n主讲人:杨淑萍主讲人:杨淑萍 硕士硕士n郑州大学图书馆参考咨询部郑州大学图书馆参考咨询部 n电话:电话:6778167767781677第一讲第一讲 网络信息检索基本知识网络信息检索基本知识n网络信息资源的概念网络信息资源的概念n网络资源的发展过程网络资源的发展过程n网络信息资源的类型网络信息资源的类型n网络信息检索的概念网络信息检索的概念n网络信息检索的发展历程网络信息检索的发展历程n网络信息资源的检索方法与检索技术网络信息资源的检索方法与检索技术网络资源的概念n网络资源网络资源:指一切以数字形式生产、发行并指一切以数字形式生
2、产、发行并通过网络检索、获取和利用的信息资源。通过网络检索、获取和利用的信息资源。数字形式是以能被计算机识别的、不同序数字形式是以能被计算机识别的、不同序列的列的“0”“0”和和“1”“1”构成的形式。网络资源构成的形式。网络资源中的信息包括文字、图片、声音、动态图中的信息包括文字、图片、声音、动态图象等,以数字代码的方式存储在磁带、磁象等,以数字代码的方式存储在磁带、磁盘等介质上,通过计算机输出设备和网络盘等介质上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端传送出去,最终显示在用户的计算机终端上。上。网络资源的产生与发展网络资源的产生与发展n19501950年代:电子管计算
3、机的产生,人们开年代:电子管计算机的产生,人们开始研究计算机情报检索系统始研究计算机情报检索系统n19601960年代初:最早的数据库伴随着美国化年代初:最早的数据库伴随着美国化学文摘社(学文摘社(CASCAS)开始发行)开始发行“化学题录化学题录”(Chemical Title)Chemical Title)而产生,同期出现的而产生,同期出现的还有美国医学图书馆的还有美国医学图书馆的“医学索引医学索引”(Index MedicusIndex Medicus)。)。19651965年大约有年大约有2020多多个数据库可以提供使用,但使用范围不大,个数据库可以提供使用,但使用范围不大,内容主要以
4、书目、文摘、索引为主。内容主要以书目、文摘、索引为主。网络资源的产生与发展(一)19651965年年-1990-1990年代:由于集成电路技术、硬盘技年代:由于集成电路技术、硬盘技术、数字通信技术、分组交换网技术的发展。开术、数字通信技术、分组交换网技术的发展。开始有了数据库联机检索系统(如始有了数据库联机检索系统(如DIALOGDIALOG、MEDLINEMEDLINE等),等),19751975年提供使用的联机数据库已年提供使用的联机数据库已有有300300个左右,其生产和运作模式也由政府行为个左右,其生产和运作模式也由政府行为转向商业行为,用户群也由政府机构扩展到更多转向商业行为,用户群
5、也由政府机构扩展到更多的图书馆和科研机构。到的图书馆和科研机构。到8080年代末数据库的数量年代末数据库的数量已达到已达到36003600多个,数据库容量增加,出现了光盘多个,数据库容量增加,出现了光盘介质,全文数据库迅速增加、出现了数值数据库介质,全文数据库迅速增加、出现了数值数据库和事实数据库。这一时期是联机检索系统发展的和事实数据库。这一时期是联机检索系统发展的鼎盛时期。鼎盛时期。网络资源的产生与发展(二)网络资源的产生与发展(二)n1990年代以来:网络和信息处理技术的发展,使得基于互联网开发的电子资源及其检索系统飞速发展,很多数据库商逐步把电子资源移植到WWW上。数据库发展的一个主要
6、特点之一是多媒体。又出现了电子期刊、电子图书、电子报纸以及其他动态信息。内容涉及商业、新闻/综合、科技/工程、法律、医学/生命科学、人文科学、社会科学及各种交叉学科。网络资源的类型n按网络资源的性质和功能划分n按网络资源的生产途径和发布范围划分n按网络资源的载体划分n按网络资源的学科划分按网络资源的加工程度划分n零次信息:网上学术信息中的新闻信息和动态信息这两零次信息:网上学术信息中的新闻信息和动态信息这两大类可以考虑与传统大类可以考虑与传统“零次信息零次信息”相匹配(当然性质相匹配(当然性质不完全相同)不完全相同)n一次信息:就是原始文献,如全文信息。一次信息:就是原始文献,如全文信息。n二
7、次信息:对一次信息进行加工、整理,便于利用一次二次信息:对一次信息进行加工、整理,便于利用一次文献的信息资源,只提供题名、来源、文摘等体露信息。文献的信息资源,只提供题名、来源、文摘等体露信息。如文摘型数据库如文摘型数据库,中文生物医学期刊目次数据库、中文生物医学期刊目次数据库、工程索引数据库工程索引数据库EI等。等。n三次信息:指对二次信息进行综合分析、加工、整理的三次信息:指对二次信息进行综合分析、加工、整理的信息资源,如信息资源,如WebCrawler(元搜索引擎)元搜索引擎)按网络资源的生产途径和发布范围划分n商用网络电子资源(正式出版物):电子期刊、全文数据库、电子图书、参考数据库n
8、网络公开学术资源:学术网站、学科资源导航、搜索引擎/分类指南等n特色资源(灰色资源):古籍特藏、学位论文、教学课件等n其他:FTP资源、BBS。按网络资源的载体划分n文摘、索引数据库n电子图书 n电子期刊n电子会议录n电子版专利(中国专利、美国专利)n电子版工具书(如网络版的大不列颠百科电子版工具书(如网络版的大不列颠百科全书、汉语词典等)全书、汉语词典等)按网络资源的学科范围划分n理工(如)理工(如)n人文人文n社会科学(新华社多媒体社会科学(新华社多媒体n医学医学(Medline、医学全文)、医学全文)n农业(农业(CNKI农业专辑)农业专辑)n经济(国研网数据库、中国咨讯行数据库)经济(
9、国研网数据库、中国咨讯行数据库)n法律法律(Lexsis、nexsisn综合等综合等(CNKI、学位论文数据库、书生数字图书、学位论文数据库、书生数字图书馆)馆)按信息的有偿性划分按信息的有偿性划分n分为付费和免费量大类。分为付费和免费量大类。n付费的网络资源大多技术含量高、整理有序、具有很高的利用价值和参考价值。如,Dialog、CNKI等大型数据库系统。免费或试用数据库。如美国专利数据库。免费资源免费资源付费资源付费资源网络资源的检索n网络信息检索的发展历程n网络资源检索的概念n网络资源检索系统的构成、功能模块n网络资源检索系统的特点n网络数据库检索的概念n网络数据库检索的特点n检索语言n
10、网络资源检索系统评价网络信息检索的发展历程n伴随着网络资源的出现,网络信息检索也随之发展起来。在信息检索活动中,手工检索曾是最基本最常用的检索手工检索曾是最基本最常用的检索方法方法,从检索原理看,手工检索与计算机检索是基本一致的,而且计算机检索就是在手工检索基础上发展起来的。随着计算机技术、网络通讯技术和信息存储技术的飞速发展,传统手工检索过渡到了计算机检索。进入传统手工检索过渡到了计算机检索。进入2020世纪世纪9090年代,互联网的发展使人类社会信息的存储、传年代,互联网的发展使人类社会信息的存储、传递、交流和利用发生了革命性的变化,递、交流和利用发生了革命性的变化,互联网上的信息互联网上
11、的信息资源呈现爆炸性增长,传统相对独立的联机检索系统纷资源呈现爆炸性增长,传统相对独立的联机检索系统纷纷变成了互联网上的一个站点,纷变成了互联网上的一个站点,计算机检索由此进入了计算机检索由此进入了网络信息检索阶段。网络信息检索阶段。网络信息资源检索的概念n网络信息检索:网络信息检索:就是利用计算机、高速信息网络等信息技术存储和检索信息的过程。即人们通过联网计算机,并使用特定的检索指令、检索词、检索提问和检索策略,从网络资源中检索出所需要的信息,并可以在终端设备显示、下载、保存或打印。n网络信息检索的实质是网络信息检索的实质是“匹配运算匹配运算”,即用户输入的检索提问与检索系统中存储的信息特征
12、标识及其逻辑组配关系进行比对、组配,并把相符合的信息调出来的过程。简单的说也就是一个信息查找的过程。需要人、计算机(和网络)共同作用来完成的。n 网络信息资源检索系统的物理构成 n(1)服务器服务器n服务器是检索系统的核心部分,在检索过程中需要处理大量的指令和数据。这需要服务器具有较高的运算速度和处理能力,并且具有相当大的信息存储容量。n服务器决定了系统的检索速度和存储容量,而软件部分的作用则是充分发挥硬件的功能,主要进行信息的存储、处理、检索以及整个系统的运行管理。服务器软件和硬件的组成反映了整个信息检索系统的检索能力。(如CNKI服务器)(2)通信网络通信网络 n通信网络是终端与服务器之间
13、的桥梁,其作用是确保信息传递的畅通无阻;而且通讯网络的性能决定着网络信息检索的速度和效率。n国际上大型联机检索系统的主机与本地区数据通信网络相联,在网络上有端口,检索用户通过网线和网络设备检索数据库信息。(3)检索终端检索终端n检索终端是用户与检索系统传递信息进行“人机对话”的装置,有电传终端(如电话)、数电传终端(如电话)、数传终端和微机终端等。现在基本上都是微机终端。传终端和微机终端等。现在基本上都是微机终端。n常用的微机终端,由计算机、打印机以及调制解调器组成。n调制解调器的作用主要是把终端的信息在传输前加载到一个载波信号上(称之为调制)(称之为调制),接受端在接收信号时通过检测收到的信
14、息偏离精确载波信号的程度,分离出原先发送的信号(称之为解调),以解决信息传输过程中的衰减问题。(4)软件)软件n软件的作用是充分发挥硬件的功能,进行信息的存储、处理检索以及整个系统的运行管理。n操作系统软件:WindowsXP、2000,WindowsNT等。n数据库管理系统软件:SQLserver2000、Oracle,Sybase等。n数据库检索软件和阅读软件:AcrobatReader(阅读PDF格式文件、sreader(超星),vip(维普),CAJ(CNKI中国学术期刊数据库)。(5)数据资源数据资源n按内容划分,包括网络数据库、联机馆藏目录苦、电子出版物(电子图书、电子期刊、电子报
15、纸)、政府机构信息(包括有关组织机构的宗旨、业务范围、人员、最新信息分布、各种法律、法规、政策信息等)、网络综合信息(包括购物、生活、商务、休闲娱乐等)。网络资源检索系统的功能模块n信息采集模块信息采集模块n信息存储模块信息存储模块n标引著录模块标引著录模块n规范模块(著录后形成规范模块)规范模块(著录后形成规范模块)n内容发布模块内容发布模块n检索模块检索模块n服务模块(如下载、浏览、保存、打印)服务模块(如下载、浏览、保存、打印)n管理模块管理模块网络信息检索的特点(一)n(1)信息检索空间的拓宽,可以检索因特网上的各信息检索空间的拓宽,可以检索因特网上的各类资源,检索这不必预先知道某种资
16、源的具体地类资源,检索这不必预先知道某种资源的具体地址。址。(2 2)检索快捷)检索快捷:处理速度快、运算准确、可靠性高。n(3)多元灵活:多元灵活:可以采用逻辑运算和限制检索等功能,使检索词之间能够灵活地进行组配。n(4)交互式作业方式:能够从用户命令中获取交互式作业方式:能够从用户命令中获取指令,即时相应用户要求,执行相应操作,并具指令,即时相应用户要求,执行相应操作,并具有良好的信息反馈功能。用户在检索过程中可以有良好的信息反馈功能。用户在检索过程中可以及时调整检索策略,并能及时获得联机检索帮助及时调整检索策略,并能及时获得联机检索帮助和指导。和指导。网络信息检索的特点(二)n(5)(5
17、)更新迅速、及时更新迅速、及时:如许多动态类资源,可以随时更新。n(6)(6)资源共享资源共享:利用本地计算机可以查询、获取网上丰富的信息资源,每个联网计算机都可以成为网上的信息源,实现资源共享。n(7 7)用户界面友好、操作简便)用户界面友好、操作简便:网络信息检索对用户屏蔽了各个局域网间的物理差异,使用户在透明的系统平台上,使用自己熟悉或方便的检索界面、检索指令进行检索查询,并以自己所需的格式显示或输出、打印、保存自己检索到的信息资源,大大方便了用户检索、使用。n(8)由于网络资源杂乱无序,检索结果冗余信息多。网络数据库检索的概念n在学术信息资源检索中,用的较多的是网络数据在学术信息资源检
18、索中,用的较多的是网络数据库,网络数据库是库,网络数据库是指用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索,这一类检索系统都是基于互联网的分布式特点开发和应用的,即:数据库分布式存储,不同的数据库分布在不同的数据库生产者的服务器上;用户分布式检索,任何地方的终端都可以访问并存储数据;数据分布式处理,任何数据都可以在网上的任何地点进行处理。网络数据库检索系统的特点n(1)(1)检索快捷检索快捷:处理速度快、运算准确、可靠性高。n(2)(2)多元灵活:多元灵活:可以采用逻辑运算和限制检索等功能,使检索词之间能够灵活地进行组配。n(3)(3)信息量大,数量多,一次可以检索各个年代范围的
19、资源。n(4)(4)更新迅速、及时更新迅速、及时:如许多动态类资源,可以随时更新,又如美国OCLC网络的First Search检索系统,新刊出版后3天内,即可出现。网络数据库检索系统的特点n(5)5)资源共享资源共享:利用本地计算机可以查询、获取网上丰富的信息资源,实现资源共享。n(6)(6)方式多样方式多样:可以提供网络订购、直接获取全文等多种服务,可按要求输出。n(如题录格式、文摘格式、全文格式等)n(7 7)用户界面友好、操作简便)用户界面友好、操作简便:网络信息检索对用户屏蔽了各个局域网间的物理差异,使用户在透明的系统平台上,使用自己熟悉或方便的检索界面、检索指令进行检索查询,并以自
20、己所需的格式显示或输出、打印、保存自己检索到的信息资源,大大方便了用户检索、使用。网络数据库检索系统的特点n另外还有以下特点:另外还有以下特点:n检索针对性强,检索效果好(相对一般网络搜索)检索针对性强,检索效果好(相对一般网络搜索)n形式多媒体化,服务形式更直观形式多媒体化,服务形式更直观n响应速度快响应速度快n客户端客户端/网关服务器网关服务器/服务器检索模式提高了检索效率服务器检索模式提高了检索效率n信息组织模式超链接化信息组织模式超链接化n检索功能强,通过检索功能强,通过WWWWWW提供检索,易学易用提供检索,易学易用n数据库的购买费用较高数据库的购买费用较高n用户界面基于用户界面基于
21、WWWWWW开发,方便友好开发,方便友好n应用程序与数据服务器隔离应用程序与数据服务器隔离,使得数据库数据安全性好。,使得数据库数据安全性好。检索语言(retrieval language)n检索语言的概念和作用n检索语言的类型检索语言的概念和作用n检索语言检索语言(retrieval language):是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。检索的运算匹配就是通过检索语言的匹配来实现的。是人与检索系统对话的基础。n作用:对文献的外部特征和内部特征进行多层次描述,提供多种检索途径,以方便用户从不同角度检索查找。检索语言的类型n人工语言:是根据信息检索的需要而由
22、人工创制人工语言:是根据信息检索的需要而由人工创制的,采用规范词(的,采用规范词(controlled term),用来),用来专指某个概念,可以将同义词、近义词、相关词、专指某个概念,可以将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制。人工多义词及缩略词规范在一起,由人工控制。人工语言包括:分类检索语言(分类号)、主题检索语言包括:分类检索语言(分类号)、主题检索语言和代码检索语言(化学物质登记号)。语言和代码检索语言(化学物质登记号)。n自然语言自然语言:检索用词是从信息内容本身抽取的,检索用词是从信息内容本身抽取的,主要依赖于计算机自动抽词技术完成主要依赖于计算机自动抽词
23、技术完成。自然语言检索自然语言检索人工语言人工语言网络资源获取途径:网络资源获取途径:途径途径之一:搜索引擎之一:搜索引擎n工作原理:由网络搜索软件(Robot、Spider、Worm等)自动定期遍历各类网站,自动搜集网页信息进行索引建库并提供全文检索。不仅可以快速地搜集全球各网站的信息,还及时发现新的网站内容并剔除已废弃的网站网页,及时更新完善自身数据库。数据库规模可以做得相当庞大,数据的时效性也可以得到有力保障,大大提高了网络信息的查全率、及时性及有效性。n优点:信息量大;信息更新速度快;方便普通用户使用。n缺陷:信息噪音较大。网络资源获取途径网络资源获取途径网络检索工具网络检索工具n途径
24、之一:搜索引擎途径之一:搜索引擎n第一代第一代:以网络、网页的数量:以网络、网页的数量 多少为标准,结果多少为标准,结果不按相关性排序,代表为不按相关性排序,代表为Lycos,Lycos是搜索引是搜索引擎中的元老,是最早提供信息搜索服务的网站之擎中的元老,是最早提供信息搜索服务的网站之一。一。n第二代:第二代:以以检检索索结结果的果的质质量量为为目目标标,检检索思想、索思想、方法方法发发生生转变转变,检检索索结结果排序并果排序并进进行超行超链链分析,分析,代表代表为为GoogleGoogle、Baidu Baidu。n第三代第三代:未来:未来趋势趋势智能化搜索工具,智能化搜索工具,进进行概念分
25、行概念分析。析。根据检索提问,进行智能化分析与搜索,并根据检索提问,进行智能化分析与搜索,并对检索结果进行分析、筛选、排序、链接和提示对检索结果进行分析、筛选、排序、链接和提示等。等。Google主页主页网络资源获取途径之二:网络资源获取途径之二:网网络络地址地址n一个城市如果没有街道、门牌号,要找到一个地方很难,网络也如此。n在国际互联网上有成千百万台主机,为了区分它们,给每台主机都分配了一个专门的“地址”作为标识,称为IP地址。每个IP地址的长度为32位(bit),每段数字范每段数字范围为围为1 1254Bit254Bit,段与段之间用小数点分隔。如n由于IP地址是数字型的,使用起来不方便
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息 检索 基础知识
限制150内