《网络信息资源检索.ppt.ppt》由会员分享,可在线阅读,更多相关《网络信息资源检索.ppt.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第六章第六章 网络信息资源检索网络信息资源检索本章内容一、网络资源概念及划分二、网络资源检索方法三、网络资源检索工具 1.分类 2.baidu,google搜索引擎 3.图书馆加工整理并定期更新的免费资源 一、网络信息资源(一、网络信息资源(Network Network Information ResourceInformation Resource):):1 1、概念:概念:网络信息资源网络信息资源是以电子计算机技术、通信是以电子计算机技术、通信技术、多媒体技术相互融合而形成的以电子网技术、多媒体技术相互融合而形成的以电子网络为传输性载体和传输媒介的信息资源。络为传输性载体和传输媒介的信
2、息资源。2 2、分类:、分类:根据不同的划分标准,可以获得不同的分根据不同的划分标准,可以获得不同的分类结果,主要有:类结果,主要有:(1)按人类信息交流的方式划分:)按人类信息交流的方式划分:a a、非正式出版信息。非正式出版信息。指流动性、随意性较强的,信息量大、信息质量难以保证和指流动性、随意性较强的,信息量大、信息质量难以保证和控制的动态性信息。控制的动态性信息。如电子邮件、专题讨论小组和论坛、电子会议、电子布告版如电子邮件、专题讨论小组和论坛、电子会议、电子布告版新闻等工具上的信息。新闻等工具上的信息。b b、半正式出版信息。半正式出版信息。又称又称“灰色灰色”信息,指受到一定产权保
3、护但没有纳入正式出信息,指受到一定产权保护但没有纳入正式出版信息系统中的信息。版信息系统中的信息。如各种学术团体和教育机构、企业和商业部门、国际组织和如各种学术团体和教育机构、企业和商业部门、国际组织和政府机构、行业协会等单位介绍宣传自己或其产品的描述性信息。政府机构、行业协会等单位介绍宣传自己或其产品的描述性信息。c c、正式出版信息。正式出版信息。指受到一定的产权保护,信息质量可靠、利用率较高的知识指受到一定的产权保护,信息质量可靠、利用率较高的知识性、分析性信息,用户一般可通过性、分析性信息,用户一般可通过WebWeb查询到。查询到。如各种网络数据库、联机杂志和电子杂志、电子图书、电子如
4、各种网络数据库、联机杂志和电子杂志、电子图书、电子报纸等。报纸等。(2 2)按照信息的加工程度划分:)按照信息的加工程度划分:a a、一次网络信息资源一次网络信息资源 因特网的原始信息,包括电子图书、电子期刊、电子因特网的原始信息,包括电子图书、电子期刊、电子报纸、电子邮件、网络会议论坛、网络新闻组、企业网站报纸、电子邮件、网络会议论坛、网络新闻组、企业网站(不包括虚拟的网络型网站的商业网站,如(不包括虚拟的网络型网站的商业网站,如YahooYahoo,搜狐、搜狐、新浪等)、政府网站、教育科研机构网站等等。新浪等)、政府网站、教育科研机构网站等等。b b、二次网络信息资源二次网络信息资源 对一
5、次网络信息资源的搜集、加工和处理,主要指搜对一次网络信息资源的搜集、加工和处理,主要指搜索引擎、虚拟图书馆等,是网络检索工具的重要组成部分。索引擎、虚拟图书馆等,是网络检索工具的重要组成部分。这类网络信息资源是用户经常利用的工具,是获取一次网这类网络信息资源是用户经常利用的工具,是获取一次网络信息资源的门户和入口。络信息资源的门户和入口。c c、三次网络信息资源三次网络信息资源 对二次网络信息资源的搜集和对已搜集二次网络信息对二次网络信息资源的搜集和对已搜集二次网络信息资源的组织,以元搜索引擎为其典型。资源的组织,以元搜索引擎为其典型。(3 3)按照网络信息的内容和用途划分:)按照网络信息的内
6、容和用途划分:a a、普通型:普通型:主要是反映某个组织或个人相关信息、某类主要是反映某个组织或个人相关信息、某类学科知识或者某一方面的信息,一般不具备站内强大的搜索功学科知识或者某一方面的信息,一般不具备站内强大的搜索功能,只是通过链接来组织各种内容信息。能,只是通过链接来组织各种内容信息。b b、专门资料型:专门资料型:主要指以查检为目的,为用户提供全面主要指以查检为目的,为用户提供全面内容信息的网络信息资源类型,如网络数据库、搜索引擎、专内容信息的网络信息资源类型,如网络数据库、搜索引擎、专利检索网站等等,它通常具有全文检索的功能,以免费或收费利检索网站等等,它通常具有全文检索的功能,以
7、免费或收费的方式提供服务。这类网络信息资源是我们进行信息检索时经的方式提供服务。这类网络信息资源是我们进行信息检索时经常利用到的信息资源。常利用到的信息资源。c c、数据资料型:数据资料型:通常是按内容、地域、时间、出版所有通常是按内容、地域、时间、出版所有权或者其它分类,组织起来的相关数据集合。如地区或城市介权或者其它分类,组织起来的相关数据集合。如地区或城市介绍,工程实况及记录,企事业机构名录、指南,字典、百科全绍,工程实况及记录,企事业机构名录、指南,字典、百科全书、年鉴、手册、产品样本等参考工具等,也包括一些统计数书、年鉴、手册、产品样本等参考工具等,也包括一些统计数据,产品或商品的规
8、格及价格,各种投资行情和分析等。据,产品或商品的规格及价格,各种投资行情和分析等。d d、即时资料型:即时资料型:指在网上论坛、新闻组、留言板等上面指在网上论坛、新闻组、留言板等上面实时产生的信息资源。这类网络信息由于发表方便,随意性较实时产生的信息资源。这类网络信息由于发表方便,随意性较大,动态性强。大,动态性强。(4 4)按照信息的表现形式划分:)按照信息的表现形式划分:a a、全文型:全文型:各种报纸、期刊文献的全文,政府出版物、各种报纸、期刊文献的全文,政府出版物、专利、标准以及全文型的其他网站。如我国的中国期刊网,专利、标准以及全文型的其他网站。如我国的中国期刊网,能提供几千种国内出
9、版期刊的全文数据查阅服务。能提供几千种国内出版期刊的全文数据查阅服务。b b、数值型:数值型:如主要提供统计数据、产品或商品的规格如主要提供统计数据、产品或商品的规格及价格的网站或网页。及价格的网站或网页。c c、书目、索引、文摘型:书目、索引、文摘型:如图书馆公共联机检索系统如图书馆公共联机检索系统就是典型的这类资源。就是典型的这类资源。ISIISI网站上的网站上的“Web of Science”Web of Science”是是著名的著名的SCI SSCJ AHCISCI SSCJ AHCI的的WebWeb版,能查阅各类引文数据。版,能查阅各类引文数据。d d、实时活动型:实时活动型:如各
10、种投资行情和分析,如各种投资行情和分析,BBSBBS讨论组,讨论组,网上商务贸易等。网上商务贸易等。(5)按发布机构分:)按发布机构分:a、企业站点信息资源企业站点信息资源 这类资源站点一般以这类资源站点一般以com为一级或二级域名注为一级或二级域名注册。如中国石化公司册。如中国石化公司http:/。其其信息资源一般以初始信息为主,如提供公司整体概信息资源一般以初始信息为主,如提供公司整体概况,各类产品信息、商业服务信息等,更新及时、况,各类产品信息、商业服务信息等,更新及时、动态性强。动态性强。b、学校、科研院所站点信息资源学校、科研院所站点信息资源 这类站点一般以这类站点一般以edu或或a
11、c为一级或二级域名注为一级或二级域名注册,如册,如http:/(江南大学)现名:(江南大学)现名:。主要提供学术性较强的各种信。主要提供学术性较强的各种信息,如科研活动介绍、学术动态、信息检索、远程息,如科研活动介绍、学术动态、信息检索、远程教育等。教育等。c、信息服务机构站点信息资源信息服务机构站点信息资源 这类站点一般以这类站点一般以netnet、comcom、govgov或行政区域为一级或二级或行政区域为一级或二级域名注册。如域名注册。如http:/http:/(中国科技信息中国科技信息网),网),http:/http:/ 这类站点一般以所属上级部门为域名注册,有这类站点一般以所属上级部
12、门为域名注册,有comcom、acac、govgov等,如等,如http:/http:/(中国汽车行业经济中国汽车行业经济技术信息网)。它们一般是再现行业信息、系统性、完整性技术信息网)。它们一般是再现行业信息、系统性、完整性较好。主要信息内容有企业名录、市场行情、行业论坛、政较好。主要信息内容有企业名录、市场行情、行业论坛、政策和法规、统计信息等。策和法规、统计信息等。(6 6)按传输协议分:)按传输协议分:a a、基于超文本传输协议(基于超文本传输协议(HTTPHTTP)的信息资源的信息资源 万维网(万维网(World Wide Web,World Wide Web,简称简称WWW,WWW
13、,或或WebWeb)信息资源是信息资源是一种典型的基于一种典型的基于HTTPHTTP的网络信息资源。的网络信息资源。HTTPHTTP是浏览器与是浏览器与WebWeb服服务器之间相互通信的协议。即务器之间相互通信的协议。即WebWeb客户机和服务器用于在网上客户机和服务器用于在网上传输、响应用户请求的协议。传输、响应用户请求的协议。当用户以当用户以httphttp:/开始一个链开始一个链接的名字时,是告诉浏览器去访问使用接的名字时,是告诉浏览器去访问使用HTTPHTTP的的WebWeb页。页。b b、基于文件传输协议(基于文件传输协议(FTPFTP)的信息资源的信息资源 FTPFTP协议的主要功
14、能是完成从一个系统到另一个系统完整协议的主要功能是完成从一个系统到另一个系统完整的文件复制,即在网络的联网计算机之间传输文件。通过的文件复制,即在网络的联网计算机之间传输文件。通过FTPFTP可以获得的信息资源类型广泛。广义地说,如何以计算机方可以获得的信息资源类型广泛。广义地说,如何以计算机方式存储的信息都可以通过式存储的信息都可以通过FTPFTP协议获取,包括书籍、图像、声协议获取,包括书籍、图像、声音、多媒体、一些书籍的电子版、电子期刊、某些政府机构音、多媒体、一些书籍的电子版、电子期刊、某些政府机构发布的信息、大量的免费与共享软件等。发布的信息、大量的免费与共享软件等。c c、基于远程
15、登录(基于远程登录(TelnetTelnet)的信息资源的信息资源 这是指通过这是指通过TelnetTelnet协议所访问到的网络信息资源。如协议所访问到的网络信息资源。如各类图书馆的公共查询目录系统、信息服务机构的综合信各类图书馆的公共查询目录系统、信息服务机构的综合信息系统等。息系统等。d d、用户服务组信息资源用户服务组信息资源 包括新闻组(包括新闻组(Usenet NewsgroupUsenet Newsgroup)、)、电子邮件群电子邮件群(ListservListserv)、)、邮件列表(邮件列表(Mailing ListMailing List)、)、专题讨论组专题讨论组(Dis
16、cussion GroupDiscussion Group)等。它们是由一组对某一特定主题等。它们是由一组对某一特定主题有共同兴趣的网络用户组成的电子论坛,是网络用户间的有共同兴趣的网络用户组成的电子论坛,是网络用户间的信息交流;但又各具特色和用途,锁定各自特定的用户。信息交流;但又各具特色和用途,锁定各自特定的用户。e e、GopherGopher信息资源信息资源 GopherGopher又称信息鼠,这是一种基于菜单的网络服务,又称信息鼠,这是一种基于菜单的网络服务,类似万维网的分布式客户机类似万维网的分布式客户机/服务器形式的信息资源体系。服务器形式的信息资源体系。它是因特网上一种分布式信
17、息查询工具,各个它是因特网上一种分布式信息查询工具,各个GopherGopher服务服务器之间彼此连接,全部操作都在一级级菜单的指引下,用器之间彼此连接,全部操作都在一级级菜单的指引下,用户只需在菜单中选择和浏览相关内容,就完成了对因特网户只需在菜单中选择和浏览相关内容,就完成了对因特网上远程联机信息系统的访问。此外,上远程联机信息系统的访问。此外,GopherGopher还可提供与前还可提供与前文所提及的其他多种信息系统的连接,如文所提及的其他多种信息系统的连接,如WWWWWW、FTPFTP、TelnetTelnet等。等。3 3、网络信息资源的特点:、网络信息资源的特点:(1 1)信息量大
18、,传播广泛;)信息量大,传播广泛;(2 2)信息层次多,品种多样;)信息层次多,品种多样;(3 3)自由发布,交流直接;)自由发布,交流直接;(4 4)信息传播速度快,变化频繁;)信息传播速度快,变化频繁;(5 5)检索方便,价廉实惠;)检索方便,价廉实惠;(6 6)分散无序,缺乏管理;)分散无序,缺乏管理;(7 7)内容庞杂,质量不一。)内容庞杂,质量不一。二、网络信息检索方法:二、网络信息检索方法:1、直接浏览:、直接浏览:(1)网址查询网址查询:如果用户要访问已知地址的信息资源,:如果用户要访问已知地址的信息资源,可以在浏览器地址栏中输入已知的网站或网页地址,直接进可以在浏览器地址栏中输
19、入已知的网站或网页地址,直接进行浏览。行浏览。获取网址的方法获取网址的方法:a、用户可以充分利用浏览器中的收藏夹功能,保存用户可以充分利用浏览器中的收藏夹功能,保存和管理浏览过的感兴趣的网站或网页。和管理浏览过的感兴趣的网站或网页。b、可以通过创建书签(可以通过创建书签(Bookmark)或热链或热链(Hotlink,Hotlist),),来将一些常用的,优秀的站点地址记来将一些常用的,优秀的站点地址记录下来,组织成目录以备今后之需。录下来,组织成目录以备今后之需。c、可以通过与他人的交流获取相关的网址。可以通过与他人的交流获取相关的网址。d、可以在一些刊物上有一些专门介绍某些专业网络可以在一
20、些刊物上有一些专门介绍某些专业网络资源的文章,也可供我们参考使用。资源的文章,也可供我们参考使用。(2 2)偶然发现偶然发现即在日常的网络阅读、漫游过程中、意外发现一些即在日常的网络阅读、漫游过程中、意外发现一些有用信息。这种方式的目的性不是很强,其具有不可预见有用信息。这种方式的目的性不是很强,其具有不可预见性、偶然性。性、偶然性。(3 3)顺顺“链链”而行而行指用户在阅读超文本文档时,利用文档中的链接从指用户在阅读超文本文档时,利用文档中的链接从一网页转向另一相关网页。这种方法可以在很短的时间内一网页转向另一相关网页。这种方法可以在很短的时间内获得大量相关信息,但也有可能在获得大量相关信息
21、,但也有可能在“顺链而行顺链而行”中偏离了中偏离了检索目标,或迷失于网络信息空间中:而且找到合适的检检索目标,或迷失于网络信息空间中:而且找到合适的检索起点也不容易。索起点也不容易。2 2、通过网络资源指南来查找信息、通过网络资源指南来查找信息对于有目的的网络信息发现具有重要的指导、导引作用。对于有目的的网络信息发现具有重要的指导、导引作用。综合性的主题分类树体系的网络资源指南,如:综合性的主题分类树体系的网络资源指南,如:YahooYahoo!专专业性的网络资源指南。业性的网络资源指南。局限性局限性在于:由于其管理、维护跟不上网络信息的增长在于:由于其管理、维护跟不上网络信息的增长速度,导致
22、其收录范围不够全面,新颖性、及时性可能不够速度,导致其收录范围不够全面,新颖性、及时性可能不够强;且用户还要受标引者分类思想的控制。强;且用户还要受标引者分类思想的控制。三、网络信息检索工具:三、网络信息检索工具:(一)概念:(一)概念:网络信息检索工具网络信息检索工具是指在因特网上提供信息检索服务是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。各种类型的网络信息资源。(二)一般构成:(二)一般构成:网络检索工具一般由索引程序、数据库和检索代理软网络检索工具一般由索引程序、数据库和检索代理
23、软件组成。件组成。1 1、网络检索工具搜集信息资源主要有两种类型的、网络检索工具搜集信息资源主要有两种类型的程序:程序:(1 1)人工程序人工程序是由专门的信息人员收集网上信息,并按是由专门的信息人员收集网上信息,并按规范进行分类标引,组建成索引数据库。这种采集方式可以规范进行分类标引,组建成索引数据库。这种采集方式可以保证所收集信息的质量和标引质量,但是效率低,更新慢。保证所收集信息的质量和标引质量,但是效率低,更新慢。(2 2)自动索引程序自动索引程序是现在大多数网络检索工具搜集信息是现在大多数网络检索工具搜集信息资源时使用的程序。通过采用一些网络自动跟踪索引程序资源时使用的程序。通过采用
24、一些网络自动跟踪索引程序(如如RobotRobot、SpiderSpider、CrawlerCrawler、WormsWorms、WanderWander等等)来完成。来完成。这种索引程序在网络上自动检索网络资源,并跟踪记录其网这种索引程序在网络上自动检索网络资源,并跟踪记录其网址、描述其特征及内容,建立索引数据库,并不断地自动更址、描述其特征及内容,建立索引数据库,并不断地自动更新数据库。这种程序保证了入库信息的及时性。不同的自动新数据库。这种程序保证了入库信息的及时性。不同的自动索引软件采用的标引、搜索策略不同,自动索引软件搜寻、索引软件采用的标引、搜索策略不同,自动索引软件搜寻、标引网页
25、的方式对信息检索的质量有直接影响。现在许多网标引网页的方式对信息检索的质量有直接影响。现在许多网络检索工具采取自动采集和人工标引相结合的方式建立数据络检索工具采取自动采集和人工标引相结合的方式建立数据库。库。2 2、数据库数据库是网络检索工具提供检索服务的基础。不同的网是网络检索工具提供检索服务的基础。不同的网络检索工具,数据库收录网络资源的类型与范围不同,标引络检索工具,数据库收录网络资源的类型与范围不同,标引方式也不同:方式也不同:有的收录各种类型的资源,如有的收录各种类型的资源,如WebWeb、UsenetUsenet、FTPFTP、GopherGopher等,有的只收录等,有的只收录W
26、ebWeb、UsenetUsenet等;等;有的标引主页的地址、标题、特定的段落和关键词;有的标引主页的地址、标题、特定的段落和关键词;有的对主页的全文进行标引。有的对主页的全文进行标引。因此,数据库的内容一般有网站的名称、标题、网址因此,数据库的内容一般有网站的名称、标题、网址URLURL、网页的长度、网页的时间、相关的超文本链接点、内网页的长度、网页的时间、相关的超文本链接点、内容简介或摘要等。容简介或摘要等。不同的数据库的规模差异也很大,如不同的数据库的规模差异也很大,如googlegoogle收录索引收录索引了近了近3333亿个网页,百度收录索引了一亿多个中文网页。数据亿个网页,百度收
27、录索引了一亿多个中文网页。数据库规模的大小决定了查询到的信息是否全面。库规模的大小决定了查询到的信息是否全面。3 3、检索代理软件检索代理软件负责处理用户的检索提问,并将检索结果负责处理用户的检索提问,并将检索结果提交给用户。提交给用户。不同的网络检索工具,采用的检索软件不同,提供的检不同的网络检索工具,采用的检索软件不同,提供的检索功能、支持的检索技术不同,对检索结果的处理方式不同。索功能、支持的检索技术不同,对检索结果的处理方式不同。检索软件功能的强弱直接影响检索效果。检索软件功能的强弱直接影响检索效果。检索软件功能强弱的判定,主要是看检索界面是否友好、检索软件功能强弱的判定,主要是看检索
28、界面是否友好、检索技术是否灵活多样、检索途径多少等几方面。检索技术是否灵活多样、检索途径多少等几方面。(三)类型:(三)类型:1 1、WebWeb资源检索工具:资源检索工具:WebWeb检索工具检索工具是指利用超文本(或超媒体)技术在因特是指利用超文本(或超媒体)技术在因特网上建立的一种提供网上信息资源导航、检索服务的专门网上建立的一种提供网上信息资源导航、检索服务的专门webweb服务器或网站。服务器或网站。目前发展最为迅速、最受人们欢迎的信息检索工具是目前发展最为迅速、最受人们欢迎的信息检索工具是WWW(WWW(即万维网即万维网)上的检索工具上的检索工具搜索引擎。搜索引擎。搜索引擎搜索引擎
29、是一个为你提供信息是一个为你提供信息“检索检索”服务的网站,它服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。网海中搜寻到所需要的信息。搜索引擎搜索引擎主要分为以下类型:主要分为以下类型:(1)全文搜索引擎()全文搜索引擎(Full Text Search Engine):):全文搜索引擎全文搜索引擎是通过从互联网上提取的各个网站的信息是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一
30、定的排列顺序将结果返回给用件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。户,因此他们是真正的搜索引擎。国外具代表性的有国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等;国内著名的有百度等;国内著名的有百度Baidu)。)。从搜索结果来源的角度,全文搜索引擎又可细分为从搜索结果来源的角度,全文搜索引擎又可细分为:A、拥有自己的检索程序(拥有自己的检索程序(Indexer),),俗称俗称“蜘蛛蜘蛛”(Spider)程序或程序或“机器人机器人”(Robot)程序,并自建网页程序,并自建网页
31、数据库,搜索结果直接从自身的数据库中调用,如上面提到数据库,搜索结果直接从自身的数据库中调用,如上面提到的的7家引擎;家引擎;B、租用其他引擎的数据库,并按自定的格式排列搜索结租用其他引擎的数据库,并按自定的格式排列搜索结果,如果,如Lycos引擎。引擎。此类搜索引擎使用关键词匹配方式检索,此类搜索引擎使用关键词匹配方式检索,速度速度快,用户易学易用,快,用户易学易用,但其不对内容处理的工作方式但其不对内容处理的工作方式导致搜索结果数量庞大,这就要求用户在设计导致搜索结果数量庞大,这就要求用户在设计构造构造检索表达式及对反馈结果的限制选择检索表达式及对反馈结果的限制选择上作一定的技上作一定的技
32、术处理,因而对用户的检索能力要求相对来说反而术处理,因而对用户的检索能力要求相对来说反而高些。同时,关键词搜索引擎的索引数据库建立的高些。同时,关键词搜索引擎的索引数据库建立的策略在很大程度上也将影响搜索引擎的效率与准确策略在很大程度上也将影响搜索引擎的效率与准确性。性。(2 2)目录索引类搜索引擎()目录索引类搜索引擎(Search Index/DirectorySearch Index/Directory):):目录索引类搜索引擎目录索引类搜索引擎主要采用人工或机器搜索信息,主要采用人工或机器搜索信息,由人工对搜集的信息进行甄别、分类、加工建立分类导航由人工对搜集的信息进行甄别、分类、加工
33、建立分类导航或分类编排网站目录,提供分类检索的引擎,它主要提供或分类编排网站目录,提供分类检索的引擎,它主要提供族性检索模式,符合人们从分类角度检索信息的习惯。族性检索模式,符合人们从分类角度检索信息的习惯。目录索引类搜索引擎对网上信息的目录索引类搜索引擎对网上信息的分类清晰明确、条分类清晰明确、条理性强,类目设置基本反映人们关注的主要问题理性强,类目设置基本反映人们关注的主要问题。但因人。但因人工分类工分类成本高、费时费力,标引速度慢,成本高、费时费力,标引速度慢,故这类引擎的故这类引擎的及及时性不强、信息量不大时性不强、信息量不大。此类搜索引擎的此类搜索引擎的特点特点:A、查准率高,但搜索
34、范围较小,查全率低;查准率高,但搜索范围较小,查全率低;B、在检索学科专业属性明显的信息时利用这种方式极在检索学科专业属性明显的信息时利用这种方式极为方便;为方便;C、搜索引擎信息归类的质量与用户对信息类别了解的搜索引擎信息归类的质量与用户对信息类别了解的程度将直接影响到查询结果。程度将直接影响到查询结果。目录索引虽然有搜索功能,但在严格意义上算不上是目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是真正的搜索引擎,仅仅是按目录分类的网站链接列表按目录分类的网站链接列表而已。而已。用户完全可以不用进行关键词(用户完全可以不用进行关键词(Keywords)查询,仅靠分查询,仅靠
35、分类目录通过层层电机浏览也可找到需要的信息。类目录通过层层电机浏览也可找到需要的信息。目录索引中最具代表性的是目录索引中最具代表性的是Yahoo雅虎。其他著名的还雅虎。其他著名的还有有Open Directory Project(DMOZ)、)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。等。国内的搜狐、新浪、网易搜索也都属于这一类。(3 3)分类全文型搜索引擎:)分类全文型搜索引擎:分类全文型搜索引擎分类全文型搜索引擎是上述两者相结合的搜索引擎。是上述两者相结合的搜索引擎。典型代表是典型代表是sohusohu。目前搜狐分类目录共有目前搜狐分类目录共有1616个
36、大类和个大类和5000050000多个不同层次的主题分类,形成了一个十分庞大的树枝状多个不同层次的主题分类,形成了一个十分庞大的树枝状结构。同时它又提供关键词方式,这样的检索结果全面,结构。同时它又提供关键词方式,这样的检索结果全面,可弥补单纯使用一种方式造成的缺陷,现在大多数引擎都可弥补单纯使用一种方式造成的缺陷,现在大多数引擎都采用这种方式。采用这种方式。(4 4)智能搜索引擎:)智能搜索引擎:智能搜索引擎智能搜索引擎结合了人工智能技术的新一代搜索引擎。结合了人工智能技术的新一代搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识由于它将信息检索从目前基于关键词层面提高到基于知识(
37、或概念)层面,对知识有一定的理解与处理能力,能够(或概念)层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。智能搜索引擎具有信息服务的智能化、人器翻译技术等。智能搜索引擎具有信息服务的智能化、人性化特征,允许用户采用自然语言进行信息的检索,为他性化特征,允许用户采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务,减轻了他们的压力,们提供更方便、更确切的搜索服务,减轻了他们的压力,是搜索引擎发展的方向,但目前所运用的技术还不够完善。是搜索引擎发展的方向,但目前所运用的技术还不够完善
38、。目前成功的智能搜索引擎有目前成功的智能搜索引擎有FSAFSA、EloiseEloise和和FAQFinderFAQFinder等。等。2、非、非Web资源检索工具:资源检索工具:非非webweb资源检索工具资源检索工具是指以非是指以非WebWeb资源为检索对资源为检索对象的检索工具。较为典型的有象的检索工具。较为典型的有gophergopher、waiswais、telnettelnet、archiearchie等非等非webweb检索工具。由于检索工具。由于webweb检索检索工具的出现这些传统的检索工具正走向消退,使工具的出现这些传统的检索工具正走向消退,使用者越来越少。用者越来越少。(
39、1 1)远程登录:)远程登录:远程登录远程登录是在网络通信协议的支持下使本地计算机暂是在网络通信协议的支持下使本地计算机暂时成为远程计算机仿真终端的过程。时成为远程计算机仿真终端的过程。在远程计算机上登录,必须事先成为该计算机系统的在远程计算机上登录,必须事先成为该计算机系统的合法用户并拥有相应的帐号和口令。登录时要给出远程计合法用户并拥有相应的帐号和口令。登录时要给出远程计算机的域名或算机的域名或IP地址,并按照系统提示,输入用户名及口地址,并按照系统提示,输入用户名及口令。登录成功后,用户便可以实时使用该系统对外开放的令。登录成功后,用户便可以实时使用该系统对外开放的功能和资源。功能和资源
40、。Telnet是一个强有力的资源共享工具。许多大学图书馆是一个强有力的资源共享工具。许多大学图书馆都通过都通过Telnet对外提供联机检索服务,一些政府部门、研究对外提供联机检索服务,一些政府部门、研究机构也将它们的数据库对外开放,用户可通过机构也将它们的数据库对外开放,用户可通过Telnet进行检进行检索。索。主要分为以下类型:主要分为以下类型:(2)文件传输服务:)文件传输服务:文件传输服务文件传输服务是由是由TCP/IP的文件传送协议(的文件传送协议(FTP,File Transfer Protocol)支持下实现的一种本地计算机和远支持下实现的一种本地计算机和远程服务器间的文件传送,通
41、常用程服务器间的文件传送,通常用FTP来表示文件传输服务。来表示文件传输服务。用户使用用户使用FTP将存放在异地计算机上的文件取回到自己计算将存放在异地计算机上的文件取回到自己计算机中,可以阅读和处理这些取来的文件;用户也可以将存机中,可以阅读和处理这些取来的文件;用户也可以将存放在本地计算机上的文件传送到远程的放在本地计算机上的文件传送到远程的FTP服务器上,让其服务器上,让其他人使用。他人使用。(3 3)电子邮件:)电子邮件:电子邮件(电子邮件(E-mailE-mail)是用户或用户组之间通过计算机是用户或用户组之间通过计算机网络收发信息的服务。网络收发信息的服务。目前电子邮件已成为网络用
42、户之间快速、简便、可靠目前电子邮件已成为网络用户之间快速、简便、可靠且成本低廉的现代通信手段,也是因特网上使用最广泛、且成本低廉的现代通信手段,也是因特网上使用最广泛、最受欢迎的服务之一。电子邮件使用网络用户能够发送或最受欢迎的服务之一。电子邮件使用网络用户能够发送或接收文字、图像和语音等多种形式的信息。通过电子邮件接收文字、图像和语音等多种形式的信息。通过电子邮件还可访问的信息服务有:还可访问的信息服务有:FTPFTP,ArchieArchie,GopherGopher,WWWWWW,NewsNews,WAISWAIS等。因特网网上的许多信息服务中心就提供了等。因特网网上的许多信息服务中心就
43、提供了这种机制。当用户想向这些信息中心查询资料时,只需要这种机制。当用户想向这些信息中心查询资料时,只需要向其指定的电子信箱发送一封含有一系列查询命令的电子向其指定的电子信箱发送一封含有一系列查询命令的电子邮件,用户就可以获得相应服务。此外,在因特网上有许邮件,用户就可以获得相应服务。此外,在因特网上有许多数据库可以通过电子邮件检索。多数据库可以通过电子邮件检索。(4 4)电子公告牌:)电子公告牌:电子公告牌(电子公告牌(BBS BBS,Bulletin Board SystemBulletin Board System)是因特是因特网上非常快捷的信息交流场所。网上非常快捷的信息交流场所。目前
44、,很多高校和信息服务机构都有目前,很多高校和信息服务机构都有BBSBBS,用户只要进用户只要进入入BBSBBS,就可以得到就可以得到BBSBBS系统所提供的各种服务。服务又分为系统所提供的各种服务。服务又分为有偿服务和免费服务。这两种类型的服务决定了用户使用有偿服务和免费服务。这两种类型的服务决定了用户使用BBSBBS系统的时间和权限。各地的系统的时间和权限。各地的BBSBBS系统一般都让初次访问的系统一般都让初次访问的用户能够免费浏览系统的内容,用户可在各个用户能够免费浏览系统的内容,用户可在各个BBSBBS系统间进系统间进行选择,然后在确定是否要成为这个系统的正式用户。通过行选择,然后在确
45、定是否要成为这个系统的正式用户。通过BBSBBS可随时取得国际最新的软件及信息,也可以通过可随时取得国际最新的软件及信息,也可以通过BBSBBS系统系统来和别人讨论各种有趣话题、刊登启示、收发电子信件、进来和别人讨论各种有趣话题、刊登启示、收发电子信件、进行文件交流、网上游戏等。在行文件交流、网上游戏等。在BBSBBS上,有发言权的用户可以上,有发言权的用户可以畅所欲言,也可以询问任何信息,包括电脑、生活时事等任畅所欲言,也可以询问任何信息,包括电脑、生活时事等任何方面的信息。何方面的信息。(5 5)ArchieArchie:ArchieArchie是因特网上用来查找其标题满足特定条件的所有是
46、因特网上用来查找其标题满足特定条件的所有文档的自动搜索服务的工具。文档的自动搜索服务的工具。ArchieArchie文档搜索系统是检索匿名文档搜索系统是检索匿名FTPFTP资源的工具。为了资源的工具。为了从匿名从匿名FTPFTP服务器上下载一个文件,必须知道这个文件的所服务器上下载一个文件,必须知道这个文件的所在地,即必须知道这个匿名在地,即必须知道这个匿名FTPFTP服务器的地址及文件所在的服务器的地址及文件所在的目录名。目录名。ArchieArchie就是帮助用户在遍及全世界的千余个就是帮助用户在遍及全世界的千余个FTPFTP服服务器中寻找文件的工具。务器中寻找文件的工具。Archie S
47、erverArchie Server又被称做文档查询服务器。用户只要给又被称做文档查询服务器。用户只要给出所要查找文件的全名或部分名字,文档查询服务器就会指出所要查找文件的全名或部分名字,文档查询服务器就会指出在哪些出在哪些FTPFTP服务器上存放着这样的文件。使用服务器上存放着这样的文件。使用ArchieArchie进行进行查询的前提;要有查找的文件名或部分文件名,知道某个或查询的前提;要有查找的文件名或部分文件名,知道某个或几个几个ArchieArchie服务器的地址。服务器的地址。(6)广域消息服务:)广域消息服务:广域消息服务(广域消息服务(WAIS,Wide Area Informa
48、tion Service):):在在1991年由年由Brewster Kahle发明,并由发明,并由Thinking Machines公司发布,它是一种数据库索引查询服务。公司发布,它是一种数据库索引查询服务。Archie所处理的是文件名,不涉及文件的内容;而所处理的是文件名,不涉及文件的内容;而WAIS则是通过文件内容(而不是文件名)进行查询。因此,则是通过文件内容(而不是文件名)进行查询。因此,如果打算寻找包含在某个或某些文件中的信息,如果打算寻找包含在某个或某些文件中的信息,WAIS便是便是一个较好的选择。一个较好的选择。WAIS是一种分布式文本搜索系统,它基于是一种分布式文本搜索系统,
49、它基于Z39.50标准。标准。用户通过给定索引关键词查询到所需的文本信息,如文章或用户通过给定索引关键词查询到所需的文本信息,如文章或图书等。图书等。(7 7)GopherGopher:GopherGopher是基于菜单驱动的因特网信息检索工具。是基于菜单驱动的因特网信息检索工具。GopherGopher的菜单项可以是一个文件或一个目录,分别标的菜单项可以是一个文件或一个目录,分别标以相应的标记。是目录则可以继续跟踪进入下一级菜单;以相应的标记。是目录则可以继续跟踪进入下一级菜单;是文件则可以用多种方式获取,如邮寄、存储、打印等。是文件则可以用多种方式获取,如邮寄、存储、打印等。GopherGopher内部集成了内部集成了TelnetTelnet,FTPFTP等工具,可以直接取出文件,等工具,可以直接取出文件,而无需知道文件所在及文件获取工具等细节。而无需知道文件所在及文件获取工具等细节。GopherGopher是一个深受用户欢迎的因特网信息查询工具。是一个深受用户欢迎的因特网信息查询工具。通过通过GopherGopher可以进行文本文件信息查询、电话簿查询、多可以进行文本文件信息查询、电话簿查询、多媒体信息查询、专有格式的文件查询等。媒体信息查询、专有格式的文件查询等。
限制150内