第4章网络信息资源检索.ppt
《第4章网络信息资源检索.ppt》由会员分享,可在线阅读,更多相关《第4章网络信息资源检索.ppt(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第4章 网络信息资源检索第第4章章 网络信息资源检索网络信息资源检索4.1 网络信息资源概述网络信息资源概述4.2 搜索引擎搜索引擎4.3 开放存取开放存取第4章 网络信息资源检索4.1 网络信息资源概述网络信息资源概述第4章 网络信息资源检索4.1.1 网络信息资源的定义和特点1.网络信息资源的定义网络信息资源是指通过计算机网络可以利用的各种信息资源的总和,即以数字化形式记录的,以多媒体形式表达的,分布式存储在网络计算机的存储介质以及各类通信介质上,并通过计算机网络通信方式进行传递的信息内容的集合。网络信息资源将原本相互独立、分布于世界各地的数据库、信息中心、文献中心等联结在一起,形成一个内
2、容与结构全新的信息整体。2.InternetInternet是世界上规模最大、覆盖面最广、信息资源最为丰富的计算机信息资源网络。它将遍布全球的各个国家和地区的计算机系统连接而成了一个计算机互联网络。从技术角度看,Internet是一个以TCP/IP作为通信协议连接各国、各地区、各机构计算机网络的数据通信网络;从资源角度来看,它是一个集各部门、各领域的各种信息资源为一体的,供网络用户共享的信息资源网络。3.网络信息资源的特点网络信息资源是通过网络生产和传播的数字化资源。在Internet这个信息媒体和交流渠道的支持下,网络信息资源日益成为人们获取信息的首选。1)信息量大、传播广泛第4章 网络信息
3、资源检索2)信息类型多样、内容丰富3)信息时效性强、动态、不稳定4)信息分散无序、但关联程度高5)信息价值差异大、难于管理4.1.2 网络信息资源的类型1按网络传输协议划分1)WWW信息资源WWW信息资源是建立在超文本、超媒体技术以及超文本传输协议(Hyper Text Transfer Protocol,HTTP)基础上的集文本、图形、图像、声音于一体,以直观的图形界面来展现和提供信息的网络资源形式。WWW其实是Internet中一个特殊的网络区域,这个区域是由网上所有超文本格式的文档(网页)集合而成的。超文本文档里既有数据又有包含指向其他文档的“链”(link),使得不同文档里的相关信息连
4、接在一起。通过这些“链”,用户在WWW上查找信息时,可以从一个文档跳到另一个文档,而不必考虑这些文档在网络上的具体地点。WWW信息资源是Internet信息资源的最主要、最常见的形式。2)TELNET信息资源TELNET信息资源是指在远程登录协议的支持下,用户计算机经Internet登录远程计算机,使自己的本地计算机暂时成为远程计算机的一个终端,进而可以实时访问,并在权限允许的范围内实时使用远程计算机系统中的各种硬件资源和软件资源。第4章 网络信息资源检索3)FTP信息资源信息资源文件传输协议(File Transfer Protocol,FTP)的主要功能是利用网络在本地与远程计算机之间建立
5、连接,从而使不同操作系统的计算机之间实现文件传送。FTP一般在组织或机构内部比较常见,使用的网络信息资源可为任何类型,不过目前以应用程序软件和多媒体信息资源为主。目前,FTP仍是发布、共享、传递软件和长文件的主要方法。4)新闻组信息资源新闻组(Usenet Newsgroup)是一种利用网络环境提供专题讨论服务的应用软件,是Internet服务体系的一部分。在此体系中,有众多的新闻组服务器,它们接收和存储有关主题的消息供用户查阅。5)电子邮件信息资源电子邮件(Electronic Mail,E-mail)是借助网络传递信息的现代化通信方式。6)Gopher信息资源Gopher是一种基于菜单的网
6、络服务程序,能为用户提供广泛、丰富的信息。通过Gopher,用户无需知道信息的存放位置和掌握相关的操作命令就能快速找到并访问所需的网络资源。7)WAIS信息资源信息资源广域信息服务器是一种双层客户机/服务器结构的网络全文信息资源和检索体系,允许用户在不同结构的远程数据库之间传输和检索信息。第4章 网络信息资源检索2.按照网络信息资源的组织方式划分信息组织是将无序状态的特定信息,根据一定的原则和方法,使其成为有序状态的过程。其目的在于将无序信息变为有序信息,方便人们有效利用和传递信息。面目前使用较为普遍的方式主要有以下四种。1)文件方式文件(File)是一种较为古老的信息组织方式,适用于网络信息
7、资源。文件方式简单方便,适合存储文本、程序、图形、图像、图表、音频、视频等非结构化信息。因此,文件本身只能作为信息单位成为其他信息组织方式的管理对象。2)超文本/超媒体方式超文本/超媒体方式是一种新型的信息管理组织方式,不仅注重所要管理的信息本身,而且更加注重信息之间关系的建立与表达。超文本方式以线性和静态的文本信息为处理对象,超媒体方式是超文本与多媒体技术的结合,将文字、图表、声音、图像、视频等多媒体信息以超文本方式组织管理。3)数据库方式数据库是对大量的规范化数据进行管理的技术。它将要处理的数据经合理分类和规范化处理后,以记录形式存储于计算机中,用户通过关键词及其组配查询,就可以找到所需信
8、息或其线索。利用数据库技术组织信息资源可在很大程度上提高信息的有序性、完整性和安全性,提高对大量的结构化数据的处理效率。第4章 网络信息资源检索4)网站网站(WebSite)一般综合采用文件、超文本/超媒体和数据库等方式将内容相关的信息组织到主页和从属页面中。它们既是信息资源开发的要素,又是网络中的实体。3按照网络信息资源的内容划分1)网络数据库网络数据库是借助Internet,以Web为检索平台提供信息检索服务的数据库,它是数据库技术和Web技术相结合的产物。2)网络出版物网络出版物是以数字代码形式将文字、图像、声音、视频等信息存储在磁、光、电介质上,通过Internet高速传播,并通过计算
9、机或者类似设备阅读使用的出版物。3)社会信息社会信息是机构和个人发布的的数据、资料、新闻和服务等多方面的的信息。4)软件资源软件资源主要是指通过网络提供给用户使用的各种应用程序。它们以文件形式存在,帮助用户实现某些应用功能。5)其他类型的信息其他类型的信息包括网络论坛交流信息、电子公告、网络日志等存在于Internet上的信息。第4章 网络信息资源检索4.1.3 网络信息检索的一般方法网络信息资源存储在连接到网络的主机和服务器中,如果知道资源的地址,就可通过浏览器或其他方式利用这些信息。1.网上浏览网上浏览需要从一个相关网站或网页出发,通过超文本文档中的链接找到一批新的相关网站或网页,在浏览这
10、些网页后,再从这些网站或网页提供的链接找到下一批相关网站,如此循环下去,像滚雪球一样不断扩大搜索范围。2.网络资源指南网络资源指南是专业人员对网络信息资源进行采集、评价、组织、过滤和控制,从而开发出的可供用户浏览和检索的多级主题分类体系。网络资源指南的局限性在于管理和维护跟不上网络信息的增长和更新,收录范围不够全面,各网站的分类体系不统一。3.搜索引擎利用搜索引擎是较为普遍的网络信息检索方式。利用搜索引擎检索的优点是简单方便,检索速度快、范围广,能及时获取新增信息。其缺点在于检索准确性不理想。4.RSS阅读工具RSS是一种用于发布和获取网络内容的XML格式的工具。使用RSS阅读工具,用户可以轻
11、松地订阅所需信息。第4章 网络信息资源检索4.2 搜搜 索索 引引 擎擎第4章 网络信息资源检索4.2.1 搜索引擎概念搜索引擎是根据一定的策略,运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。当用户输入关键词查询时,搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。搜索引擎既是用于检索的软件,又是提供查询、检索的网站。所以,搜索引擎也可称为Internet上具有检索功能的网页。4.2.2 搜索引擎基本工作原理看似简单的搜索引擎背后涉及包括数据结构、索引、算法、知识表示、自然语言处理、信息检索、人工智能、计算机网络、分布式处理、数
12、据库、数据挖掘等多个方面的内容。通常,搜索引擎主要包括信息采集、信息加工、信息检索与检索结果提供这几个部分。其中,信息采集模块(搜集器)以一定的策略在因特网等信息源中采集相关信息。信息加工模块是对收集到的网页资源进行标引、建立索引、编制摘要、完成分类等过程。即由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,并根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。信息检索模块根据用户的检索提问对检索项与索引项进行匹配运算以获取对应的检索结果集。第4章 网络信息资源检索检索结果提供是在进行必要
13、的相关分析后以超链形式给出检索结果,即由页面生成系统将搜索结果的链接地址和页面内容、摘要等内容组织起来提供给用户。事实上,搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,将这些结果按照与搜索关键词相关度的高低,依次排列并呈现。4.2.3 搜索引擎的发展历史纵观搜索引擎的发展历史,一般来说,可根据其在不同时期的研发重点和
14、性能的不同分为三代。第一代搜索引擎以早期的Yahoo、AltaVista和Infoseek等为代表,这类搜索引擎的特征是基于人工分类目录搜索。以Google、DirectHit等为代表的搜索引擎一般称为第二代搜索引擎。第二代搜索引擎的主要特征是运用“符号计算”,基于关键词搜索以及以关键词组合为基础的全文搜索和模糊搜索。与第一代搜索引擎相比,基于关键词搜索的优势是使用方便,搜索速度快,直接搜索内容,这是第一代搜索引擎无法比拟的。目前,搜索引擎已进入了一个空前繁荣的时期,现今的搜索引擎不仅索引规模大,而且更多地结合了自然语言理解、个性化等智能化技术,有人亦称这一时期的搜索引擎为第三代搜索引擎。第4
15、章 网络信息资源检索4.2.4 发展中的搜索引擎作为Internet必不可少的核心技术之一,搜索引擎技术是人们利用海量网络资源的重要工具。目前的搜索引擎,对于不同的用户,如果基于相同的关键词进行搜索,得到的结果基本相同。事实上,已经有人指出,整合搜索、社区搜索和移动搜索等正在成为今后发展的趋势。1.整合搜索用户通过网络搜索获得海量信息是基于信息抓取技术,属于刚性搜索。整合搜索不是简单地把搜索结果罗列在一起,而是经过页面搜索、垂直搜索之后,在更高层次上为用户提供最佳搜索结果,即通过将其他搜索产品的结果整合到网页搜索中,使结果信息内容更加丰富、形式更为多媒体化。整合搜索的前提是基于对关键字的智能分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息资源 检索
限制150内