第三章网络信息检索与利用.ppt
《第三章网络信息检索与利用.ppt》由会员分享,可在线阅读,更多相关《第三章网络信息检索与利用.ppt(141页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章 网络信息检索第一节第一节Internet Internet 的基本知识的基本知识第二节第二节搜索引擎概述搜索引擎概述第三节第三节 搜索引擎使用技巧和介绍搜索引擎使用技巧和介绍第四节第四节网络免费学术信息检索网络免费学术信息检索Internet 的基本知识的基本知识Internet三大基本应用三大基本应用Internet需要具备的条件需要具备的条件Internet中的基本概念和术语中的基本概念和术语Internet三大基本应用三大基本应用1.远程登陆远程登陆(TELNET)2.电子邮件电子邮件-发送或接收信息发送或接收信息(E-MAIL)3.文件传输文件传输-通过文件传输协议通过文件传输
2、协议(FTP),实现推拉式服务实现推拉式服务.1.1.方便客户端的访问方便客户端的访问设置统一设置统一 浏览器(浏览器(www www 或称或称WebWeb浏览器);浏览器);2.2.网上计算机都能通用网上计算机都能通用设置统一设置统一 标注语言(标注语言(HTMLHTML超文本标注语言);超文本标注语言);(超文本语言超文本语言浏览器与服务器之浏览器与服务器之间的一种通讯协议间的一种通讯协议)3.3.全世界统一的页面指针全世界统一的页面指针URLURL统统一资源定位格式。一资源定位格式。Internet需要具备三方面的条件需要具备三方面的条件1.1.调制解调器(调制解调器(MODEMMODE
3、M):):戏称戏称“猫猫”,是上网必需的设备。,是上网必需的设备。它可以将计算机的数字信号转换(调它可以将计算机的数字信号转换(调制制ModulationModulation)成模拟信号,通过成模拟信号,通过电话线路传送到另一台计算机(比如电话线路传送到另一台计算机(比如服务器)上,接受端用它的服务器)上,接受端用它的 Modem Modem 将将其还原(解调其还原(解调demodulationdemodulation)为计为计算机能识别的数字信号,从而实现双算机能识别的数字信号,从而实现双方的信息交换方的信息交换 InternetInternet中的几个基本概念和术语中的几个基本概念和术语2
4、.2.服务器(服务器(SERVERSERVER):):一台功能强大的计算机,有一台功能强大的计算机,有较高的速度、较大的存储空间以较高的速度、较大的存储空间以及断电保护措施等。它能够在网及断电保护措施等。它能够在网络中为用户提供通讯、文件共享、络中为用户提供通讯、文件共享、网络打印等功能。网络打印等功能。3.3.WWW WWW(World Wide WebWorld Wide Web):):WWW WWW 是一个基于超文本方式的信息检索工具,是一个基于超文本方式的信息检索工具,它为用户提供了一种友好的信息查询接口,是它为用户提供了一种友好的信息查询接口,是 INTERNET INTERNET
5、上的信息服务系统。它把上的信息服务系统。它把 INTERNET INTERNET 上上不同地点的相关信息聚集起来,通过不同地点的相关信息聚集起来,通过 WWW WWW 浏览器浏览器(又叫做(又叫做 WEB WEB 浏览器)检索它们,无论用户所需浏览器)检索它们,无论用户所需的信息在什么地方,只要浏览器为用户检索到之的信息在什么地方,只要浏览器为用户检索到之后,就可以将这些信息(文字、图片、动画、声后,就可以将这些信息(文字、图片、动画、声音等)音等)“提取提取”到用户的计算机屏幕上。到用户的计算机屏幕上。WWW WWW 采采用了超文本链接,你只需轻轻点击鼠标,就可以用了超文本链接,你只需轻轻点
6、击鼠标,就可以很方便地从一个信息页转移到另一个信息页很方便地从一个信息页转移到另一个信息页4.4.主页(主页(HOMEPAGE HOMEPAGE):):全称应该是 WWW 主页。它指的是 WWW 服务的起始装入信息页,是 WWW 用户可以看见的第一信息界面,你连接到主页后,除了可以直接在主页了解到主页制作者的一般信息外,还可以可以又进入到另外的一个画面再进一步地获取到更多的信息。也就通过主页上定义的超级链(hyperlink)访问网页。5.5.电子邮件(电子邮件(E-MAILE-MAIL):):这是一种最常用的这是一种最常用的 INTERNET INTERNET 功能,功能,也是一种最便捷的利
7、用计算机和通信网也是一种最便捷的利用计算机和通信网络传递信息的现代化手段。电子邮件的络传递信息的现代化手段。电子邮件的传递由传递由 SMTP SMTP 协议来完成,网络用户可协议来完成,网络用户可以通过以通过 INTERNET INTERNET 与全世界的与全世界的INTERNET INTERNET 用户收发信件。电子邮件的内容,不仅用户收发信件。电子邮件的内容,不仅仅包含文字,还可以包含图像、声音,仅包含文字,还可以包含图像、声音,动画等多媒体信息动画等多媒体信息.6.HTTP6.HTTP(Hypertext Transfer Hypertext Transfer ProtocolProto
8、col):):超文本传输协议。该协议经超文本传输协议。该协议经常用来在网络上传送常用来在网络上传送 WEB WEB 页。页。当用户以当用户以 http:/http:/开始一个链开始一个链接的名字时,是告诉浏览器去接的名字时,是告诉浏览器去访问使用访问使用 HTTP HTTP 的的 WEB WEB 页。页。7.7.URLURL(Uniform Resource LocatorUniform Resource Locator):):统一资源定位器。是统一资源定位器。是 WEB WEB 的地址的地址编码编码,WEB,WEB 上所有能访问的资源都有一上所有能访问的资源都有一个唯一的个唯一的 URL U
9、RL。URL URL 包括:所用的传包括:所用的传输协议,服务器名称、文件的完整路径。输协议,服务器名称、文件的完整路径。例如:在浏览器例如:在浏览器 URL URL 处键入处键入 http:/http:/就可以访问无锡信就可以访问无锡信息港息港(无锡阿福台无锡阿福台)了。了。8.8.IPIP地址(地址(INTERNET PROTOCOLINTERNET PROTOCOL):):互联网络协议地址。互联网络协议地址。INTERNET INTERNET 上每上每台主机都有一个唯一的地址(或者叫名台主机都有一个唯一的地址(或者叫名字),它是数字形式的一组地址,例如:字),它是数字形式的一组地址,例如
10、:202.195.149.100202.195.149.100,它是计算机在网络上,它是计算机在网络上的数字标识,一般分为两部分:网络地的数字标识,一般分为两部分:网络地址(址(NETIDNETID)、)、主机地址(主机地址(HOSTIDHOSTID)。)。IPIP地址分为五类地址分为五类:A:A、B B、C C、D D、E E,常用的常用的是是 B B、C C 两类。两类。9.9.搜索引擎搜索引擎(Search Engine):(Search Engine):搜索引擎是搜索引擎是WWW WWW 浏览器查询信息搜索浏览器查询信息搜索工具工具,是一个用来查询搜索世界各地是一个用来查询搜索世界各地
11、 INTERNET INTERNET 网络资源的网络资源的 WEB WEB 服务器。它服务器。它就象一本书的目录,就象一本书的目录,INTERNET INTERNET 上各个站上各个站点的网址就象是页码。你可以通过关键点的网址就象是页码。你可以通过关键字(字(keywordkeyword)或者主题分类的方式查找或者主题分类的方式查找感兴趣的信息所在的感兴趣的信息所在的 WEB WEB 页面。是网上页面。是网上动态检索工具。动态检索工具。搜索引擎(搜索引擎(Search Search EnginesEngines)是一种利用网络自动搜索技术,对是一种利用网络自动搜索技术,对因特网各种资源进行标引
12、,并为检索因特网各种资源进行标引,并为检索者提供检索的工具。人们常把搜索引者提供检索的工具。人们常把搜索引擎称之为网络之门,它包括万维网搜擎称之为网络之门,它包括万维网搜索引擎、新闻论坛搜索引擎、黄页搜索引擎、新闻论坛搜索引擎、黄页搜索引擎、元搜索引擎等多种类型的搜索引擎、元搜索引擎等多种类型的搜索引擎,数量已达数百种。索引擎,数量已达数百种。第二节搜索引擎概述 搜索引擎,英文为搜索引擎,英文为搜索引擎,英文为搜索引擎,英文为Search EngineSearch EngineSearch EngineSearch Engine,是一个对互联网,是一个对互联网,是一个对互联网,是一个对互联网信
13、息资源进行搜索整理和分类,并储存在网络数据库中供信息资源进行搜索整理和分类,并储存在网络数据库中供信息资源进行搜索整理和分类,并储存在网络数据库中供信息资源进行搜索整理和分类,并储存在网络数据库中供用户查询的系统,包括信息搜集、信息分类、用户查询三用户查询的系统,包括信息搜集、信息分类、用户查询三用户查询的系统,包括信息搜集、信息分类、用户查询三用户查询的系统,包括信息搜集、信息分类、用户查询三部分。目前流行的搜索引擎有两大类:分类目录式搜索引部分。目前流行的搜索引擎有两大类:分类目录式搜索引部分。目前流行的搜索引擎有两大类:分类目录式搜索引部分。目前流行的搜索引擎有两大类:分类目录式搜索引擎
14、和关键词全文检索式搜索引擎。擎和关键词全文检索式搜索引擎。擎和关键词全文检索式搜索引擎。擎和关键词全文检索式搜索引擎。一、一、搜索引擎的概念、检索原理及特性搜索引擎的概念、检索原理及特性二、二、搜索引擎的类型搜索引擎的类型三、三、InternetInternet的主要信息服务类型的主要信息服务类型一、一、搜索引擎的概念、检索原理及特性搜索引擎的概念、检索原理及特性引擎是英文引擎是英文“Engine”Engine”的音译词,意为发动机。的音译词,意为发动机。一般将其定义为:一般将其定义为:“是一种用于帮助是一种用于帮助InternetInternet用用户查询信息的搜索工具,它以一定的策略在户查
15、询信息的搜索工具,它以一定的策略在InternetInternet中搜集、发现信息,对信息进行理解、中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的而起到信息导航的目的”。它是搜索引擎和搜索它是搜索引擎和搜索目录(目录(Search DirectorySearch Directory)的统称,其实也是一)的统称,其实也是一个网站,只不过这样的网站专门提供信息个网站,只不过这样的网站专门提供信息“检索检索”服务,它使用特有的程序将服务,它使用特有的程序将InternetInternet上的信息上的信息进行搜
16、集、整理和归类,以帮助人们在浩如烟海进行搜集、整理和归类,以帮助人们在浩如烟海的信息海洋中搜寻到各人所需信息。的信息海洋中搜寻到各人所需信息。主要可概括为以下几个过程:主要可概括为以下几个过程:(1 1)信息的采集和存储信息的采集和存储 搜索引擎一般采用自动方式收集和搜索引擎一般采用自动方式收集和存储信息,即运用存储信息,即运用“网络机器人网络机器人”自动自动运行的软件,搜索引擎追寻运行的软件,搜索引擎追寻WWWWWW网上的链网上的链接行进,找到接行进,找到WebWeb页并将它们调出,搜索页并将它们调出,搜索引擎将自动给引擎将自动给WebWeb页上的某些字或全部字页上的某些字或全部字作上索引,
17、形成目标摘要格式文件后,作上索引,形成目标摘要格式文件后,再形成网络可访问的数据库。再形成网络可访问的数据库。搜索引擎的工作原理搜索引擎的工作原理(2)信息索引的建立)信息索引的建立 信息采集和存储后,要建立索信息采集和存储后,要建立索引查询系统,它是同建库系统配套引查询系统,它是同建库系统配套的子系统,决定索引时空比、布尔的子系统,决定索引时空比、布尔逻辑操作、表达式匹配、结构化和逻辑操作、表达式匹配、结构化和非结构化文件处理、词语匹配、匹非结构化文件处理、词语匹配、匹配相关性排序等。配相关性排序等。建立信息索引就是创建文档信息建立信息索引就是创建文档信息的特征记录,使检索者能够快速地的特征
18、记录,使检索者能够快速地检索到所需的信息。检索到所需的信息。(3 3)检索界面的建立)检索界面的建立 搜索引擎检索界面接受检索者搜索引擎检索界面接受检索者提交的查询请求(包括查询内容及提交的查询请求(包括查询内容及逻辑关系),并根据检索者所输入逻辑关系),并根据检索者所输入的关键词在其索引中查找,并寻找的关键词在其索引中查找,并寻找相应的相应的WebWeb页地址。页地址。(4 4)搜索结果的相关性处理)搜索结果的相关性处理 搜索引擎的检索结果通常很庞大,大搜索引擎的检索结果通常很庞大,大量的文件使得检索者无法逐一浏览。搜量的文件使得检索者无法逐一浏览。搜索引擎可以按文件的相关程度进行排列,索引
19、擎可以按文件的相关程度进行排列,最相关的文件通常排在最前面。最相关的文件通常排在最前面。1.单词检索单词检索2.“词组词组/短语检索短语检索”也称也称“完全符合检索完全符合检索”检索结果必须含有与提问式完全一样检索结果必须含有与提问式完全一样(包括次序包括次序)的字串。在搜索比较专指的文的字串。在搜索比较专指的文献时,就要使用双引号(献时,就要使用双引号(“”)进行词组)进行词组检索。但一些专用语尽管没有加引号,仍检索。但一些专用语尽管没有加引号,仍可作为专用语处理。例如:可作为专用语处理。例如:mother-in-law搜索引擎的检索特性搜索引擎的检索特性3 布尔逻辑符号布尔逻辑符号1).与
20、符号与符号:&,“AND,+2).或符号或符号:|,or,OR3).非符号非符号:not,!,-注意:注意:中文搜索引擎查询时一般不需要使用中文搜索引擎查询时一般不需要使用“AND”,因为搜索引擎会在关键词之间的空格处自动,因为搜索引擎会在关键词之间的空格处自动添加添加“AND”;有的中文搜索引擎不支持;有的中文搜索引擎不支持“OR”的搜索,无法接受的搜索,无法接受“或者包含词语或者包含词语A,或者包含,或者包含词语词语B”的网页的网页大多数搜索引擎都可用大多数搜索引擎都可用“+”表示必须包括某表示必须包括某词,词,“-”表示必须排除某词表示必须排除某词4词间位置限定检索词间位置限定检索:搜索
21、引擎中较少搜索引擎中较少使用使用,仅仅AltaVista,MSNSearch等少数等少数搜索引擎可用搜索引擎可用NEAR进行位置限定进行位置限定5.字段限定检索字段限定检索:一般搜索引擎给出的一般搜索引擎给出的可检字段有网页标题可检字段有网页标题(t:或或title)、域名、域名(domain)、)、URL、链接(、链接(link:)等。:)等。有些搜索引擎还可限定文件类型,如有些搜索引擎还可限定文件类型,如google中可在关键词后输入中可在关键词后输入filetype:,限定检索结果的文件类型(如限定检索结果的文件类型(如ppt,jpg,pdf等)等)6截词检索截词检索多用于国外搜索引擎。
22、一般用多用于国外搜索引擎。一般用词干法或前方一致。有的中文搜索引擎不使词干法或前方一致。有的中文搜索引擎不使用用“词干法词干法”,也不支持,也不支持“截词符截词符”(*)搜索搜索7.大小写敏感大小写敏感多用于人名、专有名词检索,多用于人名、专有名词检索,可提高查准率。大部分搜索引擎不区分大小可提高查准率。大部分搜索引擎不区分大小写,仅写,仅AltaVista等少数搜索引擎支持此功等少数搜索引擎支持此功能。能。8二次检索二次检索多数搜索引擎都有多数搜索引擎都有“缩小搜索缩小搜索”或或“在结果中搜索在结果中搜索”功能,在已获得的检功能,在已获得的检索结果中进行索结果中进行“二次检索二次检索”二、搜
23、索引擎的类型目前流行的搜索引擎有两大类目前流行的搜索引擎有两大类:(一一)目录式搜索引擎目录式搜索引擎(二二)全文检索式搜索引擎全文检索式搜索引擎(三三)元搜索引擎元搜索引擎(一)(一)目录式的搜索引擎目录式的搜索引擎(Directory)(Directory)它提供一种可检索和查询的等级式它提供一种可检索和查询的等级式主题目录,以超文本链接方式将不同主题目录,以超文本链接方式将不同学科、专业、行业和区域的信息按照学科、专业、行业和区域的信息按照分类或主题目录的方式组织起来。各分类或主题目录的方式组织起来。各类目录下面列出属于这一类别的网站类目录下面列出属于这一类别的网站名称和网址链接以及每个
24、网站的内容名称和网址链接以及每个网站的内容简介。著名的雅虎(简介。著名的雅虎(YahooYahoo)就是一个就是一个典型的目录式搜索引擎。典型的目录式搜索引擎。英文YAHOO!主页主题分类目录“Science”的详细类目”Biology”的下位类目“Biotechnology”下位类目“Biotechnology”中”Genetic Engineering”的下位类目及相关网络信息(二)关键词全文检索式搜索引擎(二)关键词全文检索式搜索引擎关键词全文检索式搜索引擎利用其内部的搜关键词全文检索式搜索引擎利用其内部的搜索机器人索机器人Spider(Spider(蜘蛛)程序,自动搜索互蜘蛛)程序,自
25、动搜索互联网上大大小小的网站内容,储存在其网络联网上大大小小的网站内容,储存在其网络服务器的数据库中,用户只要输入关键词就服务器的数据库中,用户只要输入关键词就可以找到符合该关键词特征的所有被索引的可以找到符合该关键词特征的所有被索引的网页,并以超级链接的方式对搜索结果列表,网页,并以超级链接的方式对搜索结果列表,点击相应的链接就可以进入相应的网络资源点击相应的链接就可以进入相应的网络资源网站,从而找到所需信息。相关性越高的信网站,从而找到所需信息。相关性越高的信息,在搜索结果列表中的位置越靠前。关键息,在搜索结果列表中的位置越靠前。关键词全文检索式搜索引擎的代表是词全文检索式搜索引擎的代表是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 网络 信息 检索 利用
限制150内