internet资源检索与利用.ppt
第七讲第七讲 internet资源检索与利用资源检索与利用Contents搜索引擎的概念及其工作原理搜索引擎的概念及其工作原理1搜索引擎的分类搜索引擎的分类2搜索引擎检索技巧搜索引擎检索技巧3网络资源的评价网络资源的评价45.15.1搜索引擎的概念及工作原理搜索引擎的概念及工作原理搜索引擎的概念及工作原理搜索引擎的概念及工作原理概念概念概念概念:(Search Engine)从广义上讲是用来对网络信息从广义上讲是用来对网络信息资源管理和检索的一系列软件,在资源管理和检索的一系列软件,在Internet网上查找信网上查找信息的工具或系统。息的工具或系统。自动搜索自动搜索程序如程序如spiderspider、robotrobot等等抓取抓取网页网页建立索引建立索引数据库数据库在在索引索引数据库数据库中排序中排序DBURL提取网提取网页信息页信息输入关键词输入关键词检索程序在索检索程序在索引数据库中查引数据库中查找找将将检索结检索结果返回给果返回给用户用户5.15.1搜索引擎工作原理搜索引擎工作原理搜索引擎工作原理搜索引擎工作原理对对关键关键词进行词进行标引标引GoogleGoogle的工作过程:的工作过程:搜索引擎的组成搜索引擎的组成 搜索程序(如搜索程序(如spider、crawler、robot,采集,采集 新出现的信息)新出现的信息)检索数据库,(记录标引和逻视软件采集的信息)检索数据库,(记录标引和逻视软件采集的信息)检索代理(用来处理用户的检索请求)检索代理(用来处理用户的检索请求)5.25.2搜索引擎的分类搜索引擎的分类搜索引擎的分类搜索引擎的分类:类型类型特点特点典型典型目录式分类搜目录式分类搜索引擎索引擎将将信息进行归类,适合那些希望了解某一信息进行归类,适合那些希望了解某一方面信息但又没有明确目的的用户;查准方面信息但又没有明确目的的用户;查准率较高,查全率较低率较高,查全率较低Yahoo、Sohu、Open Directory全文搜索引擎全文搜索引擎能够对网页中的每个单字进行搜索;搜索能够对网页中的每个单字进行搜索;搜索范围较广,提供的信息多,但缺乏清晰的范围较广,提供的信息多,但缺乏清晰的层次结构,重复链接比较多层次结构,重复链接比较多Google、百度百度元元搜索引擎搜索引擎(Metasearch Engines)调用独立搜索引擎的引擎调用独立搜索引擎的引擎C4、Dogpile、MetaFind、SavvySearch、MetaCrawler根据工作方式根据工作方式5.31 基本语法基本语法1)布尔逻辑布尔逻辑:逻辑逻辑”与与”:AND.(注关键词之间的空格默认为逻辑与注关键词之间的空格默认为逻辑与)如如:墨攻墨攻 AND 鸡犬不宁鸡犬不宁 逻辑逻辑”或或”:OR,|(注注:不可以用小写的不可以用小写的or,否则被忽略否则被忽略)如如:墨攻墨攻 OR 鸡犬不宁鸡犬不宁 逻辑逻辑”非非”:-(注注:-前面有空格前面有空格,后面没有空格后面没有空格;不用不用NOT或或not,否则被否则被作作 为检索的一部分为检索的一部分)如如:张艺谋张艺谋 大红灯笼高高挂大红灯笼高高挂2)短语搜索短语搜索:“to be or not to be”“beijing university of technology”3)通配符通配符:*如如:beijing*university4)英文大小写不敏感英文大小写不敏感 5.32 5.32 限定条件限定条件 1)link:含某个链接的网页如含某个链接的网页如:link:http:/ 2)site:域名中包域名中包 如如:site: 3)Intitle:标题搜索标题搜索.如如:intitle:休斯顿火箭队休斯顿火箭队 4)Intext:正文检索正文检索.如如:intext:像素像素 600万 5)Inurl:搜索搜索url.如:inurl:mp3 6)filetype:文件格式文件格式.如如:filetype:pdf 5.33搜索策略搜索策略p 选择合适的关键词选择合适的关键词p利用高级检索功能(包括布尔算符,限定文件类型、时利用高级检索功能(包括布尔算符,限定文件类型、时间、语言等)间、语言等)p使检索目标具体化(使检索目标具体化(“”“”)下面是一篇文章的题目:下面是一篇文章的题目:Compressive behavior of concrete at high strain rates 试试以下两种不同的检索方法,体会一下两者的不同:试试以下两种不同的检索方法,体会一下两者的不同:1)2)p尝试不同的搜索方法和搜索引擎尝试不同的搜索方法和搜索引擎例如:智能控制的翻译西班牙语例如:智能控制的翻译西班牙语有目标范围,但是没有确定目标信息时适用有目标范围,但是没有确定目标信息时适用使用目录式搜索引擎使用目录式搜索引擎举例:举例:想了解想了解“法国戛纳电影节法国戛纳电影节”,目标较为具体目标较为具体,用全文式搜用全文式搜索引擎,快速而准确索引擎,快速而准确想了解世界电影节的情况想了解世界电影节的情况,具体有哪什么电影节并不清楚。具体有哪什么电影节并不清楚。用目录式搜索引擎可以获得较多的提示。用目录式搜索引擎可以获得较多的提示。一、从分类找到一、从分类找到”电影电影”:二、找到电影节二、找到电影节三、可以看到这么多电影节,挑你感兴趣的了解吧三、可以看到这么多电影节,挑你感兴趣的了解吧不过,不一定所有的不过,不一定所有的电影节都列在了这里,电影节都列在了这里,比如威尼斯电影节就比如威尼斯电影节就没有,所以目录式搜没有,所以目录式搜索引擎搜索的范围还索引擎搜索的范围还是有限的是有限的如果用如果用googlegoogle直接搜索呢?我们来对比一下直接搜索呢?我们来对比一下用用googlegoogle搜索,结果多,但杂乱、结构不清晰,需要耐心地搜索,结果多,但杂乱、结构不清晰,需要耐心地挑选一阵子挑选一阵子帮助文件对学习搜索引擎有很大的好处帮助文件对学习搜索引擎有很大的好处帮助文件对学习搜索引擎有很大的好处帮助文件对学习搜索引擎有很大的好处学术搜索引擎学术搜索引擎学术搜索引擎学术搜索引擎:http:/http:/学术搜索引擎对网上的信息进行了过滤学术搜索引擎对网上的信息进行了过滤,更适合搜索学术文章更适合搜索学术文章.相当于逻辑相当于逻辑”与与”精确检索精确检索相当于逻辑相当于逻辑”或或”相当于逻辑相当于逻辑”非非”限制项限制项其他设置其他设置搜索结果搜索结果图书图书在参考文在参考文献中找到献中找到全文全文(一般为一般为PDF格式格式)http:/http:/ Resource Locator):协议类型协议类型/服务器名服务器名/文件路径文件路径http:/超文本传输协议超文本传输协议ftp:/文件传输协议文件传输协议telnet:/计算机远程登陆方式计算机远程登陆方式gopher:/wais:/news:/域名域名:计算机在计算机在internet上的名字,标识团体、组织或个人在上的名字,标识团体、组织或个人在internet上上的地址的地址常见的标明组织机构类型的常见的标明组织机构类型的“一级域名一级域名”:.com-商业机构(商业机构(commercial organizations)地址)地址.edu-教育(教育(education)及研究机构地址)及研究机构地址.gov-政府机构(政府机构(government agencies)地址)地址.net-主要网络服务机构地址主要网络服务机构地址.org-专业团体组织(专业团体组织(organizations).mil-用于军事领域用于军事领域 新出的域名:新出的域名:.aero-航空运输业航空运输业.museum-博物馆的专用顶级域名博物馆的专用顶级域名.coop-商业合作社商业合作社.biz-可以替代可以替代.com的通用顶级域名,适用于商业公司的通用顶级域名,适用于商业公司.info-可以替代可以替代.com的通用顶级域名,适用于提供信息服务的企业的通用顶级域名,适用于提供信息服务的企业协议类型协议类型/服务器名服务器名/文件路径文件路径国家代码:国家代码:.cn-China.au-Australia .cl-Chile.br-Brazil .de-Germany.ca-Canada .eg-Egypt.ch-Switzerland .jp-Japan.mx-Mexico .nl-Netherlands.nz-New Zealand .uk-United Kingdom 如:如:http:/ http:/通过图书馆主页可免费访问的网络整合资源有:本校网络资源导航通过图书馆主页可免费访问的网络整合资源有:本校网络资源导航国家科技图书文献中心整合资源国家科技图书文献中心整合资源网络资源的评价网络资源的评价作者作者:作者具有撰写这一主题文章的专业水平吗?作者具有撰写这一主题文章的专业水平吗?出版年代出版年代:这篇文献所包含的信息是最新的吗?这篇文献所包含的信息是最新的吗?出版者出版者:是什么样的机构是什么样的机构?执行什么样的出版政策执行什么样的出版政策?出版目的出版目的?他人对文章的评论他人对文章的评论:对于你查到的这些资料,人们是怎么评论的呢对于你查到的这些资料,人们是怎么评论的呢?内容内容:你所找的资料适合你的研究吗?这篇文献对你的研究有多大你所找的资料适合你的研究吗?这篇文献对你的研究有多大参考价值呢?参考价值呢?