《Internet信息资源及其检索.ppt》由会员分享,可在线阅读,更多相关《Internet信息资源及其检索.ppt(69页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章 Internet信息资源及其检索第一节 Internet信息资源检索一、Internet信息资源信息源丰富信息内容多样性信息表现形式多样化信息时效性信息交互性信息关联性信息开放性免费信息资源丰富信息组织的局部有序性与整体无序性二、二、Internet信息资源种类信息资源种类1、按信息来源划分 政府信息资源,公众信息资源,商用信息资源2、按信息时效划分 电子邮件型信息资源,图书馆目录资源,书目与索引资源,全文资料及电子出版物资源,数据库信息资源3、按所采用的网络传输协议可分为:、按所采用的网络传输协议可分为:WWW网络资源:因特网信息资源的主流,它使用网络资源:因特网信息资源的主流,它使
2、用http协协议,使用简单,功能强大,能方便迅速的浏览和传递分布议,使用简单,功能强大,能方便迅速的浏览和传递分布于网络各处的文字、图象、声音和多媒体超文本信息。于网络各处的文字、图象、声音和多媒体超文本信息。FTP信息资源:它使用信息资源:它使用ftp协议,该协议主要用于连网计算协议,该协议主要用于连网计算机之间传输文件。机之间传输文件。FTP相当于在网络上两个主机之间复制相当于在网络上两个主机之间复制文件。目前仍是发布、传递软件和文件的主要方法。文件。目前仍是发布、传递软件和文件的主要方法。TELNET信息资源:信息资源:telnet是远程登陆协议。是远程登陆协议。telnet信息资信息资
3、源包括源包括硬件资源硬件资源硬件资源硬件资源和和软件资源软件资源软件资源软件资源。许多机构都提供远程登录的。许多机构都提供远程登录的信息系统,如图书馆的公共目录系统,信息服务机构的综信息系统,如图书馆的公共目录系统,信息服务机构的综合信息系统等。合信息系统等。用户服务组资源:包括新闻组,电子邮件组等。这些电子用户服务组资源:包括新闻组,电子邮件组等。这些电子通信组形式所传递和交流的信息资源是网络上最自由、最通信组形式所传递和交流的信息资源是网络上最自由、最具有开放性的资源。具有开放性的资源。news第二节 搜索引擎及其使用搜索引擎(search engines)是www环境下一种信息检索的工具
4、。它利用某种软件(如网络“蜘蛛”spiders)对互联网上的信息进行自动跟踪和发掘,把收集到的所有网页进行分类存储和标引,并向用户提供查询入口。用户通过这个查询入口在浩如烟海的信息海洋中找到自己所需的信息。搜索引擎主要任务信息搜集信息处理信息查询搜索引擎分类搜索引擎分类1、目录式搜索引擎2、搜索式搜索引擎 (1)综合搜索引擎 (2)专业搜索引擎3、元搜索引擎目录式目录式目录式搜索引擎是指把因特网中的资源服务器的地址收目录式搜索引擎是指把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类,形成可供浏览
5、的树状结构,类似再一层层地进行分类,形成可供浏览的树状结构,类似图书馆的分类主题目录,用户可以不进行关键词查询,图书馆的分类主题目录,用户可以不进行关键词查询,通过层层点击浏览也可以找到所需要的信息。目录索引通过层层点击浏览也可以找到所需要的信息。目录索引类搜索引擎以类搜索引擎以YahooYahoo雅虎为代表,国内还有搜狐、新浪、雅虎为代表,国内还有搜狐、新浪、网易等,国外有网易等,国外有Open Directory Project(DMOZ)Open Directory Project(DMOZ)、LookSmartLookSmart、AboutAbout等。等。其特点是由于加入了人的智能,
6、所以信息准确、查准率其特点是由于加入了人的智能,所以信息准确、查准率高,但是搜索范围较小,查全率低,在检索学科专业属高,但是搜索范围较小,查全率低,在检索学科专业属性特征明显的信息时利用这种方式极为方便,但搜索引性特征明显的信息时利用这种方式极为方便,但搜索引擎信息归类的质量和用户对信息类别了解程度将直接影擎信息归类的质量和用户对信息类别了解程度将直接影响到查询结果。响到查询结果。搜索(网页)型搜索(网页)型搜索(网页)型搜索引擎是最常见的。指能够对各搜索(网页)型搜索引擎是最常见的。指能够对各网站的每个网页中的每个词进行搜索的引擎,使用网站的每个网页中的每个词进行搜索的引擎,使用关键词(关键
7、词(Keywords)匹配方式检索。用户使用关键匹配方式检索。用户使用关键词对网页进行搜索时,系统通过蜘蛛机器人自动在词对网页进行搜索时,系统通过蜘蛛机器人自动在选定范围内进行检索,并将所检索到的信息自动标选定范围内进行检索,并将所检索到的信息自动标引导入索引数据库中,匹配所检索中的网页,并输引导入索引数据库中,匹配所检索中的网页,并输出匹配结果。有代表性的如出匹配结果。有代表性的如Google、百度、百度、AltaVista、AllTheWeb等。等。搜索引擎:水平门户搜索引擎:水平门户_综合搜索引擎综合搜索引擎中文中文中文常用搜索引擎中文常用搜索引擎百度中文搜索引擎:Google中文搜索引
8、擎:搜狐搜狗搜索:雅虎:新浪:网易:TOM搜索:北大天网搜索引擎:奇虎 搜索引擎:水平门户搜索引擎:水平门户_综合搜索引擎综合搜索引擎英文英文国外英文常用搜索引擎Google 以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。Fast/AllTheWeb 总部位于挪威的搜索引擎后起之秀,风头直逼google。AltaVista 曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。Overture 最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。Lycos 发源于西班牙的搜索引擎,网络遍布世界各地。HotBot 隶属于Lycos Networks,搜索结果来自其
9、他搜索引擎及目录索引。搜索引擎:垂直搜索引擎搜索引擎:垂直搜索引擎专业搜索引专业搜索引擎擎垂直搜索引擎:即专业或专用搜索引擎,它专门用来检索某一主题范围或某一类型信息,追求专业性与服务深度是它的特点。垂直搜索引擎不但可保证此领域信息的收录齐全与更新及时,而且检索深度和分类细化远远优于综合搜索引擎。垂直搜索引擎的检出结果虽可能较综合搜索引擎少,但 检出结果重复率低、相关性强、查准率高,适合于满足较具体的、针对性强的检索要求。目前已经涉及到购物,旅游,汽车,工作,房产,交友等行业。垂直搜索引擎举例:1 找工作的搜索引擎:找工作的搜索引擎:google学术搜索:学术搜索:google图书搜索:图书搜
10、索:比价购物搜索引擎:比价购物搜索引擎:博客与博客与RSS搜索引擎:搜索引擎:中客中客 博客中国人博客中国人 八方八方 人脉搜索引擎:人脉搜索引擎:交友交友,找工作找工作,商机商机 人物、软件人物、软件 论坛搜索引擎:论坛搜索引擎:垂直搜索引擎举例:2TheMusicFinderSingingfish(只能搜寻声音和录像只能搜寻声音和录像)旅行旅行TripAdvisor图像搜索引擎:图像搜索引擎:图像词典图像词典商业搜索引擎商业搜索引擎Business生意定向搜索引擎。生意定向搜索引擎。DailyStocks可以了解被查询公司存货的信息已经相关的新闻报导可以了解被查询公司存货的信息已经相关的新
11、闻报导,研究研究,引述和其引述和其他数据。他数据。FMLX英国定向的关于公司,存货数据,分析和研究的搜索引擎。英国定向的关于公司,存货数据,分析和研究的搜索引擎。eBizSearch关于电子商务的文章和报告。关于电子商务的文章和报告。RSS源RSS feed搜索引擎单个站点:单个站点:新华网:新华网:天极网:天极网:计世网:计世网:网典:网典:搜索引擎:搜索引擎:中文中文RSS搜索引擎:搜索引擎:八方搜索引擎八方搜索引擎博客中国博客中国feed,订阅数据源和单篇订阅数据源和单篇看天下看天下feed,订阅数据源订阅数据源看天下搜索引擎:看天下搜索引擎:单篇单篇RSSSearchEngine周博通
12、周博通RSS导航导航综合搜索引擎的专门化趋势:GOOGLE学术搜索:学术搜索:GOOGLE图书搜索图书搜索Google地图搜索地图搜索百度百度MP3搜索搜索百度地图百度地图百度图片搜索百度图片搜索AllTheWeb能专门对图像、多媒体信息。能专门对图像、多媒体信息。搜狗搜狗(Sogou)人物、音乐、购物、图片、地图人物、音乐、购物、图片、地图FTP资源搜索引擎资源搜索引擎天网星空搜索http:/ 邮件列表搜索引擎万维网联盟邮件列表检索服务Catalist Title BT搜索引擎BT特工特工 BTChina联盟联盟飞客飞客BT搜索引擎搜索引擎贪婪大陆贪婪大陆-动漫搜索频道动漫搜索频道 BT下载
13、工具:BT资源:BT China 联盟搜索引擎:射手网(字幕下载)射手网(字幕下载)电骡电骡emule元搜索引擎(Meta Search Engine)这类搜索引擎没有自己的索引数据,它将用户的查询这类搜索引擎没有自己的索引数据,它将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给复排除、重新排序等处理后,作为自己的结果返回给用户。如万纬搜索、用户。如万纬搜索、Search、Dogpile等等优点优点:能同时搜索多个搜索引擎,能在一定程度上提高:能同时搜索多个搜索引擎,能在一定程度上提高查询的广
14、度。查询的广度。缺点缺点:因为有时候并不能对一个搜索引擎全部查完,有:因为有时候并不能对一个搜索引擎全部查完,有时后也会漏掉一些重要信息。时后也会漏掉一些重要信息。早期的中文元搜索引擎早期的中文元搜索引擎1、metaFisher中文元搜索引擎中文元搜索引擎做的较早,核心功能较弱,做的较早,核心功能较弱,没有现代主流搜索引擎的界面风格。没有现代主流搜索引擎的界面风格。2、万纬搜索、万纬搜索功能上和第一个元搜索引擎一样,核心功能很功能上和第一个元搜索引擎一样,核心功能很弱,制作一般弱,制作一般3、多元搜索、多元搜索做得较早,虽然号称整合的搜索引擎最多,但做得较早,虽然号称整合的搜索引擎最多,但实际
15、使用效果很差,查询速度也慢,返回结果基本未作处理。实际使用效果很差,查询速度也慢,返回结果基本未作处理。新近出现的元搜索引擎新近出现的元搜索引擎1、一家搜、一家搜对相似结果的处理有点特色对相似结果的处理有点特色2、bbmao是国内唯一具有自动聚类功能的元搜索引擎,技是国内唯一具有自动聚类功能的元搜索引擎,技术和功能上都比较强术和功能上都比较强3、狠搜、狠搜可以定制源搜索引擎,同时提供商业信息搜索,核可以定制源搜索引擎,同时提供商业信息搜索,核心功能一般心功能一般更多元搜索引擎更多元搜索引擎(英文)英文)MetaCrawler()Profusion()Mamma()Dogpile()Vivisi
16、mo()Search常用的一些搜索引擎网址(一)雅虎是中国最著名的目录索引,是搜索引擎开山鼻祖之一。它收录了全球资讯网上数以万计的中文网站,不论你要找的网站是用国标码简体字、大五码繁体字还是图形中文,都可以在这里找到。1999年9月检索途径通过分类目录、关键词检索检索方法与技巧支持布尔逻辑检索(不支持“OR”)、可以使用引号,强调“+”、“-”、指定关键字出现的段落(加t:、加u:)检索结果根据关联程度排序同时列出“相关。”其它与Google合作 常用的一些搜索引擎网址(二)1998年创立,搜狐“分类与搜索”已收录网站四十多万,已形成庞大的中文网站数据库。搜狐的目录导航式搜索引擎完全是由人工加
17、工而成,相比机器人加工的搜索引擎来讲具有很高的精确性、系统性和科学性。检索途径通过分类目录、关键词检索检索方法与技巧支持布尔逻辑检索、“”、“&”、“/”、“()”、空格 检索结果根据关联程度排序返回五种分类结果其它直通车搜狐黄页 常用的一些搜索引擎网址(三)http:/ 1997年,(简体中文)提供有类目检索和网站检索两种方式。支持和“-”等条件查询。以搜索精度高、速度快成为最受欢迎的搜索引索,是目前搜索的领军人物。检索方法与技巧模块分类、关键词检索支持布尔逻辑检索(自动添加AND),“OR”,“-”检索特色网页快照、手气不错相似网页、查询电话号码、查找PDF文件、股票报价、查找字典释意、用
18、Google查找地图、工具条服务、网页翻译、单词纠错、繁简转换使用偏好Google搜索高级语法基本:基本:Booleanoperator(AND、OR、NOT)高级高级:“”define:site:filetype:inurl:intitle:fy罕用:罕用:info:link:related:cache:Boolean operatorA AND B:ABBoolean operatorA OR B:ABBoolean operatorA NOT B:AB语法“”全文搜索语法define:定义语法filetype:查特定文件类型语法 site:(指定网域查找)指定网域查找)语法fy中英文词典
19、翻译语法语法“link:”(友情链接)(友情链接)语法 inurl:intitle:网址中搜索 网页标题中搜索语法 Info:(查询与某链接相关信息)语法“cache:”查缓存页面用来搜索google服务器上某页面的缓存,通常用于查找某些已经被删除的死链接网页,相当于使用普通搜索结果页面中的“网页快照”功能。示例:查找google缓存的中文yahoo首页搜索:“cache:”检索方法与技巧模块分类、关键词检索要求“一字不差”,支持布尔逻辑检索(可以用空格代替 AND/+)可以使用检索语法检索特色百度快照、自动纠错、百度搜霸使用偏好百度与google比较 搜索英文不必说用google,搜索中文呢
20、?很多人并不了解它们更新的情况,google发展早,因而它贮存了大量旧的信息,百度发展迟,信息较新。更新速度:对中文google一般半月至一月一更新,而且仅搜索到三级链接,三级以下便不在搜索,那么我如何看到最新的google搜索的结果呢?这个站点:http:/ 找特定文件名的文件,尤其是PDF、ZIP、swf、DOC、TXT、RAR、EXE、RM、Mp3,MOV,PPT这些文件名都是网友想找的重点,至于各是什么类型文件,请上网查一下便知道了,这里不多说了。尤其老板让你做个powerpoint,找不到图怎么办?用google去搜索。方法是利用语法filetype:后缀名。如找PDF文件,在正常关
21、键词后面加filetype:PDF即可,搜索结果全是PDF文件。找特定题目的网页语法intitle:网站 查找友情链接:link:(英文单字link后加冒号)用于搜索链接到某个URL地址的网页。可以了解有哪些网页把链接指向您的网页。基本搜索语法查找文件查找特定站点:site:www.*.com如 钓鱼岛 site: 但不可加入http:/或/这类,否则是错的。查找美国教育网上的宇宙大爆炸jpg图片搜索:“BIG BANG filetype:jpg site:edu”结果:搜索有关 BIG BANG filetype:jpg site:edu 的图片基本搜索语法查找站点Site可将搜索定位于某一
22、个域名上,有利于缩小搜索范围,提高搜索效率。如keywords site:edu,效果很好!可以方便地搜索到各大学内有用的资源。site:tw,site:edu.tw,site:.这是定位于国家或地区,将搜索局限于某些国家或地区,或加上edu,则是这些国家或地区的大学,效果自然更好。如果site:则搜索国内医科大学内的资源(会漏综合性大学的资源的,要慎用)。特殊语法:inurl“inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLERY”等,于是,就可以用IN
23、URL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。示例:查找MIDI曲“沧海一声笑”。搜索:“inurl:midi 沧海一声笑”结果:已搜索有关inurl:midi 沧海一声笑的中文(简体)网页。注意:“inurl:”后面不能有空格,GOOGLE也不对URL符号如“/”进行搜索。例如,GOOGLE会把“cgi-bin/phf”中的“/”当成空格处理。google其它功能 查缩略词的全称 利用google查缩略词的全称,如果写作时突然忘了某个缩略词的全称,当时手头若有金山词霸等软件则是易事,若
24、无可考虑使用google,将其中文名与其缩略名作为关键词搜索,效果很好,如:不知道血管活性肠肽(VIP)的全称,可在google中输入 血管活性肠肽 VIP google其它功能 查英文单词的中文名称google是最全的英中词典,你找到一个英文词,却不知中文怎么办?用google,写出英文词,然后大概了解一下这个词属于哪一个学科,再用加用一个中文关键词搜索一下,效果很好。如urotensin不知道中文意思,但知道它是收缩血管的药物,这时用urotensin 血管 收缩查一下,可能会出现一些文章或综述内,其中便附有这个词的中文了 google其它功能 搜索电话如果想知道某个公司的电话,往往许多人
25、喜欢这样选关键词:公司名称 tel,结果得到的根本不是你需要的。如果你知道这个公司的性质或属于什么地方的,则可以这样搜索:区号 公司名,这比上述关键词要有效得多,这也涉及到搜索效率的问题。搜索引擎的查询技巧分析研究对象,选用搜索引擎确定搜索途径,使用不同方式正确选用搜索引擎的搜索选项正确选用搜索引擎的各项搜索功能根据反馈,修改检索1、缩小搜索范围:利用二次搜索(重新查询、在结果中再查、在结果中去除)、使用检索语法构造恰当的检索表达式、选用正确的关键词2、扩大搜索范围:使用同义词或近义词、使用检索语法or和截词检索、使用多个搜索引擎和元搜索引擎如何提高查全率?选择上位词和相关词;如:查找关于孙中山的文献,先用孙中山查,再用孙文、国父查找。调节检索式的网罗度,删除不必要的组面,如and(并且);进行族性检索(分类检索或用or连接相关检索词);截词检索;com*代替computer增加检索途径。如何提高查准率?提高专指度(用下位词或换专指性强的自由词)用逻辑乘“*”(and)或 not 相关检索项;如查找克林顿,但不要关于莱温斯基的信息。检索式:克林顿 not 莱温斯基用文献外部特征限制输出结果(在中文图书中查找);用“二次检索”、“条件检索”排除误检;限制检索字段,指定邻接和优先关系。
限制150内