欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    第3章网络搜索引擎.ppt

    • 资源ID:18290867       资源大小:1.69MB        全文页数:148页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第3章网络搜索引擎.ppt

    第三章第三章 网络搜索引擎网络搜索引擎 3.1 搜索引擎概述搜索引擎概述3.1 搜索引擎概述搜索引擎概述在互联网发展初期,网站相对较少,信息查找比较容易。随着因特网的迅猛发展,网络信息大量增加(据估计,全球目前的网页超过5500亿),用户要在如此浩瀚的信息海洋里寻找信息,就象大海捞针、沙里淘金一样,必然会无功而返。这时为满足大众信息检索需求的专业搜索网站搜索引擎便应运而生了。它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。据中国国家互联网中心(CNNIC)2004年6月30日发布的第14次互联网发展统计报告。我国的网络用户有8,700万人,是1997年1O月统计人数的140.3倍。其中有42.3的用户上网最主要的是为获取信息,搜索引擎的作用量占用户信息利用行为总量的71.9 。在用户经营使用的网络服务中,搜索引擎仅次于电子邮箱排在第2位。而86.9的用户得知新网站的主要途径是搜索引擎,搜索引擎已成为未知状态下发现有效信息的最有效方式。 3.1.1 搜索引擎的产生与发展 现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时WWW还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。3.1.1 搜索引擎的产生与发展 Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于Archie深受用户欢迎,受其启发,美国内华达System Computing Services大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。3.1.1 搜索引擎的产生与发展 当时,“机器人”一词在编程者中十分流行。电脑“机器人”(Computer Robot)是指某种能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。 3.1.1 搜索引擎的产生与发展 世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。 与Wanderer相对应,Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的Yahoo! 3.1.1 搜索引擎的产生与发展 随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以Jump Station、The World Wide Web Worm(Goto的前身,也就是今天Overture),和Repository-Based Software Engineering (RBSE) spider最负盛名。3.1.1 搜索引擎的产生与发展 然而Jump Station和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。3.1.1 搜索引擎的产生与发展 最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,其数据库中存放的网页已达30亿之巨!3.1.1 搜索引擎的产生与发展 随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的Inktomi(已被Yahoo收购),它本身并不是直接面向用户的搜索引擎,但像包括Overture(原GoTo,已被Yahoo收购)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于这一类,搜狐和新浪用的就是它的技术。因此从这个意义上说,它们是搜索引擎的搜索引擎。3.1.2 搜索引擎的分类 目前,Internet上已有数千个能提供检索服务的站点,这些站点的搜索引擎在收录的范围、内容、检索方法上都各有不同,采用的技术也各具特色。但总的来看,根据它们所基于的搜索技术原理,一般可把它们分成三大类:机器人(Robot)搜索引擎,分类目录式(Directory Search Engine)搜索引擎和元搜索引擎(Meta-search Engine)。3.1.2 搜索引擎的分类 1. 机器人(Robot)搜索引擎 Robot“搜索引擎”的一个重要的特征是通过Robot,自动搜集各种web页面,并存入搜索引擎数据库。所谓Robot,即一个用c+、perl、Java或其它语言编写的网页自动搜索程序,它可以运行在Unix、Solaris、Windows、NT、Os2和MAC等平台上。该程序启动后,Robot会根据所给的网络地址(URL)自动对目的网页进行浏览,并将网页内容存储在搜索引擎的数据库中。同时,它还会根据网页的链接进一步提取其它网页,或转移到其它站点上,直到没有满足要求的新网页或网站为止。 3.1.2 搜索引擎的分类 其工作原理为:首先,由自动搜索软件Robot根据给定的URL,访问目的站点,并通过其中的链接遍历www 中的其它站点,然后将获得的站点信息形成一个巨大的网页信息库以备用户查询。当用户通过查询内容提出检索要求时,系统就会在数据库中找到相关内容,并按照既定规则进行排序输出。由于是通过Robot自动寻找网络资源并编制索引摘要,减少了人工作业,其优点明显表现为:信息搜集速度快,资源收录多、全,结果更新及时。同时,这也是其不足之处:收录的资源良莠不齐,查询结果准确度低,用户很难通过检索真正获得所需结果。 这类搜索引擎的主要代表有Google、AltaVista、Northernlight、Excite、Lycos,国内的有天网、悠游等。3.1.2 搜索引擎的分类 2. 目录(Directory)搜索引擎 目录(Directory)搜索引擎,或称主题查询型搜索引擎,它提供一种可检索和查询的等级式主题目录,以超文本链接方式把资源按不同类型划分成不同的目录,各类目录下面引出属于这一类别的网站名称和网址链接以及每个网站的内容简介。用户在查询信息时,只需按分类目录逐层查找,搜索引擎就会将找到的相关网站名称、网址及内容简介显示在屏幕上,用户单击网站名称即可进入相应的网站。目录搜索引擎与Robot搜索引擎的主要区别在于目录搜索引擎是通过人工方式进行资源搜集,且采取人工方式来进行网站描述。首先,系统雇用的大量编辑,会进行广泛的网站或网页搜集。这些编辑在访问某个WEB站点时,会对该站点作适当的描述,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的URL和描述放在该类别中,即建立了目录数据库。 3.1.2 搜索引擎的分类 检索子系统,一般提供两种信息查询方式,用户可根据实际情况选择关键词搜索或按分类目录逐层查找。由于目录是依靠人工进行整理搜索的,而且只在保存的对站点的描述中进行搜索,因此搜索范围较小,查全率较低,对偏僻主题、新兴学科、交叉学科不能很好地涵盖,类目间的交叉又会导致重复和资源浪费。另外,由于数据库更新速度比较慢,站点本身的动态变化不能及时地反映到搜索结果中,严重影响了查询结果的时效性。这是目录搜索引擎相对于Robot搜索引擎的不足之处。但同时,由于用户在进行信息查询时,只要遵循系统的分类体系按图索骥、层层深入即可,操作比较简单,大大方便了用户。另外,由于系统是依靠人工来评价描述网站,准确性比较高,因此用户从目录搜索所得到结果的准确度一般比较高,参考价值也比较高。 3.1.2 搜索引擎的分类 3. 元搜索引擎 元搜索引擎(Meta-search Engine),是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母(The mother of search engines)”。元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎,可被利用的独立搜索引擎称为“元搜索引擎”(source Engine),或“搜索资源”(searching resources),整合、调用、控制和优化利用元搜索引擎的技术,称为“元搜索技术”(Metasearching technique),元搜索技术是元搜索引擎的核心。3.1.2 搜索引擎的分类 检索时,元搜索引擎根据用户提交的检索请求,调用元搜索引擎进行搜索,对搜索结果进行汇集、筛选、删并等优化处理后,以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。如提交检索请求时,根据元搜索引擎的特点和技术参数,指定优先顺序,并对检索时间、检索结果数量进行控制; 3.1.2 搜索引擎的分类 作为若干元搜索引擎的检索接口代理,元搜索引擎必须具有较强的字符和语法转换功能,使用户的检索请求为各具语法特点的不同的元搜索引擎所认知和接受;而对检索结果的显示,不同的元搜索引擎有不同的处理技术。由于元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等不同,调用相同的元搜索引擎的不同元搜索引擎显示检索结果的数量多少、排序先后、结果信息描述选择亦有较大差异。 3.1.2 搜索引擎的分类 目前运营的元搜索引擎各具特色,功能各有侧重,完全“理想”的尚不多见。元搜索引擎的功能受着元搜索引擎和元搜索技术的双重制约:一方面,元搜索引擎的各具特色的强大功能在元搜索引擎中受到限制而不能充分体现,而另一方面,任何一种元搜索技术都不能发掘和利用元搜索引擎的全部功能。尽管元搜索引擎存在着这样那样的功能局限,但其以涵盖较多的搜索资源,能够在尽可能短的时间内提供相对全面、准确的检索结果等诸多优异功能。从而受到用户的青眯,已渐成为一种不可或缺的极具潜力的网络检索工具。 3.1.3 搜索引擎的工作原理 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。3.1.3 搜索引擎的工作原理 搜索引擎的原理,可以看作:从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。 3.1.3 搜索引擎的工作原理 1. 从互联网上抓取网页 各个搜索引擎一般都利用高性能的“蜘蛛”程序(spider)去自动地在互联网中搜索信息。一个典型的“网络蜘蛛”工作的方式,是查看一个页面,并从中找到相关信息,然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。“蜘蛛”为实现其快速地浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的使用,你能索引一个基于URL链接的Web页面。启动一个新的线程跟随每个新的URI 链接,索引一个新的URI 起点。由于网络信息的不断变化,“蜘蛛”也不断的把以前已经分类组织的目录不断更新。不同的搜索引擎在完成这些工作的迅速性和综合性方面是不同的。这是各搜索引擎的最初工作步骤。 3.1.3 搜索引擎的工作原理 2. 建立索引数据库 这一过程关系到用户能否最迅速地找到最准确、最广泛的信息,对“网络蜘蛛”抓来的网页信息极快地建立索引,保证信息的及时性。不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异。有的搜索引擎把“网页搜索软件”发向每一个站点,记录下每一页的所有文本内容;另一些搜索引擎则首先分析数据库中的地址,以判别那些站点最受欢迎(一般都是通过测定该站点的链接数量),然后再用软件记录这些站点的信息。记录的信息包括从HTMI 标题到整个站点的所有文本内容以及经过算法处理后的摘要。当然。 3.1.3 搜索引擎的工作原理 最重要的是数据库的内容必须经常更新、重建。以保持与信息世界的同步发展。 3.1.3 搜索引擎的工作原理 3. 用户检索过程 搜索引擎索引数据库建立以后,每个搜索引擎都必须提供一个良好的信息查询界面,并具有帮助功能。用户只要把想要查找的关键词(keyword)输入查询框中,并按“search”按钮(或类似的按钮),则检索器根据用户输入的查询关键词,在索引库中快速检出文档,因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。用户只要通过搜索引擎提供的链接,就可以访问到相关信息。这个过程是对前两个过程的检验,检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。3.1.3 搜索引擎的工作原理 搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。3.1.3 搜索引擎的工作原理 互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。3.1.4 搜索引擎的检索技巧 人们在网络检索实践中往往对检索结果不满意,如何提高检索的精度和广度,如何加快检索速度,这对于专业检索人员也是一种挑战,但也并非无法控制。如果能掌握一些常用的检索技巧,就可以减少检索过程中的挫折和增加获取到有用资源的可能性。 3.1.4 搜索引擎的检索技巧 1. 选择合适的检索工具 不同的检索工具有不同的特点,只有选择合适的搜索工具才能得到最佳的结果。因此,要熟悉和掌握一些常用的搜索引擎的性能、特点和使用方法。3.1.4 搜索引擎的检索技巧 (1)细节查询或强调获取较为具体、特定的信息时,一般应利用关键词进行大范围的快速检索,方便、快捷地查询到针对性较强的检索结果。 (2)一般性的浏览查询或强调获取较为综合、准确的信息时,一般应利用分类检索,用户可按思维的逻辑顺序或按照其主题目录体系的导引去浏览、追踪、查找信息。3.1.4 搜索引擎的检索技巧 (3) 在查询一些较模糊或就某一课题的网络资源进行调查、摸底、综览时使用多元搜索引擎。3.1.4 搜索引擎的检索技巧 2. 巧用关键词搜索 搜索引擎是将输入的关键词与其数据库中存储的信息进行匹配,直到找出结果。如果输入的关键词过于简单,那么得到的搜索结果将不计其数。选择正确的关键词是一切有效搜索的前提。首先应从复杂的搜索意图中提炼出最具代表性的关键词,这方面的技巧是所有搜索技巧之母。其次,搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同,这是搜索的基本技巧之一。3.1.4 搜索引擎的检索技巧 例如: 以“网络” 作为关键词,与之相关的信息就太多了。同样,如果在搜索引擎中输入一个关键词“安徽”,搜索引擎不知道要找什么它可能会返回很多莫名其妙的结果。如搜索安徽旅游方面的信息,可以这样查询:在搜索引擎中输入关键词“安徽旅游”,假如把搜索范围锁定在安徽的黄山地区,则应该输入关键词“安徽黄山旅游”。这样用搜索引擎找到的信息就会更加准确。因此,搜索中应学会使用两个以上的关键词搜索的方法,或应养成使用多个关键词搜索的习惯。当然,大多数情况下使用两个关键词搜索已经足够了。 3.1.4 搜索引擎的检索技巧 另外,由于中英文在词语排列上的差异(英文词与词之间有空格隔开,而中文则没有),使得中文切词成为搜索引擎的一大挑战。虽然目前支持中文搜索的引擎在切词方面已做得相当出色,但求其完美无缺也不太现实。因此在搜索关键词较多的情况下,建议主动将中文字词之间用空格隔开,以避免过多的无效搜索。比如查中文电脑冒险游戏的资料,输入“电脑游戏冒险”,而不是“电脑冒险游戏”。3.1.4 搜索引擎的检索技巧 3. 减号“-”的运用 “-”号的作用是为了去除无关的搜索结果,提高搜索结果相关性。若在搜索结果中见到很多不相关的搜索结果,则可用“-”号减掉不相关结果的特征关键词。比如要找“申花”的企业信息,输入“申花”却找到一大堆申花队的新闻,这些新闻的共同特征是“足球”输入“申花-足球”来进行搜索,查询的结果里就不会再有体育新闻了。假如查找合肥地区的电信信息,但想排除与手机相关的信息,输入关键词“合肥电信-手机”。“手机”前面多了一个“-”号,表示排除与手机相关的信息。 3.1.4 搜索引擎的检索技巧 因此,要学会使用“-”号等逻辑符号命令来进行文献信息搜索,则可使日常搜索达到事半功倍的效果。 4. 利用双引号“”进行精确匹配搜索 精确匹配搜索也是缩小搜索结果范围的有利工具,此外,还可以用它来达到某些其他方式无法完成的搜索任务。简单搜索往往会反馈回大量不需要的信息,如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号引起来(即在英文输入状态下的双引号)这样得到的信息结果最少、最精确。例如在搜索引擎的查询框内输入“电脑技术”,就等于告诉搜索引擎只需要反馈回网页中有“电脑技术”这个关键词的网址,而输入电脑技术则会反馈出很多不需要的信息来。因此,应充分学会利用“”双引号来进行搜索。3.1.4 搜索引擎的检索技巧 5. 正确使用高级检索 利用高级搜索,正确使用布尔逻辑算符and(表示逻辑“与”。可用“”表示,在中文中一般用半角的“+”表示,用于搜索两个以上关键词,如“法国农业+巴西农业+中国农业”,表示检索内容必须同时包括“法国农业、巴西农业、中国农业”3个关键词);or(表示逻辑“或”,可用半角的“,”来表示,有的搜索引擎使用空格,如 “法国农业,巴西农业,中国农业”表示检索内容不必同时包括3个关键词,只要包括其中一个即可); 3.1.4 搜索引擎的检索技巧 not(表示逻辑“非”,可用“!”来表示,也可在要排除的关键词前加半角的“-”,如“新闻not经济” 表示检索内容包含“新闻”但排除其中有“经济” 这个词语的文档,“电脑 -硬件”表示要检索“电脑”但不包含“硬件” 的文档)等,有的搜索引擎不完全支持上述算符,如yahoo尚不支持not,不同的搜索引擎表达方式不同。3.1.4 搜索引擎的检索技巧 6. 使用目录导航检索方式的技巧 如果想查找的信息不是很具体,通过网站的分类目录搜索通常会比寻找单个网站来得有效。例如,要利用搜狐找关于体育彩票的信息,在“首页娱乐休闲彩票体育彩票”类目下有许多高质量的网站。这比起通过输入关键词后,在搜索结果页面中一页一页翻动效率要高。另外,在关键词搜索结果页面中看到了似乎合适的一个网站可以点击进入列在该网站下面的该网站所在的类目,在这个类目下可能就有许多相关的网站。3.1.4 搜索引擎的检索技巧 7. 使用多个搜索引擎 据搜索内容的不同,有针对地选择不同的搜索引擎,往往会收到较好的效果。如果想查英汉或汉英词典,或想查询某地方的天气预报,可以选Google搜索;如果想找mp3的话,一般教育网上比较多,可以考虑用天网进行搜索。总之,应学会使用多个搜索引擎因为很少有人使用一个搜索引擎就能找遍互联网上的所有信息。同样,每个搜索引擎的性能是不同的,所以,在为找不着所需的信息而着急的时候,不妨再用别的搜索引擎试试,或者用浏览器打开多个搜索引擎进行同时搜索。每一个搜索引擎在使用上都有细微的差别,所以在使用前应先查阅相关的使用方法,这些信息的链接通常就在关键字输入框的旁边。3.1.4 搜索引擎的检索技巧 8. 重复检索 网络信息的开放性使检索的结果具有动态性,每一次可能都不一样,要取得较好的检索结果往往需要在一段时间进行若干次检索。 9. 注意搜索中常见的错误 在搜索过程中经常会有这样的事情发生:虽然已尽全力来搜索,但依然没有找到需要的答案,这时应认真回顾检查一下整个搜索过程,也许只是因为一个小差错,纠正过来就会找到有用的信息。下面是初学者搜索时容易犯的几个低级错误和解决方法。 (1)错别字。即在你输入的关键词中含有错别字,例如“星际争吧”、“以德制国”等等。3.1.4 搜索引擎的检索技巧 (2)用通用词汇来检索。搜索引擎对常见的词汇搜索存在缺陷,因为这些词曝光率太高了,以至于出现在成百万的网页中,使得它们事实上不能被用来找到什么有用的内容。比如,搜索“电话”,有无数个网站均会提供跟“电话”相关的信息,从网上黄页到电话零售商再到个人电话号码等都有信息反映。所以当搜索结果太多太乱的时候,应该尝试使用更多的关键词或者用减号“-”来搜索,不应使用太常见的关键词来搜索。3.1.4 搜索引擎的检索技巧 (3)使用了多义词,很多词具有一词多意的特性。比如,“笔记本”,可以指用来手写的笔记本,也可作为笔记本电脑代名词。遇到这类词,需要在搜索框中尽量输入单义词,如直接输入“笔记本电脑”。又如搜索“Java”,要找的这个信息究竟是一个岛屿?一种咖啡?还是一种计算机语言?搜索引擎一般是不能理解或辨别多义词的。因此,要小心使用多义词,解决的办法只能是用短语、多个关键词或者用其他的词语来代替多义词作为搜索的关键词。3.1.4 搜索引擎的检索技巧 (4)关键词应用不妥。搜索失败的另一个常见原因就是不会输入关键词。比如类似这样的检索:“现代爱情故事歌词”、“上海到西安列车时刻表”。搜索引擎一般是机械的,当用关键词搜索的时候,它只会把含有这个关键词的网页找出来,根本不管网页上的内容是什么。而正确的关键词应该是输入“现代爱情故事 歌词”、“上海 西安列车时刻表”。 (5)在错误的地方搜索。搜索引擎从抓取网页、解析、索引到提供检索是有周期性的,而各搜索引擎的信息滞后周期一般是从一周到一月不等,所以查找最新内容应该去看新闻, 3.1.4 搜索引擎的检索技巧 用搜索引擎一般是寻找不到最新内容的。搜索引擎对动态内容,如:论坛、数据库内容以及带frame结构的网页检索能力较弱,所以这类信息也不适合用搜索引擎,而是应该去相关的网站进行搜索。3.1.4 搜索引擎的检索技巧 总之,如何利用搜索引擎这一强有力工具,快速准确地检索网络信息,从信息资源宝库中找到所需的各种各样的信息,关键是摸索出一套适合自己的搜索策略和搜索方法。因此,我们除了熟悉各种搜索引擎的特点外,还应掌握搜索引擎的使用技巧,从不同形式的数字化信息中进行搜集,并对发现的信息进行理解、提取、组织和处理,这样才能快速找到所需要的信息。3.2 Google搜索引擎搜索引擎3.2.1 Google简介Google是目前世界上最优秀的搜索引擎之一,是由美国斯垣福大学的二位博士生Larry Page和Sergey Brin于1998年9月发明的,1999年成立公司,2000 年7月,Google替代Inktomi成为Yahoo!公司的搜索引擎,(注:Yahoo已于2004年2月前终止与Google的合作关系。)同年9月,Google成为网易公司的搜索引擎。在短短的时间里这一网站已在全球范围内拥有了一个正在快速增长的忠实用户群。根据美国著名网络评估公司尼尔森公司公布的最新数据显示,2005年12月,Google在美国网络搜索市场的领先优势继续扩大,已占据了48.8%的份额。此外,技术创新也为该公司Google带来了多项荣誉,如美国时代杂志评选的“1999年度十大网络技术”之一,个人电脑杂志授予的“最佳技术奖”,The Net授予的“最佳搜索引擎奖”等。德国互联网杂志今日在线最近分别测试15个主要搜索引擎和门户网站,就网站结构是否清晰、搜索功能的解释是否清楚明白,以及提供的搜索服务是否准确做出评分,结果Google获选为最佳搜索引擎。 3.2.1 Google简介 Google一词是由英文单词“googol”变化而来,“googo1”这个词是由美国数学家Edward Kasner的侄子Milton Sirotta创造的,表示1后面带有100个零的数字,Google用这个词作为搜索引擎的名称,代表它征服网上无穷无尽资料的雄心。 目前,Google的目录中收录了80亿多个网址,10亿多张图片,这在同类搜索引擎中是首屈一指的,同时,Google将其特有的网页级别技术与完善的文本匹配技术结合在一起,它所关注的远不只是关键词在网页上出现的次数,它还对该网页的内容(以及该网页所链接的内容)进行全面检查,从而确定该网页是否满足用户的查询要求,为用户快速地找到最重要、最有用的网页。由于Google的强大的智能搜索技术和开创新思维,已使得其成为网络上最具竞争力的搜索引擎。3.2.1 Google简介 要用Google做搜索,当然要先进Google网站,第一次进入Google,它会根据你的操作系统,确定语言界面,Google的首页很清爽,如图321所示。一个搜索内容输入框,一组搜索种类选择链接(包括网页、图片、新闻论坛 、网页、目录)再加上一个搜索按钮就是这个页面的全部家当。 3.2.1 Google简介3.2.2 基本搜索 1. 搜索入门 Google 查询简洁方便,仅需输入查询内容并敲一下回车键 (Enter),或单击“Google 搜索”按钮即可得到相关资料。 Google 查询严谨细致,能帮助用户找到最重要、最相关的内容。例如,当 Google 对网页进行分析时,它会考虑与该网页链接的其它网页上的相关内容。Google 还会先列出那些搜索关键词相距较近的网页。3.2.2 基本搜索 2.初阶搜索 (1)搜索结果要求包含两个及两个以上关键字 一般搜索引擎需要在多个关键字之间加上“+”,而Google无需用明文的“+”来表示逻辑“与”操作,只要空格就可以了。比如,我们要了解一下搜索引擎的历史,因此期望搜得的网页上有“搜索引擎”和“历史”两个关键字。3.2.2 基本搜索 示例:搜索所有包含关键词“搜索引擎”和“历史”的中文网页 搜索:“搜索引擎 历史” 结果:简体中文简体中文网页中,约有 3,240,000 项符合搜索引擎搜索引擎 历史历史的查询结果,以下是第 1 - 10 项。 (搜索用时 0.15 秒) (2)搜索结果要求不包含某些特定信息3.2.2 基本搜索 Google用减号“-”表示逻辑“非”操作。“A B”表示搜索包含A但没有B的网页。(“-”, 英文字符)。但在减号之前必须留一空格。 示例:搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史”和“世界历史”的中文网页3.2.2 基本搜索 搜索:“搜索引擎 历史 -文化 -中国历史 -世界历史” 结果:简体中文简体中文网页中,约有 2,130,000 项符合搜索引擎搜索引擎 历史历史 -文化文化 -中国历史中国历史 -世世界历史界历史的查询结果,以下是第 1 - 10 项。 (搜索用时 0.32 秒) (3)搜索结果至少包含多个关键字中的任意一个。 3.2.2 基本搜索 Google用大写的“OR”表示逻辑“或”操作。搜索“A OR B”,意思就是说,搜索的网页中,要么有A,要么有B,要么同时有A和B。在上例中,我们希望搜索结果中最好含有“archie”、“lycos”、“蜘蛛”等关键字中的一个或者几个,这样可以进一步的精简搜索结果。3.2.2 基本搜索 示例:搜索如下网页,要求必须含有“搜索引擎”和“历史”,没有“文化”,可以含有以下关键字中人任何一个或者多个:“Archie”、“蜘蛛”、“Lycos”、“Yahoo”。 搜索:“搜索引擎 历史 archie OR 蜘蛛 OR lycos OR yahoo -文化” 结果:简体中文简体中文网页中,约有 249,000 项符合搜搜索引擎索引擎 历史历史 archie OR 蜘蛛蜘蛛 OR lycos OR yahoo -文化文化的查询结果,以下是第 1 - 10 项。 (搜索用时 0.56 秒)3.2.2 基本搜索 搜索引擎最基本的语法“与”“非”和“或”,在Google中分别用“ ”(空格)、“-”和“OR”表示。顺着上例的思路,便可以了解到如何缩小搜索范围,迅速找到目的资讯的一般方法:目标信息一定含有的关键字(用“ ”连起来),目标信息不能含有的关键字(用“-”去掉),目标信息可能含有的关键字(用“OR”连起来)。3.2.2 基本搜索图322 Google搜索结果页面3.2.2 基本搜索 3. 辅助搜索 (1)通配符问题 Google使用的通配符属于“全词通配符”(full-word wildcard)是指代替一个单词而不是单词中的某个或几个字母的键盘字符,Google的全词通配符是*(星号),一次检索可以使用若干个*。这意味着一个语句可以写成用带有星号“*”代替未知内容的形式。这一功能使得查找某资料片断变得更快更容易了。 (2)关键字的字母大小写3.2.2 基本搜索 Google对英文字符大小写不敏感,搜索Three, three, THREE都可以得到相同的结果。 (3)搜索整个短语或者句子 Google的关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语做关键字,必须加英文引号,否则空格会被当作“与”操作符。 示例:搜索关于第一次世界大战的英文信息。3.2.2 基本搜索 搜索:“world war I” 结果:简体中文简体中文网页中,约有 37,900 项符合world war I的查询结果,以下是第 1 - 10 项。 (搜索用时 0.25 秒) (4)搜索引擎忽略的字符以及强制搜索 Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。 示例:搜索关于www起源的一些历史资料。 搜索:“www的历史 internet”3.2.2 基本搜索 结果:以下的字词因为使用过于频繁,没有被列入搜索范围: www 的. 已搜索有关www的历史 internet的中文(简体)网页。约有 604,000 项符合www的历史的历史 internet的查询结果,以下是第 1 - 10 项。 (搜索用时 0.49 秒)。 如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。 搜索:“+www +的历史 internet” 结果:简体中文简体中文网页中,约有 482,000 项符合+www +的的历史历史 internet的查询结果,以下是第 1 - 10 项。 (搜索用时 0.30 秒)3.2.2 基本搜索 另一个强制搜索的方法是把上述的关键字用英文双引号引起来。在上例“”world war I”中,“I”其实也是忽略词,但因为被英文双引号引起来,搜索引擎就强制搜索这一特定短语。3.2.3 高级搜索 1. 对搜索的网站进行限制 “site”表示搜索结果局限于某个具体网站或者网站频道,如“”、“”,或者是某个域名,如“cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。3.2.3 高级搜索 示例:搜索中文教育科研网站(educn)中所有包含“金庸”的页面。 搜索:“金庸site:” 结果: 的简体中文简体中文网页中,共有 70,000 项符合金庸金庸的查询结果,以下是第 1 - 10 项。 (搜索用时 0.08 秒) 3.2.3 高级搜索 注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http:/”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。3.2.3 高级搜索 2. 在某一类文件中查找信息 “filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。 3.2.3 高级搜索 目前Google检索的PDF文档大约有2500万左右,大约占所有索引的二进制文档数量的80。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。 示例:搜索几个网络信息检索的Office文档。 搜索:“网络信息检索 filetype:doc OR filetype:xls OR filetype:ppt” 结果:简体中文简体中文网页中,约有 47,900 项符合网络网络信息检索信息检索 filetype:doc OR filetype:xls OR filetype:ppt的查询结果,以下是第 1 - 10 项。 (搜索用时 0.53 秒)3.2.3 高级搜索图323 Google 高级搜索页面3.2.3 高级搜索 3. 搜索的关键字包含在URL链接中 “inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。3.2.3 高级搜索 示例:查找movie“骇客帝国”。 搜索:“inurl:movie “骇客帝国” 结果:简体中文简体中文网页中,约有 63,700 项符合inurl:movie 骇客帝国骇客帝国的查询结果,以下是第 1 - 10 项。 (搜索用时 0.05 秒) 注意:“inurl:”后面不能有空格,Google也不对URL符号如“/”进行搜索。例如,Google会把“cgi-bin/phf”中的“/”当成空格处理。3.2.3 高级搜索 4. 搜索的关键字包含在网页标题中 “intitle”和“allintitle”的用法类似于上面的inurl和allinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分,网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可

    注意事项

    本文(第3章网络搜索引擎.ppt)为本站会员(知****量)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开