书签分享收藏举报版权申诉 / 148

立即下载

当前位置：首页 > 应用文书 > 工作计划 > 第3章网络搜索引擎.ppt

第3章网络搜索引擎.ppt

上传人：知****量

文档编号：18290867

上传时间：2022-05-30

格式：PPT

页数：148

大小：1.69MB

( 4.5 )

《第3章网络搜索引擎.ppt》由会员分享，可在线阅读，更多相关《第3章网络搜索引擎.ppt（148页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第三章第三章网络搜索引擎网络搜索引擎 3.1 搜索引擎概述搜索引擎概述3.1 搜索引擎概述搜索引擎概述在互联网发展初期，网站相对较少，信息查找比较容易。随着因特网的迅猛发展，网络信息大量增加（据估计，全球目前的网页超过5500亿），用户要在如此浩瀚的信息海洋里寻找信息，就象大海捞针、沙里淘金一样，必然会无功而返。这时为满足大众信息检索需求的专业搜索网站搜索引擎便应运而生了。它以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的。据中国国家互联网中心(CNNIC)2004年6月30日发布的第14次互联网发展统计报告。我国的网络用户

2、有8,700万人，是1997年1O月统计人数的140.3倍。其中有42.3的用户上网最主要的是为获取信息，搜索引擎的作用量占用户信息利用行为总量的71.9 。在用户经营使用的网络服务中，搜索引擎仅次于电子邮箱排在第2位。而86.9的用户得知新网站的主要途径是搜索引擎，搜索引擎已成为未知状态下发现有效信息的最有效方式。 3.1.1 搜索引擎的产生与发展现代意义上的搜索引擎的祖先，是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时WWW还未出现，但网络中文件传输还是相当频繁的，而且由于大量的文件散布在各个分散的FTP主机中，查询起来非常不便，因此Alan Emtag

3、e想到了开发一个可以以文件名查找文件的系统，于是便有了Archie。3.1.1 搜索引擎的产生与发展 Archie工作原理与现在的搜索引擎已经很接近，它依靠脚本程序自动搜索网上的文件，然后对有关信息进行索引，供使用者以一定的表达式查询。由于Archie深受用户欢迎，受其启发，美国内华达System Computing Services大学于1993年开发了另一个与之非常相似的搜索工具，不过此时的搜索工具除了索引文件外，已能检索网页。3.1.1 搜索引擎的产生与发展当时，“机器人”一词在编程者中十分流行。电脑“机器人”（Computer Robot）是指某种能以人类无法达到的速度不间断地执行某

4、项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去，因此，搜索引擎的“机器人”程序就被称为“蜘蛛”程序。 3.1.1 搜索引擎的产生与发展世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量，后来则发展为能够检索网站域名。与Wanderer相对应，Martin Koster于1993年10月创建了ALIWEB，它是Archie的HTTP版本。ALIWEB不使用“机器人”程序，而是靠网站主动提交信息来建立自己的链接索引，类似于现在我们熟知的Yaho

5、o！ 3.1.1 搜索引擎的产生与发展随着互联网的迅速发展，使得检索所有新出现的网页变得越来越困难，因此，在Matthew Gray的Wanderer基础上，一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是，既然所有网页都可能有连向其他网站的链接，那么从跟踪一个网站的链接开始，就有可能检索整个互联网。到1993年底，一些基于此原理的搜索引擎开始纷纷涌现，其中以Jump Station、The World Wide Web Worm（Goto的前身，也就是今天Overture），和Repository-Based Software Engineering (RBSE) spider最

6、负盛名。3.1.1 搜索引擎的产生与发展然而Jump Station和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果，因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。3.1.1 搜索引擎的产生与发展最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中，创建了大家现在熟知的Lycos。同年4月，斯坦福（Stanford）大学的两名博士生，David Filo和美籍华人杨致远（Gerry Yang）共同创办了超级目录索引Yahoo，并成功地使搜

7、索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前，互联网上有名有姓的搜索引擎已达数百家，其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google，其数据库中存放的网页已达30亿之巨！3.1.1 搜索引擎的产生与发展随着互联网规模的急剧膨胀，一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况，因此现在搜索引擎之间开始出现了分工协作，并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的Inktomi（已被Yahoo收购），它本身并不是直接面向用户的搜索引擎，但像包括Overture（原GoTo，已被Yahoo收购）、LookSmart、MSN、HotBot等在内的其他搜

8、索引擎提供全文网页搜索服务。国内的百度也属于这一类，搜狐和新浪用的就是它的技术。因此从这个意义上说，它们是搜索引擎的搜索引擎。3.1.2 搜索引擎的分类目前，Internet上已有数千个能提供检索服务的站点，这些站点的搜索引擎在收录的范围、内容、检索方法上都各有不同，采用的技术也各具特色。但总的来看，根据它们所基于的搜索技术原理，一般可把它们分成三大类：机器人（Robot）搜索引擎，分类目录式(Directory Search Engine)搜索引擎和元搜索引擎（Meta-search Engine）。3.1.2 搜索引擎的分类 1. 机器人（Robot）搜索引擎 Robot“搜索引擎”的一

9、个重要的特征是通过Robot，自动搜集各种web页面，并存入搜索引擎数据库。所谓Robot，即一个用c+、perl、Java或其它语言编写的网页自动搜索程序，它可以运行在Unix、Solaris、Windows、NT、Os2和MAC等平台上。该程序启动后，Robot会根据所给的网络地址(URL)自动对目的网页进行浏览，并将网页内容存储在搜索引擎的数据库中。同时，它还会根据网页的链接进一步提取其它网页，或转移到其它站点上，直到没有满足要求的新网页或网站为止。 3.1.2 搜索引擎的分类其工作原理为：首先，由自动搜索软件Robot根据给定的URL，访问目的站点，并通过其中的链接遍历www 中的其

10、它站点，然后将获得的站点信息形成一个巨大的网页信息库以备用户查询。当用户通过查询内容提出检索要求时，系统就会在数据库中找到相关内容，并按照既定规则进行排序输出。由于是通过Robot自动寻找网络资源并编制索引摘要，减少了人工作业，其优点明显表现为：信息搜集速度快，资源收录多、全，结果更新及时。同时，这也是其不足之处：收录的资源良莠不齐，查询结果准确度低，用户很难通过检索真正获得所需结果。这类搜索引擎的主要代表有Google、AltaVista、Northernlight、Excite、Lycos，国内的有天网、悠游等。3.1.2 搜索引擎的分类 2. 目录(Directory)搜索引擎目录(

11、Directory)搜索引擎，或称主题查询型搜索引擎，它提供一种可检索和查询的等级式主题目录，以超文本链接方式把资源按不同类型划分成不同的目录，各类目录下面引出属于这一类别的网站名称和网址链接以及每个网站的内容简介。用户在查询信息时，只需按分类目录逐层查找，搜索引擎就会将找到的相关网站名称、网址及内容简介显示在屏幕上，用户单击网站名称即可进入相应的网站。目录搜索引擎与Robot搜索引擎的主要区别在于目录搜索引擎是通过人工方式进行资源搜集，且采取人工方式来进行网站描述。首先，系统雇用的大量编辑，会进行广泛的网站或网页搜集。这些编辑在访问某个WEB站点时，会对该站点作适当的描述，并根据站点的内容和

12、性质将其归为一个预先分好的类别，把站点的URL和描述放在该类别中，即建立了目录数据库。 3.1.2 搜索引擎的分类检索子系统，一般提供两种信息查询方式，用户可根据实际情况选择关键词搜索或按分类目录逐层查找。由于目录是依靠人工进行整理搜索的，而且只在保存的对站点的描述中进行搜索，因此搜索范围较小，查全率较低，对偏僻主题、新兴学科、交叉学科不能很好地涵盖，类目间的交叉又会导致重复和资源浪费。另外，由于数据库更新速度比较慢，站点本身的动态变化不能及时地反映到搜索结果中，严重影响了查询结果的时效性。这是目录搜索引擎相对于Robot搜索引擎的不足之处。但同时，由于用户在进行信息查询时，只要遵循系统的分

13、类体系按图索骥、层层深入即可，操作比较简单，大大方便了用户。另外，由于系统是依靠人工来评价描述网站，准确性比较高，因此用户从目录搜索所得到结果的准确度一般比较高，参考价值也比较高。 3.1.2 搜索引擎的分类 3. 元搜索引擎元搜索引擎(Meta-search Engine)，是一种调用其它独立搜索引擎的引擎，亦称“搜索引擎之母(The mother of search engines)”。元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎，可被利用的独立搜索引擎称为“元搜索引擎”(source Engine)，或“搜索资源”(searching resources

14、)，整合、调用、控制和优化利用元搜索引擎的技术，称为“元搜索技术”(Metasearching technique)，元搜索技术是元搜索引擎的核心。3.1.2 搜索引擎的分类检索时，元搜索引擎根据用户提交的检索请求，调用元搜索引擎进行搜索，对搜索结果进行汇集、筛选、删并等优化处理后，以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻机制，亦无独立的索引数据库，但在检索请求提交、检索代理和检索结果显示等方面，均有自己研发的特色元搜索技术支持。如提交检索请求时，根据元搜索引擎的特点和技术参数，指定优先顺序，并对检索时间、检索结果数量进行控制； 3.1.2 搜索引擎的分类作为若干元搜索引擎

15、的检索接口代理，元搜索引擎必须具有较强的字符和语法转换功能，使用户的检索请求为各具语法特点的不同的元搜索引擎所认知和接受；而对检索结果的显示，不同的元搜索引擎有不同的处理技术。由于元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等不同，调用相同的元搜索引擎的不同元搜索引擎显示检索结果的数量多少、排序先后、结果信息描述选择亦有较大差异。 3.1.2 搜索引擎的分类目前运营的元搜索引擎各具特色，功能各有侧重，完全“理想”的尚不多见。元搜索引擎的功能受着元搜索引擎和元搜索技术的双重制约：一方面，元搜索引擎的各具特色的强大功能在元搜索引擎中受到限制而不能充分体现，而另一方面，

16、任何一种元搜索技术都不能发掘和利用元搜索引擎的全部功能。尽管元搜索引擎存在着这样那样的功能局限，但其以涵盖较多的搜索资源，能够在尽可能短的时间内提供相对全面、准确的检索结果等诸多优异功能。从而受到用户的青眯，已渐成为一种不可或缺的极具潜力的网络检索工具。 3.1.3 搜索引擎的工作原理搜索引擎并不真正搜索互联网，它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎，通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的

17、算法进行排序后，这些结果将按照与搜索关键词的相关度高低，依次排列。3.1.3 搜索引擎的工作原理搜索引擎的原理，可以看作：从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。 3.1.3 搜索引擎的工作原理 1. 从互联网上抓取网页各个搜索引擎一般都利用高性能的“蜘蛛”程序(spider)去自动地在互联网中搜索信息。一个典型的“网络蜘蛛”工作的方式，是查看一个页面，并从中找到相关信息，然后它再从该页面的所有链接中出发，继续寻找相关的信息，以此类推，直至穷尽。“蜘蛛”为实现其快速地浏览整个互联网，通常在技术上采用抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的使用，你能索引一个基于

18、URL链接的Web页面。启动一个新的线程跟随每个新的URI 链接，索引一个新的URI 起点。由于网络信息的不断变化，“蜘蛛”也不断的把以前已经分类组织的目录不断更新。不同的搜索引擎在完成这些工作的迅速性和综合性方面是不同的。这是各搜索引擎的最初工作步骤。 3.1.3 搜索引擎的工作原理 2. 建立索引数据库这一过程关系到用户能否最迅速地找到最准确、最广泛的信息，对“网络蜘蛛”抓来的网页信息极快地建立索引，保证信息的及时性。不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异。有的搜索引擎把“网页搜索软件”发向每一个站点，记录下每一页的所有文本内容；另一些搜索引擎则首先分析数据库中的地址，以

19、判别那些站点最受欢迎(一般都是通过测定该站点的链接数量)，然后再用软件记录这些站点的信息。记录的信息包括从HTMI 标题到整个站点的所有文本内容以及经过算法处理后的摘要。当然。 3.1.3 搜索引擎的工作原理最重要的是数据库的内容必须经常更新、重建。以保持与信息世界的同步发展。 3.1.3 搜索引擎的工作原理 3. 用户检索过程搜索引擎索引数据库建立以后，每个搜索引擎都必须提供一个良好的信息查询界面，并具有帮助功能。用户只要把想要查找的关键词(keyword)输入查询框中，并按“search”按钮(或类似的按钮)，则检索器根据用户输入的查询关键词，在索引库中快速检出文档，因为所有相关网页针

20、对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。用户只要通过搜索引擎提供的链接，就可以访问到相关信息。这个过程是对前两个过程的检验，检验该搜索引擎能否给出最准确、最广泛的信息，检验该搜索引擎能否迅速地给出用户最想得到的信息。3.1.3 搜索引擎的工作原理搜索引擎的Spider一般要定期重新访问所有网页（各搜索引擎的周期不同，可能是几天、几周或几月，也可能对不同重要性的网页有不同的更新频率），更新网页索引数据库，以反映出网页内容的更新情况，增加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化情况就会反映到用户查询

21、的结果中。3.1.3 搜索引擎的工作原理互联网虽然只有一个，但各搜索引擎的能力和偏好不同，所以抓取的网页各不相同，排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引，数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库，也只能占到互联网上普通网页的不到30%，不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因，就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容，是搜索引擎无法抓取索引的，也是我们无法用搜索引擎搜索到的。3.1.4 搜索引擎的检索技巧人们在网络检索实践中往往对检索结果不满意，如何提高检

22、索的精度和广度，如何加快检索速度，这对于专业检索人员也是一种挑战，但也并非无法控制。如果能掌握一些常用的检索技巧，就可以减少检索过程中的挫折和增加获取到有用资源的可能性。 3.1.4 搜索引擎的检索技巧 1. 选择合适的检索工具不同的检索工具有不同的特点，只有选择合适的搜索工具才能得到最佳的结果。因此，要熟悉和掌握一些常用的搜索引擎的性能、特点和使用方法。3.1.4 搜索引擎的检索技巧（1）细节查询或强调获取较为具体、特定的信息时，一般应利用关键词进行大范围的快速检索，方便、快捷地查询到针对性较强的检索结果。（2）一般性的浏览查询或强调获取较为综合、准确的信息时，一般应利用分类检索，用户

23、可按思维的逻辑顺序或按照其主题目录体系的导引去浏览、追踪、查找信息。3.1.4 搜索引擎的检索技巧（3）在查询一些较模糊或就某一课题的网络资源进行调查、摸底、综览时使用多元搜索引擎。3.1.4 搜索引擎的检索技巧 2. 巧用关键词搜索搜索引擎是将输入的关键词与其数据库中存储的信息进行匹配，直到找出结果。如果输入的关键词过于简单，那么得到的搜索结果将不计其数。选择正确的关键词是一切有效搜索的前提。首先应从复杂的搜索意图中提炼出最具代表性的关键词，这方面的技巧是所有搜索技巧之母。其次，搜索条件越具体，搜索引擎返回的结果就越精确，有时多输入一两个关键词效果就完全不同，这是搜索的基本技巧之一。3

24、.1.4 搜索引擎的检索技巧例如：以“网络” 作为关键词，与之相关的信息就太多了。同样，如果在搜索引擎中输入一个关键词“安徽”，搜索引擎不知道要找什么它可能会返回很多莫名其妙的结果。如搜索安徽旅游方面的信息，可以这样查询：在搜索引擎中输入关键词“安徽旅游”，假如把搜索范围锁定在安徽的黄山地区，则应该输入关键词“安徽黄山旅游”。这样用搜索引擎找到的信息就会更加准确。因此，搜索中应学会使用两个以上的关键词搜索的方法，或应养成使用多个关键词搜索的习惯。当然，大多数情况下使用两个关键词搜索已经足够了。 3.1.4 搜索引擎的检索技巧另外，由于中英文在词语排列上的差异(英文词与词之间有空格隔开，而

25、中文则没有)，使得中文切词成为搜索引擎的一大挑战。虽然目前支持中文搜索的引擎在切词方面已做得相当出色，但求其完美无缺也不太现实。因此在搜索关键词较多的情况下，建议主动将中文字词之间用空格隔开，以避免过多的无效搜索。比如查中文电脑冒险游戏的资料，输入“电脑游戏冒险”，而不是“电脑冒险游戏”。3.1.4 搜索引擎的检索技巧 3. 减号“-”的运用 “-”号的作用是为了去除无关的搜索结果，提高搜索结果相关性。若在搜索结果中见到很多不相关的搜索结果，则可用“-”号减掉不相关结果的特征关键词。比如要找“申花”的企业信息，输入“申花”却找到一大堆申花队的新闻，这些新闻的共同特征是“足球”输入“申花-足球”

26、来进行搜索，查询的结果里就不会再有体育新闻了。假如查找合肥地区的电信信息，但想排除与手机相关的信息，输入关键词“合肥电信-手机”。“手机”前面多了一个“-”号，表示排除与手机相关的信息。 3.1.4 搜索引擎的检索技巧因此，要学会使用“-”号等逻辑符号命令来进行文献信息搜索，则可使日常搜索达到事半功倍的效果。 4. 利用双引号“”进行精确匹配搜索精确匹配搜索也是缩小搜索结果范围的有利工具，此外，还可以用它来达到某些其他方式无法完成的搜索任务。简单搜索往往会反馈回大量不需要的信息，如果查找的是一个词组或多个汉字，最好的办法就是将它们用双引号引起来(即在英文输入状态下的双引号)这样得到的信息结

27、果最少、最精确。例如在搜索引擎的查询框内输入“电脑技术”，就等于告诉搜索引擎只需要反馈回网页中有“电脑技术”这个关键词的网址，而输入电脑技术则会反馈出很多不需要的信息来。因此，应充分学会利用“”双引号来进行搜索。3.1.4 搜索引擎的检索技巧 5. 正确使用高级检索利用高级搜索，正确使用布尔逻辑算符and(表示逻辑“与”。可用“”表示，在中文中一般用半角的“+”表示，用于搜索两个以上关键词，如“法国农业+巴西农业+中国农业”，表示检索内容必须同时包括“法国农业、巴西农业、中国农业”3个关键词)；or(表示逻辑“或”，可用半角的“，”来表示，有的搜索引擎使用空格，如 “法国农业，巴西农业，中国

28、农业”表示检索内容不必同时包括3个关键词，只要包括其中一个即可)； 3.1.4 搜索引擎的检索技巧 not(表示逻辑“非”，可用“！”来表示，也可在要排除的关键词前加半角的“-”，如“新闻not经济” 表示检索内容包含“新闻”但排除其中有“经济” 这个词语的文档，“电脑 -硬件”表示要检索“电脑”但不包含“硬件” 的文档)等，有的搜索引擎不完全支持上述算符，如yahoo尚不支持not，不同的搜索引擎表达方式不同。3.1.4 搜索引擎的检索技巧 6. 使用目录导航检索方式的技巧如果想查找的信息不是很具体，通过网站的分类目录搜索通常会比寻找单个网站来得有效。例如，要利用搜狐找关于体育彩票的信息，

29、在“首页娱乐休闲彩票体育彩票”类目下有许多高质量的网站。这比起通过输入关键词后，在搜索结果页面中一页一页翻动效率要高。另外，在关键词搜索结果页面中看到了似乎合适的一个网站可以点击进入列在该网站下面的该网站所在的类目，在这个类目下可能就有许多相关的网站。3.1.4 搜索引擎的检索技巧 7. 使用多个搜索引擎据搜索内容的不同，有针对地选择不同的搜索引擎，往往会收到较好的效果。如果想查英汉或汉英词典，或想查询某地方的天气预报，可以选Google搜索；如果想找mp3的话，一般教育网上比较多，可以考虑用天网进行搜索。总之，应学会使用多个搜索引擎因为很少有人使用一个搜索引擎就能找遍互联网上的所有信息。同

30、样，每个搜索引擎的性能是不同的，所以，在为找不着所需的信息而着急的时候，不妨再用别的搜索引擎试试，或者用浏览器打开多个搜索引擎进行同时搜索。每一个搜索引擎在使用上都有细微的差别，所以在使用前应先查阅相关的使用方法，这些信息的链接通常就在关键字输入框的旁边。3.1.4 搜索引擎的检索技巧 8. 重复检索网络信息的开放性使检索的结果具有动态性，每一次可能都不一样，要取得较好的检索结果往往需要在一段时间进行若干次检索。 9. 注意搜索中常见的错误在搜索过程中经常会有这样的事情发生：虽然已尽全力来搜索，但依然没有找到需要的答案，这时应认真回顾检查一下整个搜索过程，也许只是因为一个小差错，纠正过来就

31、会找到有用的信息。下面是初学者搜索时容易犯的几个低级错误和解决方法。（1）错别字。即在你输入的关键词中含有错别字，例如“星际争吧”、“以德制国”等等。3.1.4 搜索引擎的检索技巧（2）用通用词汇来检索。搜索引擎对常见的词汇搜索存在缺陷，因为这些词曝光率太高了，以至于出现在成百万的网页中，使得它们事实上不能被用来找到什么有用的内容。比如，搜索“电话”，有无数个网站均会提供跟“电话”相关的信息，从网上黄页到电话零售商再到个人电话号码等都有信息反映。所以当搜索结果太多太乱的时候，应该尝试使用更多的关键词或者用减号“-”来搜索，不应使用太常见的关键词来搜索。3.1.4 搜索引擎的检索技巧（3）

32、使用了多义词，很多词具有一词多意的特性。比如，“笔记本”，可以指用来手写的笔记本，也可作为笔记本电脑代名词。遇到这类词，需要在搜索框中尽量输入单义词，如直接输入“笔记本电脑”。又如搜索“Java”，要找的这个信息究竟是一个岛屿?一种咖啡?还是一种计算机语言?搜索引擎一般是不能理解或辨别多义词的。因此，要小心使用多义词，解决的办法只能是用短语、多个关键词或者用其他的词语来代替多义词作为搜索的关键词。3.1.4 搜索引擎的检索技巧（4）关键词应用不妥。搜索失败的另一个常见原因就是不会输入关键词。比如类似这样的检索：“现代爱情故事歌词”、“上海到西安列车时刻表”。搜索引擎一般是机械的，当用关键词搜

33、索的时候，它只会把含有这个关键词的网页找出来，根本不管网页上的内容是什么。而正确的关键词应该是输入“现代爱情故事歌词”、“上海西安列车时刻表”。（5）在错误的地方搜索。搜索引擎从抓取网页、解析、索引到提供检索是有周期性的，而各搜索引擎的信息滞后周期一般是从一周到一月不等，所以查找最新内容应该去看新闻， 3.1.4 搜索引擎的检索技巧用搜索引擎一般是寻找不到最新内容的。搜索引擎对动态内容，如：论坛、数据库内容以及带frame结构的网页检索能力较弱，所以这类信息也不适合用搜索引擎，而是应该去相关的网站进行搜索。3.1.4 搜索引擎的检索技巧总之，如何利用搜索引擎这一强有力工具，快速准确地

34、检索网络信息，从信息资源宝库中找到所需的各种各样的信息，关键是摸索出一套适合自己的搜索策略和搜索方法。因此，我们除了熟悉各种搜索引擎的特点外，还应掌握搜索引擎的使用技巧，从不同形式的数字化信息中进行搜集，并对发现的信息进行理解、提取、组织和处理，这样才能快速找到所需要的信息。3.2 Google搜索引擎搜索引擎3.2.1 Google简介Google是目前世界上最优秀的搜索引擎之一，是由美国斯垣福大学的二位博士生Larry Page和Sergey Brin于1998年9月发明的，1999年成立公司，2000 年7月，Google替代Inktomi成为Yahoo!公司的搜索引擎，（注：Yahoo

35、已于2004年2月前终止与Google的合作关系。）同年9月，Google成为网易公司的搜索引擎。在短短的时间里这一网站已在全球范围内拥有了一个正在快速增长的忠实用户群。根据美国著名网络评估公司尼尔森公司公布的最新数据显示，2005年12月，Google在美国网络搜索市场的领先优势继续扩大，已占据了48.8%的份额。此外，技术创新也为该公司Google带来了多项荣誉，如美国时代杂志评选的“1999年度十大网络技术”之一，个人电脑杂志授予的“最佳技术奖”，The Net授予的“最佳搜索引擎奖”等。德国互联网杂志今日在线最近分别测试15个主要搜索引擎和门户网站，就网站结构是否清晰、搜索功能的解释是

36、否清楚明白，以及提供的搜索服务是否准确做出评分，结果Google获选为最佳搜索引擎。 3.2.1 Google简介 Google一词是由英文单词“googol”变化而来，“googo1”这个词是由美国数学家Edward Kasner的侄子Milton Sirotta创造的，表示1后面带有100个零的数字，Google用这个词作为搜索引擎的名称，代表它征服网上无穷无尽资料的雄心。目前，Google的目录中收录了80亿多个网址，10亿多张图片，这在同类搜索引擎中是首屈一指的，同时，Google将其特有的网页级别技术与完善的文本匹配技术结合在一起，它所关注的远不只是关键词在网页上出现的次数，它还对

37、该网页的内容（以及该网页所链接的内容）进行全面检查，从而确定该网页是否满足用户的查询要求，为用户快速地找到最重要、最有用的网页。由于Google的强大的智能搜索技术和开创新思维，已使得其成为网络上最具竞争力的搜索引擎。3.2.1 Google简介要用Google做搜索，当然要先进Google网站，第一次进入Google,它会根据你的操作系统，确定语言界面，Google的首页很清爽，如图321所示。一个搜索内容输入框，一组搜索种类选择链接（包括网页、图片、新闻论坛、网页、目录）再加上一个搜索按钮就是这个页面的全部家当。 3.2.1 Google简介3.2.2 基本搜索 1. 搜索入门 Goo

38、gle 查询简洁方便，仅需输入查询内容并敲一下回车键 (Enter)，或单击“Google 搜索”按钮即可得到相关资料。 Google 查询严谨细致，能帮助用户找到最重要、最相关的内容。例如，当 Google 对网页进行分析时，它会考虑与该网页链接的其它网页上的相关内容。Google 还会先列出那些搜索关键词相距较近的网页。3.2.2 基本搜索 2.初阶搜索（1）搜索结果要求包含两个及两个以上关键字一般搜索引擎需要在多个关键字之间加上“+”，而Google无需用明文的“+”来表示逻辑“与”操作，只要空格就可以了。比如，我们要了解一下搜索引擎的历史，因此期望搜得的网页上有“搜索引擎”和“历史

39、”两个关键字。3.2.2 基本搜索示例：搜索所有包含关键词“搜索引擎”和“历史”的中文网页搜索：“搜索引擎历史” 结果：简体中文简体中文网页中，约有 3,240,000 项符合搜索引擎搜索引擎历史历史的查询结果，以下是第 1 - 10 项。（搜索用时 0.15 秒）（2）搜索结果要求不包含某些特定信息3.2.2 基本搜索 Google用减号“-”表示逻辑“非”操作。“A B”表示搜索包含A但没有B的网页。（“-”，英文字符）。但在减号之前必须留一空格。示例：搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史”和“世界历史”的中文网页3.2.2 基本搜索搜索：“搜索引

40、擎历史 -文化 -中国历史 -世界历史” 结果：简体中文简体中文网页中，约有 2,130,000 项符合搜索引擎搜索引擎历史历史 -文化文化 -中国历史中国历史 -世世界历史界历史的查询结果，以下是第 1 - 10 项。（搜索用时 0.32 秒）（3）搜索结果至少包含多个关键字中的任意一个。 3.2.2 基本搜索 Google用大写的“OR”表示逻辑“或”操作。搜索“A OR B”，意思就是说，搜索的网页中，要么有A，要么有B，要么同时有A和B。在上例中，我们希望搜索结果中最好含有“archie”、“lycos”、“蜘蛛”等关键字中的一个或者几个，这样可以进一步的精简搜索结果。3.2.

41、2 基本搜索示例：搜索如下网页，要求必须含有“搜索引擎”和“历史”，没有“文化”，可以含有以下关键字中人任何一个或者多个：“Archie”、“蜘蛛”、“Lycos”、“Yahoo”。搜索：“搜索引擎历史 archie OR 蜘蛛 OR lycos OR yahoo -文化” 结果：简体中文简体中文网页中，约有 249,000 项符合搜搜索引擎索引擎历史历史 archie OR 蜘蛛蜘蛛 OR lycos OR yahoo -文化文化的查询结果，以下是第 1 - 10 项。（搜索用时 0.56 秒）3.2.2 基本搜索搜索引擎最基本的语法“与”“非”和“或”，在Google中分别用“

42、 ”（空格）、“-”和“OR”表示。顺着上例的思路，便可以了解到如何缩小搜索范围，迅速找到目的资讯的一般方法：目标信息一定含有的关键字（用“ ”连起来），目标信息不能含有的关键字（用“-”去掉），目标信息可能含有的关键字（用“OR”连起来）。3.2.2 基本搜索图322 Google搜索结果页面3.2.2 基本搜索 3. 辅助搜索（1）通配符问题 Google使用的通配符属于“全词通配符”（full-word wildcard）是指代替一个单词而不是单词中的某个或几个字母的键盘字符，Google的全词通配符是*（星号），一次检索可以使用若干个*。这意味着一个语句可以写成用带有星号“*”代替未

43、知内容的形式。这一功能使得查找某资料片断变得更快更容易了。（2）关键字的字母大小写3.2.2 基本搜索 Google对英文字符大小写不敏感，搜索Three, three, THREE都可以得到相同的结果。（3）搜索整个短语或者句子 Google的关键字可以是单词（中间没有空格），也可以是短语（中间有空格）。但是，用短语做关键字，必须加英文引号，否则空格会被当作“与”操作符。示例：搜索关于第一次世界大战的英文信息。3.2.2 基本搜索搜索：“world war I” 结果：简体中文简体中文网页中，约有 37,900 项符合world war I的查询结果，以下是第 1 - 10 项。（

44、搜索用时 0.25 秒）（4）搜索引擎忽略的字符以及强制搜索 Google对一些网路上出现频率极高的英文单词，如“i”、“com”、“www”等，以及一些符号如“*”、“.”等，作忽略处理。示例：搜索关于www起源的一些历史资料。搜索：“www的历史 internet”3.2.2 基本搜索结果：以下的字词因为使用过于频繁，没有被列入搜索范围: www 的. 已搜索有关www的历史 internet的中文(简体)网页。约有 604,000 项符合www的历史的历史 internet的查询结果，以下是第 1 - 10 项。（搜索用时 0.49 秒）。如果要对忽略的关键字进行强制搜索，则

45、需要在该关键字前加上明文的“+”号。搜索：“+www +的历史 internet” 结果：简体中文简体中文网页中，约有 482,000 项符合+www +的的历史历史 internet的查询结果，以下是第 1 - 10 项。（搜索用时 0.30 秒）3.2.2 基本搜索另一个强制搜索的方法是把上述的关键字用英文双引号引起来。在上例“”world war I”中，“I”其实也是忽略词，但因为被英文双引号引起来，搜索引擎就强制搜索这一特定短语。3.2.3 高级搜索 1. 对搜索的网站进行限制 “site”表示搜索结果局限于某个具体网站或者网站频道，如“”、“”，或者是某个域名，如“cn”、“

46、com”等等。如果是要排除某网站或者域名范围内的页面，只需用“-网站/域名”。3.2.3 高级搜索示例：搜索中文教育科研网站(educn)中所有包含“金庸”的页面。搜索：“金庸site:” 结果：的简体中文简体中文网页中，共有 70,000 项符合金庸金庸的查询结果，以下是第 1 - 10 项。（搜索用时 0.08 秒） 3.2.3 高级搜索注意：site后的冒号为英文字符，而且，冒号后不能有空格，否则，“site:”将被作为一个搜索的关键字。此外，网站域名不能有“http:/”前缀，也不能有任何“/”的目录后缀；网站频道则只局限于“频道名.域名”方式，而不能是“域名/频道名”方式。

47、3.2.3 高级搜索 2. 在某一类文件中查找信息 “filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说，Google不仅能搜索一般的文字页面，还能对某些二进制文档进行检索。目前，Google已经能检索微软的Office文档如.xls、.ppt、.doc，.rtf，WordPerfect文档，Lotus1-2-3文档，Adobe的.pdf文档，ShockWave的.swf文档（Flash动画）等。其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式，现在已经成为互联网的电子化出版标准。 3.2.3 高级搜索目前Google检索的PDF文档大约有

48、2500万左右，大约占所有索引的二进制文档数量的80。PDF文档通常是一些图文并茂的综合性文档，提供的资讯一般比较集中全面。示例：搜索几个网络信息检索的Office文档。搜索：“网络信息检索 filetype:doc OR filetype:xls OR filetype:ppt” 结果：简体中文简体中文网页中，约有 47,900 项符合网络网络信息检索信息检索 filetype:doc OR filetype:xls OR filetype:ppt的查询结果，以下是第 1 - 10 项。（搜索用时 0.53 秒）3.2.3 高级搜索图323 Google 高级搜索页面3.2.3 高级搜

49、索 3. 搜索的关键字包含在URL链接中 “inurl”语法返回的网页链接中包含第一个关键字，后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中，比如“MP3”、“GALLARY”等，于是，就可以用INURL语法找到这些相关资源链接，然后，用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于，前者通常能提供非常精确的专题资料。3.2.3 高级搜索示例：查找movie“骇客帝国”。搜索：“inurl:movie “骇客帝国” 结果：简体中文简体中文网页中，约有 63,700 项符合inurl:movie

50、骇客帝国骇客帝国的查询结果，以下是第 1 - 10 项。（搜索用时 0.05 秒）注意：“inurl:”后面不能有空格，Google也不对URL符号如“/”进行搜索。例如，Google会把“cgi-bin/phf”中的“/”当成空格处理。3.2.3 高级搜索 4. 搜索的关键字包含在网页标题中 “intitle”和“allintitle”的用法类似于上面的inurl和allinurl，只是后者对URL进行查询，而前者对网页的标题栏进行查询。网页标题，就是HTML标记语言title中之间的部分,网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此，只查询标题栏，通常也可

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 网络搜索引擎

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：第3章网络搜索引擎.ppt
链接地址：https://www.taowenge.com/p-18290867.html