第3章网络搜索引擎.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第3章网络搜索引擎.ppt》由会员分享,可在线阅读,更多相关《第3章网络搜索引擎.ppt(148页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第三章第三章 网络搜索引擎网络搜索引擎 3.1 搜索引擎概述搜索引擎概述3.1 搜索引擎概述搜索引擎概述在互联网发展初期,网站相对较少,信息查找比较容易。随着因特网的迅猛发展,网络信息大量增加(据估计,全球目前的网页超过5500亿),用户要在如此浩瀚的信息海洋里寻找信息,就象大海捞针、沙里淘金一样,必然会无功而返。这时为满足大众信息检索需求的专业搜索网站搜索引擎便应运而生了。它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。据中国国家互联网中心(CNNIC)2004年6月30日发布的第14次互联网发展统计报告。我国的网络用户
2、有8,700万人,是1997年1O月统计人数的140.3倍。其中有42.3的用户上网最主要的是为获取信息,搜索引擎的作用量占用户信息利用行为总量的71.9 。在用户经营使用的网络服务中,搜索引擎仅次于电子邮箱排在第2位。而86.9的用户得知新网站的主要途径是搜索引擎,搜索引擎已成为未知状态下发现有效信息的最有效方式。 3.1.1 搜索引擎的产生与发展 现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时WWW还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtag
3、e想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。3.1.1 搜索引擎的产生与发展 Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于Archie深受用户欢迎,受其启发,美国内华达System Computing Services大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。3.1.1 搜索引擎的产生与发展 当时,“机器人”一词在编程者中十分流行。电脑“机器人”(Computer Robot)是指某种能以人类无法达到的速度不间断地执行某
4、项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。 3.1.1 搜索引擎的产生与发展 世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。 与Wanderer相对应,Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的Yaho
5、o! 3.1.1 搜索引擎的产生与发展 随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以Jump Station、The World Wide Web Worm(Goto的前身,也就是今天Overture),和Repository-Based Software Engineering (RBSE) spider最
6、负盛名。3.1.1 搜索引擎的产生与发展 然而Jump Station和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。3.1.1 搜索引擎的产生与发展 最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜
7、索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,其数据库中存放的网页已达30亿之巨!3.1.1 搜索引擎的产生与发展 随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的Inktomi(已被Yahoo收购),它本身并不是直接面向用户的搜索引擎,但像包括Overture(原GoTo,已被Yahoo收购)、LookSmart、MSN、HotBot等在内的其他搜
8、索引擎提供全文网页搜索服务。国内的百度也属于这一类,搜狐和新浪用的就是它的技术。因此从这个意义上说,它们是搜索引擎的搜索引擎。3.1.2 搜索引擎的分类 目前,Internet上已有数千个能提供检索服务的站点,这些站点的搜索引擎在收录的范围、内容、检索方法上都各有不同,采用的技术也各具特色。但总的来看,根据它们所基于的搜索技术原理,一般可把它们分成三大类:机器人(Robot)搜索引擎,分类目录式(Directory Search Engine)搜索引擎和元搜索引擎(Meta-search Engine)。3.1.2 搜索引擎的分类 1. 机器人(Robot)搜索引擎 Robot“搜索引擎”的一
9、个重要的特征是通过Robot,自动搜集各种web页面,并存入搜索引擎数据库。所谓Robot,即一个用c+、perl、Java或其它语言编写的网页自动搜索程序,它可以运行在Unix、Solaris、Windows、NT、Os2和MAC等平台上。该程序启动后,Robot会根据所给的网络地址(URL)自动对目的网页进行浏览,并将网页内容存储在搜索引擎的数据库中。同时,它还会根据网页的链接进一步提取其它网页,或转移到其它站点上,直到没有满足要求的新网页或网站为止。 3.1.2 搜索引擎的分类 其工作原理为:首先,由自动搜索软件Robot根据给定的URL,访问目的站点,并通过其中的链接遍历www 中的其
10、它站点,然后将获得的站点信息形成一个巨大的网页信息库以备用户查询。当用户通过查询内容提出检索要求时,系统就会在数据库中找到相关内容,并按照既定规则进行排序输出。由于是通过Robot自动寻找网络资源并编制索引摘要,减少了人工作业,其优点明显表现为:信息搜集速度快,资源收录多、全,结果更新及时。同时,这也是其不足之处:收录的资源良莠不齐,查询结果准确度低,用户很难通过检索真正获得所需结果。 这类搜索引擎的主要代表有Google、AltaVista、Northernlight、Excite、Lycos,国内的有天网、悠游等。3.1.2 搜索引擎的分类 2. 目录(Directory)搜索引擎 目录(
11、Directory)搜索引擎,或称主题查询型搜索引擎,它提供一种可检索和查询的等级式主题目录,以超文本链接方式把资源按不同类型划分成不同的目录,各类目录下面引出属于这一类别的网站名称和网址链接以及每个网站的内容简介。用户在查询信息时,只需按分类目录逐层查找,搜索引擎就会将找到的相关网站名称、网址及内容简介显示在屏幕上,用户单击网站名称即可进入相应的网站。目录搜索引擎与Robot搜索引擎的主要区别在于目录搜索引擎是通过人工方式进行资源搜集,且采取人工方式来进行网站描述。首先,系统雇用的大量编辑,会进行广泛的网站或网页搜集。这些编辑在访问某个WEB站点时,会对该站点作适当的描述,并根据站点的内容和
12、性质将其归为一个预先分好的类别,把站点的URL和描述放在该类别中,即建立了目录数据库。 3.1.2 搜索引擎的分类 检索子系统,一般提供两种信息查询方式,用户可根据实际情况选择关键词搜索或按分类目录逐层查找。由于目录是依靠人工进行整理搜索的,而且只在保存的对站点的描述中进行搜索,因此搜索范围较小,查全率较低,对偏僻主题、新兴学科、交叉学科不能很好地涵盖,类目间的交叉又会导致重复和资源浪费。另外,由于数据库更新速度比较慢,站点本身的动态变化不能及时地反映到搜索结果中,严重影响了查询结果的时效性。这是目录搜索引擎相对于Robot搜索引擎的不足之处。但同时,由于用户在进行信息查询时,只要遵循系统的分
13、类体系按图索骥、层层深入即可,操作比较简单,大大方便了用户。另外,由于系统是依靠人工来评价描述网站,准确性比较高,因此用户从目录搜索所得到结果的准确度一般比较高,参考价值也比较高。 3.1.2 搜索引擎的分类 3. 元搜索引擎 元搜索引擎(Meta-search Engine),是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母(The mother of search engines)”。元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎,可被利用的独立搜索引擎称为“元搜索引擎”(source Engine),或“搜索资源”(searching resources
14、),整合、调用、控制和优化利用元搜索引擎的技术,称为“元搜索技术”(Metasearching technique),元搜索技术是元搜索引擎的核心。3.1.2 搜索引擎的分类 检索时,元搜索引擎根据用户提交的检索请求,调用元搜索引擎进行搜索,对搜索结果进行汇集、筛选、删并等优化处理后,以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。如提交检索请求时,根据元搜索引擎的特点和技术参数,指定优先顺序,并对检索时间、检索结果数量进行控制; 3.1.2 搜索引擎的分类 作为若干元搜索引擎
15、的检索接口代理,元搜索引擎必须具有较强的字符和语法转换功能,使用户的检索请求为各具语法特点的不同的元搜索引擎所认知和接受;而对检索结果的显示,不同的元搜索引擎有不同的处理技术。由于元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等不同,调用相同的元搜索引擎的不同元搜索引擎显示检索结果的数量多少、排序先后、结果信息描述选择亦有较大差异。 3.1.2 搜索引擎的分类 目前运营的元搜索引擎各具特色,功能各有侧重,完全“理想”的尚不多见。元搜索引擎的功能受着元搜索引擎和元搜索技术的双重制约:一方面,元搜索引擎的各具特色的强大功能在元搜索引擎中受到限制而不能充分体现,而另一方面,
16、任何一种元搜索技术都不能发掘和利用元搜索引擎的全部功能。尽管元搜索引擎存在着这样那样的功能局限,但其以涵盖较多的搜索资源,能够在尽可能短的时间内提供相对全面、准确的检索结果等诸多优异功能。从而受到用户的青眯,已渐成为一种不可或缺的极具潜力的网络检索工具。 3.1.3 搜索引擎的工作原理 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的
17、算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。3.1.3 搜索引擎的工作原理 搜索引擎的原理,可以看作:从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。 3.1.3 搜索引擎的工作原理 1. 从互联网上抓取网页 各个搜索引擎一般都利用高性能的“蜘蛛”程序(spider)去自动地在互联网中搜索信息。一个典型的“网络蜘蛛”工作的方式,是查看一个页面,并从中找到相关信息,然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。“蜘蛛”为实现其快速地浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的使用,你能索引一个基于
18、URL链接的Web页面。启动一个新的线程跟随每个新的URI 链接,索引一个新的URI 起点。由于网络信息的不断变化,“蜘蛛”也不断的把以前已经分类组织的目录不断更新。不同的搜索引擎在完成这些工作的迅速性和综合性方面是不同的。这是各搜索引擎的最初工作步骤。 3.1.3 搜索引擎的工作原理 2. 建立索引数据库 这一过程关系到用户能否最迅速地找到最准确、最广泛的信息,对“网络蜘蛛”抓来的网页信息极快地建立索引,保证信息的及时性。不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异。有的搜索引擎把“网页搜索软件”发向每一个站点,记录下每一页的所有文本内容;另一些搜索引擎则首先分析数据库中的地址,以
19、判别那些站点最受欢迎(一般都是通过测定该站点的链接数量),然后再用软件记录这些站点的信息。记录的信息包括从HTMI 标题到整个站点的所有文本内容以及经过算法处理后的摘要。当然。 3.1.3 搜索引擎的工作原理 最重要的是数据库的内容必须经常更新、重建。以保持与信息世界的同步发展。 3.1.3 搜索引擎的工作原理 3. 用户检索过程 搜索引擎索引数据库建立以后,每个搜索引擎都必须提供一个良好的信息查询界面,并具有帮助功能。用户只要把想要查找的关键词(keyword)输入查询框中,并按“search”按钮(或类似的按钮),则检索器根据用户输入的查询关键词,在索引库中快速检出文档,因为所有相关网页针
20、对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。用户只要通过搜索引擎提供的链接,就可以访问到相关信息。这个过程是对前两个过程的检验,检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。3.1.3 搜索引擎的工作原理 搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询
21、的结果中。3.1.3 搜索引擎的工作原理 互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。3.1.4 搜索引擎的检索技巧 人们在网络检索实践中往往对检索结果不满意,如何提高检
22、索的精度和广度,如何加快检索速度,这对于专业检索人员也是一种挑战,但也并非无法控制。如果能掌握一些常用的检索技巧,就可以减少检索过程中的挫折和增加获取到有用资源的可能性。 3.1.4 搜索引擎的检索技巧 1. 选择合适的检索工具 不同的检索工具有不同的特点,只有选择合适的搜索工具才能得到最佳的结果。因此,要熟悉和掌握一些常用的搜索引擎的性能、特点和使用方法。3.1.4 搜索引擎的检索技巧 (1)细节查询或强调获取较为具体、特定的信息时,一般应利用关键词进行大范围的快速检索,方便、快捷地查询到针对性较强的检索结果。 (2)一般性的浏览查询或强调获取较为综合、准确的信息时,一般应利用分类检索,用户
23、可按思维的逻辑顺序或按照其主题目录体系的导引去浏览、追踪、查找信息。3.1.4 搜索引擎的检索技巧 (3) 在查询一些较模糊或就某一课题的网络资源进行调查、摸底、综览时使用多元搜索引擎。3.1.4 搜索引擎的检索技巧 2. 巧用关键词搜索 搜索引擎是将输入的关键词与其数据库中存储的信息进行匹配,直到找出结果。如果输入的关键词过于简单,那么得到的搜索结果将不计其数。选择正确的关键词是一切有效搜索的前提。首先应从复杂的搜索意图中提炼出最具代表性的关键词,这方面的技巧是所有搜索技巧之母。其次,搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同,这是搜索的基本技巧之一。3
24、.1.4 搜索引擎的检索技巧 例如: 以“网络” 作为关键词,与之相关的信息就太多了。同样,如果在搜索引擎中输入一个关键词“安徽”,搜索引擎不知道要找什么它可能会返回很多莫名其妙的结果。如搜索安徽旅游方面的信息,可以这样查询:在搜索引擎中输入关键词“安徽旅游”,假如把搜索范围锁定在安徽的黄山地区,则应该输入关键词“安徽黄山旅游”。这样用搜索引擎找到的信息就会更加准确。因此,搜索中应学会使用两个以上的关键词搜索的方法,或应养成使用多个关键词搜索的习惯。当然,大多数情况下使用两个关键词搜索已经足够了。 3.1.4 搜索引擎的检索技巧 另外,由于中英文在词语排列上的差异(英文词与词之间有空格隔开,而
25、中文则没有),使得中文切词成为搜索引擎的一大挑战。虽然目前支持中文搜索的引擎在切词方面已做得相当出色,但求其完美无缺也不太现实。因此在搜索关键词较多的情况下,建议主动将中文字词之间用空格隔开,以避免过多的无效搜索。比如查中文电脑冒险游戏的资料,输入“电脑游戏冒险”,而不是“电脑冒险游戏”。3.1.4 搜索引擎的检索技巧 3. 减号“-”的运用 “-”号的作用是为了去除无关的搜索结果,提高搜索结果相关性。若在搜索结果中见到很多不相关的搜索结果,则可用“-”号减掉不相关结果的特征关键词。比如要找“申花”的企业信息,输入“申花”却找到一大堆申花队的新闻,这些新闻的共同特征是“足球”输入“申花-足球”
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 搜索引擎
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内