2022年搜索引擎工作原理 4.pdf
《2022年搜索引擎工作原理 4.pdf》由会员分享,可在线阅读,更多相关《2022年搜索引擎工作原理 4.pdf(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、搜索引擎工作原理一、搜索引擎的分类获得网站网页资料, 能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录 Directory)。全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider )”或叫“网络蜘蛛(crawlers )”的软件, 通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。 Google、 百度都是比较典型的全文搜索引擎系统。分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录
2、。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”。全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大, 但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站, 能够提供更为准确的查询结果, 但收集的内容却非常有限。为了取长补短, 现在的很多搜索引擎, 都同时提供这两类查询, 一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,比如Google 的全文搜索;把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,比如新浪搜索和雅虎中国搜索。在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我
3、们权且也把它们称作搜索引擎,主要有这两类:元搜索引擎 (META Search Engine) 。这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、 控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”, 也无独立的索引数据库, 但在检索请求提交、 检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher 元搜索引擎” ,它就调用和整合了Google、Yahoo 、AlltheWeb 、百度和 OpenFind等多家搜索引擎的数据。集成搜索引擎 (All in One Se
4、arch Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎, 一次输入,多个搜索引擎同时查询, 搜索结果由各搜索引擎分别以不同页面显示,比如“网际瑞士军刀”。二、搜索引擎的工作原理名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 3 页 - - - - - - - - - 全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP 地址范围内的网站,并沿着网络上的链接从一个网页到另一
5、个网页, 从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。 网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析, 根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。 我们平时看到的全文搜索引擎, 实际上只是一个搜索引擎系统的检索界面, 当你输入关键词进行查询时, 搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。和全文搜索引擎一样, 分类目录的整个工作过程也同样分为
6、收集信息、分析信息和查询信息三部分,只不过分类目录的收集、 分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员, 负责收集网站的信息。 随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站, 以决定是否收录该站点。 如果该站点审核通过, 分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样, 也是根据信息关联程度排列网站。 需要注意的是,分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年搜索引擎工作原理 2022 搜索引擎 工作 原理
限制150内