2022年详细介绍常用的几类搜索引擎技术 [图]搜索研究教程.docx
《2022年详细介绍常用的几类搜索引擎技术 [图]搜索研究教程.docx》由会员分享,可在线阅读,更多相关《2022年详细介绍常用的几类搜索引擎技术 [图]搜索研究教程.docx(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2022年详细介绍常用的几类搜索引擎技术 图搜索研究教程因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就像大海捞针一样,搜寻引擎技术恰好解决了这一难题,它可以为用户供应信息检索服务。目前,搜寻引擎技术正成为计算机工业界和学术界争相探讨、开发的对象。 搜寻引擎(Search Engine)是随着WEB信息的快速增加,从1995年起先渐渐发展起来的技术。 据发表在科学杂志1999年7月的文章WEB信息的可访问性估计,全球目前的网页超过8亿,有效数据超过9TB,并且仍以每4个月翻一番的速度增长。例如,Google目前拥有10亿个网址,30亿个网页,3.9 亿张图像,Google支持
2、66种语言接口,16种文件格式,面对如此海量的数据和如此异构的信息,用户要在里面找寻信息,必定会“大海捞针”无功而返。 搜寻引擎正是为了解决这个“迷航”问题而出现的技术。搜寻引擎以肯定的策略在互联网中搜集、发觉信息,对信息进行理解、提取、组织和处理,并为用户供应检索服务,从而起到信息导航的目的。 目前,搜寻引擎技术按信息标引的方式可以分为书目式搜寻引擎、机器人搜寻引擎和混合式搜寻引擎;按查询方式可分为阅读式搜寻引擎、关键词搜寻引擎、全文搜寻引擎、智能搜寻引擎;按语种又分为单语种搜寻引擎、多语种搜寻引擎和跨语言搜寻引擎等。 书目式搜寻引擎 书目式搜寻引擎(Directory Search Eng
3、ine)是最早出现的基于的搜寻引擎,以雅虎为代表,我国的搜狐也属于书目式搜寻引擎。 书目式搜寻引擎由分类专家将网络信息根据主题分成若干个大类,每个大类再分为若干个小类,依次细分,形成了一个可阅读式等级主题索引式搜寻引擎,一般的搜寻引擎分类体系有五六层,有的甚至十几层。 书目式搜寻引擎主要通过人工发觉信息,依靠编目员的学问进行甄别和分类。由于书目式搜寻引擎的信息分类和信息搜集有人的参加,因此其搜寻的精确度是相当高的,但由于人工信息搜集速度较慢,不能刚好地对网上信息进行实际监控,其查全率并不是很好,是一种网站级搜寻引擎。 机器人搜寻引擎 机器人搜寻引擎通常有三大模块:信息采集、信息处理、信息查询。
4、信息采集一般指爬行器或网络蜘蛛,是通过一个URL列表进行网页的自动分析与采集。起初的URL并不多,随着信息采集量的增加,也就是分析到网页有新的链接,就会把新的URL添加到URL列表,以便采集。 机器人搜寻引擎运用多线程并发搜寻技术,主要完成文档访问代理、路径选择引擎和访问限制引擎。基于机器人搜寻引擎的Web页搜寻模块主要由URL服务器、爬行器、存储器、URL解析器四大功能部件和资源库、锚库、链接库三大数据资源构成,另外还要借助标引器的一个协助功能。 详细过程是,URL服务器发送要去抓取的URL,爬行器依据URL抓取WEB页并送给存储器,存储器压缩Web页并存入数据资源库,然后由标引器分析每个W
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年详细介绍常用的几类搜索引擎技术 图搜索研究教程 2022 详细 介绍 常用 搜索引擎 技术 搜索 研究 教程
限制150内