搜索引擎技术分析与研究.docx
《搜索引擎技术分析与研究.docx》由会员分享,可在线阅读,更多相关《搜索引擎技术分析与研究.docx(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、搜索引擎技术分析与研究搜索引擎技术分析与研究1引言互联网发展之初,互联网网站相对较少,信息检索比拟容易。但伴随着计算机和互联网技术的飞速发展,网络上的信息量急剧增长,已经成为了人类有史以来资源数量最多、资源种类最全、资源规模最大的一个综合信息库。用户要在信息海洋里查找信息,就像大海探针一样。怎样准确有效地从互联网上获取信息就成了一项艰巨的任务,利用搜索引擎是最有效的解决方法。搜索引擎是在互联网产生后伴随着网络用户快速查询信息的需要而产生的提供信息检索服务的计算机系统。搜索引擎是检索因特网信息资源的重要工具。面对海量的网络信息资源,利用搜索引擎是准确、迅速、全面地进行信息检索的有效途径。假如没有
2、搜索引擎,互联网上的信息资源就不能被有效利用。这里对搜索引擎的工作流程和关键技术进行简单介绍。2搜索引擎的研究背景互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,优选互联网上的优秀网站,并扼要描绘,分类放置到不同目录下。用户查询时,通过一层层的点击来查找本人想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。1990年,加拿大麦吉尔大学UniversityofMcGill计算机学院的师生开发出Archie。当时,万维网WorldWideWeb还没有出现,人们通过FTP来分享沟通资源。Archie能定期搜集并分析FT
3、P服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入准确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。固然Archie搜集的信息资源不是网页HTML文件,但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公以为当代搜索引擎的鼻祖。当代搜索引擎的思路来源于Wanderer。不少人在MatthewGray工作的基础上对他的蜘蛛程序做了改良。1994年7月,MichaeMauldin将JohnLeavitt的蜘蛛程序引入到其索引程序中,创立了Lvc0s。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限
4、制。Jvcos第一个在搜索结果中使用了网页自动摘要。最早当代意义上的搜索引擎出现于1994年7月。当时MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创立了大家如今熟知的Lycos。同年4月,斯坦福大学的两名博士生,DavidFilo和美籍华人杨致远共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深化人心。从此搜索引擎进入了高速发展时期。1995年12月DEC正式发布的AltaV上一页下一页ista是第一个支持自然语言搜索的搜索引擎,也是第一个实现高级搜索语法的搜索引擎1997年8月NorthernLightGroup正式发布的Northernlig
5、ht搜索引擎是第一个支持对搜索结果进行简单自动分类的搜索引擎。1998年Google在PageRank、动态摘要、网页快照、DailyRfresh、多文档格式支持、地图、股票、词典、寻人等集成搜索、多语言支持、用户界面等功能上的革新,像AtaVista一样,再一次彻底地改变了搜索引擎的定义。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比方近期风头正劲的Google,其数据库中存放的网页已达30亿之巨。在国内,对搜索引擎的研究起源于“中国教育科研网(CERNET)期工程的子项目。1997年10月北京大学计算机系在CERNET上推出了天网搜索1版本。2000年1
6、月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇加州伯克利分校博士后在北京中关村创立了百度Baidu公司。2001年8月发布百度搜索引擎Beta版此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎,2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划BlitzenProject开场后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品,深受网民欢迎。2005年8月
7、5日在纳斯达克上市,发行价为USD27.00,代号为BIDU。开盘价USD66.00,以USD122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。3.搜索引擎概述3.1搜索引擎的定义中文名称:搜索引擎,英文名称:searchengine定义:万维网环境中的信息检索系统(包括目录服务和关键字检索两种服务方式)。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎技术来源于历史悠久的全文检索技术从字面上可拆分为“搜、“索、“引擎3个含义。“搜就是大量信息的抓
8、取。对抓取回来后的信息进行智能提取、排重、质量分析等处理。“索就是大量处理后信息的存储、信息排序、快速查询。“引擎就是指系统不但能存储亿级的数据。而且还能有宏大的并发处理能力。3.2搜索引擎的分类搜索引擎根据检索方式可分为全文搜索引擎、目录搜索引擎和元搜索引擎三大类。第一类全文搜索引擎,又叫机器人搜索引擎。第二类目录搜索引擎上一页下一页。是利用各网站向“搜索引擎提交网站信息时填写的关键词和网站描绘等资料。通过人工的方式采集整理网站资料构成数据库,其典型代表有Yahoo(雅虎)、Sohu(搜狐)、新浪、网易等网站的分类目录。第三类元搜索引擎、接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果
9、返回给用户。该类搜索引擎的优点是能够在短时间内提供相对全面和准确的信息。缺点是不能够充分使用所使用的搜索引擎的功能,用户需要做更多的挑选。此外,还有其他的分类方式,例如按查询方式可分为阅读式搜索引擎、关键词搜索引擎、全文搜索引擎、智能搜索引擎;案语种又分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等。4.搜索引擎的工作原理4.1搜索引擎的工作框架搜索引擎的整体框架:能够看作四步:从互联网上抓取网页建立索引数据库在索引数据库中搜索对搜索结果进行处理和排序。1、从互联网上抓取网页利用能够从互联网上自动采集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这经过,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 技术 分析 研究
限制150内