4.1搜索引擎.ppt
《4.1搜索引擎.ppt》由会员分享,可在线阅读,更多相关《4.1搜索引擎.ppt(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、搜索引擎会搜索才叫会上网授课老师:谢剑试一试在百度里面,输入关键字“搜索引擎”,你发现什么?概念(search engine)是指是指根据一定的策略、运根据一定的策略、运用特定的计算机程序用特定的计算机程序搜集互联网上的信息,搜集互联网上的信息,在对信息进行组织和在对信息进行组织和处理后,为用户提供处理后,为用户提供检索服务的系统。检索服务的系统。历史19901990年,加拿大麦吉尔大学(年,加拿大麦吉尔大学(University of University of McGillMcGill)计算机学院的师生开发出)计算机学院的师生开发出ArchieArchie。当时,。当时,万维网万维网还没有
2、出现,人们通过还没有出现,人们通过FTPFTP来共享交流资来共享交流资源。源。ArchieArchie能定期搜集并分析能定期搜集并分析FTPFTP服务器上的文件名信服务器上的文件名信息,提供查找分别在各个息,提供查找分别在各个FTPFTP主机中的文件。主机中的文件。用户必须输入精确的文件名进行搜索,用户必须输入精确的文件名进行搜索,ArchieArchie告告诉用户哪个诉用户哪个FTPFTP服务器能下载该文件。服务器能下载该文件。虽然虽然ArchieArchie搜集的信息资源不是网页(搜集的信息资源不是网页(HTMLHTML文件)文件),但和搜索引擎的基本工作方式是一样的:自动,但和搜索引擎的
3、基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,搜集信息资源、建立索引、提供检索服务。所以,ArchieArchie被公认为现代搜索引擎的鼻祖。被公认为现代搜索引擎的鼻祖。互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。组成搜索引擎一般由搜索器、索引器、检索器和用户搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成:接口四个部分组成:搜索器
4、:其功能是在互联网中漫游,发现和搜集搜索器:其功能是在互联网中漫游,发现和搜集信息;信息;索引器:其功能是理解搜索器所搜索到的信息,索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档从中抽取出索引项,用于表示文档以及生成文档库的索引表;库的索引表;检索器:其功能是根据用户的查询在索引库中快检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;果排序,并能按用户的查询需求合理反馈信息;用户接口:其作用是接纳用户查询、显示查询结用户接口:其作用是接纳用
5、户查询、显示查询结果、提供个性化查询项。果、提供个性化查询项。工作原理抓取网页 每个独立的搜索引擎都有自己的网页抓取程序每个独立的搜索引擎都有自己的网页抓取程序(spiderspider)。)。SpiderSpider顺着网页中的超链接,连续顺着网页中的超链接,连续地抓取网页。地抓取网页。处理网页处理网页 搜索引擎抓到网页后,还要做大量的预处理工搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。重复网页、分
6、析超链接、计算网页的重要度。工作原理提供检索服务 用户输入关键词进行检索,搜索引擎从索引数用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和于判断,除了网页标题和URLURL外,还会提供一外,还会提供一段来自网页的摘要以及其他信息。段来自网页的摘要以及其他信息。信息搜集功能定期搜索即每隔一段时间(比如即每隔一段时间(比如GoogleGoogle一般是一般是2828天),天),搜索引擎主动派出搜索引擎主动派出“蜘蛛蜘蛛”程序,对一定程序,对一定IPIP地地址范围内的互联网站进行检索,一旦发现新的址范围内的
7、互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自网站,它会自动提取网站的信息和网址加入自己的数据库。己的数据库。提交网站搜索 网站拥有者主动向搜索引擎提交网址网站拥有者主动向搜索引擎提交网址 信息推荐原理当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法(关联规则)通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。搜索引擎的分类分为:全文搜索引擎、目录引擎、元搜索分为:全文搜索引擎、目录引擎、元搜索引擎引擎全文搜索引擎全文搜
8、索引擎全文搜索引擎又可细分为两种,一种是拥有自全文搜索引擎又可细分为两种,一种是拥有自全文搜索引擎又可细分为两种,一种是拥有自全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(己的检索程序(己的检索程序(己的检索程序(IndexerIndexer),俗称),俗称),俗称),俗称“蜘蛛蜘蛛蜘蛛蜘蛛”(SpiderSpider)程序或)程序或)程序或)程序或“机器人机器人机器人机器人”(RobotRobot)程序,)程序,)程序,)程序,并自建网页数据库,搜索结果直接从自身的数并自建网页数据库,搜索结果直接从自身的数并自建网页数据库,搜索结果直接从自身的数并自建网页数据库,搜索结果直接从自身的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 4.1 搜索引擎
限制150内