网络搜索引擎的设计和各部件的实现,搜索引擎论文.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《网络搜索引擎的设计和各部件的实现,搜索引擎论文.docx》由会员分享,可在线阅读,更多相关《网络搜索引擎的设计和各部件的实现,搜索引擎论文.docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、网络搜索引擎的设计和各部件的实现,搜索引擎论文随着互联网技术的飞速发展,互联网中的信息量也越来越大,怎样愈加有效地利用这些信息资源,已经越来越遭到人们的关注。互联网中存在的信息来源特别广泛,与此同时,存在的形式也是多种多样,包括图像、文本、视频、音频等不同的形式,面对着不同来源,不同形式的海量信息,怎样准确、快速地找到自个所需要的信息成为我们在使用互联网时候所面临的一个问题,因而,开发一个搜索引擎就非常必要。当前,成熟的搜索引擎如 Lycos、Yahoo、Google、百度等各有优点,如 Google 比 Yahoo 能更快、更准确搜索到所需信息,百度中文搜索引擎支持网页信息检索,图片,Fla
2、sh,音乐等多媒体信息的检索等,而本文搜索引擎的开发是通过网络爬虫抓取信息,然后再通过一定的技术对网页信息进行提取、处理,将抓取到的信息存放在索引数据库中,通过一些查询接口实现信息检索,帮助用户在海量的信息中迅速地、准确地找到用户真正感兴趣的信息。 1 搜索引擎的设计 1.1 搜索引擎构造设计 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。 搜索引擎主要包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。全文搜索引擎是当前广泛应用的主流搜索引擎。
3、它能够对被索引的文章中的每一个词建立索引,在用户检索时,检索程序就会根据事先建立好的索引进行查找,并将查找的结果反应给用户。本文的主要工作就是使用 Java 设计并实现了一个 Web 全文搜索引擎,搜索引擎构造设计如此图 1 所示: .1.2 网络蜘蛛构造设计 开创建立搜索引擎的第一步就是要设计一个程序在海量的互联网信息中遨游,并抓取网页信息。这个程序被称为网络蜘蛛,网络蜘蛛也被称为自动搜索机器人,它主要用于分析网页上的每一个超链接,并根据超链接链到其他网页中的超链接,网络蜘蛛构造设计如此图 2 所示:. 1.3 索引器构造设计 搜索引擎对网络蜘蛛抓取到的网页信息进行整理,这一经过称为 开创建
4、立索引 。索引器构造设计如此图 3 所示: 1.4 检索器构造设计 搜索引擎每时每刻都要收到来自大量用户的几乎是同时发出的查询,它根据每个用户的要求检查自个的索引,在极短时间内找到用户需要的资料。检索器构造设计如此图 4所示: 2 网络蜘蛛的实现 2.1 网络蜘蛛爬行策略实现算法 互联网能够看成一个超级大的 图 ,网络蜘蛛的遍历网页算法采用图的宽度优先遍历(BFS)算法,其爬行策略实现算法如下:. 1将入口 URL 入队至待访问 URL 的队列中去。 2URL 从待访问 URL 队列出队,使用开源 解析库 Parser 对给出的入口 URL 进行解析,判定抓取到的 URL 能否在已访问 URL
5、 集合中,若不在,则将 URL存储在待访问 URL 的队列中去入队,若存在则什么也不做。 3使用 Parser 对出队的 URL 进行解析,解析该URL 的标题、内容、本文关键词语、开创建立时间等信息。 4使用 Lucene 为 Parser 解析到的网页信息开创建立索引。 5出队的 URL 添加至已访问 URL 集合中去。 6重复25的经过。 2.2 网络蜘蛛的详细实现 1数据构造:队列和散列表哈希表 首先要构建用于存储抓取到的URL待访问的URL队列,在构建队列时需要考虑下面两方面因素: 1队列中将要存储的元素个数非常之多并且数量无法确定;2在队列的队头和队尾处经常进行删除和添加操作。 针
6、对以上两点,使用 java 集合类 LinkedList 的链式存储构造来实现未访问 URL 队列。这个未访问 URL 队列主要用来存储爬虫抓取到的 URL,通过一系列的出队入队操作实现对网页的宽度优先遍历。 2要构建散列表。在根据未访问 URL 队列对 URL进行抓取和解析的时候,还需要一个数据构造散列表来存储已经访问过的URL来避免对同一个URL的重复抓取和解析。 在 URL 从未访问队列出队以后,首先,判定一下,它有没有在这个数据构造中,只要当该 URL 不在这个已访问 URL集合中时才对其进行其他操作。否则,将该 URL 丢弃。这个数据构造需要具有下面两个特点: 1构造中存储的 URL
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内