基于Nutch的新闻主题搜索引擎的设计与实现毕业论文(49页).doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于Nutch的新闻主题搜索引擎的设计与实现毕业论文(49页).doc》由会员分享,可在线阅读,更多相关《基于Nutch的新闻主题搜索引擎的设计与实现毕业论文(49页).doc(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-基于Nutch的新闻主题搜索引擎的设计与实现毕业论文-第 43 页毕 业 论 文(设 计)论文(设计)题目: 基于Nutch的新闻主题搜索引擎的设计与实现姓 名 学 号 学 院 专 业 年 级 指导教师 2014年 5月 20日目 录摘要IABSTRACTII第1章 绪论11.1 课题研究背景11.1.1 搜索引擎发展史11.1.2 通用搜索引擎面临的问题31.2主题搜索引擎31.2.1 什么是主题搜索引擎31.2.2 主题搜索引擎研究现状41.3 文本组织结构5第2章 主题搜索引擎相关技术介绍62.1 JavaCC简介62.2 Tomcat 简介82.3 Nutch介绍92.3.1 系统架
2、构92.3.2 抓取过程详解112.4 中文分词技术132.4.1 基于字典匹配的分词方法142.4.2 基于词频统计的分词方法142.4.3 基于语义理解的分词方法152.4.4 IK分词器简介152.5 本章小结15第3章 爬虫搜索策略的研究163.1 基于链接结构特征163.1.1 PageRank算法163.1.2 HITS算法183.1.3 本文实现的算法193.2 基于内容评价203.2.1 Fish Search算法203.2.2 Shark Search算法213.3 其他相关策略233.3.1基于巩固学习的聚焦搜索233.3.2 基于语境图的聚焦搜索233.4 本章小结23第
3、4章 主题搜索引擎的实现244.1 开发环境介绍244.2 系统的体系结构244.3 主题爬虫的配置254.3.1 配置Java环境254.3.2 配置Nutch254.4 Tomcat的配置264.5 添加中文分词284.6 系统测试304.7 本章小结31第5章 总结与体会32致谢33参考文献34附录:35摘要互联网上丰富的信息资源给人们的工作和生活带来巨大效益和便利的同时,也带来了巨大的信息冗余。我们在使用传统的通用搜索引擎时,经常会遇到这样的问题,为了搜索到一些专业的基础知识,不得不在众多的网站中,花费大量的时间去寻找,而主题搜索引擎的出现为解决这类问题提供了很好的方法。另外,由于Nu
4、tch具有高透明度,任何单位或个人都可以查看搜索引擎的工作原理并且程序设置灵活,用户可以根据自己需求定制,通过长时间的实际应用,结果表明Nutch运行非常稳定,因此选择Nutch为爱好搜索引擎的人们提供了一个很好的研究平台。本课题的主要内容是基于Nutch的新闻主题搜索引擎的设计与实现。现在很多人都喜欢从互联网阅读新闻,但是各大新闻网站为了获得点击率收录了很多低质量新闻,而报纸网站很难满足人们对不同地域和不同类型新闻的需求,所以一个新闻主题的搜索引擎是十分有必要的。论文首先介绍了搜索引擎的发展历史、面临的问题,以及主题搜索引擎的的优势和研究现状,并在了解Nutch工作原理的基础上对主题爬虫抓取
5、策略进了详细的讨论,分析了新闻主题搜索引擎的可行方案,接着介绍了Nutch、Tomcat等各组件的安装配置,测试运行结果并与百度做比较。最后对论文进行了总结分析。关键字:Nutch;搜索引擎;Crawler;抓取策略;新闻ABSTRACTAbundant Internet information resources bring enormous benefits and convenience for our work and life; these also bring a great deal of redundant information. When we use general Se
6、arch Engine, we often encounter this problem; in order to search some basic professional knowledge, we had to spend a lot of time to find the knowledge in many websites. While the Vertical Search Engine will solve this problem. In addition, Nutch has highly transparent, any unit or individual can vi
7、ew the search engine work, and the program configuration flexibility, Users can customize according to their needs. Through a long period of practical application, the results show that Nutch runs very stable. Therefore, selecting the Nutch Search Engine can provide a good researching platform for t
8、he loving people.The object of this project is to set up a News Vertical Search Engine based on Nutch. Nowadays plenty of people read news from the Internet. While the news websites always put some low-quality news to catch readers eyes, and the newspaper websites can hardly feed readers various nee
9、ds. Thus, it is very necessary to provide a News Vertical Search Engine for them. The paper first introduced the history, present problems of Search Engine, and the advantages, present situation of Topical Search Engine. Then we discussed the strategies of Focused Crawler and proposed a solution of
10、News Topical Search Engine with knowledge in the process of Nutch. After that, we talked about setting up and configuring the components we need. Then we ran the engine so we could compare the results with Baidus. At last, we tested the Search Engine and made a summary of this project.Keywords: Nutc
11、h; Search Engine; Crawler; Fetching Strategy; News 第1章 绪论1.1 课题研究背景随着社会的进步和科技的发展,人们对信息的需求量越来越大,对质量的要求也越来越高。而互联网已经成为很多人获取信息的主要渠道。怎样从海量的信息和庞大的地址群中找到自己想要的信息呢?搜索引擎的出现很好的解决了这个问题,成为大多数用户的“上网第一站”1。1.1.1 搜索引擎发展史所谓搜索引擎,就是一种能够自动对WWW资源建立索引或进行主题分类,并通过查询为用户返回相关资源的系统。在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想
12、找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。 现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie2。 Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于Archie深受用户欢迎,受其启发
13、,美国内华达大学于1993年开发了另一个与之非常相似的搜索工具System Computing Services,不过此时的搜索工具除了索引文件外,已能检索网页。 当时,“机器人”一词在编程者中十分流行。电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。 世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量,
14、后来则发展为能够检索网站域名。 与Wanderer相对应,Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本3。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的Yahoo。 随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中
15、以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天Overture),和Repository-Based Software Engineering (RBSE) spider最负盛名。 然而Jump Station和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。 最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos
16、4。同年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,其数据库中存放的网页已达30亿之巨! 随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的Inktomi(已被Yahoo收购),它本身并不是直接面
17、向用户的搜索引擎,但向包括Overture(原GoTo,已被Yahoo收购)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于这一类,搜狐和新浪用的就是它的技术。因此从这个意义上说,它们是搜索引擎的搜索引擎。1.1.2 通用搜索引擎面临的问题通用搜索引擎信息采集的目标就是尽可能多地采集信息、页面,甚至是整个Web上的资源。随着WWW信息的爆炸性增长,信息采集的速度越来越不能满足实际应用的需要。最近的试验表明,即使大型的搜索引擎,它对Web的覆盖率也只有30-40%。解决这一问题的直接办法是升级信息采集器的硬件,采用处理能力更强的计算机系统,然而
18、这种方法的扩展性有限,性价比也不高。一个更好的解决方法是采用分布式方法来提高并行能力,但是并行不但增加了系统的开销和设计的复杂性,并且并行换来的效益也随着并行采集器数目的增加而显著地减小。目前,一般的大型搜索引擎都采用了并行机制,但并行带来的改善效果仍远不能满足人们的需要,人们需要从其它角度改善目前的困境。针对上述情况,另一种形式的搜索引擎悄然出现,它可以在较小的范围内取得比通用搜索引擎更令人满意的结果,以满足某些特定用户的需要,这就是主题搜索引擎。1.2主题搜索引擎1.2.1 什么是主题搜索引擎所谓主题搜索引擎(Topical Search Engine),是针对某一特定领域、某一特定人群或
19、某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩。它是与通用搜索引擎截然不同的引擎类型。主题搜索引擎专注具体、深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,这个领域外的闲杂信息不收录。从竞争的角度来讲,主题搜索引擎要做通用搜索引擎无法做到的事情,或者说,要做得更胜一筹。通用搜索引擎像一堵大墙,而墙上有很多裂纹,主题搜索引擎就是要去补这些墙上的裂纹5。1.2.2 主题搜索引擎研究现状主题搜索引擎的优势,将决定它在互联网的一席之地。那么主题搜索的突破点和创新的东西在哪里?1. 实时性主题搜索引擎需要获取的信息来自于某一特定领域的,这比起通用搜索引
20、擎漫无边际的信息抓取,有一个非常大的优势,那就是信息的实时性。由于互联网上的信息量非常巨大,通用搜索引擎的数据更新周期短则十几天,长则几个月,而主题搜索引擎的数据更新完全可以以秒为单位。酷讯()的火车票搜索就是典型的实时性主题搜索。2. 数据挖掘分析行业的历史发展、最新动向、趋势都是行业从业人员非常关注的话题。主题搜索引擎集中了行业海量的信息和数据,基于这些信息和数据的商务智能分析,将为行业创造非常有价值的信息增值服务。目前,各个主题搜索引擎开始加强数据分析功能,分析的结果尚未向公众免费开放,毕竟,这也是一个非常好的盈利点。3. 个性化,社会化 查询服务只是主题搜索引擎的一部分,主题搜索引擎在
21、用户的个性化方向的发展非常重要。主题搜索引擎不能只提供一个窗口,它应该是一个用户高度参与交互的社会化平台。这不光是用户粘度,忠诚度的问题,更为重要的是,主题搜索引擎需要能够获取并且分析用户的偏好信息,从而提供更加完善而且准确的数据服务。职友集()可以说走在了前面,其职友圈为找工作的人提供了参与性很高的平台。4. 智能化语义网 语义网(Semantic Web)将有可能成为下一代互联网,这样网络上的数据和信息将被计算机程序所理解。这将为主题搜索引擎提供一个巨大的机会,爬虫程序如果能理解网络上的数据,将对信息的收集和整理更加准确和专业,搜索服务的查全率和查准率将更高。国外的Pluggd(www.P
22、)正在向这个方向努力。5. 多元化查询目前的搜索引擎,都只局限于关键字搜索,其中主要的原因是,对用户的查询需求无法建模,无法模式化。而关键字搜索带来的问题是,搜索结果过多,并且不准确。互联网信息量越大,这种情况越严重,可以说是灾难。多元化查询服务的提供,将会成为对竞争对手的杀手锏。Riya()正在这方面尝试,它提出了可视化查询(Visual Search)的概念6。1.3 文本组织结构本文共分为五章,全文结构安排如下:第一章绪论主要介绍了课题的研究背景以及发展现状;第二章总体介绍了开发主题搜索引擎所用到的各个组件及软件,其中重点介绍了Nutch搜索引擎的系统架构、Crawler的组成和Craw
23、ler的工作流程以及中文分词的实现方法;第三章讨论了几种实现主题爬取的爬虫搜索策略,包括本文所使用的爬虫策略;第四章是基于Nutch的主题搜索引擎的具体实现,包括开发环境的搭建、环境变量的设置、主题爬虫和索引的设计;第五章为本论文的结束语,对本次设计做了总结和展望。第2章 主题搜索引擎相关技术介绍 因为本文是在Apache的两个开源项目Nutch、Tomcat的基础上进行主题判别,而这两个项目的相关资料很少,只有在了解其工作原理的基础上才能做更好的改进,所以我们通过本章来分析项目中的关键技术。2.1 JavaCC简介JavaCC是一个功能极其强大的“编译器的编译器”工具,可用于编制上下文无关的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Nutch 新闻 主题 搜索引擎 设计 实现 毕业论文 49
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内