基于Nutch框架的农业信息垂直搜索引擎研究与设计.docx





《基于Nutch框架的农业信息垂直搜索引擎研究与设计.docx》由会员分享,可在线阅读,更多相关《基于Nutch框架的农业信息垂直搜索引擎研究与设计.docx(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于Nutch框架的农业信息垂直搜索引擎研究与设计打开文本图片集摘要:针对当前农业搜索引擎存在的查不全、查不准、死链等问题,在分析中国使用率比较高的农搜、搜农、华农在线和中国农业信息网站等搜索引擎的基础上,提出了基于Nutch框架的农业信息垂直搜索引擎。该搜索引擎对农业词语进行分类,并构建专门的农业词典,提高查询速度。此外,基于Nutch框架的搜索引擎采用了改进的PageRank算法对网页进行排序得到权值最高的网页,呈现出具有价值搜索结果,达到初步的搜索结果的预期目标。关键词:Nutch框架;农业搜索引擎;农业词典;设计中图分类号:TP391.3 文献标识码:A 文章编号:0439-8114(
2、2015)18-4603-04DOI:10.14088/ki.issn0439-8114.2015.18.055随着农业信息化的发展,农业信息出现了爆炸性增加的局面,搜索引擎成为了必不可少的搜索工具,是人们进行信息收集的必要手段之一。当前农业信息量达到了百TB量级,面对如此多的农业数据,如何快速、有效地获取个性化的农业知识和信息资源就成为了当前农业信息搜索中迫在眉睫的问题1。近年来,伴随着农业信息化的推进,各类的农业搜索引擎逐渐发展,虽然能够基本满足当前农业发展的需要,但还需要进一步发展专题农业信息检索。1 农业搜索现状目前,农业领域中已存在1万多个各类网站,网页数量超过200多万2,刘艳华等
3、3对谷歌、百度和中国搜农3个搜索引擎在农业领域中进行了分析对比,表明了综合搜索引擎在搜索功能、结果、信息量等方面存在明显的优势,但是在农业内容的专业化、内容时效性方面存在欠缺。中国也有许多农业类搜索引擎,如农搜、搜农、华农在线、中国农业信息网站等搜索引擎。农搜网采用的是独特的智能页面技术,实现网页信息的结构化索引,将使用者所查询的结果以农业科研单位、农业专家人才、农业实用技术等分类呈现,实现了农业信息的大众化和个性化服务,为急需农业科技信息和市场信息的企业、部门、农户精确获取农业信息提供了有益的工具。搜农网采用的是基于网页主体内容的索引,其优点是加快信息的更新速度,提高信息的查全率和查准率,建
4、立了全新的复杂自适应搜索模型,开发并部署了6 200多个软机器人承担WEB农业信息的采集、清洗、分类、聚类、排序、发布等系列工作,基本实现了WEB信息处理工作的自动化,代替了农业信息服务采、编、发等系列繁重的人工劳动,大大降低了农村网络信息服务成本。华农在线实现了在农业行业的垂直搜索应用,将起到整合现有互联网涉及的各类和各行业主管部门的农业信息资源;实现满足涉农人员的个性化信息需求;提供专业知识问答及其推送功能;组织农业专家答疑,开展学术论坛;建立农业物流、农产品价格、其交易平台及与外国交流的行业平台。这些农业搜索引擎虽然可以满足用户的一般需求,但是也存在一些问题,查全率和查准率低以及存在死链
5、的现象,使得用户搜索的结果不全面、不准确或网页打不开,难免会使用户受到其他信息的干扰或对搜索引擎的不满。张彧4将Nutch搜索引擎应用到农业信息搜索中进行了初步的研究,将Nutch搜索引擎扩展到农业信息搜索中。本研究将Nutch搜索框架应用于农业信息搜索中,建立了基于Nutch搜索框架的农业信息垂直搜索引擎,并将当前农业词语进行分类,建立专业的农业词典,将网页农业信息进行精确分类,可以使用户得到更加准确和实用的查询信息。2 Nutch搜索引擎Nutch是Apache的项目之一,是以Java语言作为实现手段及开发工具,作为一个完全开源的搜索引擎包,广泛应用于局域和广域网络的搜索引擎,Nutch搜
6、索引擎的流程(图1)。3 农业搜索引擎的设计与实现Nutch搜索引擎具有良好的框架结构,为农业搜索引擎的设计带来了便捷,在此结构基础上设计不同的插件,实现引擎的功能。本研究设计的整个搜索引擎分为信息过滤模块、信息抓取模块、中文分词模块、农业专业词典、索引存储模块和查询模块6大主要模块,如图2所示。3.1 功能结构根据当前农业发展和农业搜索引擎的现状,本研究提出了基于专业农业词典的搜索引擎,整个搜索引擎包含6个主要模块:信息过滤模块、信息抓取模块、中文分词模块、农业专业词典、索引存储模块和查询模块。其中,信息抓取模块、索引存储模块、查询模块是基于Nutch搜索框架中已存在的模块所实现的。根据农业
7、搜索的专业主题要求设计开发了信息过滤模块、农业专业词典模块以及查询模块中排序算法的改进,能够更好地满足农业专题搜索的要求3.1.1 农业信息过滤模块 该模块的功能是过滤农业网站中不相关网页和链接,爬虫会分析网站的URL,将URL当中的前后缀去除,提取出关键字。根据专业农业词典进行过滤,将无关URL和网页链接剔除,然后将这些相关的网页内容(网页的title、摘要、正文等)进行提取(网页的title、摘要、正文等),将所有非结构化的网页内容进行结构化,利用与农业专业词典相结合对所提取内容关键词出现频率进行加权处理,进行初步的农业信息过滤。3.1.2 农业专业词典模块 农业专业词典是分词准确的必备条
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Nutch 框架 农业 信息 垂直 搜索引擎 研究 设计

限制150内