基于Web数据的农业网络信息自动采集与分类系统.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于Web数据的农业网络信息自动采集与分类系统.docx》由会员分享,可在线阅读,更多相关《基于Web数据的农业网络信息自动采集与分类系统.docx(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 32 卷 第 12 期 农 业 工 程 学 报 Vol.32 No.12 172 2016 年 6 月 Transactions of the Chinese Society of Agricultural Engineering Jun. 2016 基于 Web 数据的农业网络信息自动采集与分类系统 段青玲 1,魏芳芳 1,张 磊 1,2,肖晓琰 1 ( 1. 中国农业大学信息与电气工程学院,北京 100083; 2. 北京市农业物联网工程技术研究中心,北京 100083) 摘 要: 为了快速、高效地获取农业 Web 信息,解决信息孤岛和信息不对称的问题,重点研究了农业 Web 数据自动
2、采集 与抽取、基于 SVM( support vector machine)的文本分类、物联网异构数据采集等技术,并采用统一建模语言( unified modeling language, UML)描述了农业网络信息自动采集与分类系统。该系统实现了农业网站、物联网数据的自动抓取 和共享,为用户提供农业资讯、农产品市场行情、供求信息在线查询,环境数据实时监测和个性化信息服务等功能。应 用结果表明,该系统对样本集网站的信息抓取准确率为 98.2%,资讯分类准确率为 92.5%,具有数据采集实时性强、用户 参与度好、通用性高等特点,该系统为农业信息整合和服务提供参考。 关键词: 农业;文本处理;采集
3、系统;信息;物联网 doi: 10.11975/j.issn.1002-6819.2016.12.025 中图分类号: TP274+.2 文献标志码: A 文章编号: 1002-6819(2016)-12-0172-07 段青玲,魏芳芳,张 磊,肖晓琰 . 基于 Web 数据的农业网络信息自动采集与分类系统 J. 农业工程学报, 2016, 32(12): 172 178. doi: 10.11975/j.issn.1002-6819.2016.12.025 http:/www.tcsae.org Duan Qingling, Wei Fangfang, Zhang Lei, Xiao Xia
4、oyan. Automatic acquisition and classification system for agricultural network information based on Web dataJ. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(12): 172 178. (in Chinese with English abstract) doi: 10.11975/j.issn.1002-6819.2016.12.
5、025 http:/www.tcsae.org 0 引 言 中国 是传统农业大国,农村信息资源分散,农 业产 业门类多,个性化差异大 , “ 信息孤岛 ” 和 “ 信息不对 称 ” 问题成为中国农业现代化的主要瓶颈 1-2。因此,构 建农业网络信息自动采集与分类系统,将分散于各个网 站的农业信息资源进行整合,为用户提供统一的 共享平 台和个性化信息服务很有必要。 农业 网络信息采集技术按照采集方式分为农业 网站 信息采集和物联网异构数据采集 。 农业网站信息采集涉 及信息抓取 3-4、抽取 5-9、分类 10-12等技术。 Yogesh 等 13 研究了针对多种语言的新闻网页的信息抽取方法;刘
6、玉 龙等 14研究了基于文本特征的自动抽取方法,抽取准确 率为 91%; SeydaErtekin 等 15采用 SVM 算法实现文本分 类,分类准确率最高为 89.786%。上述研究大多集中于信 息采集、抽取、分类的某一种技术,而非专用于农业 Web 数据。 农业 物联网就是将物联网技术应用在农业生产 、经 营、管理和服务中 16-24,即运用各类传感器,采集大田 种植 、 设施园艺 、 畜禽 、 水产养殖和农产品物流等农业 相关信息,并将获取的海量农业信息进行融合 、 处理, 实现农业产前、产中、产后的过程监控和科学管理 25。 收稿日期: 2015-12-11 修订日期: 2016-04
7、-24 基金项目:国家高技术研究发展计划( 863 计划)资助项目( 2013AA102306); 山东省自主创新资助项目( 2014XGA13054);中央高校基本科研业务费专 项资金资助项目( 2015XD001)。 作者简介:段青玲,女,河南,教授,工学博士,主要从事智能信息处理方 面研究。北京 北京中国农业大学信息与电气工程学院, 100083。 Email: 在物联网信息采集中,由于传感器和无线传输网络等设 备厂商众多,存在着感知数据格式多样 、量 纲不一致 、 数据组织形式不同 26等问题,因此,如何把感知数据转 换为格式统 一、 高质量的数据,是实现物联网异构环境 数据融合的难
8、点。 针对 农业网络资源 分散、异构问 题,本文研究 了农 业 Web 数据自动采集与抽取、文本分类、物联网异构数 据整合等技术,克服了数据区域识别困 难、 文本分类准 确率不高 、 感知数据到统一格式的目标数据转换质量低 的技术难点,设计了农业网络信息自动采集与分类系统, 实现了农业资讯 、 农产品市场行情 、 供求信息查询,资 讯信息自动分类,环境数据实时监测等功能 。 该系统已 投入运行,系统的特点在于,将获取的互联网数据和物 联网数据整合在一个平台上,既为用户提供了互联网资 讯 、 价格 、 供求等产前信息服务,又提供了环境数据便 于产中实时 监测和产后生产决策服务 。 应用结果表明,
9、 系统采集数据实时性强,信息分类准确率高,能够将分 散 、 异构的数据实时整合,并为用户提供综合全面 、 个 性化的农业信息服务。 1 系统需求分析 1.1 研究对象 农业网站信息包括科技、市场、资讯和其他信息 27。 科技类信息涉及新品种研 发、 新技术推 广、 科研成果等 内容,主要由科研单位在网上发布,如中国农业科技信 息网;市场信息是指农产品的市场行情、价格和供求信息, 由各地的农产品批发市场发布,如北京新发地市场网站; 资讯类信息主要是新闻资讯,由新闻网站发布,如中国农 2 4 第 12 期 段青玲等:基于 Web 数据的农业网络信息自动采集与分类系统 173 业新闻网;其他信息包括
10、政府、企业、行业网站,发布惠 民政策、农业商务信息,如农业部主办的中国农业信息网。 本文主要研究与农业农村相关的惠农政策、资讯、新品种、 推广技术、价格、供求等信息的采集与整合。 农业物联网数据是由不同传感器采集,例如,畜禽养 殖物联网环境数据包括光照、粉尘、湿度、二氧化硫、硫 化氢等;水产养殖物联网水质数据包括温度、 pH 值、溶解 氧等,这些数据是实现农业生产环境控制和智能化管理的 基础。本文主要研究不同传感器网络的数据采集与整合。 1.2 系统需求 1.2.1 功能需求 农业网络信息自动采集与分类系统包括 4 个子系统。 1)系统参数配置子系统:一是设置系统用户、数据源网 站 、 数据采
11、集规则等信息;二是设置物联网的数据源 、 映射规则和采集频率等信息。 )互联网信息采集子系统: 根据配置的采集规则抓取资讯、市场行情和供求等信息, 并进行分类和存储处理。 3)物联网信息采集子系统:根 据映射规则采集实时环境感知数据。 )信息服务子系统: 实时发布资 讯、 市场行情和供求等信息,根据用户特征 进行个性化信息推荐,并将采集到的物联网数据进行统 计汇总。 1.2.2 用户需求 系统描述采用 UML 方式能够详细展示系统需求、结 构和业务逻辑 28-29,农业网络信息自动采集与分类系统 的用户分为管理员、企业用户、普通用户 3 类,系统用 例图如图 1 所示。管理员对用户进行管理,设
12、置数据源 网站信息,制定抓取规则,配置物联网采集点和物联网 数据源,制定物联网数据转换规则 。 企业用户可以通过 系统获取农产品资讯等信息,实时监测本企业的生产环 境。普通用户主要进行信息浏览和查询统计。 图 1 系统用例图 Fig.1 Use case diagram of system 2 系统设计 2.1 系统总体设计 系统总体由数据源配置、信息采集和信息服务 3 部 分组成,如图 2 所示。数据源配置主要完成互联网网站 和物联网数据源的管理,互联网信息采集模块抓取网站 信息,进行信息抽取,将抽取到的信息进行分类处理, 在信息服务模块将采集信息发布,根据农户行业特征进 行信息推荐。物联网
13、信息采集模块抓取 XML、文本、 Excel 格式的数据,并根据映射规则进行数据 转换,数据过滤 生成结构化的目标数据,以关系数据库存放,在信息服 务模块进行生产监测和生产管理 。 用户可以对数据进行 查询浏览。 图 2 系统总体设计图 Fig.2 System overall design diagram 2.2 关键技术研究 系统 研发的目的是为用户提供信息服务,其关 键技 术主要包括:信息采集 、 抽取 、 分类 、 物联网数据采集 等技术。用户获取信息的途径有 2 种方式,一种是信息 检索,用户通过查询获取信息,另一种是信息推荐,用 户通过客户端接收信息 。 信息采集 、 抽 取、 物
14、联网数据 采集技术使得用户快速查询到有效信息,文本分类技术 为个性化信息推荐提供了技术支持。 2.2.1 农业网站数据采集 农业 网站数据采集主要采集互联 网上的资讯、 市场 行情 、 供求信息,采集过程如下:首先选择数据源即种 子站点,从中获取网站 URL、网站类别信息,保存原始 网页,通过网络爬虫,不断扩展到 和 标签里 的超链接,下载网页。然后采用 HTML parser 工具解析 网页,自定义 NodeFilter 对象提取用户感兴趣的内容,包 括市场 、 价 格、 所在地 、 标题等,将其保存到数据库服 务器中,见图 3。 信息 抽取是为了从抓取到的网页中得到结构化 的数 据,抽取过
15、程如下:用户输入数据源网站信息后,系统 对爬取到的目标网页去噪,构建 DOM 树,挖掘出目标数 据区域,分割属性,最后对得到的结构化数据进行抽取。 如何根据目标数据区域识别方法,从多个具有重复模式 1 DF (fk ) 。 药材 Medicinal materials 参、香、藤、白、防、三、皮、草、叶、子、仁、蔻、苓、甲、蛇、蝎、胆、黄、川、甘、乌、蝥、母、板蓝根、苍术、 174 农业工程学报( http:/www.tcsae.org) 2016 年 的数据区域里识别目标区域是信息抽取的难点,本文自 定义的目标数据区域识别条件如下: )数据记录条数多。 网页包含多条记录,一般大于 3 条,如
16、中国农业信息网。 2)每条记录属性个数多。农业网站的价格和供求信息每 条记录都会包含多个属性,如品种 、 批发市场 、 日期和 报价等。 3)既包含数字又包含汉字。农业网站价格类信 息中都会包含价格,市场等。如果验证通过 3 个条件, 为每个特征分配权重,对每个数据区域计算权值并排序, 取最大值的即为目标数据区域。如图 4 所示为互联网数 据抽取活动图。 2.2.2 基于 SVM 的农业文本分类 为了 提供个性化的信息服务,农业信息分类需 要结 合农户的行业特征,系统按照农产品类别实现信息自动 分类。基于 SVM 的文本分类流程如图 5 所示,主要分为 2 个阶段:训练阶段和测试阶段。训练阶段
17、主要包括训练 样本的分词 、特 征选择 、 特征项权值计算等处理,最后 采用 SVM 算法获得农业文本分类器。测试阶段测试样本 经过同样的处理,再根据训练阶段得到的关键词库进行 特征过滤,最后通过训练好的分类器进行分类。 图 3 数据采集过程图 Fig.3 Data acquisition process chart 图 4 数据抽取活动图 Fig.4 Data extraction process chart 图 5 农业文本分类图 Fig.5 Agricultural text classification diagram 通过 ICTCLAS 分词处理后,本文根据农业生产资料 编码构建了
18、农业行业分类关键词库(表 1)。例如,词 “ 牛 肉 ”“ 鲫鱼 ” 中 含有 “ 牛 ”“ 鱼 ” ,根据文档频率调整 规则调整该词的文档频率 。文 档频率调整规则如下:假 设文档 D 是包含所有特征项的集合, D(f1, f2 , f3 , , fn ) 表示 n 维向量空间中的一个向量,其中 fk( k=1, n)表 示一个特征项, DF 计算公式如下 a(fk ) A 式中 a(fk)是具有特征项 fk 的文本数, A 是训练集文本数。 计算出文档中的特征词的 DF 值后,根据特征词是否包 含农业行业分类关键词进行调整。假设:农产品分类关键词 的一级词汇集合为: T1=ui|i=1,2
19、, r, r 为一级词汇个数, 农产品分类关键词的二级词汇集合为: T2=vi|i=1,2, p, p 为二级词汇个数,选择后的新特征集合为 S=fk|k=1,2, m, fk 拆分后的特征子集为: S1=fki|k=1,2, m; i=1,2, q,其中 fki 为 fk 拆分后的特征词, m 为特征项的个数, q 为拆分后的 特征子集包含的特征词个数。 一级词汇 Vocabulary of first level 表 1 农业行业分类关键词库 Table 1 Key words of agricultural industry classification 二级词汇 Vocabulary
20、of second level 粮食 Foodstuff 谷、麦、米、高粱、糜子、豆、薯 蔬菜 Vegetables 菜、菊苣、葱、蒜、茴香、萝卜、山药、芋头、姜莴笋、豆、莲藕、茭白、慈菇、荸荠、韭黄、洋蓟、椒、茄 柴胡、常山、麻、赤芍、地榆 水产 Aquatic products 海、鱼、虾、蟹、蛙、贝、藻、鲳、尖吻鲈、真鲷、螺、蚌、蛏、蛤蜊、海参 畜牧 Animal husbandry 牲畜、牛、奶、乳、蛋、马、猪、羊、驴、骡、骆驼、家禽、鸡、鸭、鹅、狗、猫、兔、兽、蜜蜂 林产品 Forest 木、育苗、造林、森林、木材、竹材、橡胶、松脂、生漆虫胶、槐、胶 果品 Fruit 果、梨、柿子、
21、山楂、榅桲、葡萄、桃、栗、桔、莓、李、杏、梅、椰、瓜 花卉 Flowers and plants 花、菊、草、葵、掌、兰、冠、蕨、荷、莲、桂、苋、竹、梅、茑萝、香豌豆、牵牛、雪轮、福禄考、美女樱、千日红 C 第 12 期 段青玲等:基于 Web 数据的农业网络信息自动采集与分类系统 175 假设特征项文档频率阈值为 , ,文档频率调整步 骤如下: 初始化时, S For i 1,2,.,n IF DF (fk ) THEN fk S IF fk ui S1 THEN S fk ,S,DF (fk ) IF fk vi S1 THEN S fk ,S,DF (fk ) 1 利用 上述文档频率调整
22、方法,可对特征进行降 维, 选择出相关度较高的特征词,然后进行 TFIDF 权重计算, 构建线性 SVM 分类器模型,实现农业信息自动分类。 2.2.3 基于物联网的异构数据采集 农业 物联网已广泛应用于农业生产各个环节中 ,但 是传感器采集的数据存在三大问题 25-26: 1)数据量大: 多种传感器不断更新采集的数据,产生海量数据。 2)数 据类型不一致:提交的数据有些是实际物理值,如温度实 际值,而有些是电压电流值,需要经过公式转换。 3)数 据组织形式不统一:传感器网络的数据有文本、 excel、 xml 文件等不同组织形式。为了不同物联网采集的数据能够共 享,根据农业物联网的特点,本文
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Web 数据 农业 网络 信息 自动 采集 分类 系统
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内