《无封皮大数据关键技术及其在农业中的应用.pdf》由会员分享,可在线阅读,更多相关《无封皮大数据关键技术及其在农业中的应用.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据关键技术及其在农业中的应用摘要:结合大数据系统的一般结构,介绍和对比了当前大数据领域在文件存储、数据处理和数据库领域的关键技术。分析了大数据的产生背景,简述了大数据的基木概念、典型的4“V”特征以及重点应用领域.通过各种技术的对比,得到了一些分析结果。农业数据具有容量大、关联性强、复杂多变等特点。大数据技术能从庞大的数据集合中寻找有价值的数据和知识。推动大数据技术在农业领域的实践和应用,对把握农业信息内在联系和规律意义重大。关键词:大数据;数据分析;关键技术;农业;应用随着移动互联网、物联网和云计算技术的迅速发展,开启了移动云时代的序幕,大数据(Big Data)也越来越吸引人们的视线。
2、人们通过网络无障碍交流、交换信息和协同工作,互联网的出现缩短了人与人、人与世界之间的距离,整个世界连成一个“地球村”。与此同时,借助互联网的高速发展、高内存高性能的存储设备和存储介质的出现、数据库技术的成熟和普及,人类在日常学习、生活、工作中产生的数据量正以指数形式增长,呈现“爆炸”状态 1。“大数据问题”(Big Data Problem)就是在这样的背景下产生的,成为科研学术界和相关产业界的热门话题,吸引着越来越多的科学家研究大数据带来的相关问题。大数据的“大”不仅仅体现在数据的海量性,还在于其数据类型的复杂性。随着报表、账单、影像、办公文档等在商业公司中得到普遍使用,互联网上视频、音乐、
3、网络游戏不断发展,越来越多的非结构化数据进一步推动数字宇宙爆炸。数据海量而复杂,这是对大数据的诠释。与传统的数据 相 比,大 数 据 具 有规 模 性(Volume)、多样性(Variety)、高速性(Velocity)和 低 价 值 密 度(Value)的 4V 特点 2。规模性和高速性是数据处理一直以来研究和探讨的问题,多样性和价值密度低是当前数据处理发展中不断显现出来的问题,而且在可以预见的未来,随着智慧城市、智慧地球等各种新设想的不断成为现实,上面的4种问题将会变得更加凸显,而且是不得不面对的问题。处于发展中国家前列的中国,大数据的应用处于起步阶段。在工信部发布的物联网“十二五”规划中
4、,把信息处理技术作为四项关键技术创新工程之一提出,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。还有另外3 项:信息感知技术、信息传输技术、信息安全技术,也与大数据密切相关。1 大数据关键技术从大数据的纵向应用过程(获取、存储、挖掘、分析)来看,文件系统提供了对最底层存储能力的支持。文件系统之上的数据库系统可通过构建索引等功能,对外提供高效的数据查询等常用功能。最后,数据分析技术从数据库中的大数据中提取出有益的知识,提供面向对象的服务。从横向来看,大数据的每层应用既需要进行软件算法等的开发,也需要硬件设备支持 3。云计算与物联网技术毫无疑义地成为影响大数据发展
5、的首要因素。1.1 大数据系统架构大数据处理系统不管结构如何复杂,采用的技术千差万别,但是总体上总可以分为以下的几个重要部分。大数据系统结构如图1 所示。大数据存储大数据处理数据分享数据检索数据分析数据展现分布式存储横向扩展结构分布式软件架构并行计算结构从数据处理的一般流程可以看到,在大数据环境下需要的关键技术主要针对海量数据的存储和海量数据的运算。传统的关系数据库经过.近 40 年的发展已经成为了一门成熟同时仍在不断演进的数据管理和分析技术,结构化查询语言(SQL)作为存取关系数据库的语言得到了标准化,其功能和表达能力也得到的不断增强。但是,关系数据管理系统的扩展性在互联网环境下遇到了前所未
6、有的障碍,不能胜任大数据分析的要求。关系数据管理模型追求的是高度的一致性和正确性。纵向扩展系统,通过增加或者更换CPU、内存、硬盘以扩展单个节点的能力,终会遇到“瓶颈”。1.2 分布式文件系统对数据存储,文件系统需要考虑3 个问题:高性能共享性、文件的管理和保护、重复数据的处理。尤其是在面对海量文件时,上述问题更加凸显。文件系统是支持大数据应用的基础。Google 是有史以来唯一需要处理如此海量数据的大公司。对于Google 而言,现有的方案已经难以满足其如此大的数据量的存储,为此 Google 提出了一种分布式的文件管理系统GFS(Google file system)。GFS是构建在大量廉
7、价服务器之上的可扩展的分布式文件系统,主要针对文件较大、且读远大于写的应用场景,采用主从(Master-Slave)结构,通过数据分块、追加更新(append-only)等方式实现了海量数据的高效存储。同时,谷歌公司选择电价较低的地点建立存储库,从而降低了运行成本。GFS 与传统的分布式文件系统有很多相同的目标,比如,性能、可伸缩性、可靠性以及可用性。但是,GFS的成功之处在于其与传统文件系统的不同。GFS 的设计思路主要基于以下的假设:对于系统而言,组件失败是一种常态而不是异常。GFS 是构建于大量廉价的服务器之上的可扩展的分布式文件系统,采用主从结构。通过数据分块、追加更新等方式实现了海量
8、数据的高效存储。1.3 分布式数据处理系统传统的针对结构化数据进行挖掘的理论已日臻成熟,但是针对大数据时代的数据类型,则需要开发新的数据处理与挖掘技术。大数据的处理模式分为流处理和批处理两种。流处理是直接处理,批处理采用先存储再处理。流处理将数据视为流,源源不断的数据形成数据流。当新的数据到来即立即处理并返回所需的结果。大数据的实时处理是一个极具挑战性的工作,数据具有大规模、持续到达的特点。因此,如果要求实时的处理大数据,必然要求采用分布式的方式,在这种情况下,除了应该考虑分布式系统的一致性问题,还将涉及到分布式系统网络时延的影响,这都增加了大数据流处理的复杂性。目前比较有代表性的开源流处理系
9、统主要有:Twitter 的 Storm、Yahoo 的 S4以及 Linkedin 的 Kafka等。目前,大数据的分析与处理尚没有绝对合适的工具。Hadoop 是当前最为流行的大数据处理平台。Hadoop 最先是模仿 GFS和 Mapreduce 实现的云计算开源平台。对 Hadoop 改进并将其应用于各种场景的大数据处理已经成为业界新的研究热点,主要的研究成果集中在Hadoop平台性能改进、高效查询处理、索引构建和使用、基于Hadoop 的数据仓库构建、Hadoop 与数据库系统的连接、数据挖掘、推荐系统等方面。1.4 分布式数据库系统大数据的特点决定了数据库系统需解决的问题 4:第一,
10、数据量规模巨大。大数据时代的数据量远远超过单机所能容纳的数据量,因此,必须采用分布式存储方式。这就需要系统具有很好的扩展性,即适应大数据的数据库系统应当具有良好的横向扩展(scale-out)能力。第二,数据异构性。结构化数据、半结构化数据、非结构化数据均是大数据的重要组成部分。高效地处理多种数据类型是大数据时代数据库技术面临的重要挑战之一。第三,设计理念要不断创新。面对多种类型的数据,不可能存在统一的数据处理方式,这就要求新型的数据库系统以不断变化的角度对待数据。面对这些挑战,Google 公司提出了 Bigtable 的解决方案。Bigtable的设计目的是可靠的处理拍字节级别的数据,并且
11、能够部署到千台机器上。Bigtable 已经实现了以下几个目标:适用性广泛、可扩展、高性能和高可靠性。Bigtable 已经在超过 60 个 Google 的产品和项目上得到了应用。这些产品在性能要求和集群的配置上都提出了迥异的需求,Bigtable都能够很好地满足。2 大数据技术在农业中的应用农业大数据类别复杂。从领域来看,以农业领域为核心(涵盖种植业、林业、畜牧水产养殖业、产品加工业等子行业),逐步拓展到相关上下游产业(饲料、化肥、农药、农机,仓贮、屠宰业,肉类加工业等),并需整合宏观经济背景数据,包括统计数据、进出口数据、价格数据、生产数据、气象、灾害数据等;从地域来看,以国内区域数据为
12、核心,借鉴国际农业数据作为有效参考;不仅包括全国层面数据,还应涵盖省市数据,甚至地市级数据,为区域农业发展研究提供基础;从广度来看,不仅包括统计数据,还包括涉农经济主体基本信息、投资信息、股东信息、专利信息、进出口信息、招聘信息、媒体信息、地理空间坐标信息等;从专业性来看,应分步构建农业领域的专业数据资源,进而应逐步有序规划专业的子领域数据资源 5。应用指的是农业大数据各应用系统、应用平台的开发,为上层管理和服务提供应用支撑。根据目前农业大数据的主要来源,可以将其应用领域归纳为以下几个方面:(1)农业生产过程管理方面应用运用大数据的先进技术对农业各主要生产领域在生产过程中采集的大量数据进行分析
13、处理,进而提供“精准化”的农资配方、“智慧化”的管理决策和设施控制 6,达到农业增产、农民增收的目的。(2)农业资源管理方面应用农业资源除了土地、水等自然资源之外,还包括各种农业生物资源和农业生产资料等。我国虽然地大物博,但可以进行农业生产的资源已越来越少。从目前农业基础实际状况来看,有必要运用物联网、大数据等先进技术对农业资源进一步优化配置、合理开发,从而实现农业的高产优质和节能高效。(3)农业生态环境管理方面应用农业生态环境具体包括土壤、大气、水质、气象、污染、灾害等,需要对这些农业环境影响因子实现全而监测、精准化管理。(4)农产品和食品安全管理方面应用农产品安全管理涉及产地环境、产前产中
14、产后、产业链管理、储藏加工、市场流通、物流、供应链与溯源系统等食品链的各个环节,通过对农产品质量安全监管信息的分析处理,实现食品安全风险的预测预警及质量安全突发事件的应急管理。(5)农业装备与设施监控方面应用可以提供农业装备和设施在工作运作情况下状态的监控、远程诊断以及服务调度等方而的智能化管理和应用。(6)提供各种农业科研活动产生的大数据应用农业科研产生的大数据有包括空间与地而的遥感数据,还有如基因图谱、大规模测序、农业基因组数据、大分子与药物设计等大量的生物实验数据:利用科研试验大数据的分析,能够更好地指导农业生产和生活 7。在上述各类应用中,农业生产过程、农业资源与生态环境、农产品质量安
15、全、农产品市场流通各环节的监测和预测是重点应用方向。农业作为中国的基础产业,面临着农产品需求不断增加资源紧缺 气候变化导致灾害频发 生态安全脆弱 生物多样性持续下降等严峻挑战,夯实以农业物联网云计算技术为核心的农业信息化基础,提升以大数据为支撑的农业信息化服务,开拓智慧农业新局面,实现农业现代化和信息化的跨越式发展 8。3 结论与展望在大数据时代发展农业,可以将数据、技术、思维比作大数据时代的生产资料、生产工具与生产者 9。三者互为条件,协调发展,才能保证大数据在农业领域能得到充分的应用。今后的研究可以遵循该研究提出的整合农业数据,构建多元团队,建立农业大数据平台的3 个农业大数据发展思路和方
16、法,融合来自农业中不同领域的数据,结合各领域专家知识和大数据分析工具,提高农业信息化和智能化水平。参考文献:1刘智慧,张泉灵.大数据技术研究综述J.浙江大学学报(工学版),2014,06:957-972.2王秀磊,刘鹏.大数据关键技术J.中兴通讯技术,2013,04:17-21.3 刘海滨,刘佳明,纪文强.大数据基础理论与关键技术新观察J.军民两用技术与产品,2014,04:8-11.4韩晶.大数据服务若干关键技术研究D.北京邮电大学,2013.5 彭 科 峰.汪 懋 华:铺 设 现 代 农 业 高 速 路大 数 据 应 用 大 有 可 为 N.粮 油 市 场报,2014-05-09001.6
17、 Bauckhage C,Kersting K.Data mining and pattern recognition in agricultureJ.KI-K nstliche Intelligenz,2013,27(4):313-324.7Ludena,D.A.,Ahrary,A.,&Ieee.(2013).A Big Data approach for a new ICT Agriculture Application Development.2013 International Conference on Cyber-Enabled Distributed Computing And Knowledge Discovery(Cyberc),140-143.doi:10.1109/CyberC.2013.30 8孙忠富,杜克明,郑飞翔,尹首一.大数据在智慧农业中研究与应用展望J.中国农业科技导报,2013,06:63-71.9 郭承坤,刘延忠,陈英义,孙敏,屠星月.发展农业大数据的主要问题及主要任务J.安徽农业科学,2014,27:9642-9645.
限制150内