2022年无封皮大数据关键技术及其在农业中的应用共享 .pdf
《2022年无封皮大数据关键技术及其在农业中的应用共享 .pdf》由会员分享,可在线阅读,更多相关《2022年无封皮大数据关键技术及其在农业中的应用共享 .pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据关键技术及其在农业中的应用摘要:结合大数据系统的一般结构,介绍和对比了当前大数据领域在文件存储、数据处理和数据库领域的关键技术。分析了大数据的产生背景, 简述了大数据的基木概念、典型的4“V”特征以及重点应用领域 .通过各种技术的对比,得到了一些分析结果。农业数据具有容量大、关联性强、复杂多变等特点。大数据技术能从庞大的数据集合中寻找有价值的数据和知识。推动大数据技术在农业领域的实践和应用,对把握农业信息内在联系和规律意义重大。关键词 :大数据;数据分析;关键技术;农业;应用随着移动互联网、 物联网和云计算技术的迅速发展,开启了移动云时代的序幕,大数据( Big Data)也越来越吸引人
2、们的视线。人们通过网络无障碍交流、交换信息和协同工作, 互联网的出现缩短了人与人、人与世界之间的距离, 整个世界连成一个“地球村” 。与此同时,借助互联网的高速发展、高内存高性能的存储设备和存储介质的出现、 数据库技术的成熟和普及, 人类在日常学习、生活、工作中产生的数据量正以指数形式增长,呈现“爆炸”状态 1。 “大数据问题”(Big Data Problem )就是在这样的背景下产生的, 成为科研学术界和相关产业界的热门话题,吸引着越来越多的科学家研究大数据带来的相关问题。大数据的“大”不仅仅体现在数据的海量性,还在于其数据类型的复杂性。随着报表、账单、影像、办公文档等在商业公司中得到普遍
3、使用,互联网上视频、音乐、网络游戏不断发展,越来越多的非结构化数据进一步推动数字宇宙爆炸。数据海量而复杂,这是对大数据的诠释。 与传统的数据 相 比 , 大 数 据 具 有规 模 性(Volume) 、多样性( Variety) 、高速性( Velocity)和 低 价 值 密 度(Value) 的 4V 特点 2。 规模性和高速性是数据处理一直以来研究和探讨的问题,多样性和价值密度低是当前数据处理发展中不断显现出来的问题,而且在可以预见的未来,随着智慧城市、智慧地球等各种新设想的不断成为现实,上面的4种问题将会变得更加凸显,而且是不得不面对的问题。处于发展中国家前列的中国, 大数据的应用处于
4、起步阶段。 在工信部发布的物联网 “十二五”规划中, 把信息处理技术作为四项关键技术创新工程之一提出,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 6 页 - - - - - - - - - 其中包括了海量数据存储、 数据挖掘、 图像视频智能分析, 这都是大数据的重要组成部分。还有另外3 项:信息感知技术、信息传输技术、信息安全技术,也与大数据密切相关。1 大数据关键技术从大数据的纵向应用过程(获取、存储、挖掘、分析)来看,文件系统提供了对最底层存储能力的支持。 文件系
5、统之上的数据库系统可通过构建索引等功能,对外提供高效的数据查询等常用功能。最后,数据分析技术从数据库中的大数据中提取出有益的知识, 提供面向对象的服务。 从横向来看, 大数据的每层应用既需要进行软件算法等的开发, 也需要硬件设备支持 3。云计算与物联网技术毫无疑义地成为影响大数据发展的首要因素。1.1 大数据系统架构大数据处理系统不管结构如何复杂,采用的技术千差万别, 但是总体上总可以分为以下的几个重要部分。大数据系统结构如图1 所示。大数据存储大数据处理数据分享数据检索数据分析数据展现分布式存储横向扩展结构分布式软件架构并行计算结构从数据处理的一般流程可以看到, 在大数据环境下需要的关键技术
6、主要针对海量数据的存储和海量数据的运算。传统的关系数据库经过.近 40 年的发展已经成为了一门成熟同时仍在不断演进的数据管理和分析技术,结构化查询语言(SQL )作为存取关系数据库的语言得到了标准化,其功能和表达能力也得到的不断增强。但是,关系数据管理系统的扩展性在互联网环境下遇到了前所未有的障碍,不能胜任大数据分析的要求。 关系数据管理模型追求的是高度的一致性和名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 6 页 - - - - - - - - - 正确性。纵向扩展系
7、统,通过增加或者更换CPU 、内存、硬盘以扩展单个节点的能力,终会遇到“瓶颈” 。1.2 分布式文件系统对数据存储, 文件系统需要考虑3 个问题:高性能共享性、 文件的管理和保护、重复数据的处理。尤其是在面对海量文件时,上述问题更加凸显。文件系统是支持大数据应用的基础。Google 是有史以来唯一需要处理如此海量数据的大公司。对于Google 而言,现有的方案已经难以满足其如此大的数据量的存储,为此 Google 提出了一种分布式的文件管理系统GFS (Google file system) 。GFS是构建在大量廉价服务器之上的可扩展的分布式文件系统,主要针对文件较大、且读远大于写的应用场景,
8、 采用主从(Master-Slave )结构,通过数据分块、追加更新( append-only)等方式实现了海量数据的高效存储。同时,谷歌公司选择电价较低的地点建立存储库,从而降低了运行成本。GFS 与传统的分布式文件系统有很多相同的目标,比如,性能、可伸缩性、可靠性以及可用性。 但是, GFS的成功之处在于其与传统文件系统的不同。GFS 的设计思路主要基于以下的假设: 对于系统而言,组件失败是一种常态而不是异常。GFS 是构建于大量廉价的服务器之上的可扩展的分布式文件系统,采用主从结构。通过数据分块、追加更新等方式实现了海量数据的高效存储。1.3 分布式数据处理系统传统的针对结构化数据进行挖
9、掘的理论已日臻成熟,但是针对大数据时代的数据类型,则需要开发新的数据处理与挖掘技术。大数据的处理模式分为流处理和批处理两种。 流处理是直接处理, 批处理采用先存储再处理。 流处理将数据视为流,源源不断的数据形成数据流。 当新的数据到来即立即处理并返回所需的结果。大数据的实时处理是一个极具挑战性的工作,数据具有大规模、 持续到达的特点。因此,如果要求实时的处理大数据,必然要求采用分布式的方式,在这种情况下,除了应该考虑分布式系统的一致性问题,还将涉及到分布式系统网络时延的影响,这都增加了大数据流处理的复杂性。目前比较有代表性的开源流处理系统主要有: Twitter 的 Storm、Yahoo 的
10、 S4以及 Linkedin 的 Kafka等。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 6 页 - - - - - - - - - 目前,大数据的分析与处理尚没有绝对合适的工具。Hadoop 是当前最为流行的大数据处理平台。 Hadoop 最先是模仿 GFS和 Mapreduce 实现的云计算开源平台。对 Hadoop 改进并将其应用于各种场景的大数据处理已经成为业界新的研究热点,主要的研究成果集中在Hadoop平台性能改进、高效查询处理、索引构建和使用、基于Ha
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年无封皮大数据关键技术及其在农业中的应用共享 2022 封皮 数据 关键技术 及其 农业 中的 应用 共享
限制150内