并行处理与分布式计算在大数据处理方面的应用研究.doc
《并行处理与分布式计算在大数据处理方面的应用研究.doc》由会员分享,可在线阅读,更多相关《并行处理与分布式计算在大数据处理方面的应用研究.doc(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、摘要:分布式技术属于一项基于网络应用所开发的技术,是一项新兴技术。该技术实现了组件化、大规模及高效率分布式程序的开发。分布式技术在电力企业大数据处理中发挥了良好的作用,使电力系统对大数据的支撑能力得到了提高,也使电力企业大数据的计算和存储方面存在的问题得到了有效的解决。基于此,本文就针对电力大数据高性能处理中分布式技术的应用进行了分析,旨在为基于分布式技术的电力大数据高性能处理水平的提升提供帮助。关键字:分布式技术;高性能处理;电力大数据引言:分布式应用技术发展打破今天,历经了三个发展阶段,由诞生伊始的两层应用模式,发展到具有数据层、逻辑层和业务层的三层发展模式,然后再发展到现如今的多层体系结
2、构。现如今,我国电力企业已经进入了大数据时代,对大规模数据的存储和计算提出了更好的要求。分布式技术在数据存储和计算方面体现出了较高的水平,因此对分布式技术在电力大数据高性能处理中的应用进行分析显得尤为重要。1.电力大数据概论随着数字信息化的飞速发展,各类持续暴涨的信息资源为人们的工作和生活带来了便捷,同时也使全球信息资源急剧增长。在大数据浪潮的不断涌入下,包括商业界、政府以及学术界在内的社会各界都已经迈入了大数据时代,当然,我国电力工业也已经迈入了大数据时代。实际上,在业内大数据概念并没有一个明确的定义,目前业界一直认同的大数就是一个海量数据集合,具备价值密度低、数据处理速度极快、数据类型多以
3、及数据体量大这四个方面的特征。简单地说,大数据指的就是利用传统的数据库软件工具无法在规定时间内完成对内容的处理、管理和抓取的数据集合。电力大数据绝非是简单的技术,而是电力工业技术改革的关键过程,直接关系着大数据时代下,电力系统的技术路线、管理机制以及发展理念等反方面的变革,同时,这也是大数据时代下,智能电力系统价值形态的提升。2.基于分布式技术的电力大数据存储和计算解决2.1关键技术模型2.1.1分布式系统对于大数据的存储而言,分布存储系统实现的关键是可扩展的分布式文件系统。基于Key-Value的分布式系统具有可用性和高容错性,能够有效地使吞吐量的数据访问得到提高。通常,分布式系统中采用众多
4、的slave结构和单独的master结构,其中slave的职责是对数据信息进行保存,该结构能够有效地提高系统的扩展性,master负责的是元数据信息的保存;当该系统出现单点故障问题的时候利用文本副本的方式使数据信息可以得到快速地恢复;通过简单的一致性模型,一方面使得该系统的复杂性得到了简化;另一方面提高了该系统高吞吐量、高并发的特征。若干个数据节点和一个主控节点构成了一个分布式文件集群。在集群中,通常是一个节点一个数据节点,数据节点的职责是对节点上附带的存储进行管理;主控节点是调节客户端访问文件和管理文件的命名空间的主服务器。一个文件由内部机制分割成为一个或多个块,并且这些块存储在一组数据节点
5、上。为了实现高吞吐、可靠的数据读写,分布式平台通过数据库和分布式文件系统对数据进行存储。2.1.2并行计算Map Reduce是Google提出的一个计算模型和软件架构,主要被应用于大数据的并行运算。期刊文章分类查询,尽在期刊图书馆Map Reduce计算模型在大规模数据集并行运行上非常适用,一个单独的计算节点上能够同时运行每个Reduce任务和Map任务,故而其运算效率和运算能力是非常高的,同时,计算节点也是存储节点,通过对存储在计算节点上的数据进行本地计算,有效地防止了因大数据传输而导致网络瓶颈问题的出现。在分布式平台结构中,基于Map Reduce能够通过一种高容错的方式对大量的数据进行
6、并行处理,既实现了平台并行任务处理的功能,又实现了将SQL进行处理的任务。此外,分布式平台的Map Reduce还能够调度优化任务,将处理不同业务数据的不同任务并行运行,从而使统计计算资源得到最大限度的利用,使整体的数据分析时间得到整体、有效地缩短。2.2总体架构分布式计算平台接收的数据主要来源于关系型数据库的档案类数据以及各类终端信息采集设备的采集数据,然后,通过与专项业务算法逻辑相结合实现对存储数据的并行计算。最后,利用业务应用服务接口将处理结果返回到目标业务应用系统。分布式并行计算平台的核心包含业务应用服务接口、并行ETL工具、运行调度工具、系统监控工具、并行计算环境、开发工具集、分布式
7、存储环境七大组成部分。(1)业务应用服务接口。通过服务的形式为外部系统提供接口,支持大规模分析计算、数据的复杂查询在内的主要业务。(2)并行ETL工具。实现了分布式文件系统、关系型数据库等多种不同数据存储设施之间的数据导出、导入,支持运行脚本管理、监控管理、调度管理、元数据管理等功能。(3)运行调度工具。根据任务规划对业务应用的Map Reduce任务进行运行,对任务之间关联和依赖性进行维护,从而为任务执行的准确性提供保障。(4)系统监控工具。主要职责在于对Map Reduce任务的具体运行情况、业务应用、系统的运行装状态进行监控,为管理用户的运维管理提供方便。(5)Map Reduce 并行
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 并行 处理 分布式 计算 数据处理 方面 应用 研究
限制150内