大数据技术体系建设方案.pdf
《大数据技术体系建设方案.pdf》由会员分享,可在线阅读,更多相关《大数据技术体系建设方案.pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据技术体系建设大数据技术体系建设一、一、编制说明编制说明大数据技术体系建设包括数据汇聚、大数据框架、大数据存储、大数据分析等内容。数据汇聚是组织内的各类数据进行采集并处理的过程。主要目标要实现对结构化业务数据和非结构化数据的抽取、清洗、转换和存储。主要关键技术包括传统数据仓库 ETL 工具,大数据框架平台提供的数据共享,内存级功能和数据 API 等。大数据框架负责对数据系统中的数据进行计算,很多大数据框架已经通过各种组件形成了完整的大数据生态。自动完成计算任务划分和计算处理,负责处理数据分布存储、数据通信、容错处理等底层技术细节。主要关键技术包括 Storm 实时大数据计算,Hadoop
2、离线大数据计算,Spark 并行大数据计算,阿里云数据仓库解决方案等。大数据存储是将数量巨大、难于收集处理分析的数据持久化到计算机中。主要目标实现对结构化数据和非结构化海量数据的存储。主要关键技术包括传统数据仓库,MPP 架构的新型数据库集群,基于 Hadoop 的技术扩展和封装,大数据一体机等。大数据分析是指对数据量大、速度快、类型多、价值低的数据进行分析。主要目标是实现对数据资源的分析和利用。主要关键技术包括传统 BI、OLAP 产品,可视化报表,数据挖掘,大数据画像,大数据模型构建和预测等。其他相关内容,请补充。二、二、编制内容编制内容1 1建设现状建设现状1.11.1现状现状1.1.1
3、1.1.1总体架构总体架构环评应用监测应用监察应用应急应用网站应用部领导局机关与直属单位地方环保部门其他大数据管理平台大数据综合展示大数据资源目录大数据智能检索大数据空间专题展示大数据专题展示大数据分析支撑系统数据并行分析计算作业调度与集群管理大数据建设安全与保密模型算法大数据资源管控数据操作台数据监控台文件其他业务主题库关系型数据库污染源主数据元数据库NOSQL数据库时序数据库分布式文件系统数据服务台标准规范数据集成与整合系统数据源环保内部数据环保外部数据环保云平台其他数据图图 错误!文档中没有指定样式的文字。总体架构总体架构行业云平台大数据管理平台建设完成后将按照生态环境大数据建设项目总体
4、要求,部署在行业云平台上。数据集成和整合系统数据源包括行业内部数据、外部委数据以及其他互联网数据,统一规范各业务数据接入,实现数据抽取、数据校验及错误处理、数据清洗转换及加载、空间及业务对象关联等数据集成工作,为各业务应用提供高质量的数据应用。数据库建设根据数据的特点和共享应用的需求,完成基础数据库、业务主题库、指标库、污染源主数据库以及模型库的设计和建设,建立结构化数据库、NOSQL 数据库、时序数据库、分布式文件数据库,支撑行业监管、环评、监测、应急等业务的海量数据存储管理。大数据分析支撑系统提供并行分析计算、数据挖掘以及作业调度、集群管理和运维管理能力。针对传统 BI,利用现有的报表工具
5、实现。大数据资源管控通过数据监控、数据操作、数据服务实现数据综合管理与监控。系统提供各类数据实时统计分析,以报表和图表的形式进行展示。开发完善数据共享服务和接口,能够提供内、外部的数据共享服务。大数据综合展示建立大数据资源目录体系、大数据智能搜索、大数据空间专题和大数据专题展示;此外,基于大数据管理平台,为各类业务应用提供综合数据查询、展示服务。标准规范建设标准规范建设开展生态环境大数据标准规范建设,编制环境数据资源管理办法,建立总体集成、技术名词、数据接入、数据整合集成、系统服务接口等技术规范,规范统一集成开发和实施管理,保障系统接入和数据整合的有效集成。1.1.21.1.2存在问题存在问题
6、物理架构物理架构问题问题描述描述存储问题存储设备空间不足,日常备份完成后,需要将数据备份文件剪切到移动存储上,保证资源中心存储量的正常使用。硬件设备不稳定数据存储层例如:资源中心从监测总站抽取数据时,总站的服务器经常出现硬件故障,有时一个月5 次损坏,造成数据交换不稳定。故障恢复时间长例如:监测总站服务器出现故障后,因资源中心没有权限运维该部分服务器,我们只能及时联系对方,对方排查问题,修复,这一过程时间较长。资源中 心目前 为应用层单节点应用目前资源中心应用是单节点部署,架构未采用集群方式。1.21.2规划对标规划对标重点任重点任务务方案方案任务点任务点说明说明加强生态环境数据资源规划,明确
7、数据资源采集责任,建立数据采集责任目录,避免重复采集,逐步实现“一次采集,多次应用”。利用任务完成情况任务完成情况建设大数据管理平台,完成数据体系及数据存储的设计,开发数据集成和整合系统、大数据资源管控系统实现不同类型和量级数据的汇聚、存储能力。推进数据资源全面整生态环境大数据建设总体方案统筹建设大数合共享提升数据资源获取能力。物联网、移动互联网等新技术,拓宽数据获取渠道,创新数据采集方式,提高对大气、水、土壤、生态、核与辐射等多种环境要素及各种污染源全面感知和实时监控能力。基于行业云规范数据传输,确保数据及时上报和信息安全。大数据管理平台是数据资源传输交换、存储管理和分析处理的平台,为大数据
8、应用提供统一的数据支撑建设大数据管理平服务。主要实现数据传输交换、管理监控、共享开放、分析挖掘等基本功能,支撑分布式计算、流式数据处理、大数据关联分析、趋势分析、空间分析,支撑大数据产品研发和应用。已完成大数据管理平台初步建设,后续在支撑能力、分析能力上持续建设。据平台台。2 2未来规划未来规划2.12.1建设目标建设目标拓展大数据的存储能力,重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术,提供海量数据的存储管理能力、大数据分析服务能力、大数据安全管控能力,同时提供人工智能、机器学习、模式识别、可视化技术等大数据技术,挖掘隐藏于海量数据中的信息和知识出来提供预测、预警、溯源、模拟模
9、型支持能力,为各类大数据应用建设政府科学决策提供支撑持依据。建立大数据应用支撑平台,针对行业应用的各个领域的共性问题,抽象出了应用的中间件,这些中间件包括:公共基础组件、业务规则引擎、智能分析预警引擎、智能检索引擎和智库等,通过可视化展示方式,将看不见摸不到的环境问题直观展示出来,服务于监测、执法、环境形势综合研判、环境政策措施制定、环境风险预测预警、重点工作会商评估,提高生态环境综合治理科学化水平,提升环境保护参与经济发展与宏观调控的能力。2.22.2建设内容建设内容1、服务节点和基础存储能力升级:升级现有平台,扩展相应管理节点、存储节点、接入节点、应用节点,实现 2PB 的存储量。2、升级
10、大数据管理平台:提升大数据存储管理能力,扩展大数据弹性分析引擎、大数据弹性流处理引擎、大数据弹性计算引擎、大数据统计查询引擎、大数据检索引擎,为大数据汇集、分析做好支撑。3、开发大数据支撑服务平台:增加大数据分析支撑服务能力,包括基础组织支持、大数据分析支持、大数据可视化支持、大数据运维模型支撑等内容,为业务应用分析做好支撑。4、平台非功能性建设:从高可用、安全、可扩展行、性能上进行整体设计及升级。2.32.3建设方案建设方案2.3.12.3.1总体架构总体架构如图如图 总体架构总体架构总体架构主要包括以下几部分,其中标识紫色的部分是现在已搭建部分功能,红色部分是现在已初步建成,其余为后续陆续
11、建立。大数据平台大数据平台包括生态大数据湖、一体化分析引擎、一体化查询引擎、一体化检索引擎、自动化运维五部分,平台基于大数据技术搭建,实现环境信息资源中心基础支撑能力。现已初步建立一体化查询引擎、一体化检索引擎。数据采集接入数据源包括行业内部数据、外部委数据以及其他互联网数据,统一规范各业务数据接入,实现数据抽取、数据校验及错误处理、数据清洗转换及加载、空间及业务对象关联等数据集成工作,为各业务应用提供高质量的数据应用。数据治理与深度融合数据治理与深度融合包括大数据治理、大数据融合、数据资源综合监控、数据资产评估。现在已初步形成数据资源综合监控,正在进行可视化升级。访问服务、分析服务、功能服务
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 体系 建设 方案
限制150内