福建省生态环境大数据平台概要设计v.docx
《福建省生态环境大数据平台概要设计v.docx》由会员分享,可在线阅读,更多相关《福建省生态环境大数据平台概要设计v.docx(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、福建省生态环境大数据平台概要设计1.整体设计思想福建省生态环境大数据平台立足于福建省各种生态环境数据; 通过多种渠道,采集与生态及环保有关的海量数据;采用当前最前 沿的大数据技术(并行计算技术、人工智能技术),对数据等进行 挖掘建模和机器学习建模,通过数据挖掘发现隐藏于其后的规律或 数据间的关系,充分挖掘这些数据的价值,从而形成能实际应用于 民生的新生数据;作为专家及政府的决策依据,辅助政府精细化决 策,辅助专家预测将来可能有出现的环保问题;并能解决现实中真实 发生的环保问题;从而改善环境,提升居民生活环境的质量,和百 姓生活的福祉。平台建成后,将形成一个完整的基于大数据的生态环境数据智 能化
2、收集、智能化核算分析、智能化发布和智能化监管体系,这一 平台体系可以把福建省生态环境状况,全面、直观地展现给政府部 门和社会公众。同时环保部门可以重点关注核电站周边生态环境实 况。通过可测量、可核查的生态环境数据,为福建省的生态环境现5.平台建设关键技术大数据是指一般的软件工具难以捕捉、管理控制和分析的大 容量数据,通常以PB来计量(1P=1024TJT=1024G);其意义不仅仅 在于容量之大,更大的意义在于通过对海量数据的交换、整合和 分析,发现新的知识,创造新的价值;通常大家用4V特性来描述 大数据; Volume (容量)根据IDC(国际数据公司)的监测统计,2011年全球数据总量 已
3、经达到L8ZB(1ZB等于1万亿GB, 1. 8ZB也就相当于18亿个 1TB移动硬盘的存储量),而这个数值还在以每两年翻一番的速度 增长,预计 到2020年全球将总共拥有35ZB的数据量,增长近20 倍。S Variety (多样性)大数据的异构和多样性很多不同形式(文本、图像、视频、机 器数据)无模式或者模式不明显不连贯的语法或语义。回Value (价值)价值通常也被理解为价值密度,也就是说依据大量的不相关 信息进行深度复杂分析,对未来趋势与模式的做出可靠的判定, 从而发现数据的价值。叵1 Velocity (高速率)大量的数据需要进行快速的,实时的处理,才能在指定时间 内得到结果;数据的
4、处理适当的方法多以批量化,分布式为主要 处理方式方法。从以上大数据的特性分析可知,我们生态环境的海量数据价 值发现的核心前提条件是:1 .大规模的基础运算能力与海量的存储能力。2 .高效的数据价值提取算法。在分布式/并行式计算平台系统没有出现之前,大规模的计算 资源只能由超级计算机来提供,这是一种昂贵的资源,把大部分 中小团队拒之门外;约2006年云计算技术开始发芽,至2010前 左右随着云计算技术的发展成熟,大规模分布式/并行式计算平台 系统也得到了发展壮大,并快速成熟起来;分布式/并行式计算平 台系统能把廉价的大批量硬件组合起来,提供一种廉价的大规模 运算能力与海量存储能力;因而当前技术发
5、展已能满足第一个前 提条件。仅有大规模运算能力还是不够的,使用人工智能技术是解决 复杂非线性计算的关键;如:美国超级计算机深蓝,仅使用其强 大的计算能力,没有使用人工智能技术的情况下,与围棋大师的 较量中最终还是败下阵来;而使用了深度学习技术的智能象棋程 序,在自我学习8年后轻易就打败了象棋大师。人工智能的发展 历史很长,几乎是和计算机技术一起发展的,但是大部分人工智 能算法不能应用于人们实际生活中,直到近年深度学习算法的发 展与成熟,深度学习算法被证实在处理大数据时是行之有效的,其成果已经在人们实际生活中起到了的很好的作用,如:苹果的 SIRI,微软小冰,多种BI产品,人脸识别等。因而深度学
6、习算法 的成熟是满足第二个核心条件的最佳解决方案之一。6.平台模块设计整个平台是松耦合的,多模块并行开发;数据接口平台系统,与 大数据处理层及资源层是应用平台系统的基础,因而在各平台系统 设计开发之初必须优先拟定好各个接口定义,方可各自设计与开 发。6. 1.环保平台应用表示层设计应用平台系统分为平台通用系统功能模块以及各种专题子平台 系统构成;应用平台系统通过调用生态环境推荐引擎和其它大数据 分析技术来完成就用平台系统的系统功能,不须要单独开发自己的 底层数据分析系统功能。平台可视化系统功能是通用系统功能,可 以为各个应用平台系统所用。7. 1.1通用系统功能设计可视化展现系统功能可视化展现
7、,就是把所有的最终结果数据以全息地图方式方法呈 现在使用者面前,其所有的信息均具备地理属性。主要系统功能如下:a.实时动态按区域、按行业、按企业的数据排放可视化显示。b.掌握温室气体排放数据库,实时掌握资源的利用。c.区域生态环境信息、企业生态环境信息、工业生产过程生态环境量、 能源种类生态环境量、废弃物生态环境量、生态环境量等。d.可视化运行监测,全面能耗监测,为宏观分析和决策提供数据分析 支撑。展现方式方法:1 .全省生态环境区域能量图,纵览全省生态环境。2 .环境生态环境健康图谱,大数据挖掘建立综合评价体。3 .全省生态环境指标看板,企业排放T0P100,区域排放排。4 .生态环境预警分
8、析,按排放类型等预警分。5 .全省生态环境趋势,按行业按区域趋。7. 1. 1.2搜索化平台搜索分析平台在丰富的业务模板库的基础上可以快速的为使用 在搜索中发现关键信息,可以使你轻松的在1到3秒以内完成85%以 上的生态环境分析。智能检索平台系统依托全文检索、自动分词、结果聚类等先进技 术,提供对不同类型、不同格式环境资源数据的快速检索及关键字模 糊查询,同时可业务明细、业务报表、相关文档、地理空间数据等聚 类类别进行搜索结果展示,可极大满足用户的数据共享、快速查找需 求。7. 1. 1.3平台系统管理控制平台系统管理控制属于数据分析平台的系统功能。通过使用授权 来控制不同岗位、不同用户的业务
9、操作权限。并采用用户组的方式方 法对用户权限进行管理控制,一个用户组可以包括多个权限相同的用 户,用户组设定遵循便于生产、灵活管理控制的原则,以生产过程中 的职能为依据,可以以岗位为基础进行划分,也可以按照实际需要重 新进行划分。平台系统用户角色不同,则使用的平台系统系统功能不同,不同 岗位的用户不能越权操作平台系统系统功能。权限管理控制就是保障 大数据分析平台安全性和数据安全性的手段,也是企业强化管理控制 的手段。7. 1. 1. 3. 1访问权限管理控制按系统功能模块和操作权限划分多层级多职能角色,建立不同权 限的角色和用户。通过配置权限系统功能、操作模块和拥有窗体的操 作类型(如读、写、
10、删除、显示等),决定不同角色的授权范围或者不 同角色及用户访问的数据资源范围。角色与用户可指定映射,一个用 户可属于一个或几个角色,平台系统管理控制员给相关人员分配相应 的管理控制权限。具体实现上平台系统将提供所有角色或用户信息列 表、所有的系统功能界面列表、每个系统功能界面上所有的资源操作 类型列表,只要对角色或用户权限范围内的业务信息及操作权限进行 打勾选择即可,配置灵活。访问权限管理控制采用口令认证手段支持身份认证平台系统。平台系统对登录用户的密码以加密形式保存,对多次(比如三次) 尝试登录失败的用户进行封锁,并记入平台系统日志。平台系统日志管理控制记录所有登录人员访问平台系统的关键操作
11、信息以及平台系统 更新信息等,如增加、修改、删除记录以及平台系统更新时间、更新 人、更新版本等。并提供按人员、系统功能操作、时间等多种条件的 平台系统日志查询,支持对重大安全事件(如数据修改)的追踪和回 溯。6. 2.环保平台并行计算环境层设计并行计算环境层提供海量存储与大规模计算资源,由极融并行 计算平台系统与建立在并行计算平台系统之上的数据仓库组成。7. 3.1数据仓库设计生态环境数据中心的主体是生态环境数据仓库,数据仓库以系统主题的方式方法建立。核辐射专题核辐射强度核辐射数据核辐射数据核辐射结果核电站距昌按时间划分按结果划分脚瞅温室气体那儆 勃据中心企业能源 消耗工业能源交通能源 消耗
12、消耗居民生活 其他 消耗排放数据枫嬲源 大致赚申平台生态环境大数据中心,底层依托可扩展的大数据存储平台,能够 支撑省级乃至国家级大规模的生态环境数据。生态环境数据中心根据数据采集后的数据,根据排放因子等进行计算,形成温室气体排放数据库。并根据不同的专题,形成各种分析 的专题数据库。7. 3.2并行计算平台系统3. 2.1极融并行计算平台系统特性与优势极融并行计算平台系统的主要设计思想是软件定义一切,高度的 抽象化;所有的资源均虚拟化以提高自动化管理控制能力及容错能 力。极融并行计算平台系统主要特性如下:1 .领先的并行计算架构,使用分布式的元数据管理控制系统模 型,元数据分散在集群中,这种架构
13、使得整个存储平台系统 没有单点故障。2 .远程内存直接访问(RDMA)技术的深度运用,从本质上改变 平台的使用场景,平台开发者可以如同使用一台超级计算机 一样,在一个开发平面上开发与运行自已的业务平台系统。3 .真正的近线性扩展能力,在从三个节点扩展到上万个节点的 过程中,不需要考虑元数据迁移和扩展问题。4 .本地化I/O,在平台中,由于计算资源的虚拟化,会尽量移 动计算到数据所在的节点,而不是移动数据自身,因而大部 分的数据不需要跨越网络读写。5 .高度的自我修复能力,当集群中某个节点出现故障时,数据 会自动迁移至完好节点中。6 .高度数据安全,所有存放在平台中的数据均有2个以上的副 本,同
14、时也在更低层次提供多种数据安全保障。7 .全方位多视角的运行时监控,平台置于运行保障平台系统的 多维度监控下,能实时报警,并能自动修复一部分常见故 障。8 .软件定义网络(SDN),网络吞吐能力不再是固定的,而是依 据需要进行动态的扩张。7. 3. 2. 2极融并行计算平台系统概述极融并行计算平台系统的设计目标旨在把大批量普通的、不可靠 的、廉价的服务器组织起来,向外提供海量的、无差别的、高可用的 数据处理服务。从外部的角度看,InfinityFusion如同一个巨大的, 有序的,可伸缩的存储池,同时也具备大规模的抽象化计算能力,如【用户眼中的InfinityFusion因而,Infinity
15、Fusion从宏观角度上来说分成两部分,一部分是 把硬件资源组织起来,另一部分把资源抽象化后,组织成标准的服务 接口。从外部的角度看,InfinityFusion的运行实体是一个存储集 群,一个集群是一个整体的存储单位,不管集群由多少台物理计算机 组成。7. 2. 2. 1集群层次极融并行计算平台系统从逻辑系统功能的角度看,包括:由统一 存储服务提供层、集群管理控制层、存储层、chunk层、资源层。集 群构成分层如下图所示:大数据分析技术平台并行计算系统存储统一存储服务提供层集群管理层 (管理工具层)存储层chunk层资源层【集群层次图】统一存储服务提供层提供用户交互界面;集群管理控制层调用
16、存储层接口为服务提供层提供管理控制接口,同时负责节点的角色 定位;存储层把chunk层提供的服务转化成数据存放接口; chunk 层直接与资源层交互,向上层提供定长存储区,向下通过本地文件 平台系统读写硬盘;资源层在这里指的是所有的集群内的硬盘。以 上各层唯有统一存储服务提供层可以单独存在一台服务器上,其它 均分布在整个集群范围内。另外,并不是所有的分层都要通过上一 层的调用才能被使用,存储层在运行时直接与客户端交互。7. 2. 2. 2数据安全真实存放在集群中的数据最终会存放于chunk所指向的物理数据 块中,chunk有多个副本,多个副本中数据是一致的,从而保证存 放数据的安全;Infin
17、ityFusion尊守顺序一致性(Sequential Consistency)以保证副本间的数据一致性。chunk副本位置选择是 为了实现两大目标:最大化数据可靠性和可用性,最大化网络带宽 利用率;对于任意副本的读写,只要满足顺序一致性要求,其结果 是一致的。7. 2. 2. 3元数据元数据是集群范围里的概念,是全局的,每个集群有且仅有一套 状评估、趋势预测、潜力分析、目标制定与跟踪,提供决策服务, 进而实现对生态环境重点污染源、生态环境动态变化进行有效监 管,并为建设生态环境交易市场体系奠定基础。从使用者的角度看,所有的平台数据集中到统一的逻辑平面上 来;平台以省、市、县分级别多视角展示生
18、态环境实时信息,以全 息,动态的地图形式全方位地展现给使用者。平台为各类使用者提供 不同的观察视角;领导能查看实时汇总信息,核辐射区大气实况; 环保工作能查看各类精细报表与指标,并能搜索工作中所需要的信 息。展现方式方法有:电子大屏幕播放,WEB浏览,手机APP访问 等三种方式方法。从数据处理的角度看,平台运行后将建成以生态环境数据为中 心的开放式数据中心,广泛收集来自气象,农林,海洋,交通,能 源,车联网等第三方数据,同时也给第三方输出数据并分享成果数 据;为后续深度学习积累数据样本,将来平台具备很强的自我学习 能力。2.用户使用场景环保领导大屏查看全局实时信息情况,核核辐射区大气实况,查看
19、汇总报表,指挥环境突发事件处理。完整的元数据;如同向外部声明自身所拥有的资源的整体情况,外部 无需考虑具体的物理细节;对内则详细记录object和chunk的命名 空间、object和chunk的对应关系、每个chunk副本的存放地点等。 其中承载元数据合适的内容的重要数据表有:root表,chunk表两个, 它们在运行时在内存中形成树状关系;元数据均匀地分布在整个集群 所有物理节点中。6. 3.数据接口平台系统数据接口平台系统的系统功能是:把各种内外部数据导入到平台 内,并进行清洗后,内含一个数据引擎把数据进行初步整合后,分类 存入平台数据仓库里。同时结果数据也从数据接口平台系统向外输出 数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 福建省 生态环境 数据 平台 概要 设计
限制150内