(大数据资料)技术方案:数据共享交换平台.pdf
《(大数据资料)技术方案:数据共享交换平台.pdf》由会员分享,可在线阅读,更多相关《(大数据资料)技术方案:数据共享交换平台.pdf(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、(大数据资料)技术方案:数据共享交换平台1 数据共享交换平台数据共享交换平台1.11.1 总总体目体目标标数据交换共享平台是各政务部门、政务部门与社会机构、政务部门与公众之间的桥梁.对于政府内部,一方面通过数据交换、共享、开放系统拉通部门间的数据,提高政务办公效率更好的为民服务;另一方面通过数据交换、共享、开放系统交换的数据汇聚到大数据处理平台,对数据资源进一步的集成、加工,形成更高价值的数据资产,并将处理后的数据以服务的方式对外提供,形成”数据”和”应用”之间的环流.本系统由全市统一部署管理,覆盖市、区政务部门,整体目标实现为政务服务”一张网”、”12345”在线平台、政务网站群等应用提供数
2、据服务.本项目将先实现30家政务部门的数据交换、共享和开放.1.21.2 建建设设原原则则 省据共享交换平台要具有高可靠性、高扩展性、可管理性.总体上要从集约化统筹建设、需求和服务导向、标准化和规范化、安全可控可扩展等方面进行组织建设.1.2.1统统筹和集筹和集约约化建化建设设 共享交换平台建设要坚持统筹规划,集约化实施.为实现资源优化配置和信息共享需要,共享交换平台建设应充分考虑与各部门现有业务系统的对接、对各部门现有软硬件投资的保护及网络、存储、备份等现有资源的统一利用,最大化避免重复建设带来的浪费.1.2.2需求和服需求和服务导务导向向 共享交换平台建设应建立在对各部门需求充分梳理、分析
3、、提炼的基础上,紧密结合加强政府自身建设、强化执行力、提高工作效率和服务水平的要求,以各部门实际业务需求为导向,以提供信息资源共享交换服务为目标,提高跨部门信息共第 1 页 共 33 页(大数据资料)技术方案:数据共享交换平台享业务协同水平,进一步提升政府部门社会管理和公共服务效能.1.2.3标标准化和准化和规规范化范化 在开展共享交换平台建设的同时,应同步制定信息资源共享交换制度,强化信息资源规范化管理,建立信息交换、共享、发布的相关标准规范和运维管理制度.在建设过程中应站在省级信息资源开发利用的角度,进行统筹规划,将信息资源、基础设施和应用服务作为一个整体进行集约化建设.1.2.4安全可控
4、安全可控和可和可扩扩展性展性 共享交换平台应具有足够的安全性,能够防止来自系统内部的恶意破坏及外部恶意攻击;应采用有效的安全防范措施和安全手段,保证系统的完整性和机密性,并对系统访问和操作提供有效的权限认证;系统应采用标准化安全技术与产品,易于扩展、可扩充、可扩容,系统还应提供容灾、容错等保障机制.共享交换平台应充分考虑平台中长期的延续性和扩展性,在建设过程中采用先进管理思想和技术体系,并借鉴现有成功案例和成熟经验,建设一个能够满足未来较长时间内电子政务对信息资源方面需求的平台.1.31.3 平台整体平台整体设计说设计说明明1.3.1设计设计目目标标 数据共享交换平台的设计包括是数据资源交换子
5、系统、数据资源目录子系统,是整个互联网+政务方案的核心组件之一.通过共享交换平台建设能够为各业务部门提供交换服务、共享服务、应用服务以及目录服务,实现辖区内人口、法人税收、空间地理、社会保障和医疗救助、交通管理、财政统计等数据的交换共享,并为行政权力网上公开透明运行、企业注册登记并联审批等重点业务应用提供跨地区、跨部门的数据共享交换支撑.共享交换平台在设计方面要求达到如下目标:1.符合国家相关标准 2.支持跨平台技术3.支持松耦合的应用集成技术4.支持多种通讯模式5.支持多种数据交换方式6.支持多种交换数据格式第 2 页 共 33 页(大数据资料)技术方案:数据共享交换平台1.3.2整体架构整
6、体架构 数据共享交换平台方案的设计包括”数据资源目录子系统”和”数据资源交换子系统”,考虑到政务系统之间复杂的数据交换需求,总结出四种不同的交换模式:1)直接交换方案 2)共享交换方案 3)安全交换方案 4)数据API服务.通过4种数据交换模式覆盖政府部门内各种场景的数据交换.1.3.2.11.3.2.1 数据数据资资源目源目录录 目录服务系统的主要功能是采用元数据对信息资源特征进行描述,形成统一规范的目录内容,通过对目录内容的有效组织和管理,形成目录信息库,为信息资源的交换、共享以及对应用的支撑提供信息资源的发现定位服务.遵循统一的标准规范组织管理所有共享交换信息资源,并通过目录服务系统基于
7、目录信息库,向用户提供目录内容查询检索服务.通过目录服务系统建设推进,对各个业务部门信息资源进行编目,便于全面掌握省级部门整体信息资源状况.1.3.2.21.3.2.2 直接交直接交换换模式模式直接交换模式属于较为传统的数据交换模式,交换之后数据会发生物理搬移,直接交换模式支持大多数关系型数据库、大数据平台(Hadoop、Spark、ODPS)、文件等类型的数据资源.这种交换模式提供增量、全量的数据交换功能,增量交换第 3 页 共 33 页(大数据资料)技术方案:数据共享交换平台时可配置周期性的交换任务,也可配置实时获取增量的任务,确保数据能快速、安全、可靠的同步至目标端.下图是直接交换模式在
8、某市的实际部署方案,该方案主要基于数据交换网关、数据交换中控、资源目录系统,以及需要政务云上提供部门共享库(云上前置库)、数据交换中心库(推荐RDS for mysql5.6)等服务.如下图所示,直接数据交换方案图1.3.2.31.3.2.3 共享交共享交换换模式模式随着数据量的增加以及业务对种类型数据资源的需求增多,大数据平台在政务当中的使用将成会一种常态,开源的Hadoop、Spark、阿里的MaxCompute(即ODPS)以及其他的大数据平台产品将部署在政务云上.大数据平台具有海量数据的处理能力,同时它也具有多租户的特性,各部门的数据将会存储在各租户之内,租户间存储、计算等资源隔离,默
9、认情况下无法直接跨部门访问数据.共享交换模式主要针对这种大数据平台下多租户间的数据交换,这种模式的交换数据不发生物理上的搬移,”数据可用、交换不搬家”,实现直正的极速交换.1.3.2.41.3.2.4 安全交安全交换换模式模式安全交换方案是面向大数据平台的另外一种的数据的交换模式.当部门C需要部门A与部门B的数据进行计算所得的结果数据时,但因为提供方的明细数据第 4 页 共 33 页(大数据资料)技术方案:数据共享交换平台中含有敏感信息,不宜对外开放共享,但数据的需求方又利用这些数据计算出某种结果,就需要安全交换,安全交换会将双方相应数据放入安全交换空间中进行不公开计算,并将计算所得结果提供给
10、需求方.安全交换实现了数据的可用不可见.1.3.2.51.3.2.5 APIAPI服服务务模式模式API服务方案用于满足以下场景:数据供应方不希望直接暴露业务数据库,而是以RESTful 等API接口对外提供数据访问服务.以API接口方式提供服务,让数据共享更加安全便捷.API也可通过资源目录系统进行交换共享.1.3.31.3.3 平台特点平台特点1.3.3.11.3.3.1 丰富的数据源支撑丰富的数据源支撑平台支持多种数据源,包括大部分主流的关系型数据库,比如:Oracle、MySQL、DB2、Teradata、SQL Server、PostgreSQL、Sybase、DB2等,此外还支持H
11、adoop平台的Hive以及阿里的开放数据处理服务(ODPS)、分析数据库服务(ADS)组件、RDS for mysql 5.6.1.3.3.21.3.3.2 提供提供APIAPI订阅订阅在某些场景下,数据供应方不希望直接暴露业务数据库,而是以RESTful API的方式对外提供间接的数据访问服务.对于供应方来说实现RESTful 第 5 页 共 33 页(大数据资料)技术方案:数据共享交换平台API技术难度不大,但用户访问安全方面往往考虑不足,容易被恶意用户利用;此外需要对外提供API使用手册,耗时费力,运营成本较高;对于API使用者来说往往需要分散获取各个API,耗时费力,此外各个API接
12、口认证方式不同导致且编程复杂度提高,不利于快速开发.资源目录系统提供数据API以降低传统RESTful API开发使用的复杂度,以数据目录的形式提供API的汇聚,以方便开发者快速获取到对应的资源;提供API录入界面,以方便生成API文档;提供代理访问真实API的能力,数据供应方的真实API仅暴露给资源目录系统,其它用户看到的都是资源目录系统提供的代理访问地址;为上层开发者提供统一的认证机制及数据获取机制,以方便快速开发.数据API交换方式简化示意图如下:数据API交换流程图1、API供应方发布数据API后,使用方可以浏览API相关信息,并可申请使用该API;2、资源目录系统把审核权请由供应方,
13、审核通过后由平台生成API代理访问地址,并告知申请人;3、API使用方调用API,由数据API网关完成权鉴及调用转换.第 6 页 共 33 页(大数据资料)技术方案:数据共享交换平台1.3.3.31.3.3.3 数据安全数据安全数据是部门的核心价值,数据安全属于资源目录系统的核心任务,从多个层面来保证部门数据的安全.基于RBAC对用户进行角色权限管理,用户只能在权限范围内进行操作.部门目录库与中心目录库分离,以保证部门数据不被中心私自使用.严格的审批流程,以保证部门数据的受控流出.严格的权限控制,以保证用户仅能获取授权数据.完整的数据操作日志,以方便审计.新型的交换模式,以保证敏感信息不被泄漏
14、.数据加密传输,防止数据传输过程上被截获.1.3.3.41.3.3.4 高可靠性高可靠性平台采用分布式架构,在负载均衡层和业务处理层均采用多点部署方式,避免单点故障导致整个系统不可用.同时负载均衡层的负载均衡组件,可以在业务高峰时自动进行业务分流,提升业务的整体性能.1.3.3.51.3.3.5 易用性易用性 门户界面采用BS架构,拥有直观易用的用户界面,数据的发布、撤销、浏览和获取均通过Web页面操作完成.同时,不同角色的用户登录后展示的用户界面不同,比如管理员可通过管理中心监控整个系统数据发布和交换情况,简单明了.1.3.3.61.3.3.6 高性能高性能由于使用了分布式的架构,通过扩展工
15、作节点的方式可以线性的提升平台的整体处理能力,同时,数据交换网关内部的作业调度采用业界比较成熟的任务调度框架,提供job的统一调度,对job提供多种执行方式,减少由于作业之间的资源争抢导致的性能下降.单工作节点的处理能力可达30M/s,满足大数据量数据交换的应用场景.第 7 页 共 33 页(大数据资料)技术方案:数据共享交换平台1.3.3.71.3.3.7 高可靠性高可靠性数据交换网关的分布式架构在前端处理层、任务调度层、集群处理层及任务处理层均采用多点部署方式,避免单点故障导致整个系统不可用.在web serivces和任务调度的前端,还部署了负载均衡组件,实现在业务高峰时间的自动分流,提
16、升调度平台的整体性能.管控节点及作业节点均为多点部署,单点故障的情况下,不影响整个集群的运行.由于作业元数据保存在元数据库中,数据交换网关还支持任务断点续传功能,保证整体作业的高可用,避免整个作业重跑,提升任务效率.在子任务失败的情况下,对已经部分完成的动作进行自动回滚,避免部分入库导致整个ETL失败并不可逆的情况发生.1.41.4 数据数据资资源目源目录录子系子系统统1.4.1系系统统概述概述信息资源库中包含的信息资源种类繁多、数量庞大,必须采用计算机技术,建立起强大、灵活、方便的信息资源导航和检索系统,才能真正共享和使用这些信息.信息资源目录为使用者提供了检索信息资源的便利措施.信息资源目
17、录通过建立科学、合理的分类体系,将共享信息资源和交换服务组织成一系列相关的信息主题.1.4.2系系统统架构架构资源目录系统基于分布式的架构设计,采用分层架构,由界面层、业务层、存储层及交换层共同组成.界面界面层层:负责提供易用的操作界面,完成数据的展示及管理.业务层业务层:负责整个系统管理及业务处理.存存储层储层:负责存储业务数据,同时存储搜索索引.交交换层换层:负责数据交换,其中API服务订阅提供restful API、webservice等接口的申请、审批订阅,数据交换引擎用于完成数据的直接交换、共享交换、安全交换.第 8 页 共 33 页(大数据资料)技术方案:数据共享交换平台1.4.3
18、功能功能设计设计1.4.3.11.4.3.1 数据数据资资源目源目录录管理服管理服务务数据目录可以帮助用户了解数据代表的业务含义,弥补业务与IT之间的隔阂,让数据更容易的被组织内部的各种角色所理解.同时,还可以很容易的获取数据的属性信息,让用户对数据资料有更全面和直观的了解.为建立信息资源目录,首先要对各政府部门提供的信息共享资源和信息交换服务进行分析,理清共享信息资源的结构和相互关系.为方便使用,采用规范的方法和技术,建立科学合理的信息分类体系,对共享的数据信息资源建立分类目录和索引.目录管理系统是对上述过程提供支持的应用系统,它提供公共资源核心元数据和交换服务资源核心元数据的编目、注册、管
19、理与检索功能.资资源目源目录编录编目目资源目录编目是对数据资源提取信息相关特征,形成资源核心元数据,提取交换服务资源的相关特征信息,形成交换服务核心元数据;第 9 页 共 33 页(大数据资料)技术方案:数据共享交换平台资资源目源目录录注册注册发发布布信息资源目录的编制、管理和维护是一项复杂的系统工程,参与该项工作的部门和人员很多,为了保持目录的完整和统一,需要一套科学的管理机制进行全过程的控制,目录注册和审核制度是这套控制机制的核心.目录注册的主要作用是方便地实现信息资源目录内容提供者向信息资源目录体系注册公共资源核心元数据和交换服务核心元数据.目录注册的主要功能包括:1、数据编目提交.通过
20、管理者和提供者之间的信息资源元数据交汇平台,提交信息资源元数据.2、数据审核.通过建立相应的审核机制,管理者确认提供者提交的信息资源元数据是否符合标准要求.未通过审核的元数据应返回给提供者修改.如果提供者已经对信息资源分配了唯一标识符,则管理者对信息资源的唯一标识符进行审核,检查提供者所提交的唯一标识符是否符合目录编制规范的要求.如果不符合,管理者对该标识符进行修订,并将对该标识符的赋码返回给提供者.如果提供者未对信息资源分配唯一标识符,则管理者对信息资源分配唯一标识符.3、数据入库发布.”库”指的是管理者向使用者提供信息资源目录服务的核心元数据库.针对已经通过审核的元数据,实现元数据的入库管
21、理,形成正式的目录进行发布.资资源目源目录录管理管理资源目录管理支持对资源目录进行新增,或对已发布的资源目录进行删除、更改.资源目录管理对注册的资源进行标准化或者按照用户自定义的方式进行分类管理,并对资源的编目、注册与审核进行权限的分配与管理.资资源目源目录检录检索索目录检索的主要作用是保证目录内容的一致性,避免信息冲突.目录的管理者发布目录内容.管理者通过目录服务器,把政务资源核心元数据库的内容发布到一站式系统中为目录使用者提供快速方便的信息定位和导航服务.目录检索与分类导航:提供基于全文检索技术的目录搜索引擎,快速检索出政务资源元数据的信息,以及相关的数据元,代码集,信息类,信息项.根据信
22、息类的提供部门、所属主题、所在行第 10 页 共 33 页(大数据资料)技术方案:数据共享交换平台业、服务类型、资源形态等线索,对信息类进行分类,为每个分类建立资源的索引,供目录使用者进行浏览和直观的导航.1.4.3.21.4.3.2 共享共享业务业务管理服管理服务务共享业务管理服务主要对业务数据共享过程进行标准化、规范化的管理,包括共享申请、共享审批、共享审计等功能模块,其中:共享申共享申请请共享申请主要标准化、规范化业务共享申请的基本资料,明确数据来源、共享范围和数据鲜活度.共享共享审审批批共享审批主要提供标准化的审批流程,确保数据共享安全,避免涉及国家安全、个人隐私和商业机密的数据信息泄
23、露.共享审批主要提供了审批流程管理和审批流程的执行两部分功能.审批流程管理主要管理各共享业务的审批流程,提供可视化流程设计,使审批流程可以灵活配置,方便变更.审批流程执行,指在业务共享审批时系统自动按指定流程执行审批.共享共享审计审计共享审计为资源目录系统会记录所有的资源申请审批过程.1.4.3.31.4.3.3 数据交数据交换驱动换驱动通过资源目录系统可联动下面的数据交换系统,触发资源目录上发布的数据资源的交换,可满足以下三种类型的交换,直接交直接交换换直接交换通过调用数据交换系统的API来实现基于数据交换网关的部门之间数据同步.共享交共享交换换共享交换,依托于大数据平台,授权后数据不需要发
24、生搬移,授权用户可以直接访问共享数据,方便快捷.用户数据的授权是通过调用大数据的权限管理API来实现的.第 11 页 共 33 页(大数据资料)技术方案:数据共享交换平台安全交安全交换换如果想要获取的数据是对方的敏感数据,那么前述交换方式将不再适用.因此出于隐私保护的目的,需要做到数据”可用不可见”,即在防止用户直接接触原始数据的情况下,依然可以使用数据进行计算分析得到结果.数据资源目录系统的安全交换服务基于大数据平台项目空间的数据保护及资源分享等技术打造,并通过一整套包括审核、部署、结果获取等在内的安全交换流程来保证整个交换过程的可控性和安全性,同时在安全交换的过程中,数据不需要搬移.安全交
25、换流程简化示意图如下:1.部门A发布数据到数据目录部门2.部门B浏览数据目录3.部门B申请使用该数据4.交由部门A审核该获取数据申请5.部门A提交审核结果6.系统将敏感数据共享给安全交换空间,将脱敏数据共享给部门B7.部门B基于脱敏数据开发应用,开发完成后提供给系统8.平台管理员审核及部署应用到安全交换空间9.应用运行后得到结果数据10.结果数据由系统共享给部门B第 12 页 共 33 页(大数据资料)技术方案:数据共享交换平台1.51.5 数据数据资资源交源交换换子系子系统统1.5.1系系统统概述概述数据交换系统是数据共享交换的核心部分,面向多个政府部门的公共需求,为多个端交换节点提供一致的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据资料 技术 方案 数据 共享 交换 平台
限制150内