HC新华三康巴什智慧城市大数据共享交换平台建设方案.docx
《HC新华三康巴什智慧城市大数据共享交换平台建设方案.docx》由会员分享,可在线阅读,更多相关《HC新华三康巴什智慧城市大数据共享交换平台建设方案.docx(143页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、康巴什数智城市大数据交换共享整体平台建设解决方案H3C新华三先进技术有限公司2017年6月1、实现政务公开,打造透明政府数智城市公共数据开放共享促进政府和公众互动,让政务透明, 协助政府进行社会管理和解决社会难题,大数据时代下,政府是整 合开放的整体平台,是一个大数据共享整体平台,它建立了公众与 政府间的沟通渠道,越来越多的国家和组织利用其开展民意调查, 通过在线交互让民众成为政务流程的节点,透明政务,让公众参与 到政策制定与执行、效果评估和监督之中,使民众参政议政成为可 能。大数据推进政府信息资源进一步开放,政府信息开发利用处理 效率倍增,促进经济社会快速发展。2、实现数据融合,打造数智政府
2、数智城市公共数据开放共享真正跨越了政府内部协同的鸿沟, 大大提高工作处理效率,降低政府运行成本。其一,政府内部协同 除思想理念上的障碍外,先进技术上也存在一定障碍,随着大数据 先进技术发展,跨越信息系统、跨越整体平台、跨越数据结构的政 府将在先进技术上使政府内部纵向、横向部门得以流畅协同。其二, 由于利用大数据先进技术,数据获取、处理及分析响应时间大幅减 少,工作处理效率明显提高,同时降低了政府开支。例如,政府利 用大数据对社会人群进行细分,对不同人群进行针对性服务和政策 施行。3、实现科学决策,打造责任政府数智城市公共数据开放共享提高政府决策的科学性和精准性,3.4.2.2.2.8 资源与目
3、录关联维护了资源的分类呢荣,实现资源与目录自动关联,将资源显 示到祥光目录。3.4.2.2.2.9 资源订阅管理主要是对资源的订阅、收到的资源项目需求和提出的资源项目 需求进行管理。/资源订阅对相关资源进行订阅管理,能够了解相关资源的信息,并可取 消订阅。,收到的资源项目需求查看其他部门提出的资源订阅信息。包含资源订阅的部门、时 间、订阅资源项目需求等相关信息。/提出资源项目需求本部门提出订阅其他部门资源信息。数据质量管理数据质量管理主要包含对数据完整性、准确性、鲜活性、权威 性进行分心和管理,并对数据进行跟踪、处理和解决,实现对数据 质量的全程管理,提高数据的质量。能够提供规则配置、质量监控
4、、项目问题处理等功能,及时发 现并分析数据质量项目问题,不断改善数据的使用质量,从而提高 数据的可用性,实现数据更大的价值。3.4.2.3.1 数据质量管理 质量规则管理质量规则配置:依据质量项目需求,灵活配置质量规则。如开发质量规则(如命名不规范、不必要的跨层数据访问、不合理的大表 关联操作)、数据波动规则(接口/指标数据同环比)。质量规则自 动优化:根据历史运行信息,自动给出调整监控算法、阀值、优先级 建议,使得规则更合理。 质量规则执行依据质量规则执行的时机项目需求,配置执行方式,依据执行规则,管控整体平台自动执行质量规则检查。质量规则执行触发方 式支撑按固定时间周期(如月、周、日)、事
5、件触发等执行方式。 数据质量监控依据质量检查规则对数据质量进行监控,如接口波动率的监控,如果发现异常现象可及时告知或预警相关人员O 质量项目问题管理统一收集数据质量项目问题、形成数据质量知识库,提高数据质量项目问题解决处理效率。 质量评估报告依据质量检查评估规则对数据质量进行评估,形成数据质量评估报告,定期对评估报告进行分析得出优化建议,并付诸优化动作, 持续改进数据质量。3.4.2.3.2 数据评估管理 数据使用评估对数据及应用使用情况进行评估,并据此数据存储、处理、应 用进行优化。例如:前台应用使用次数、分发给外部信息系统接口 数据、采集外部信息系统数据、外部应用调用次数等。 数据关系评估
6、数据关系的类别可以分为主外键关系、参考关系、输入与输出、 历史拍照、冗余备份。数据交换共享整体平台通过建立处理程序解 析、元数据解析、及上线登记等方式实现数据关系评估。 时效性评估通过对数据关系的分析,发现孤立表或无效表。根据表名判断 此表大约含义,建表日期、状态日期,表内数据时间等判断此表最 后更新时间。通过数据的使用日志,对孤立表和无效表进行判断是 否有使用。 冗余数据评估整体平台将来纳入大量数据,可能存在着大量冗余的数据。冗 余数据一方面给数据的精确性和可靠性将带来影响,同时也影响着 数据库的性能。信息系统必须要解决冗余项目问题,主要有两个环 节:发现冗余数据和冗余进行消除合并。 重要性
7、评估在数据使用过程中和数据应用中对表和数据的重要性进行评 估,通过访问频次、数据质量、数据热度、数据标准化等指标,进 行全面评估,并输出表重要性级别。3.4.2.3.3 数据稽查管理根据预先配置的规则、算法和质量检查度量,对数据的准确性、 合理性等多角度的检查,以及时发现项目问题,解决项目问题。对 于稽核结果,进行统计分析,形成结果报告,为以后的数据中心建 设、实施和维护的改进打下坚实的基础。 稽核规则管理接口数据检验:对接口数据的过程进行稽核和校验,分为文件 接口,DB-LINK接口,其他异构数据库接口。处理过程检验:对数据处理过程进行监控和稽核,分为JOB稽 核,工作流稽核,其他处理方式稽
8、核等。处理环境检验:对数据处理环境进行检查,针对不同的应用环 境,主要分为数据库信息系统检查、主机信息系统检查、接口机检 查、应用服务器检查。日志监控:在整体平台运行的过程中可能出现各种各样的错误, 通过检测运行过程的日志可以判断出过程输出的目标表数据是否完 整。提供选择日志监控的各种信息供选择,如:过程名、所属模块、 执行时间、完成时间、执行时长、执行用户、执行结果、预警等。维度检验:如所属模块、日期、表名、维度名称、纬度格式、 纬度说明、纬度关联编码表、各纬度记录分布情况、是否有空值、 空值记录数、空值率、预警区间等指标。指标值检验:包括数据量校验、单指标校验、交叉校验等。 稽核任务调度在
9、设定数据稽核的模板后,可以对稽核任务实行自动化处理,也可以通过定制方式来完成,可以定时调用或触发。由不同类型数 据检验确定。 稽核结果分析对于稽核的结果,进行统计分析,回答经典的“4W”项目问题:该报表是否异常、该报表在哪里发生、该报表什么时候发生异常和 为什么该报表会发生异常? 数据项目问题管理对信息系统使用者或数据中心开发者遇到的项目问题及解决解决方案,进行收集和整理,形成知识库,便于用户咨询,同时也提 高开发团队的处理效率,避免很多重复工作。数据运营整体平台月艮务管理服务管理是数据共享、开放、融合分析各类应用的重要载体,信息系统提供统一的API注册、发布、调用、监控管理,是支撑整 体平台
10、应用之间的调用更加便捷和安全。类别管理可支持子API类别自定义,支持父级别分类,并支持排序。创建与发布创建,就是讲各类方式方法发布到API代理,基本只需要选择 对应的方式方法。API的具体调用信息和参考信息,都在原方式方 法中。API只需要设置标识、版本、级别(调用频率控制)、状态(API 生命周期)、授权类型。其中对于授权类型分为3种类型:无需授权:对于无需授权的API即完全开放访问,经过API代 理时无需进行授权验证。调用者也不需要提供调用凭证(Token)用户授权:表示API读取的是用户资源,需要对应的用户经过 OAuth认证授权后获得的用户凭证才可进行调用,并且只返回对应 的用户的数据
11、客户端授权:表示API直接接受应用信息系统的订阅,无需经 过用户授权。在Oauth中通过客户端授权模式产生的Token即可进 行调用。3.4.3.1.3 仓库在开发者整体平台中,公开的展示所有发布的API信息。包括 API的类别、API基本信息、API参数信息、API返回值字段信息。3431.4订阅在开发者整体平台上,开发商可以为对应的应用信息系统申请 API订阅权限。可订阅的范围只限定在客户端授权类型的API中。管理员可在管理端查看所有申请,并进行审核。通过后,就会 自动建立应用信息系统和API的订阅关系,即应用信息系统具备调 用API的权限。当然,也可根据实际情况退回申请。管理员也可不经过
12、审核步骤,自由的管理API的订阅关系。1.1.1.1.5 模轮I调用在API注册管理时,可以在参数列表中,设置每个参数的模拟 测试值,如果API只是读取数据类型的(写入类型的API进行模拟 调用会对实际数据产生不可知的结果,不建议提供),则可在开发者 整体平台就可进行API的模拟调用,并将调用结果在页面上进行展 Zj O日志审计调用日志在API GetWay处理调用请求时产生。每次调用都必 须记录一次调用日志。包括调用哪个API、调用者身份、调用参数、 调用结果、调用返回值、调用耗时等。这些信息用于最后的统计。在调用过程中如果发生了不可知的错误,需要进行异常捕获。 捕获的信息需要记录到异常日志
13、表中。1.1.1.1.6 调用统计基于API调用的日志数据,即可完成多维度的统计,其中包括 API调用次数的统计、响应时间的统计、最后使用API时间的统计、 API调用者的统计、API错误调用次数的统计。3.4.3.2 数据开放基于服务管理,通过加密、签名、脱敏、分级授权等方式,在 安全可控的基础上,有选择地提供给第三方应用使用,实现数据服 务能力体系开放,作为面向社会开放的整体平台,具备支撑互联网级别的并发响应的能力体系。3.4.3.3 运行监控为运营团队人员提供管理工具,支持服务发布和运行监控,作 业调度管控,数据资产管控和安全审计等。不仅需要对数据库、数 据服务等资产的运行状态进行管控,
14、还需要实时把握能力体系开放 情况,通过动态监控和预警协助运维管理人员随时掌握信息系统运 行状态,提前预防及处理项目问题。数据应用整体平台数据共享、开放的最终目标都是为了要创造价值,数据的价值 主要通过应用进行体现。康巴什数智城市公共数据开放共享整体平 台数据应用主要是大数据分析功能,主要包括数据采集、数据分析、 结果发布三个组成部分,能够实现实时、批处理、交互分析,最终 通过报表、仪表盘、API等形式展示结果。3.4.4.1 信息系统构架通过数据代理将数据推送到数据分析整体平台的事件流中,事 件流对数据进行个性化处理:如建立主键、索引、分配数据储存仓 库等功能。同时可以通过Spark对数据仓库
15、中的数据进行数据分析 或者通过Siddhi进行数据实时分析。分析之后的数据可以储存到基 于hadoop的数据仓库中,并可以通过Rest或者仪表盘等方式暴露 给第三方的应用信息系统。事件接收器数据分析专(HBase、RDBMSS )致据接收器信息系统功能3.4.4.1.1 数据收集事件接收器:通过事件接收器接受数据代理发布的数据。同时 支持多种协议:HTTP、Emaik JMS、MQTT、SOAP、WSO2Event 等。事件流:创建数据结构,建立数据索引、主键、持久化设置等 功能。索引:通过Apache Lucene构建HDFS的索引功能。数据分析实时分析:基于Siddhi的实时事件处理引擎批
16、数据分析:整体平台的主要分析引擎,底层基于ApacheSpark,可通过SparkSQL分析数据仓库中的数据。数据交互:提供源数据与分析之后的数据查询功能以及复杂的Lucene查询功能。智能分析:包含分类归并、决策树、列式依赖关系以及预测分 析。分类归并,通过自动化地识别和测量数据集内的公共属性的过 程,拥有聚类(一种K-均值算法),能够自动在数据中发现相互间 拥有非常不明显关联的数据组。这样做最明显的好处是,如果将数 据分成不同的组段,可以根据项目需求对不同的数据组段做不同的 处理。决策树:决策树(随机森林算法)帮你了解不同数据属性的组 合,以达到更满意的结果。决策树通常被用于通过更多的数据
17、源来 丰富一个数据集,并实现更优化结果的过程。决策树的结构会反映 可能隐藏于数据中的结构。列式依赖关系:列式依赖算法会自动比较每一个可能的数据属 性组合,并可视化展现根据这些关系的优势进行的排名顺序,可以 协助您立刻知道下一步应该关注的业务领域。这些关系本身也很重 要,会经常被用于对目标进行更深入的分析。预测性分析:根据类似人群兴趣的历史记录,整体平台的推荐 引擎可以自动预测个人兴趣,从而协助您提高用户参与度、精准推 送相关选择继而提高用户满意度等。3.4.4.2.3 可视化发布事件发布器:通过事件发布器将通过Spark或者Siddhi分析过 的数据进行发布,支持多种协议:HTTP、Email
18、、JMS、MQTT、 SOAP、WSO2Event 等。仪表盘:用于数据的可视化功能,基于dashboard进行图形展 提高政府预测预警能力体系以及应急响应能力体系,越来越多的政 府推弃经验和直觉,依赖数智城市的数据和分析进行决策。现在大 数据又超越了传统的数据分析方式方法,不但是对大数据分析挖掘, 对言论、图表等都可以进行深度挖掘、人工智能。大数据的深入及 广泛应用会给政府带来科学和精准的决策支持。4、为康巴什数智城市提供一个安全可靠的信息资源存储中心对各部门的共享交换的数据资源进行统一的规划管理和应用, 建设集约化的数据资源存储中心,从而避免了各部门重复建设工作; 同时提高数据安全方面的建
19、设,从硬件设备、网络、信息资源、应 用信息系统、管理整体平台、数据库等方面的全面保证数据的安全 性,并根据用户的不同访问项目需求、防止恶意入侵、病毒防护、 分区域的安全设计,并在应用服务上提供安全检测服务。5、为康巴什数智城市提供一个高效的应用服务整体平台康巴什数智城市公共数据开放共享整体平台的建设,为政府应 用信息系统和信息资源的高效管理和服务提供手段,通过对相关的 基础信息、业务信息、服务信息进行管理,实现康巴什数智城市公 共数据开放共享整体平台的信息管理和服务功能。城市级交换共享 整体平台则对各部门的信息资源提供交换共享支撑,以提高信息资 源的综合利用水平。通过整合各部门数据信息,建设基
20、础信息库, 并提供对外服务,实现康巴什数智城市公共数据开放共享整体平台 的服务功能。6、为康巴什数智城市提供一个长效和可维护的信息服务体系 示。可以使用任何数据仓库的数据或者实时事件流作为仪表盘的数 据源。RestFul API:提供restApi供外部应用与整体平台进行数据流 转。异常/预警通知:在事件发布器中可以设置一系列的条件或者临 界值,当实时分析结果达到条件时即可触发事件发布器,对外发布 数据。移动端:采用HTML5先进技术,并兼容市场上所有最新的平 板电脑(如iPad),以及所有主流的智能手机(包括iPhone和 Android 设备)。3.4.4.2.4 应用日志完整的记录软件运
21、行过程中的日志,并提供完整的日志分级、 日志查询功能。3.4.4.2.5 事件日志记录事件接收器、事件发布器中数据流转的日志。3.4.4.2.6 数据模拟可直接把csv或者RDBMS中的数据导入到事件流中或者发到打单个数据到事件流中。3.5U!大基础数据库管理整体平台人口库3.5.1.1人口库合适的内容管理维护人口库的基本合适的内容构成可细化到字段级,并可以维 护每个字段从哪个信息资源中的某个指标获取,如有多个来源,可 以维护每个来源的权重。351.2人口库数据处理人口库处理流程如下图:开始是否将该人口记录插入到【人口基础信息表】及【专题表】否一判断大口库库该字段宿是否.为空将该人口记录字段来
22、源插入到【字段来源表】否该业务系统的是业务上的新是该业务系统是否5该字段的权威来”是351.3人口库共享功能可以根据各部门的对人口的业务项目需求,定制API,在数据运营整体平台中发布,发布后,使用者可以按权限调用。人口库应用功能3.5.1.4.1 人口查询1、基本查询,可查询人口的基本信息。2、总量查询,主要包含总人口查询、年龄结构查询、育龄妇 女查询、老年人口查询、劳动力查询。35142人口统计1、人口分布,户籍分布、非户籍来源分布2、人口年龄结构,年龄金字塔、年龄趋势3、人口发展指标,人口概况、人口与经济、人口与社会、人 口与资源、人口与环境35143人口预测1、人口规模预测,以当前人口数
23、量为基数,按照人口统计学 中算术级数推算法和几何级数推算法,推测未来5年的人口发展 情况,用折线图显示。2、出生人口预测,以当前人口数量为基数,按照人口统计学 中出生率法和一般生育率法推算法,推测未来5年的出生人口发 展情况,用折线图显示。3、劳动人口预测,以当前人口数量为基数,以男性18到59 周岁,女性18到54周岁人员作为劳动力统计标准,推测未来5 年的劳动力人口发展情况,用柱状图和折线图结合显示。4、老年热门口预测,以当前人口数量为基数,以满60周岁人 员作为老龄人口统计标准,推测未来5年的老年人口发展情况, 用柱状图和折线图结合显示。35144人口与地理在GIS地图点击辖区人口情况,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HC 新华 三康巴什 智慧 城市 数据 共享 交换 平台 建设 方案
限制150内