企业大数据智能管理与治理平台建设技术方案.docx
《企业大数据智能管理与治理平台建设技术方案.docx》由会员分享,可在线阅读,更多相关《企业大数据智能管理与治理平台建设技术方案.docx(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、企业大数据智能管理与治理平台工程建设技术方案主题域:参与人、服务、资源、事件、市场营销、企业管理、公共。所属层级:接口层、轻度汇总层、中度汇总层、高度汇总层、应用层等 存储周期:按年、按季度、按月、按周、按日等 数据资产分类体系在数据资产的分类管理中,平台按照数据资产的生命周期对数据资产进行 分层,即输入层、加工层和输出层。输入层是指数据从各个数据源抽取到 大数据平台,输出层是指大数据平台数据输出到外部渠道或内部渠道,加 工层指数据在大数据平台内进行加工处理的过程。数据资产分类查询平台提供数据资产分类查询功能,可通过选取分类标签中具体的属性标签 对数据资产进行筛查。1数据资产分类统计平台提供数
2、据资产分类统计功能,可对各种标签属性的数据资产进行分类 统计,并形成统计报表,供使用人员查询不同属性数据资产的整体统计情 况。,数据资产目录管理数据资产目录资产目录是对平台元数据的有序组织,是记录数据体系的保障数据类目是 目录信息与服务、保障与支撑所组成的一个整体针对资产的合理组织,需 要对资产进行对应分类,如部门类目、主题类目、行业类目等,可对该类 目下资产数据进行搜索、展现以及权限申请。数据资产查询平台提供数据资产查询功能,主要分为通用查询和高级查询两种方式。1 .通用查询:通过在通用查询搜索框中输入查询关键字,可对数据资产进 行模糊查询。2 .高级查询:根据指定数据资产属性信息的具体值对
3、数据资产进行精确查 询,包括数据资产名称、资产编码、资产分类标签等属性。/数据资产地图管理平台提供数据地图功能,通过可视化的图形界面,对大数据平台各系 统、各层次之间的脉络关系进行全面、多层次的展示,并提供从系统、数 据库、表间以及字段级的关联关系下钻分析功能,帮助用户从不同粒度了 解数据资产之间的关联情况,同时可动态了解数据资产的执行情况。/数据资产版本管理平台提供数据资产版本管理功能,主要包括版本发布、版本查看、版本比 对、版本恢复等功能。1 .版本发布,通过版本发布功能提供对数据资产信息的版本更新和固化;.版本查看,可查看数据资产的版本变更历史;1版本比对,通过选择历史版本可与当前发布的
4、数据资产版本进行差异比拟;1)版本恢复功能,支持恢复到以前历史版本的资产信息;,数据资产变更管理平台提供数据资产变更管理功能,可对数据资产信息中除定义名称以外的 其他信息进行变更,并提供在变更发布前的数据资产信息规范审核。/数据资产审计管理平台提供资产运行审计管理功能,主要包括数据资产模型审计、数据资产 表数据审计等局部。1)数据资产模型审计:可对表、视图、文件、Hadoop等静态结构进行审计, 根据元数据的配置,与数据库内实际的表/视图信息、实际生成的文件信 息以及Hadoop中实际的结构信息进行比对,实现数据资产定义在整个应用 中的一致性检查。2)数据资产表数据审计:可对数据资产中的表数据
5、进行审计,包括元数据 表字段上的空值、字典值等。,数据资产统计管理平台提供数据资产统计分析功能,主要包括统计综合查询、数据资产一致 性检查、数据资产更变统计、数据资产属性检查、数据资产空值检查、数 据资产字典值检查等功能。数据资产统计分析1、统计综合查询,可通过数据资产的各种属性标签,如资产类型、数据源、 主题域、所属层次等,以及数据资产的其他资产信息如数据库类型、应用 等,对数据资产进行查询。2、数据资产一致性检查,平台提供以报表的形式,将元数据的配置与数据 库内实际的表/视图信息、实际生成的文件信息、Hadoop中实际的结构信 息等内容进行比对并输出差异分析结果,在分析结果不一致的情况下给
6、出 提醒,并将分析结果作为数据资产规范性检查报告的组成局部。3、数据资产变更统计,可通过数据资产的各种属性标签,如资产类型、数 据源、主题域、所属层次等,以及数据资产的其他资产信息如数据库类型、 应用等,对数据资产变更历史进行统计查询。4、数据资产属性检查,平台提供以报表的形式,将元数据的配置与数据库 内实际的表/视图的属性信息、与实际生成的文件内的属性信息、与Hadoop 中实际的结构信息进行比对并输出差异分析结果,在分析结果不一致的情 况下给出提醒,并将分析结果作为数据资产规范性检查报告的组成部 分。5、数据资产空值检查,平台提供以报表的形式,对元数据表字段上的空值 配置进行检查,在检查结
7、果不一致的情况下给出提醒,并输出数据资产 空值检查报告。6、数据资产字典值检查,平台提供以报表的形式,对元数据表字段上的字 典值配置进行检查,在检查结果不一致的情况下给出提醒,并输出数据 资产字典值检查报告。数据资产报告针对整体平台上的对应数据,提供定周期了解其对应资产情况,对总体资 产情况进行分析。数据资产盘点平台提供数据负资产盘点功能,通过分析系统中孤立未使用的库表,即 数据负资产,并以报表形式输出分析结果,为用户清除数据负资产或转存 提供帮助。数据异常管理/异常对接管理开发可以对接数据交换总线、数据集成总线、数据服务总线系统中异常日 志模块的功能。,异常问题列表开开展示异常问题信息,按等
8、级进行分类或主动推送,同时对异常问题进 行归类整理,并定义规那么进行选择性忽略或提醒的功能。/人工处理管理开发人工处理管理是记录针对异常信息,人工处理所登记的台账信息,可 按照异常分类进行分类授权,实现指定问题的指定人员处理的功能。/系统处理管理开发统处理管理是针对异常信息集成的各子平台系统处理结果的收集,该 类信息往往不需要人工干预的功能。/实时数据质量管理针对实时流数据需要提供数据质量管理功能,即提供对实时流的数据质量 规那么的设置、维护、调度、优化等规那么的管理功能,以及对实时流数据源 接口关键数据、数据实体和处理过程的监控告警,辅助数据质量管理人员 快速定位问题的原因及处理方案,并定期
9、生成针对实时流数据的数据质量 评估报告的功能。/数据质量定制化开发通过自定义扩展规那么能力,灵活方便的自定义扩展能力,可以灵活定制质 量监控的规那么、问题数据的检测规那么和问题数据的清洗回收的方式。/异常数据分析基于集成方案,反应统计分析集成过程中不符合方案中各字段清洗规那么的 异常数据结果,同时支持多维度的问题分析以及排查。/异常处理统计分析开发按照异常分类、处理情况、时间、等级等维度进行分类统计,以图表 的形式展现便于管理人员汇总分析的功能。数据架构管理平台支持定义全企业的数据架构,包括数据的主题、层次,所涉及的部门、 所用到的数据库类型。功能包括数据架构节点的增加,删除。/业务架构管理从
10、数据架构中选择适合团队的数据架构,并绑定到团队,以约束开发团队 在开发过程中选择数据架构。,存储架构管理在异构数据库的环境下,不同的数据库有不同的参数设置,为减少开发人 员在模型开发过程中的操作,同时也保障模型在落地到物理环境的正确性, 通过在存储架构中设置默认的参数配置来保障开发的准备性。数据开发管理/流数据处理平台支持对流数据的处理与管理.,流数据的处理过程为数据实时采集一数 据实时计算一 数据实时查询服务。 实时采集主要应对海量数据进行高性能的实时数据采集处理,以实时、高效、低延 迟为核心驱动点,具备亳秒级数据触发能力,实现秒级单位时间窗口的数 据统计分析能力。需要支持的数据源类型可以分
11、为以下四类:网络协议数据源,包括Socket、JMS、HTTP、HTTPS等常见类型的网络协议。本/异地文件数据源,包括目录扫描、文本文件,FTP, SDTP等数据。分布式文件系统数据源,包括HDFS, HBase, Hive等数据。关系型数据库数据源,包括DB2, Teradata, vertica等数据。支持物联网网关采集:将物联网数据从物联网网关接入,提供协议适配和 标准化处理,以及满足海量物联网数据的入湖。来自多种数据源的实时信息,因为其时效性高,数据的有效期短暂,需要 实时提取和分析来自各种分布式系统的信息,并分发到不同的应用中进行 处理。同时,系统必须高效、可靠、可管理、可监控并且
12、具有一定的对外 开放能力。 流数据引擎开发提供数据融合,统计,分析的高速处理能力,对于实时性要求较高的 数据计算提供支撑的功能流数据计算模型管理 开发提供对已设计完成的数据计算模型进行申请,注册,提交,执行,监 控的统一管理的功能 流数据计算公共模型开发开发提供对于场景需求较多的数据模型可开发公共模型的功能,公共模型 可以供其他用户调用,可重复使用的功能 流数据计算结果接口开发开发提供对流数据计算结果接口开发功能和计算结果数据可通过接口形式 供可视化调用或其他应用的功能 流数据计算模型查询开发提供流数据计算模型查询功能,通过对流数据计算模型发布可以是其 他用户查看计算模型逻辑,进行模型再利用,
13、减少其他用户开发工作量的 功能。/数据开发平台数据开发完成多种环境的全量与增量数据处理能力,简化开发过程。统一 数据开发入口,支持可视化开发和原生态开发两种开发模式,实现原生态 开发与可视化编排的互相转换,提升开发效率。支持可视化开发开发空间基于脱敏数据开发和验证,通过验证后的工作流再发布到生产空 间,生产空间基于实际的数据来调度工作流进行数据生产。支持原生态开发,统一调度管理平台支持对数据开发与管理任务的统一调度,包括流程设计与管理、调度 策略管控、任务调度控制、标准化控件等功能模块,通过作业/任务管理、 作业/任务调度、作业/任务执行实现对采集、转换、加载、调度、监控, 从而形成统一的调度
14、与管理。以一个业务量生产过程为例。传统做法是通过接口通信表或时序依赖 进行协同生产。在统一调度平台中以数据流作为驱动,通过控制中心进行作 业命令下发,状态收集进行控制,到达各个异构系统,多个子系统的协同 调度。数据智能数据血缘平台提供血缘分析功能,通过可视化的图形界面,对数据资产及所有来源 的关联数据资产进行展示,可帮助用户分析数据来源和定位数据质量问题。/元数据血缘分析元数据分析算法包括以网状模式展示对象等血缘关系和以父子依赖关系展 示对象等有向血缘关系。 影响性分析包括血统分析和影响分析两类,以便于掌握和追溯对象变更时的缘由和影 响关系。血缘分析是元数据分析中重要的分析应用,以图形方式清晰
15、的展 现出元数据(表、视图、字段、指标)每一步数据的来源情况,数据的来 源情况包括该元数据的直接或间接使用到的其他元数据和加工该元数据所 使用的加工规那么。元数据对象和对象之间以连线方式表现出血缘分析的结 果。 重要性分析分析各元数据对象之间的关联密集度,分析数据资源平台中各层次的包、 表等对象的重要程度,指导数据资源平台开发和维护团队对重点元数据进 行重点关注和质量监控。 无关性分析与重要性分析相反,随着数据资源平台系统的规模不断扩大,业务需 求的日益变化,会产生一定数量的无关数据、信息和报表,找出这些无关 的内容,结合业务需求分析其产生的根源,从而为用户简化工作负载,降 低工程总拥有本钱,
16、为用户提供可信赖的数据和分析能力。智能标签在数据资源的分类管理中,平台按照数据资源的生命周期对数据资源进行 分层,即输入层、加工层和输出层。输入层是指数据从各个数据源抽取到 大数据平台,输出层是指大数据平台数据输出到外部渠道或内部渠道,加 工层指数据在大数据平台内进行加工处理的过程。/数据标签管理平台提供数据标签管理功能,可对已导入的数据资产标签进行增加、修改、 删除以及分类标签的导入导出功能,满足数据资产业务属性随业务发生变 化时数据资产标签能够灵活变化。/标签模板管理平台提供数据标签模板管理功能,可通过下载功能将标签模板导出为Excel 文件格式,对数据标签进行编辑整理后批量导入到平台中,
17、并提供对标签 模版的增加、修改、删除等操作。/基础标签管理开发以列表形式和智能推荐形式将平台中设置的基础标签进行呈现列表形 式是将所有的基础标签一一列出,并可以按照热度进行排序智能推荐形式 是指根据最近时间段内的标签的访问频率、搜索频率等,以轮播的形式循 环展现热门标签的功能。/标签关系展现开发通过标签将相关联的数据目录关联在动图中展现给用户,形成丰富数 据盛筵的展示效果,做到通过一张图就可以将某一条数据的关联数据、以 及数据之间的关系全部展示出来的功能。开发通过标签访问次数统计出热门标签,让平台运维人员了解哪些标 签是访问频率高的、是符合用户访问习惯的,并结合用户的搜索记录,优 化标签设置,
18、使之更通用和人性化的功能。数据探索平台提供了数据探索工具,支持用户通过数据探索工具对拥有权限的数据 进行在线自助数据查询,工具记录访问日志。在平台上用户可以在此页面通过各种过滤条件查询出自己权限范围内满足 条件的报表,并进行对应的设为首页及关注操作。画像分析画像分析是面向业务的标签和画像管理中台,整合了多类型存储资源 的数据,能够帮助企业构建业务标签体系。平台中的画像分析功能同时内置完善的标签运营机制和灵活的圈群分 析模版,适用于用户行为、设备管理、企业档案、地理分布等数据分析场 景。,影响分析平台提供影响分析功能,通过可视化的图形界面,对数据资产及所有后续 影响的关联数据资产进行展示,可帮助
19、用户分析数据流向和定位数据出错 时影响的关联数据资产。/全链分析平台提供全链分析功能,通过可视化的界面,对数据资产所有来源和 后续影响的关联数据资产进行展示,可帮助用户分析数据来源和定位数据 质量问题及后续影响的数据资产。/表关联度分析平台提供表关联度分析功能,通过分析数据库表数据资产与其他资产的的关 系出现次数情况,如表与ETL程序、表与OLAP、表与指标等关系,并以报表形式 输出分析结果,帮助用户分析数据资产之间的关联程度。1.3 平台性能需求数据融合计算(百万级数据)执行效率到达分钟级别最大开发团队管理数W 100个系统数据开发人员并发访问W 200个服务响应时间W 3s调度执行器在线数
20、据任务的调度管理和执行数量 2000个验收文档要求概要设计书概要设计专家评审详细设计说明书架构设计说明书数据设计说明书工程实施方案测试方案测试用例测试报告部署方案非功能性能指标源代码系统使用说明(规范)、运维说明书系统培训资料和培训记录工程总结报告1工程需求分析51.1 工程建设目标51.2 工程建设内容5数据管理51.2.1 数据智能161.3 平台性能需求181.4 验收文档要求182工程技术方案202.1 工程建设方案20现状问题分析202.1.1 工程建设目标21平台建设方案212.1.2 方案核心价值352.2 服务场景设计37数据资产管理372.2.1 数据开发管理39数据全生命周
21、期管理422.2.2 数据管理大屏432.3 信息安全保障43总体方案432.3.1 系统安全44数据安全452.3.2 应用安全463工程建设方案473.1 工程实施方案47工程实施地点472工程技术方案工程建设方案2.1.1 现状问题分析业务系统之间缺少统一标准/数据多样化缺少数据标准,对表字段的命名随意性强,定义混乱;/同一英文字段名对应多个中文名,反之也存在着中文的一对多;,同一业务元素对应多种数据类型和长度。2.1.1.1 系统之间数据变更对应的影响分析困难/历史数据庞大复杂,表关系不清晰;/表结构变更、系统改造时,对应造成的影响难于甚至无法评估;/已然形成大量数据,系统悠久,找不到
22、接口人,针对其应用困难。2.1.1.2 数据质量差,错误发现不及时/数据质量低下,统计不准确,许多预期需求无法实现、造成决策失误;/数据错误的发现不及时:/ 数据处理过程中的问题未及时纠正,导致更多的后续错误。2.1.1.3 数据价值低/数据表和模型繁多,价值未最大释放。2.1.1.4 业务系统之间数据资产分散,共享性差/ DB、数据模型、应用程序、数据标准、数据质量等信息分散;/政务数据资产无法集中管理和展现,共享性差。2.1.1.5 数据安全得不到保障数据权限划分不清;敏感数据得不到监控;账号和权限无法追踪-非正常的访问行为无法捕捉。2.1.1.6 管理体系不完善,已有标准落实差/标准管理
23、体系不完善;/管理角色分工不清晰;/标准管理系统不完善,标准管理软件易用性差,落实效果差;/出了问题再补漏,数据管理部门和生产部门相互推脱责任。2.1.2 工程建设目标基于上述问题分析,因此本次企业大数据智能管理与治理平台工程的建设的 目标就是要让城市大数据及大数据中心的运营成果要让决策者、行业用户和社会 公众“看得见、看得清、看得懂”,因此需要实现大屏可视化,把区域内的静态 和动态数据能够360度完美表现、采用易懂的表现形式和生动震撼的视觉传达, 让人更容易记忆、理解和学习,从而实现企业运行情况一套图展示。2.1.3 平台建设方案平台架构设计我公司大数据管理平台以元数据为基础,所有模块并不是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 数据 智能 管理 治理 平台 建设 技术 方案
限制150内