最佳实践之中小银行数据仓库建设.docx
《最佳实践之中小银行数据仓库建设.docx》由会员分享,可在线阅读,更多相关《最佳实践之中小银行数据仓库建设.docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、最佳实践之中小银行数据仓库建设摘要近年来,随着银行业务日益发展、监管要求不断深化,秦皇岛银行逐 步将数据分析、数据应用、数据挖掘作为金融业务发展和管理决策的重要支 撑手段,将数据作为行内的核心资产,不断拓展数据应用场景,提升数据资 产管理能力。烟囱式系统建设模式会给数据建设带来严重后果,数据标准、 数据规范无法按预期实施,数据质量提升与预期相距甚远。秦皇岛银行原有 的数据平台(简称ODS)系统已经不能满足业务部门日益旺盛的数据分析需 求,同时也面临着一些其它问题,如:数据架构混乱,数据存储分散、数据 冗余严重、数据网状结构,缺乏统一的数据模型和数据管控等,迫切需要对 ODS系统进行重构,对数据
2、进行统一整合,构建全行数据标准化体系,满足 行内业务快速发展及数据辅助应用等需求,能够在激烈的数字化转型竞争 中发挥应有的价值。本文分享了银行数据仓库建设的实践经验,包括建设思路、分 层规划、模型设计、主题划分、辅助工具和实践思考,希望能为进 行同类项目建设的同行提供参考。一、建设思路秦皇岛银行于2021年7月正式启动数据仓库升级项目建设,项目组在 项目建设时提出“数据标准先行、数据管控跟进、应用驱动与数据驱动相结 合”的数据仓库建设方法,将数据标准、数据管控和数据应用统一纳入数据 仓库建设工作范畴。数据仓库作为全行基础数据底座,接入44个业务系统, 按照DW五层架构以业务驱动规划设计13个业
3、务主题模型,按照“一数一 源”原则实现统一的基础数据资源管理,避免重复建设和指标冗余,保障数 据口径的规范和统一,实现数据资产全链路关联,为数据分析提供数据支撑。数据标准先行数据标准是一整套数据规范,是开展数据治理工作的必要先行和重要 基础。数据标准是为了规范数据在行内外共享和使用的一致性和准确性,对 数据分类、业务属性、技术属性、管理属性等所做的统一规定。数据标准实 施分为数据标准制定和数据标准执行两个阶段,我行依托数据仓库需求调 研过程梳理现有元数据,并以此为基础借鉴同业和厂商实施经验,制定我行 的数据标准,再经行内各部门协商一致,批准发布一套供各部门遵循使用的 规范性数据标准文件,从而确
4、保银行的数据资产在交换和使用过程中具有 高度的一致性和准确性,通过数据仓库实施过程去落地,从而完成全行数据 流向的标准化和规划化。数据管控跟进数据标准解决了数据的入仓问题,使得更多业务系统的接入成为可能, 在丰富数据源的同时也带来了新的挑战,即如何保证入仓数据的高质量。这 个问题如果不能妥善解决,将会直接影响数据仓库的使用效果,对数据仓库 是“企业数据垃圾桶”的抱怨就是该问题的具体体现。我行在开展数据管控工作中,采用了规划、组织、制度、技术工具等因 素相结合的综合数据管控机制,并在这四个层面开展了相应的工作。规划层 面完成了数据管理制度与流程体系的整体规划;组织层面建立了由全行专 项数据治理机
5、制领导下的数据管控组织;制度层面制定了数据标准管理、数 据质量管理、元数据管理、数据模型管理、数据交换管理、报表需求管理等 六项数据管控办法和数据管理专项考核指标,为数据管理提供制度保障,保 障数据管控制度的落地执行;技术层面完成了数据管控平台的建设,为全行 员工参与数据管控工作提供了技术工具。这四个方面缺一不可,任何一方面 的缺失或不足难以保证数据管控工作取得实际效果。在数据仓库建设中,我们以元数据管理为基础,以管控流程为手段,使 数据仓库成为全行可信、可控的数据源。应用驱动与数据驱动相结合数据应用不足、数据服务缺乏是当前中小银行数据仓库建设所面临的 一个共性问题,由此所导致的后果就是空守“
6、宝山”却不能用,投资的价值 得不到体现,而这也影响到管理层经营决策使用,导致投入减少,不足以支 持众多数据服务的建设,从而形成不良循环,最终导致整个数据仓库建设失 败。在梳理数据仓库的建设需求时,为了进一步体现数据仓库的应用价值,我们 不仅考虑如何从底层保证数据的入仓,还从数据应用入手,将数据仓库支持的应 用按照客户分析营销、风险管控、监管审计、精细化管理分类建设,提升我行经 营管理、决策分析和监管报送水平。我们在数据仓库项目群建设时,将数据仓库、 数据集市与数据应用进行协同建设,实现仓库建设与数据应用建设互动,充分体 现数据仓库建设价值。二、分层规划稳健的数据仓库体系,需要对数据进行分层存储
7、,既要保证数据模型的 稳定又要尽量屏蔽对下游的影响,并且要避免数据链路过长。分层是以数据 为驱动,解决当前业务快速支撑并为未来抽象共性框架赋能其他业务线的 稳定方法。我行根据自身情况,划分五层数据架构:缓冲层、贴源层、模型 层、汇总层、集市层,不同数据层间的数据流向关系如下图所示:缓冲层:数据临时层,这一层不做过多的数据清洗工作,原封不动地接入原 始数据,保留明细数据,保留短期历史数据,同时建立全行的历史数据查询 系统,可从缓冲层直接获取数据。贴源层:该层与缓冲层保持一样的数据粒度,对源系统数据不整合不加工, 但保留长期的历史数据。模型层:按照业务主题进行数据分类存储,对数据进行整合,且保留长
8、期的 历史数据。在模型层进行数据标准落标,丰富数据资产的要素。汇总层:按照主题结合维度建模,对数据进行整合汇总加工,保留关键时点 历史数据,数据来源模型层。集市层:以维度建模为主,根据应用需求对数据进行整合加工,保留特定业务 需求的历史数据,集市层的数据来源模型层和汇总层。三、模型设计数据仓库模型不只是考虑如何设计和实现功能,还应从访问性能、数据 成本、使用成本、数据质量、扩展性等多方面来统筹考虑。数据仓库模型总 体设计原则如下:1 .高内聚、低耦合。即主题内部高内聚、不同主题间低耦合。模型层按照业 务划分主题,汇总层按照“实体+活动”划分不同分析主题,集市层根据 应用需求划分不同应用主题。2
9、 .核心模型和扩展模型要分离。建立核心模型与扩展模型体系,核心模型包 括的字段支持常用的核心业务,扩展模型包括的字段支持个性化或少量应 用的需要,不能让扩展模型的字段过度侵入核心模型,以免破坏核心模型的 架构简洁性与可维护性。3 .公共处理逻辑下沉及单一。越是底层公用的处理逻辑越应该在数据调度 依赖的底层进行封装与实现,不要让公用的处理逻辑暴露给应用实现,不要 让公共逻辑多处同时存在。4 .成本与性能平衡。适当的数据冗余可换取查询和刷新性能,不宜过度冗余 与数据复制。5 .数据可回滚。处理逻辑不变,在不同时间多次运行数据结果确定不变。常见的模型设计方法有范式建模和维度建模。我行数据仓库模型设计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最佳 实践 之中 银行 数据仓库 建设
限制150内