2022年XX银行数据仓库建设项目方案.doc
《2022年XX银行数据仓库建设项目方案.doc》由会员分享,可在线阅读,更多相关《2022年XX银行数据仓库建设项目方案.doc(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、XX银行EDW/数据仓库工程方案目 录第一章 系统总体架构1.1 总体架构设计概述1.1.1 总体架构的设计框架1.1.2 总体架构的设计原则1.1.3 总体架构的设计特点1.2 EDW执行架构1.2.1 执行架构概述1.2.2 执行架构设计原则1.2.3 执行架构框架1.3 EDW逻辑架构1.3.1 逻辑架构框架1.3.2 数据处理流程1.4 EDW运维架构1.4.1 运维架构概述1.4.2 运维架构的逻辑框架1.5 EDW数据架构1.5.1 数据架构设计原则1.5.2 数据架构分层设计1.6 EDW应用架构1.6.1 应用架构设计原则1.6.2 数据效劳1.6.3 应用效劳第二章 ETL体
2、系建立2.1 ETL架构概述2.2 ETL设计方案2.3 ETL关键设计环节2.3.1 接口层设计策略2.3.2 Staging Area设计策略2.3.3 数据加载策略2.3.4 增量ETL设计策略2.3.5 异常处理2.3.6 作业调度和监控2.3.7 元数据治理2.3.8 ETL模块设计2.3.9 ETL流程设计2.3.10 动态资源分配2.3.11 数据接口设计第一章 系统总体架构1.1 总体架构设计概述1.1.1 总体架构的设计框架XX银行EDW工程的总体架构分为根底技术架构、应用架构和数据架构三个核心部分。这三个部分共同组成了XX银行EDW系统。在根底技术架构中,包括执行架构、逻辑
3、架构、功能组件架构和运维架构四个部分。n 执行架构描绘系统大的框架和模块区域,以及之间的逻辑关系;是确定消费环境的建立要求及指导原则。n 逻辑架构描绘EDW各个模块之间的数据的接口、数据流向、工具使用和采纳详细的技术实现手段或方式情况,用于标准本工程最终消费环境的建立。逻辑架构是建立应用架构、执行架构、运维架构的根底,也是建立执行架构、应用架构以及运维架构的原型系统。n 功能组件架构描绘确定系统各个大的组件组件区域的功能模块框架,以及提供的某种效劳类型。n 运维架构是描绘EDW工程的运维架构标准,包括运维架构设计的内容、设计原则、各构成组件的设计考虑要素、约束、要求等。运维架构通过相应的流程和
4、工具实现对逻辑架构、功能组件架构、执行架构、数据架构以及应用架构的运维和治理。而数据架构和应用架构的主要描绘:n 应用架构是EDW为满足业务需求所提供的系统应用功能及其蓝图设计,其中业务需求是应用架构设计的根底,最终的应用架构将以应用系统的方式表达在执行架构中,主要包括:应用效劳和数据效劳。n 数据架构描绘于EDW系统相关的数据流淌策略,即数据在EDW系统的执行架构下的抽取、转换、储存策略以及应采纳的流程,包括数据层次和总分行之间的数据分部情况等。数据架构是建立执行架构标准的需求定义。以下图是EDW工程总体架构的框架:1.1.2 总体架构的设计原则n 总体架构在着重考虑施行要求的同时,需要为后
5、续阶段进展规划,以保证工程最终能够到达目的架构的设计;n 总体架构的设计要基于包括XX银行数据现状分析、施行阶段数据源情况分析、第一阶段施行EDW设计建议做为参考;n 总体架构设计架构时充分考虑与现有系统兼容,充分利用已有成果,防止重复开发和建立。n 总体架构设计过程中应恪守XX银行的IT治理规程,保证最终的系统能够顺利的部署并移交给XX银行的运转维护部门。1.1.3 总体架构的设计特点n 权衡功能、功能、可扩展性、易用性、可治理性和性价比。n 依照XX银行的数据情况和分析需求,采纳多层次的企业EDW系统架构来保证在存在复杂的数据品种和关系的海量数据上进展业务分析和查询在业务支持才能和功能等方
6、面的要求。n 多级自动的增量ETL加载机制,有效提高ETL并发度、加载效率,降低错误处理的复杂性。n 通过用户入口支持用户采纳Web阅读器使用查询和分析工具,统一的信息效劳界面,提高系统易用性,减少技术支持工作量。n 利用企业信息集成和Web数据效劳,提高系统的数据支持才能和接口的一致性。统一的数据加强平台也减少数据加强的复杂度。1.2 EDW执行架构执行架构的主要内容是描绘EDW工程执行架构的建立要求及指导原则,用于标准本工程最终消费环境的建立。EDW工程的消费环境的建立需要参考并遵照执行架构部分提出的要求。1.2.1 执行架构概述执行架构是EDW的概念环境,主要包含:源数据、数据落地区、E
7、TL、数据预备区、数据存储区EDW、业务应用、用户环境、数据管控、系统平安性以及EDW根底设备平台(包括:效劳器、存储、网络)等功能组件。从技术层面上来说,EDW系统的执行架构应实现多种技术平台及应用之间的无缝集成。1.2.2 执行架构设计原则在EDW工程施行的过程中,系统执行架构的建立应遵照以下技术原则: 开放性原则:EDW工程的消费环境的建立应基于业界开放标准,对系统中使用的网络协议、硬件接口、数据接口等应进展统一规划,EDW系统应支持主流的应用软件包及其部署的各种硬件平台。 灵敏性与可扩展性:EDW系统的根底设备平台应能够依照今后系统的开展需要以及应用需求,方便的扩展设备容量和提升设备功
8、能;具备支持多种组件模块、多种物理接口的才能;具备技术晋级、设备更新的灵敏性;具备支持业务功能的扩展与重构的灵敏性。如:系统容量能够随着ETL系统数据量的扩展以及应用系统的不断扩展、用户量不断扩展而进展平滑的扩展。 高功能原则:系统应到达数据处理时间窗口的要求,用户定义的查询效率、响应时间的要求,满足业务系统的要求;对现有业务系统妨碍小。 自动化原则:EDW工程建立的核心任务之一是数据抽取、转换、清洗和加载(ETL),在这个过程中应采纳自动化的设计原则,防止手工操作。同时关于元数据治理过程应采纳元数据治理平台来实现对元数据集中、自动化的治理。 平安性原则:EDW工程建立中的数据迁移过程都必须保
9、证数据的平安性,例如:在系统建立过程中应对数据中敏感字段进展平安处理、同时整个系统还应采纳网络隔离、用户身份认证及访咨询操纵、数据库平安、操作系统平安以及完善的平安审计机制。1.2.3 执行架构框架上图是EDW系统执行架构,其中包含EDW系统中涵盖的功能框架以及框架之间的逻辑关系。在以下的内容中将对执行架构中的功能框架以及框架之间的关系进展详细描绘,详细内容包括: 数据源:包括XX银行的多个业务系统,主要有核心系统、个贷系统、信贷系统、国际业务系统、财务系统和各类渠道系统等。 数据落地区:此部分内容说明数据落地的用处,同时对数据落地区应具备的功能进展了标准定义以及数据落地区与其他功能组件之间的
10、关联关系; ETL:此部分内容描绘ETL系统中数据抽取、转换、加载等功能的需求,同时定义了ETL系统建立的标准以及ETL与系统中其他功能组件之间的关系; 数据预备区:此部分描绘数据预备区应具备的功能,以及数据预备区在建立过程中的标准需求。 操作型存储区:此部分内容描绘EDW系统在建立的过程中操作型存储区应遵照的标准以及系统建立过程中应满足的需求; 数据仓库存储区:此部分内容描绘EDW系统的数据仓库存储区应遵照的标准以及系统建立过程中应满足的需求; 业务应用:此部分内容描绘BI应用系统建立的系统需求,包含对应用环境、分析环境、静态报表环境; 用户环境:此部分的内容描绘用户在EDW系统中应具备运用
11、的才能,包括:利用通用展现平台进展信息展现、驾驶舱应用、报表应用等; 时间窗口和功能的定义:此部分描绘整个EDW工程中关于时间窗口的定义以及相关系统的功能指标要求; 元数据治理:此部分描绘在系统执行架构中元数据治理的内容以及元数据治理系统的建立的标准定义; 系统平安性:此部分内容主要描绘EDW系统中的平安性治理内容,包括应用平安、网络平安、数据平安、系统平安等,同时描绘系统平安在建立过程中遵照的原则; 根底设备平台(效劳器 、网络、存储):此部分内容主要描绘消费系统中的硬件资源,包括:效劳器,网络以及存储的资源需求,容量规划应满足的系统指标等内容;1.2.3.1 数据源源数据系统是报表、关键指
12、标、灵敏查询、主题分析等应用系统的根底数据来源。在系统建立初期,源数据系统应提供能满足初始业务需要的数据以及业务系统需要提供完好数据的时间窗口,在EDW系统扩展的过程中,各个源数据系统中的数据将逐步的加载到EDW系统当中。源数据无法满足应用需求时,系统应提供手工方式通过手工数据补入平台将需要的数据补入到EDW系统中。目前数据源包括XX银行的多个业务系统,主要有核心系统、个贷系统、对公信贷系统、国际业务系统、财务系统和各类渠道系统等。1.2.3.2 数据落地区数据落地区是为了保证多系统对源系统数据抽取的需求,在数据从源数据系统抽取后在统一的数据集成环境中整合。数据落地区应建立与各相关源数据系统的
13、接口,将这些系统定期卸载的数据以固定的格式接收、存放到落地区,考虑数据传输和加载的速度,源数据系统应以文本文件格式将数据定期传输给数据落地区进展处理。数据落地区的数据存储格式原则上是与数据源的存储格式保持一致1.2.3.3 数据ETL架构ETL是数据的抽取、转换、加载的全部过程,它是数据从数据落地区到ETL效劳器以及从ETL效劳器到EDW的数据迁移过程以及数据从EDW向数据集市的数据迁移过程中必须使用的过程和方法, ETL系统应包括以下三个主要功能:n 数据抽取:从数据落地区系统抽取EDW中需要的数据;n 数据转换:将从源数据系统获取的数据转换成EDW要求的方式,同时按照业务需求对数据进展转换
14、;n 数据加载:将助转换后的数据装载到EDW的物理模型中;1.2.3.4 数据预备区数据预备区是数据存储的临时存储区域,数据在其中只作临时性保存,数据经转换后导入到EDW的物理模型中。数据预备区的功能包括:格式转换、排序去重/挑选、通用根底清洗、连接/合并/分割、业务转换等1.2.3.5 操作型存储区操作型存储区是数据仓库系统一个重要的环节。该区有着承上启下的作用,从数据形态来看,该区的数据定义贴近业务源系统;从数据标准来看,该区的数据标准是遵照数据仓库系统的标准。因而该区一般分为两个层次,第一个层次称之为良好质量的、统一格式的数据贴源层,第二个层次为统一的、标准的、遵照数据仓库系统标准的数据
15、标准层。 数据贴源层能够接着为行内现有的一些报表系统或者分析系统提供数据,而数据标准层为数据仓库中的企业数据模型的落地扫清了道路。因而该存储区在整个EDW系统起到了一个承上启下的关键作用。1.2.3.6 EDW存储区EDW存储区是面向主题的、集成的、面向企业的、最明细的数据存储,其内容是依照最终用户应用和分析需求来进展组织。数据存储区中的数据模型对标准层数据、根底整合数据、汇总数据和面向应用的集市数据按数据层次进展治理,每个数据层有本人的数据治理重点。关于每个数据层次,再按主题进展分类组织。如此就能够有效的将银行企业的操作型数据、汇总型数据和分析型数据以明晰的架构组织、治理起来,并相辅相成。数
16、据层的内容互相促进开展,组成银行完善的数据集合,为各种主题治理应用的构建提供良好的数据架构根底。1.2.3.7 业务应用业务应用是EDW系统向业务用户提供给用功能支持,依照应用效劳提供的方式和所采纳的应用系统的不同,业务应用主要定义在以下几个技术环境。数据集市:在业务应用层中包含了应用系统中需要的应用集市、OLAP、静态报表等数据集市。数据集市是一组特定的、针对某个主题域、部门或用户分类的数据集合。这些数据需要针对用户的快速访咨询和数据输出进展优化,优化的方式能够通过对数据构造进展汇总和索引。通过数据集市能够保障EDW的高可用性、可扩展性和高功能。应用环境:应用环境是为满足业务需要在数据EDW
17、环境中配置的应用软件包。分析环境:数据分析环境为EDW的高端用户提供即时的数据分析功能等。报表环境:报表环境是于来产生和发布静态报表的环境,包括:产生的静态报表、OLAP产生的报表、KPI指标展现以及其他系统产生的报表。1.2.3.8 用户环境用户环境是EDW系统最终向用户提供的某种应用效劳的集合,主要有三种应用效劳的表现方式:通用展现平台:通过此平台将报表、KPI展现、灵敏查询、分析等多个应用集成到一个平台中,进展统一的展现和信息的治理,包括如:报表生命周期的治理等。数据分发环境:在数据分发的过程中应提供大容量数据批量分发的才能。给其他需要某个系统的数据提供数据交换功能。报表分发环境:报表的
18、分发应能够满足系统定义的平安性,如按照不同的用户类型、不同的组织进展分发,不同的用户和组织只能看到属于本人的报表的数据,数据的分发将通过数据传输平台进展。1.2.3.9 元数据治理元数据治理是对数据信息的搜集和发布的集成治理,数据信息包括:数据的业务含义和技术特性。数据仓库系统架构中的各个部分中都含有元数据信息,应对其进展主动式治理,以保证它正确的定义、搜集和使用。元数据是“关于数据的数据”。应包括文件构造定义,数据库字段名称,数据模型中的长度和标准,以及在域-域或域-报表对应关系中的计算和公式等内容。元数据治理的架构如以下图所示,系统的最终架构应实现对元数据的集中的治理方式:1.2.3.10
19、 系统平安性EDW系统中的数据和报表信息均为敏感信息。因而必须采纳适当的平安策略以保证其系统和数据的平安性。数据仓库系统的平安性应涵盖如下四个方面:n 验证:系统应对用户进展访咨询操纵,保证只有合法的用户才能进入到系统中;n 受权:系统应依照用户角色对其进展受权,包括对数据的访咨询权限,对功能的使用权限等。n 机密性:所有的敏感数据必须被严格操纵,禁止未受权访咨询,并保障其平安性。n 一致性:数据和程序只能在受权方式下进展修正。针对上述6个方面,数据仓库分系统应按照以下的6个方面的标准进展建立:应用层EDW应用系统是建立在OLAP软件平台的根底上,应用层应实现用户访咨询操纵的功能,针对不同的用
20、户访咨询不同的系统资源来保证整个应用系统的平安性操纵。关于今后的数据仓库系统来说,应与统一门户平台整合,实现整体平安性治理的策略;数据库层只有被受权用户才能访咨询和修正数据库中的信息同时数据在传输过程中应对敏感信息进展加密处理来保证数据的平安。数据库治理员应按照角色对数据库用户进展划分,同时通过给予角色权限的方式实现对用户平安性访咨询操纵的治理,如:针对用户组或耽误用户分配特定数据表访咨询权限。系统层系统应防止未受权访咨询和系统调用,及时进展系统平安补丁的更新。关于系统主机应采纳效劳器加固的方法,来保证整个系统的平安性。网络层网络层平安是保证网络节点之间数据传递的平安性,以及网络环境不受恶意攻
21、击。XX银行数据仓库环境建立在企业内部网络中,不同功能的效劳器应部署在不同网段中,网段之间互相隔离,对网段之间的访咨询应通过防火墙并定义严格的访咨询操纵策略。整个系统的网络环境应得到实时监控,对入侵进展检测和处理,并在发生入侵时通知系统治理员。物理层物理层平安保障物理设备(主机、路由器等)不受非法用户攻击。目前物理设备的平安性由运转中心负责。治理治理部分与上述的所有平安咨询题相关,对平安咨询题的治理必须由多个部门共同协作完成。治理层面包括:n 平安资源:实现各种平安使用的资源,如:防火墙,入侵检测和处理设备,反病毒软件等;n 平安策略和规划:各种平安规则,组织和责任人;n 突发事件处理:在发生
22、平安威胁时的应急处理流程,包括:事件记录、时间报告制度等流程;n 平安审计:对平安策略的审核和检查;n 灾难恢复计划:发生咨询题后的系统和数据恢复;1.3 EDW逻辑架构1.3.1 逻辑架构框架如上图所示的XX银行EDW的逻辑体系架构,这一架构是在联科可扩展的EDW系统框架的根底上,结合XX银行信息系统建立的实际情况而设计出来的多层、可扩展框架构造。架构的核心上包括源数据层、ETL流程调度、数据平台层、数据集市层、应用效劳层、访咨询操纵层、用户层和数据消费传输通道七个大部分,另外,元数据治理和平安治理也是系统必不可少的部分,这2部分会涉及到所有核心层次。在明确定义各层之间的接口后,多层框架构造
23、具有高度的扩展才能和方便的系统开发和维护功能,符合目前流行的多层应用构造,合适EDW系统多阶段、多层次的应用特点。1.3.1.1 源数据层【功能与作用】总行的各个业务系统为整个EDW系统提供原始数据支持,首先作为ETL层的数据抽取源。【组成部分】目前总行的数据源包括XX银行的多个业务系统,主要有核心系统、个贷系统、对公信贷系统、国际业务系统、财务系统和各类渠道系统等。1.3.1.2 ETL流程调度层【功能与作用】该层为EDW数据流向的主要环节,EDW系统数据流淌的流程调度核心层,流程调度主要针对下面几个方面:n EDW系统将数据源的数据抽取到数据落地区n EDW系统对数据执行格式转换、排序去重
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 XX 银行 数据仓库 建设项目 方案
限制150内