商业银行数据仓库中元数据下载平台开发研究生本科毕设论文.doc
《商业银行数据仓库中元数据下载平台开发研究生本科毕设论文.doc》由会员分享,可在线阅读,更多相关《商业银行数据仓库中元数据下载平台开发研究生本科毕设论文.doc(105页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、分类号: TP311.5 单位代码: 10335 密 级: 无 学 号: Z104325023硕士学位论文中文论文题目 : 商业银行数据仓库中元数据 下载平台开发 英文论文题目:The downloading platform development for commercial bank data warehouse metadata浙江大学硕士学位论文 Abstract 商业银行数据仓库中元数据 下载平台开发 摘要笔者在对银行数据仓库平台的开发和维护实践基础上,针对目前商业银行数据仓库开发平台的一些缺陷而提出的一套可配置、组件化、易操作的数据下载系统。建立统一的开发技术规范,包括元数据技术
2、规范、主辅数据源分布规范、数据生命周期管理规范、数据质量规范等。其中主辅数据源分布规范保证了数据下载的过程中,抽取数据分布合理、提高应用系统运行的整体效率、保证应用系统健康高效运行。数据生命周期管理规范保证有效控制在线数据规模,提高生产数据访问效率,减少系统资源浪费。数据质量规范提高了数据管理水平、规范数据质量管理流程、及时准确地发现和治理问题数据,保证应用数据质量。建立统一的应用系统数据模型设计规范。该规范明确了数据模型设计要求、明确设计原则、加强数据结构的逻辑视图管理,提高数据建模的质量。提供了一种可配置的参数化组件,这些组件最终被组装成复杂的数据仓库数据下载系统中。通过“抽取逻辑组件化,
3、文件格式参数化”的方法大大减少了数据下载的开发工作量,随着组件的逐步丰富,基本可以实现“零编码”,同时也极大简化了测试步骤,我们只需利用现有的功能组件,按照一定的规则和逻辑把它们拼装组合在一起,就可以完成数据下载的开发,使得元数据抽取、文本生成、上报数据仓库过程更加高效、稳定、规范。关键词:数据仓库,元数据,数据抽取,下载,规范i浙江大学硕士学位论文 AbstractAbstractAccording to banking data warehouse platform development and maintenance practices, the author put forward
4、a number of defects can be configured, component, conveniently operated system for the current data warehouse development platform of the commercial bank.The thesis contained a development technical specifications, including metadata specification, primary and secondary data sources distributed spec
5、ification, data life cycle management specification, data quality specification. Distribution of primary and secondary data sources including specification ensures data download process, extract data distribution is reasonable, to improve the overall efficiency of the system. Data life cycle managem
6、ent practices to ensure effective control of online data scale, improve production efficiency of data access and reduce resource waste. Data quality specification improve data management, standardize data quality management process, timely and accurate discover and control data issue, ensure data qu
7、ality of applications.It established a unified data model application system design specifications. The specification defined the data model design requirements, cleared design principles, the logical view of the data structure to strengthen management, for improving the quality of data modeling.By
8、providing a configurable parameters of components, which would be eventually assembled into complex data warehouse data download system. By the method of extract of logic components, format the file parameters will greatly reduce the development workload, along with the gradual rich components, whic
9、h can be zero code, but also greatly simplifies the test procedure, we only require the use of existing functional components, according to certain rules and logic assembled them together, you can complete the development of data download, making meta-data extraction, text generation, data warehouse
10、 reporting process will be more efficient, stable and standardized.Key Words:Data warehouse, metadata, data extraction, downloads, specification ii浙江大学硕士学位论文 目录目录摘要iAbstractii图目录IV表目录V第1章 绪论11.1 课题背景11.2 本文的主要工作31.3 本文的组织结构31.4 本章小结4第2章 元数据、数据仓库的概念及对银行业的作用12.1 元数据的概念12.2 元数据的特点12.3 元数据对商业银行的作用12.4 数
11、据仓库的概念22.5 数据仓库的特点22.6 数据仓库对银行业务的支撑32.7 数据仓库的应用与优势52.8 本章小结8第3章 国内商业银行数据仓库93.1 发展阶段与目标93.2 数据仓库建设规划和集市整合123.3 数据仓库体系的定位173.4 数据仓库体系的功能173.4.1 数据仓库的功能173.4.2 数据集市的功能183.4.3 综合统计的功能193.4.4 数据挖掘的功能193.5 数据仓库建设方法和路线203.6 ETL203.6.1 ETL简介203.6.2 ETL概念213.6.3 注意事项223.6.4 设计要求223.7 数据仓库元数据下载介绍233.7.1 数据抽取的
12、方式233.7.2 数据抽取的工作步骤253.8 本章小结25第4章 元数据下载平台实现264.1 元数据技术规范264.1.1 术语与定义264.1.2 元数据的范围和管理方法274.1.3 数据标准284.1.4 专业术语324.1.5 数据流文件334.1.6 数据结构364.1.7 数据质量规则404.2 主辅数据源分布技术规范414.2.1 术语与定义414.2.2 主辅数据源管理原则414.2.3 主数据源分布原则424.2.4 辅数据源分布原则434.2.5 数据间使用和同步原则434.3 数据生命周期管理技术规范454.3.1 术语与定义454.3.2 数据生命周期引用模式47
13、4.3.3 数据生命周期管理原则484.3.4 各阶段数据管理494.4 数据质量技术规范504.4.1 数据质量规则514.4.2 数据质量的开发要求524.4.3 技术检查534.5 应用系统数据模型设计技术规范564.5.1 术语与定义564.5.2 数据模型管理584.5.3 逻辑数据模型设计步骤594.5.4 模型实体设计原则604.5.5 特殊设计要求684.6 元数据下载方式的设计704.6.1 数据生成方式704.6.2 元数据下载配置设计714.6.3 元数据下载配置注意要点794.6.4 元数据下载配置实例794.7 本章小结84第5章 元数据下载平台实现855.1 系统运
14、行的软硬件环境855.2 系统架构855.3 系统架构图865.4 系统测试及运行情况865.4.1 集成测试865.4.2 系统测试875.4.3 压力测试885.4.4 运行情况885.5 本章小结89第6章 未来发展方向与总结90参考文献92作者简历94致谢95III浙江大学硕士学位论文 表目录图目录图 3.1 数据仓库的发展阶段9图 3.2 数据仓库建设规划11图 3.3 数据仓库的发展阶段12图 3.4 三种应用模式13图 3.5 数据仓库体系组织架构规划14图 3.6 组织架构中职能岗位架构规划14图 3.7 数据仓库体系应用架构规划16图 4.1 元数据管理范围27图 4.2 数
15、据标准之间的关系29图 4.3 数据生命周期中数据引用曲线47图 4.4 在线阶段进行快照(备份)后在线阶段数据与快照数据冗余存储47图 4.5 数据模型管理体系58图 4.6 当事人逻辑数据模型59图 4.7 分户账60图 4.8 统计表61图 4.9 机构代码表61图 4.10 产品优惠率参数表62图 4.11 账户历史明细表63图 4.12 冻结解冻登记簿64图 4.13 对账单打印控制表64图 4.14 新旧账号对照表66图 4.15 对账单余额历史表66图 4.16 日志表层次关系67图 4.17 父子类实体的物理实现69图 4.18 父子类实体的物理实现70图 4.19 expor
16、t_project表80图 4.20 export_project_table表80图 4.21 存量参数81图 4.22 增量参数82图 4.23 存量数据生成逻辑83图 4.24 新增、修改数据的情况83图 4.25 删除数据的情况84图 5.1 元数据下载平台系统总体逻辑架构85图 5.2 系统架构图86表目录表2.1 数据仓库系统的业务价值5表2.2 数据仓库支持的应用6表3.1 各职能岗位相应的职能15表4.1 基本属性29表4.2 技术属性30表4.3 扩展属性(代码信息)30表4.4 命名标准31表4.5 存储标准31表4.6 取值字典32表4.7 专业术语32表4.8 文件基本
17、信息33表4.9 主机文件结构(COPYBOOK)信息34表4.10 开放平台文件结构信息34表4.11 文件目录信息35表4.12 通用文件传输信息35表4.13 文件的使用情况36表4.14 表结构基本信息组件37表4.15 表结构信息组件38表4.16 索引、分区信息38表4.17 生命周期组件信息39表4.18 主辅数据源信息管理40表4.19 数据质量规则要求管理的组件信息40表4.20 银行业务系统九大主题领域下的数据信息的分布细则44表4.21 在线阶段数据生命周期管理内容49表4.22 归档阶段管理内容50表4.23 数据质量规范51表4.24 数据库定义中的控制52续表4.2
18、4 数据库定义中的控制53表4.25 数据的技术检查53表4.26 业务逻辑检查54表4.27 金额类数据检查55表4.28 传输环节检查56V浙江大学硕士学位论文第1章 绪论第1章 绪论1.1 课题背景在数据仓库应用领域处于领先地位的先进银行,经历了20多年的建设和积累,总结提炼了一套数据仓库业务应用框架,包括客户关系管理、财务管理、绩效管理、风险管理、信息管理5大领域的近30多种应用。而国内银行的数据仓库建设起步较晚,以某大型国有银行为例:2000年底开始着手启动全行数据仓库体系的建设。目前已经构建了客户分析(PCRM、CCRM)、业绩考核(PVMS,PASN)、风险管理(风险监控、反洗钱
19、、内部评级法、内部审计)、资产负债管理(利率风险)、统计报表(CS2002)等分析型应用,并正在发挥着重要的业务作用;目前已立项,正在规划或建设的分析型应用有:统计报表指标库、资本管理、市场风险、内控合规等操作风险; 2004年9月05年1月:数据仓库逻辑数据模型客户化建设项目; 2005年5月12月:数据仓库物理平台选型测试项目; 2006年4月07年2月:商务采购和招标; 2007年4月:该行启动了数据仓库物理实施一期项目。从功能架构及技术特征上看,该行的数据仓库主要具有报表、分析等功能,基本满足业务用户考察业务上“发生了什么”、“为什么发生”的需要,处于业界数据仓库发展的第二向第三阶段的
20、过渡阶段。该行数据仓库应用的不足:数据仓库之间存在一定程度的数据重复下载、重复加工和冗余存储;数据仓库之间的加工规则和流程不同,容易产生结果的不一致;数据仓库各自独立,信息集中共享程度较低,不能满足跨系统、跨产品的关联性、综合性分析;数据交换平台不保留历史数据,难以实现历史数据加工,以及出现差错难以追溯补救;缺乏完整规范的数据质量检查、监控机制,数据质量难以保证;数据仓库的数据范围、存放周期和详尽粒度存在局限,难以支持应用的扩展要求;前台业务系统有变化,相关的仓库都要进行维护;各个仓库的设备资源较难共享利用,加大维护管理成本;仓库平台处理能力有限,无法支撑海量数据存储和处理;仓库之间的数据交互
21、日趋密切和复杂;本文从待抽取数据的筛选、抽取、加工以及下载的方面,经过进一步的分析和讨论后,认为当前该过程中存在的问题如下:1、各应用开发缺少统一的规范商业银行在开发新的中间业务的时候,往往针对一种业务开发一套产品,产品之间缺少统一的规范。产品之间各自为政,缺少相关的整合,而且通常运行在不同的硬件、操作系统和数据库之上,采用的开发语言也五花八门,给元数据的筛选、抽取带来较大的困难。2、每次数据结构的变化都必须同步编写相应的上送程序传统的数据抽取和生成通常使用配套的编程方式来匹配,在这种模式下,匹配程序的开发将逐渐成为数据抽取和生成的负担,因为每次数据结构的变动都会引起程序的修改,都必须对涉及到
22、的程序重新进行编译、测试,这将大大影响抽取和上报程序的开发效率,不利于数据仓库的快速发展。3、模块复用性不高商业银行在数据仓库的建设过程中重点考虑了集中处理和调度,但对数据结构变化的支持力度还不够,开发部仍然采用传统的方法设计和编写相应程序,模块复用等仍然停留在源码或程序库的水平,模块复用程度和开发效率都不高。4、参数配置化程度不够部分商业银行数据抽取采取了参数配置化手段,但参数配置化的程度还不够,还没有真正提炼出数据结构的通用资源模型,开发人员在开发过程中往往根据不同的数据结构匹配不同的编码,不能够配置的部分还需要通过编码或手工编写配置文件的方式解决,这在很大程度上影响了数据抽取生成和上送的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商业银行 数据仓库 中元 数据 下载 平台 开发 研究生 本科 论文
限制150内