《(大数据资料)DI数据集成解决方案.pdf》由会员分享,可在线阅读,更多相关《(大数据资料)DI数据集成解决方案.pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、(大数据资料)DI数据集成解决方案数据集成系统数据集成系统解决方案解决方案第 1 页 共 12 页(大数据资料)DI数据集成解决方案目录1.数据集成系数据集成系统现统现状状.1-41.1基础数据多头管理,系统间数据一致性差.1-41.2接口没有实现统一的接口平台.1-41.3XXX内部信息难以完整统一和共享.1-42.数据集成需求分析数据集成需求分析.2-42.1系统需求.2-42.1.1实现数据统一.2-42.1.2实现数据共享.2-52.1.3实现数据应用.2-52.1.4实现数据质量管控.2-53.数据集成目数据集成目标标.3-53.1建立规范统一的指标体系.3-63.2统一的数据采集接
2、口.3-63.3统一的数据存储中心.3-63.4建立数据应用接口.3-64.数据集成方案数据集成方案.4-74.1ODS系统设计.4-74.1.1现阶段ODS系统设计.4-74.1.2未来ODS系统设计.4-84.2ODS系统架构.4-84.3ODS 数据模型.4-94.4数据管理.4-104.5系统技术特点.4-12第 2 页 共 12 页(大数据资料)DI数据集成解决方案4.5.1先进性.4-124.5.2开放性和标准化.4-124.5.3高效性.4-124.5.4灵活性与扩展性.4-124.5.5较高的性价比,降低总成本.4-13第 3 页 共 12 页(大数据资料)DI数据集成解决方案
3、1.数据集成系统现状数据集成系统现状XXX有不少的应用系统,比如*系统、*系统、*系统、*系统和XXX信息门户.这些系统一般都有不同供应商提供,他们之间的信息有重叠和不一致显现存在.因此很容易产生下列的问题:1.1基础数据多头管理基础数据多头管理,系统间数据一致性差系统间数据一致性差对于同样的问题,每个不同的系统都维护有自身的数据结构,例如在工程管理系统中存在供应商数据,而在物资系统中也存在供应商数据,这两个系统对同一个供应商可能存在不同的编号、不同的命名等等.这就导致了两个系统间没有数据标准,在工程管理系统中更新了供应商数据后,物资系统无法依据指定的规则进行同步更新,造成了XXX主数据的混乱
4、局面,难以满足快速支撑精确管理的需要,使得XXX的运营效率和管理水平难以进一步提升.1.2接口没有实现统一的接口平台接口没有实现统一的接口平台由于没有统一的XXX主数据,目前系统接口均采用点对点方式,技术实现方式多种多样,例如最多的方式是数据库直接存取,接口双方需要明确知道对方的底层数据结构,这导致了完成和维护这些接口是一项非常艰巨的任务,并且在不同的供应商之间难于明确自身的责任,出现问题之后相互推诿.1.3XXX内部信息难以完整统一和共享内部信息难以完整统一和共享由于现在的应用系统是由不同的供应商提供,基础数据难以同步更新,各自产生的数据信息,都成了一个个的信息孤岛,彼此之间的数据难以共享.
5、XXX不容易获取汇总信息.2.数据集成需求分析数据集成需求分析 2.1系统需求系统需求2.1.1实现数据实现数据统一统一数据集成中心在对XXX数据的整合过程中能够实现以下三个统一:1.统一数据模型由数据集成中心承载XXX数据模型(EDM),促进XXX各域数据逻辑模型的统一.在XXX内新建或改造的系统,其数据模型应向数据集成中心所承载的XXX数据模型靠拢.数据模型是各个系统及应用间交互的基础,通过数据模型的统一,减少系统及应用间复杂的转换,提高系统、应用、接口的效率.2.统一数据标准数据集成中心中建立标准的数据编码目录,源系统数据依据标准的数据编码目录,经过整合后进入数据集成中心存储,实现XXX
6、数据的标准化与统一存储.3.统一数据视图基于数据集成中心所存储的数据,支撑实现统一数据视图,使XXX在用户、资源等视角获取到的信息是一致的,第 4 页 共 12 页(大数据资料)DI数据集成解决方案提升用户、以及XXX内部的管理人员与分析人员对系统的感知.2.1.2实现数据共享实现数据共享数据集成中心为XXX各业务系统提供统一共享数据接口,减少系统间相互接口的重复性,降低接口的复杂程度,提高系统间接口效率与质量;为跨系统数据应用提供数据支撑.数据集成中心作为XXX运营数据共享平台,是各业务部门和XXX管理层获取统计数据的唯一来源.数据集成中心可将某个生产系统的数据以准实时地方式存储转发至其它对
7、数据实时性要求不高的生产系统,以减少生产系统间的网状接口.数据集成中心以实时的查询服务或准实时批量的数据提供的方式将数据集成中心内整合或计算好的数据向外部系统提供,以配合外部系统支撑统一用户视图查询、用户服务流程等功能.2.1.3实现数据应用实现数据应用数据集成中心利用自身系统的数据提供以下几类功能:1.查询应用实现查询条件不固定的按需查询功能.用户可以根据关心的维度查询数据集成中心内整合好的360度业务全貌数据,如,为渠道经理提供完整用户视图信息的查询,为用户提供完整用户视图查询、用户账单查询等.2.固定报表应用固定报表是维度和指标固定的统计结果的展示,在数据集成中心内对于实时性要求高的报表
8、采用即时生成的模式,而对于实时性要求不高的报表,基于性能影响和资源开销两方面的考虑,应采用后台通过作业的方式先自动生成,在需要时可以立即展现结果.报表展现应支持多种图表方式,如饼图、柱图、线图等;支持报表数据导出为其他文件类型,如EXCEL、CSV、XML、PDF、WEB存档文件等;支持报表精确打印控制.3.动态报表应用基于数据集成中心整合好的数据,可以利用报表工具,按关心的维度和指标对数据进行主题性的统计,动态报表应用中,维度和指标不固定,可在数据模型支持的范围内变换.在数据集成中心上可实现多种动态报表.4.计算应用数据集成中心可基于整合好的数据按照设定好的业务规则进行部分属性数据计算,计算
9、结果并不在数据集成中心内直接更新,而是由数据集成中心返回到该属性数据的属主生产系统,由属主生产系统完成该属性数据的更新后,再通过数据抽取、加载过程进入数据集成中心之后更新.2.1.4实现数据质量管控实现数据质量管控数据集成中心在数据收敛的过程中,能完成以下数据质量管控工作:1.数据质量校验根据规则对数据集成中心所存储的数据进行一致性、完整性、正确性的校验,形成数据校验结果并交付源业务系统进行修正.2.数据质量管控通过建立XXX数据的质量标准、数据管控的组织、数据管控的流程,对数据质量进行统一管控,达到数据质量逐步完善.3.数据集成目标数据集成目标通过数据集成,数据集成中心应该能达到以下几个目标
10、:第 5 页 共 12 页(大数据资料)DI数据集成解决方案3.1建立规范统一的指标体系建立规范统一的指标体系根据XXX的业务实际情况,建立面向XXX指标体系的数据接口,用于收集XXX各系统间的指标数据,同时为XXX各系统提供所需的指标数据,成为沟通XXX现有系统和未来系统之间各种关键业务指标数据的信息桥梁.3.2统一的数据采集接口统一的数据采集接口建立统一的数据采集接口,根据XXX实际业务需要,定义符合XXX需要的数据采集指标,通过XXX数据业务平台统一的进行数据采集,改变原有层层下达参数,再层层汇总、层层过滤,时效性和准确性亦难以保证的问题.3.3统一的数据存储中心统一的数据存储中心通过X
11、XX规范的指标体系,收集和整合相应指标数据,存储到数据集成中心.按照统一指标、统一统计口径和统一数据概念的要求,存储指标数据和建立数据存储中心,满足不同系统之间相互获取数据的要求,同时为数据的综合分析和历史回溯奠定数据基础.3.4建立数据应用接口建立数据应用接口XXX在生产经营决策过程中,通常迫切需要了解XXX外部的实际情况,所以需要打通XXX与外部的数据壁垒,实现彼此之间数据共享.这种需求通过建立XXX与外部之间特定的数据应用接口,一方面,从外部抽取XXX需要的特定商业指标数据,另一方面,提供外部所需的XXX指标数据.通过二者数据之间的充分对比分析,实现数据之间的数据共享,提高现有系统的数据
12、使用率和有效地提高数据支撑能力,为管理层的经营决策提供坚实可靠的依据.4.数据集成方案数据集成方案4.1ODS系统设计系统设计4.1.1现阶段现阶段ODS系统设计系统设计抽取转换装载数据1ODS数据中心数据3数据2第 6 页 共 12 页(大数据资料)DI数据集成解决方案如上图所示,我们设计的ODS系统中,主要有DI模块和ODS模块2部分组成,ODS系统根据通过Trigger、应用、批处理、Queue等手段从各MSS应用系统中获得数据,并通过DI应用对数据进行抽取、转换、清洗、并装载到ODS数据库中.而一般通过Trigger Updates的方式来将一些ODS数据返回更新各MSS应用的数据库.
13、DI模模块块这里的DI模块主要是数据抽取、转换和加载,这是数据由数据源系统向ODS加载的主要方法数据抽取 从数据源系统抽取数据仓库系统所需的数据,数据抽取采用统一的接口,可以从数据库抽取数据,也可以从文件抽取.对于不同数据平台、源数据形式、性能要求的业务系统,以及不同数据量的源数据,可能采用的接口方式不同,为保证抽取效率,减少对生产运营的影响,对于大数据量的抽取,采取数据分割、缩短抽取周期的原则,对于直接的数据库抽取,采取协商接口表的方式,保障生产系统数据库的安全.数据转换 数据转换是指对抽取的源数据根据数据仓库系统模型的要求,进行数据的转换、清洗、拆分、汇总等,保证来自不同系统、不同格式的数
14、据和信息模型具有一致性和完整性,并按要求装入数据仓库.数据加载 数据加载是将转换后的数据加载到数据仓库中,可以采用数据加载工具,也可以采用API编程进行数据加载.ODS数据数据库库模模块块操作数据存储ODS(Operation Data Storage)是一个集成了来自不同数据库数据的环境.其目的是为终端用户提供一致的XXX数据集成视图.它可以帮助用户轻松应对跨多个商业功能的操作挑战,是面向主题的、集成的、近实时的数据存储.设计ODS层的目的在于改善了对关键操作数据库的存取,获得收益、用户等主题的XXX级完整视图,有利于更好地通观全局.近实时的数据存储提供了查询与服务能力,并以更高的性能生成操
15、作报告.设计ODS的核心是实现焦点主题全局试图应用,如XXX的用户管理系统,可以建立以用户为中心的ODS用户主题视图,向上层提供高效的服务.4.1.2未来未来ODS系统设计系统设计对于未来的ODS系统设计,我们认为可以引入MDM的设计,但通过ODS来自动修改的数据库结构也应该仅针对新第 7 页 共 12 页(大数据资料)DI数据集成解决方案开发的应用,即根据新开发应用的需来对数据库的结构进行修改.而不应对一个正常运行的应用系统进行任何的改变.4.2ODS系统架构系统架构ODS系统是介于DW和OLTP系统之间的系统.历史事实证明,只有将各个系统的数据综合在一起才能真正反映出XXX管理需要的数据或
16、者报表,而对这些数据的要求是近乎实时的.通过整合现有系统的数据和流程.使ODS系统作为所有应用系统交互的平台,通过DI和ESB两种技术对现有数据进行整合:ETL数据抽取,清洗,传送平台ESB 企事业服务总线 平台ETL任务包AETL任务包NETL任务包CETL任务包B人力资源审计管理物资管理财务管理ODS数据中心各个应用竹编,如人力资源、财务管理等将通过XXX服务总线平台(ESB)进行交互,ESB也作为其它可能与应用系统交互的统一接口;另一方面,数据抽取传送平台(DI)负责将各个子系统的数据抽取出来(拆分、合并、映射)装入到ODS系统中,那么ODS系统在具备了各个子系统的近实时数据之后,就可以
17、作为独立数据源对外提供数据服务,它可以作为数据报表和分析的数据源,也可以作为其它子系统相互同步的数据源.这样做有两个好处:转移了本属于各系统的信息查询负载到ODS系统,使各系统的压力降低,提高了整体性能.OMS由于拥有了完整的主数据,它为面向主题的分析提供了必须的数据基础.第 8 页 共 12 页(大数据资料)DI数据集成解决方案4.3ODS 数据模型数据模型ODS终极目标是为了提供非战略性的中层决策支持,我们认为ODS的数据模型可以参考数据仓库(DW,Data Warehouse)的基础模型,即将数据分为事实数据和纬度数据.事实数据一般代表的是业务变动记录,在MSS中我们称为业务数据,而纬度
18、数据则存放事实数据中业务发生的对象主体信息,纬度数据称为主数据.事实数据和纬度数据的关系是通过关键字来关联的,在数据库中它们都体现为数据表的形式.以下为ODS的数据模型图:事事实实表表 字段1 字段2 字段3.字段n 纬纬度度表表 1 字段1 字段2 纬纬度度表表 2 字段1 字段2 纬纬度度表表 5 字段1 字段2 纬纬度度表表 3 字段1 字段2 纬纬度度表表 4 字段1 字段2 图表 1ODS 数据模型在上图中纬度是维持各系统数据的一致性描述,而事实表则是提供分析使用的基础数据.在确立了基本的数据模型之后,如何确定数据的采集的范围呢?首先从构建XXX全局视图出发(即面向主题的分析),查出
19、每个主题需要哪些数据,这些数据分别分布在哪些系统中,当这一切确定之后,那么整个ODS数据模型牵涉到的数据范围就基本确定了.接着需要通过DI工具将各系统中的业务数据转换后装入到ODS数据库中,转换方式大致分为四种:迁移:一般性的数据拷贝方式,源和目标的数据属性和值完全相同.组合:例如将供应商所处的省份、市、街道组合为ODS中的地址字段.拆分:例如将员工姓名拆分为单独的姓和名字段.映射:例如将合同的”完成”状态映射为”OK”态.当数据从MSS子系统转换到ODS系统时,数据质量依赖于DI平台,DI平台提供完整的事务、容错、补偿、容错和日志功能用于控制数据转换的质量.4.4数据管理数据管理由于用户的需
20、求和场景是经常变化的,因此满足个性化的定制将变的非常重要.目前数据应用在个性户定制方面主要表现在:虽然定义了模型,但模型不完整,效果不好.这样用户在使用时,不能根据其需求动态的调整后端的业务规则和运行环境,不利于用户的使用.所以需要提供一个灵活的数据模型管理,以及业务规则管理,来应对系统的变化.第 9 页 共 12 页(大数据资料)DI数据集成解决方案 数据模型管理提供可视化的数据模型编辑工具,支持以下几种数据模型抽取模式.1 1、主主扩扩展模式展模式通常用来将几个相似的对象的共有属性抽取出来,形成一个”公共属性表”.例如:一个员工的基本信息由角色信息、组织信息、岗位信息等部分组成.2 2、主
21、从模式主从模式描述两个表之间的主从关系,从而形成的”一对多”关系.例如:一个项目对应多个计划阶段.3 3、多多对对多模式多模式描述对象相互不分主次、地位,互为一对多的关系.例如:一种器材可以对应多个领料单,一个领料单也可以对应多种器材.流程、规则管理提供可视化的流程编辑工具、流程定义和流程监控功能.提供函数集提供常用规则方法,以及规则定义语言描述规则.提供基本规则:1 1、直接映射直接映射原来是什么就是什么,原封不动照搬过来,对这样的规则,如果数据源字段和目标字段长度或精度不符,需要特别注意看是否真的可以直接映射还是需要做一些简单运算.2 2、数学运算数学运算数据源的一个或多个字段进行数学运算
22、得到的目标字段,比如:合同里的支付计划由多个时间段和支付比例组成,由此得出其总的合同支付时间和支付金额,这种规则一般对数值型字段而言.3 3、参照参照转换转换在转换中通常要用数据源的一个或多个字段作为Key,去一个关联数组中去搜索特定值,而且应该只能得到唯一值.这个关联数组使用Hash算法实现是比较合适也是最常见的,在整个DI开始之前,它就装入内存,对性能提高的帮助非常大.4 4、字符串字符串处处理理从数据源某个字符串字段中经常可以获取特定信息,例如身份证号.而且,经常会有数值型值,以字符串形式体现.对字符串的操作通常有类型转换、字符串截取等.但是由于字符类型字段的随意性也造成了脏数据的隐患,
23、所以在处理这种规则的时候,一定要加上异常处理.5 5、空空值值判断判断对于空值的处理是数据仓库中一个常见问题,是将它作为脏数据还是作为特定一种维成员?这恐怕还要看应用的情况,也是需要进一步探求的.但是无论怎样,对于可能有NULL值的字段,不要采用”直接映射”的规则类型,必须对空值进行判断,目前我们的建议是将它转换成特定的值.6 6、日期日期转换转换在数据仓库中日期值一般都会有特定的,不同于日期类型值的表示方法,例如使用8位整型20040801表示日期.而在数据源中,这种字段基本都是日期类型的,所以对于这样的规则,需要一些共通函数来处理将日期转换为8位日期值、6位月份值等.7 7、日期运算日期运
24、算第 10 页 共 12 页(大数据资料)DI数据集成解决方案基于日期,我们通常会计算日差、月差、时长等.一般数据库提供的日期运算函数都是基于日期型的,而在数据仓库中采用特定类型来表示日期的话,必须有一套自己的日期运算函数集.8 8、聚集运算聚集运算对于事实表中的度量字段,他们通常是通过数据源一个或多个字段运用聚集函数得来的,这些聚集函数为SQL标准中,包括sum,count,avg,min,max.9 9、既定取既定取值值这种规则和以上各种类型规则的差别就在于它不依赖于数据源字段,对目标字段取一个固定的或是依赖系统的值4.5 系统技术特点系统技术特点为实现XXXODS系统管理系统的业务处理、
25、资源共享、信息交流,采用了面向对象、消息协作、动态工作流和组件等先进技术,架构层次清晰,紧密结合行业特点,注重易用性、个性化,与同类产品相比,本系统在先进性、安全性、开放性、高效性、扩展性、灵活性、易用性、规范性、实用性等方面均达到较高的水准,具有以下突出优势:4.5.1先进先进性性.NET平台支持业内各种高级应用、接口技术和标准,使系统平台具有良好的开放性和互集成性.同时,作为主流应用平台之一,.NET也是业内的事实工业标准,是其他技术、系统、应用支持的主要对象之一,可以确保系统在未来相当长的时间内完全适应审计信息化的发展.NET平台支持业内各种高级应用、接口技术和标准,使系统平台具有良好的
26、开放性和互集成性.同时,作为主流应用平台之一,.NET也是业内的事实工业标准,是其他技术、系统、应用支持的主要对象之一,可以确保系统在未来相当长的时间内完全适应业务发展需要.基于XML的Web Service技术,具有跨平台的可互操作性,支持各专业之间信息交换.4.5.2开放性和标准化开放性和标准化本系统采用各种技术,包括系统平台、数据库,都完全符合各种国际标准和国家电子政务标准化指南要求,如XML、Web Service等.4.5.3高效高效性性本系统在技术选型、功能、架构设计过程中,一直以”实用”、”高效”为衡量基准.例如,工作流引擎/业务模式、ASP.NET机制、数据压缩存储与传输、应用
27、系统Cache机制等提高系统运行效率.第 11 页 共 12 页(大数据资料)DI数据集成解决方案4.5.4灵活性与扩展性灵活性与扩展性本系统中所有流程处理过程所采用的”工作流/业务”模式,基于角色的组织架构管理与应用,在审计业务发生变化时,可以通过简单的定制,使系统快速的适应变化.随着业务优化进一步加深,部门之间都存在信息共享、交换和互动.系统采用ASP.NET技术架构、先进的MVC模式、工作流/业务模式、完全的XML与Web Service应用,可以方便地在各个层次上实现系统的扩展,保证前期投资的有效和后期投入的接续,最大限度的保证其继承性和经济性.4.5.5较高的性价比较高的性价比,降低总成本降低总成本通过采用.NET技术进行系统开发,可以最大程度地重用了系统资源,避免了重复投资.例如,对服务器端系统软件环境的要求就是:在Windows 2003Server系统上免费升级Mircosoft.NET Framework即可,无需其他第三方平台软件.因采用B/S系统架构,则无需配置用户端软件,这样将大大节省安装、维护、二次开发等总体拥有成本(TCO),总体费用将降低20以上.在系统管理与维护方面,通过对系统功能、用户角色及其权限进行个性化的定制,操作简单方便,使得系统能充分满足业务管理的实际需求,而且系统安全性高.第 12 页 共 12 页
限制150内