大学数字化校园数据交换集成平台设计方案.doc
《大学数字化校园数据交换集成平台设计方案.doc》由会员分享,可在线阅读,更多相关《大学数字化校园数据交换集成平台设计方案.doc(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大学数字化校园数据交换集成平台设计方案数据交换平台依据学校实际需要,建立分层次的功能处理结构。数据交换引擎建设成为一个面向服务的、流程驱动的综合服务平台,通过标准、开放的数据连接、服务接口,实现跨越异构应用系统的数据交换与服务合成,实现对综合服务平台的Web服务的集中管理、健康监控、安全管理、统计分析等服务管理功能。图 信息交换平台示意图数据中心通过ETL方式从业务数据库中抽取数据,将数据抽取到逻辑层的ODS中,并进行更高层次的抽取和清洗工作,为数据仓库提供数据支撑。对于需要提供数据交换服务的系统,数据中心提供了完善的Web Services接口,相关系统可通过标准的接口调用获得所需要的数据。
2、1.1.1.1. 数据交换平台规划交换平台由应用服务层、信息接口及工具层、信息存储层、信息集成层、信息接入层、业务数据源层组成。l 应用服务层提供高级报表、教育评估、综合查询、应用业务历史查询、一体化应用操作与监管服务。该层面向最终使用者,为校内用户提供个性化服务,包括应用系统(学生服务、教务服务、人事服务、科研服务、学籍服务、设备服务、办公服务、外事服务等)、对外数据服务、共享数据的统计查询及报表服务、和没有业务系统对应的共享数据管理等服务。l 信息接口及工具层提供Web services XML交换、SQL操作、Search API、报表/查询配置工具等。其中面向个人查询、管理定制服务是由
3、本层提供的。信息服务层的各种服务不能直接操作数据库,必须通过调用统一的数据访问模块实现对数据库中数据的操作。l 信息存储层提供给予校园信息标准的共享数据存储,包括操作数据库(直接与业务系统数据、文件进行交换的信息,保留业务系统当前数据状态);具有周期性全库扫描存储操作数据库镜像的历史数据库;学校未来跨业务部门一体化流程业务数据库;部门临时报表及统计使用的临时数据库等五个部分。该层的数据是学校一切活动所涉及的、用于共享的公共数据集,来源于学校的各个业务部门,并基于“谁产生,谁维护”的原则,由对应的业务部门管理。从数据来源上分。基于校园信息标准的临时、当前及历史数据存储;提供异构校园应用系统数据源
4、的数据复制、转换、查询、缓存、标准化ETL等数据服务。统一交换平台支持基于语义的SQL、XML、Web Services 、Search API的共享访问接口;自身提供自定义报表工具、灵活查询工具以及在此之上建立的综合业务报表、自定义查询等共享应用服务。保障了学校跨业务部门的数据标准一致性与共享互换的技术需求。1.1.1.2. ETLETL是数据抽取、清洗、转换、装载的过程,同时提供数据质量的管理、数据转换与清洗、调度监控,并且贯穿整个数据中心解决方案的全过程。ETL是构建数据中心的关键环节,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据中心转化的过程,是实施数据中心的重
5、要步骤。ETL规则设计和实施是项目中工作量很大的部分,其工作量通常要占整个项目工作量的50%以上。1. 数据抽取数据抽取是从源系统中获取数据,以便加载到数据仓库中。数据的抽取必须能够充分满足数据中心系统分析及决策支持的需要,同时必须保证不能影响业务系统的性能,所以进行数据抽取时必须充分考虑这些因素,制定相应的策略,包括抽取方式、抽取时机、抽取周期等内容。l 抽取方式:增量抽取、完全抽取等。l 抽取时机:尽可能避开业务系统的高峰时段,比如在夜间业务系统比较闲时。l 抽取周期:综合考虑业务需求和系统代价,制定合理的抽取周期,如按照小时、天、周、季度等。2. 数据清洗数据清洗的目的是选出有缺陷的数据
6、,通过把他们正确化和规范化来满足信息使用者需求的数据质量。由于数据清洗是一件增加成本的过程,提高数据质量的最终目的是希望得到干净和标准的数据来降低数据清洗和转换上的工作。数据清洗可以在以下场合发生:1) 源数据的清洗:目的是提高系统中已有数据结构的数据质量。2) 对数据转换的数据清洗:目的是清洗、转换和提高从现有系统到目标架构中的数据质量。3) 数据中心的数据清洗:目的是确保用于数据分析的数据的质量。以下是数据清洗的流程:1) 定义数据源:记录下所有会包含需要实体的数据源,并且标识出权威的数据源。决定在哪里进行数据清洗和转换。2) 抽取和分析数据源:从数据源中提取数据样本,分析这些数据是否符合
7、定义,发现数据非正常的结构和格式,定义业务规则。3) 标准化数据:转换数据到一个通用的数据模型中,基于定义标准化格式和数据值。4) 正确和完整的数据:基于正确的规则纠正不正确和非标准的数据。定义如何处理遗失的数据,例如是找寻丢失的数据还是使用默认的数据。确定如何处理不确切的错误数据。5) 匹配和合并数据:确定对于同一个实体的多个数据,并把他们合并到同一个同期的记录中。合并同时需要把所有和这个合并有关的记录进行去重。6) 分析数据错误类型:发现数据错误的种类来提高流程和降低重大问题出现的可能性。7) 转换和增强数据:转换数据来把它加载到主题数据库中,这包含转换、格式化清洗数据和外部数据合并等。3
8、. 数据转换数据转换是指对从业务应用系统中抽取的源数据,根据主题数据库系统模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据的一致性和完整性,并按要求装入主题数据库。ETL转换过程的集中体现为:1) 空值处理,可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。2) 规范化数据格式,可实现字段格式约束定义,对于数据源中,时间、数值、字符等数据,可自定义加载格式。3) 拆分数据,依据业务需求对字段可进行分解。4) 验证数据正确性,可利用查询表及拆分功能进行数据验证。5) 数据替换,对于因业务因素,可实现无效数据、缺失数据的替换
9、。6) 从查询表获取丢失数据,查询表实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。7) 建立ETL过程的主外键约束,对无依赖性的非法数据,可替换或导出到错误数据文件中,保证了主键唯一记录的加载。8) 可实现数据规则过滤。4. 数据加载数据加载就是将从源应用系统中抽取、转换后的数据加载到主题数据库系统中。要求数据加载工具必须具有高效的加载性能。数据加载策略要考虑加载周期及数据追加策略两方面的内容,主要加载技术:1) 使用主题数据库引擎厂商提供的数据加载工具进行数据加载;2) 通过主题数据库引擎厂商提供的API编程进行数据加载;5. 数据审计每个数据加载周期中,如何保证数据仓库系统中
10、数据同业务系统中数据业务意义上的一致性及数据的准确性极其重要。必须引进数据审计功能。数据正确性的保证在数据的ETL过程中实现,但数据正确性的审计工作则是在数据加载工作完成以后。一方面要从设计到实施的整个过程中确保算法的正确性,另一方面要通过事后的检验来检查ETL的正确性。理想的情况是,审计工作必须在数据抽取、转换、加载等所有的阶段都要进行,比如:如果采用异步数据抽取和加载,则在数据抽取传输完毕后,要从记录数、文件大小等角度检验抽取和传输的正确性。数据加载完毕后,一方面通过加载日志检验加载过程的正确性,另一方面要通过业务规则来校验数据的正确性。6. 统一调度统一调度是ETL中较为重要的功能。它不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学 数字化 校园 数据 交换 集成 平台 设计方案
限制150内