大学数字化校园建设项目软件支撑平台设计方案.doc
-
资源ID:2325140
资源大小:16.57MB
全文页数:256页
- 资源格式: DOC
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
大学数字化校园建设项目软件支撑平台设计方案.doc
大学数字化校园建设项目软件支撑平台设计方案1.1.1. 信息门户系统 图 统一信息门户示意门户服务位于各类应用之上,作为数字校园对内外的窗口,以浏览器的方式向用户展现数字校园的应用信息,轻易地整合了各类应用之间的间隙,使得学校用户(教师,学生,职工,校外人员等)自由定制个性化的信息内容。门户服务要完成门户站点本身的所有功能,并且根据数字校园建设的要求,需要提供各种服务的接入,如邮件系统、人事管理系统、实验室综合管理系统、校园一卡通系统、资产管理系统、档案管理系统等等。业务应用系统需要经过注册方能在门户中供用户使用。学校后续建设的新的业务应用系统也需要在门户中注册,将业务系统加入受保护资源列表中后业务系统才能在门户中供用户使用。门户的另一用途就是应用整合,利用门户的Portlets构架,提供各种服务及应用的接入,如email系统、教务管理、办公系统、校园虚拟社区、主页托管系统、信息发布系统等等。门户将人员整合、应用整合后,提供统一的SSO(单一身份认证)入口。用户只需一个账号,就可以访问个人角色允许访问的应用与信息。门户的主要功能就是集中呈现个性化信息服务,包括定义个人桌面、配置个人工具、团队协作工具、个人办公应用等信息与服务支持。统一的虚拟化信息门户将分散异构的信息资源集成,提供一个支持信息访问、传递、以及协作化的集成化环境。通过提供校园、办公室及班级、个人桌面等基于虚拟IT场景的个人工作区服务,有效盘活校园应用系统中的信息资产,对师生以及学校管理者提供面向个人、个性化的自助式服务支持。同时,用户可以享受到登陆后校园工作区、所在院系、部处工作区所提供的私有、个性化信息服务。操作简单方便,基于WEB 2.0的ajax技术进行开发;文件病毒扫描接口;可以与第三方病毒扫描系统进行集成;portal符合JSR168管理规范;信息发布系统要求提供一套模板管理引擎,支持在线的编辑,有独立的简单的编辑语法。1.1.1.1. 建设目标l 提供符合通用国际标准的、可持续升级的门户框架;l 提供丰富的集成手段用于完成对现有不同应用系统的界面集成;l 提供二次开发的导入、导出开发工具,实现客户自定义应用的改造; l 提供统一的信息发布模式,规范信息服务、提高发布效益;l 提供全校性信息发布流程,为全校通知、公告、大事提供标准的信息发布体制;l 建构基于校园网异构应用系统的综合信息门户;l 对校园网内的信息资源、应用系统进行管理和整合;l 为校园网内的用户提供集成的、无缝的、安全的、个性化的资源访问;l 为校园网内的用户提供访问校园网资源的统一入口;l 支持文件病毒扫描接口。能够与第三方病毒扫描系统进行集成。1.1.1.2. 门户特点(1)实现学校的内外网合一,提高学校信息的利用程度,保护学校重要信息的安全度。图 内外网合一(2)多机构门户,统一学校各级部门门户风格,建立统一的信息发布管理模式。图 多机构门户(3)个性化和服务定制,用户可根据各级部门及个人需求设置门户的风格及定制相关服务。图 个性化设置图 服务定制(4)所属工作区服务,为用户提供用户根据对个人、所在部门、学校工作服务区域。图 所属工作区服务(5)面向服务的栏目规划,根据学校相关信息内容进行面向学生、教职工、学校领导等面向服务的栏目规划。图 面向服务的栏目规划1.1.1.3. 软件选型1.1.1.3.1. 单点登录提供WEB-SSO(Single Sign On)服务,用户只需要登录一次就可以访问所有相互信任的WEB应用系统。包括可以将这次主要的登录映射到其他应用中,用于同一个用户的登录的机制;图 单点登录访问示意用户登录portal的过程:首先用户如果发出了请求,那么系统的Identity Server会自动把用户定向到登录页面,用户登录后,会在Identity Server中自动产生一个SSO Token,这个SSO Token用来把用户的信息进行保存,并且对于以后发过来的验证请求,都会对应到这个SSO Token上面。用户经门户登录中国音乐学院数字化校园应用平台。从一个功能进入到另一个功能应用时系统平台已根据用户的角色与权限完成对用户的一次性身份认证(Single Sign On)。用户无须一次次输入用户名和密码登录门户平台外接的(集成的)应用子系统,而是单一的登录。系统平台并依据用户的角色与权限,提供该用户相应的活动“场所”、信息资源和基于其权限的功能模块和工具。用户管理创建与管理和用户相关的对象(用户、角色、组、组织、下级组织和可以组织的单元对象)。这些对象都可以使用Directory Server Management Edition管理控制台或命令行工具实现定义、修改与删除。用户授权对于用户的授权是采用Plug-in方式实现的。在Portal Server中每一个组织都可以配置用户授权方式。在获得Portal Server的Session前,用户必须通过授权的验证。Single Sign-On一旦用户已经通过授权认证,CAS Client API 就开始工作。每一次已授权试图访问一个受保护的页面时,SSO API 就检测用户是否有权利访问该资源。如果用户有权限访问该资源就不会有其他的认证过程发生,否则用户会被提示重新认证。校园网络上的应用系统主要都是基于口令认证,为了提高这些口令认证系统的安全性,并实现不同的应用系统间的口令的统一,功能和特性有:1基于简单认证机制中的口令认证机制,以用户名和密码为确认用户身份的标志;2有完善的认证接口,让多种应用系统可以方便地通过接口使用本认证系统统一认证用户的身份;3用户密码在系统中加密存放,且不可逆;在认证过程中,明文密码绝不能在网络上传输,防止窃听导致泄密,保证用户密码的安全;4能够抵抗重放攻击,即防止攻击者使用窃听到的过时的认证数据包再次获得认证而冒充合法用户的身份;统一口令认证系统主要包含三大部分:统一口令认证服务器、网络应用口令认证模块(包括Web口令认证模块、各应用系统口令认证模块等)和用户信息数据库。用户信息数据库存放系统的相关用户信息,包括:用户名、单向加密后的用户密码、用户的权限信息、用户有效期以及用户附加信息等。统一口令认证服务器通过本系统中定义的安全认证通道接收认证客户的认证请求,并根据数据库中的用户相关信息确认用户的身份,再次通过安全认证通道返回认证成功或认证失败的信息。应用服务器(例如:Web服务器、主机服务器、各系统服务器等)既作为相对用户而言的服务器,又作为统一口令认证系统的客户。它们首先通过安全传输通道(如:SSL通道)获取用户提交的用户名和密码,然后通过口令认证系统提供的统一口令认证模块经由安全认证通道向口令认证服务器提交认证请求,并获得认证结果(成功或失败),最终确定是否给该用户提供服务。1.1.1.3.2. 页面信息展示管理l 机构主页管理支持创建管理自定义二级学院及多机构,配置机构主页访问的短名称、配置机构ID;生成机构访问导航。图 机构主页l 面板管理Portlet菜单及频道栏目面板自定义布局;个性化组件配置角色、权限、外壳管理。图 面板管理l 门户配置管理多机构信息门户提供图形化的门户配置管理工具,让门户的管理员、个人用户通过浏览器即可对门户进行配置,包括门户首页Top区域登陆前后的配置(基本显示内容、页面颜色、字体大小等风格显示)、校内访问地址的配置、用户登录事件的配置等。且可对门户的界面进行相关的配置,包括界面模板管理和菜单管理。l 界面模板管理:模板是一组预先的定义好的门户样式的集合,门户管理员可以为不同类型的门户用户,例如教师、本科生、研究生、临时人员等,设置不同的模板类型。这样不同身份的用户登录后即可看到不同样式的个人工作区、单位工作区。l 门户菜单管理:对某个模板中的菜单进行管理、包括新建菜单、删除菜单、菜单大小、显示方式的设置、菜单显示顺序的调整等。l 个性化界面管理信息门户服务是个性化的、基于角色的应用系统。需要提供图形化工具,让用户根据其身份的不同,通过浏览器对自己的门户菜单进行个性化的设置,定制其权限范围内的各种信息。包括调整菜单的顺序、显示。提供两列、三列及拖拽式布局、自由布局器功能。同一个角色也可以根据不同的身份定制不同的个性化的页面和功能。全校的学生、教师、管理人员、领导、职工等不同用户将方便地在网上访问到不同的功能。图 个性化管理l 门户安全管理提供基本用户类型权限管理;用户组管理;管理、定义集成系统的安全信息。当一个用户生成的时候,可被赋予不同的用户类型,并安排一套默认页面。同一个用户可能同时会包含多个用户类型。一个用户的用户类型决定了他能访问和使用哪些Portlet组件。在用户配置自己的页面的时候,系统应把有对应用户类型权限访问的Portlet组件显示出来供用户选择。图 安全管理1.1.1.3.3. 用户档案管理 统一用户资料(Unified User Profile):分类化和个性化集成。门户中的包含用户资料的属性位于一个预先定制好的关系数据库中。门户的个性化和分类化组件(这些组件用来判断用户个性化等信息)使用用户的资料属性。可以通过门户的统一用户资料(UUP)框架来把用户资料扩展为企业级的资料。该框架允许一个开发人员从另一个可选资源(例如,LDAP)中把用户属性插入进来。简而言之,开发人员只要执行一个EJB操作,就可以使用它来获得扩展的用户属性。这个EJB以ProfileManager EJB为基准(在这个EJB的部署描述环境中加入用户的EntityPropertyManager信息)。1.1.1.3.4. 协作l 通讯录管理超级管理员可以建立公共通讯录,所有人可见,部门管理员可以建立部门通讯录,本部门可见。用户与用户建的通讯录可以共享,通讯录里的用户分组管理可以支持无限级。已和平台其它需要调用系统进行集成。图 通讯录管理l 投票调查各部门可以建立自己的投票,支持单选和多选,有效防止重复投票作弊:可设置30分钟内禁止同一IP重复投票和一台机器只能投一票,使投票更加公平透明,支持显示模板的定制。 图 投票管理l 监控系统整个平台的系统操作都将被监控,如:权限分配详细操作、用户管理详细操作、信息点击详细信息等。监控系统将记录操作人的帐号、IP、操作时间等信息,并提供查询页面,以便管理员监控和管理。图 监控系统l 用户反馈及时接收用户反馈信息,对反馈信息进行回复。l 日程管理个人可以建立不同分类的日程安排,用户和用户之间可以共享日程,个人日程安排可以委托其他人管理,已和平台提醒模块进行集成,可以进行登录、邮件、手机等方式的提醒,管理员可以定制全校的日程安排注入到每个人的日程安排中。如:校历、校大事、周工作安排等。图 日程管理l 提醒管理登录门户平台后,用户会收到来自系统订阅的提醒信息,这样就不会错过个人和单位重要的信息服务了。图 消息提醒l 可以与任何需要提醒的模块进行集成,如:办公系统、邮件系统、通知模块等。l 提醒的方式目前支持登录提醒、邮件提醒、及手机提醒网关接口。l 提醒方式支持单条信息和汇总信息的显示方式。l 支持多浏览器l 讨论组系统管理定制讨论类型的分类,用户或群组根据权限进行讨论。图 讨论组系统1.1.1.3.5. 商务组件l 组件管理支持面板Portlet布局控制、菜单布局控制管理;门户媒体类型管理、客户端管理、Skin外观管理、错误链接管理、页面末拌定义管理、Porlet索引管理器。图 组件管理l Portlet组件管理支持IFrame Portlet、URL集成、凭证认证集成,全面符合JSR168管理规范图 portal组件管理1.1.1.3.6. 信息内容管理信息发布系统信息服务的载体,为学校提供信息的汇总、分类、搜索、发布,基于统一的开发模式和丰富的开发接口对各类应用进行有机的集成,为了给各类用户提供快速、灵活的、个性化的、具有信息推送能力的综合信息服务;信息发布系统作为日常办公协作的平台为各类用户提供了多渠道的沟通与协作。信息发布内容能够按照部门及人员进行分级管理,二级门户用户在默认情况下能看到全校和本部门的信息,其他部门的信息需要通过统一身份认证后访问其他二级门户。 信息发布系统针对高校信息管理业务设计的权限模型设计,管理员只需要了解信息管理的业务,不需要了解复杂的系统权限模型就可以完成权限管理工作;信息发布系统能够提供一套模板管理引擎,支持在线的编辑,有独立的简单的编辑语法并支持cache技术,对非权限控制的信息,能够动态的进行缓存处理;支持所见即所得的在线信息编辑,能够支持Word、Excel等的信息发布,可应用于校内通知、公告、新闻等信息的发布。支持显示的模板化管理,支持信息的审核,精华,置顶等操作。公文、通知、会议记录以及日常统计报表或学生花名册等业务文件及表单都可以通过内容管理系统进行类似于资源的审、校、核等管理,并且可以引用到信息发布系统中进行类似于资源的发布。在每个单位门户平台首页,通过提供一整套完善的信息发布工具,并通过版面的风格定义、调整,使之定义每一个单位的个性化主题页面。(一)个性化定制Portal最大的特性就是可定制,我们的平台是基于用户的一个portal系统,每个用户都可以根据自己的喜好,定制自己的界面;可以定制的范围包括:页面显示内容,页面显示风格,页面内容布局等。平台还提供了一些定制成型的模板供用户选择。管理员也可以自定义模板,定义成的模板可以供平台范围内的用户选择使用。提供不少于10套的自建站模板,模板基于数据库存取模式,支持学校建站向导,支持自由式页面布局管理。(二)信息频道管理信息频道管理提供频道管理,比如创建教育新闻、学校信息、教育政策等信息发布栏目,并可以自定义栏目发布的风格,提供背景变化、列表风格、列表数量等个性化定义工具。每个频道目录均可以定义其编写人、发布人权限,用户必须是本单位内部用户。定制后的信息频道可以供其他单位引用,这样相似的信息就不需要重复录入了。频道管理可体现出层次结构,根据权限设置进行各级频道的管理,并在门户上进行层次分布,用户登录后根据相应的权限进行查看浏览。(三)信息管理定义每个频道下的具体信息,提供强大的Web在线编辑器工具,提供信息缩略图片列表、单图多记录列表、信息滚动、单图单信息等个性化功能。内容管理中的信息发布系统,有自上而下的信息插播工具。图 信息管理(四)审核管理审批流程定义:管理员根据不同内容分类定义审批流程,以满足不同类型内容的不同审批权限和审批级别,在信息栏目创建的过程可完成审批流程的定义。内容审批:审批人员待审批内容列表,对于每项审批内容可以直接修改,也可以使用批注,以提供审批效率。可实现信息管理一体化,谁能看、谁能发 、谁能管、谁能审可在一个界面上操作完成。图 信息管理一体化(五)版面管理l WEB富余编辑器,撰写、编辑信息版,可以创建自定义非结构数据的信息与内容;其内容与频道栏目紧密集成,可直接从信息列表中选择内容发布。(六)版面浏览针对建立的版面,可进行版面的浏览。1.1.1.3.7. 搜索随着学校信息发布系统的应用,信息量的不继增加,让全校师生在最短的时间内,查询到最准确,最有价值的信息,是我们全文检索系统推出的量要目的。站内信息全文检索系统特点l 查询速度快 基于全文检索技术检索网页的信息,比传统的数据库查询技术和直接检索网页的内容要快,降低了对检索服务器的硬件要求并提高了响应速度。l 智能化高查准率、查全率 实现了以自然语言处理技术为核心内容的智能中文分词技术,能够满足查全率和查准率的要求。l 查询手段丰富 支持各种逻辑运算(如AND、OR、NOT等),支持西文检索和中西文混合检索、词频运算和按时间或相关性(重要性)排序,等等。l 关键字处理 可以针对一些敏感的关键字进行处理并屏蔽。l 异常提醒 在建立索引和优化索引时,如出现问题可对管理员进行邮件提醒。1.1.1.3.8. 门户集成支持应用集成及业务组件的分类、编目及索引。图 组件分类信息门户支持虚拟工作区,能够为所在单位、部处或院系的用户提供登陆前后内容不同的个性化信息服务内容。能根据用户不同的身份展示面板内的信息栏目与内容。我们提供了本单位工作去、校园工作区和个人工作区。图 虚拟工作区门户平台采用面向服务的集成理念,从用户个体出发,推出面向个人工作、生活、学习场景的服务集成模式,场景份类及门户菜单栏目组织。我们会根据学校应用情况,推荐学校给学校深度集成内容与模式,在集成后的界面风图 菜单栏目组织图 门户集成1.1.1.4. 建设内容1.1.1.4.1. 公共服务主要通过门户提供的组件功能,将各种校内公共的数据资源进行整合和展示。包括各种校内公共信息服务:校内地址查询、校车时刻表查询、图书查询、自习教师查询;目录服务:提供人员综合信息查询;电话服务:提供通过输入关键字查询相关电话号码服务。例如:图 公共信息服务示例图 公共信息服务示例1.1.1.4.2. 信息公告使用门户提供的公共组件功能和页面展示配置功能为不同用户提供不同的信息公告服务。主要内容有学校公告、班级公告、外部信息、社区信息等,不同校园用户可以看到不同的信息公告内容。图 信息公告图 信息公告1.1.1.4.3. 个人门户个人门户为每一个用户提供个性化服务,可以设立自己的主页、Blog、信息发布区、上载区,还可以设置个人信息、收发邮件、进行日程安排等。门户为校内个人用户提供个性化信息服务查询,可以方便快捷的进行个性化查询和设置。图 个人信息中心图 个人档案信息在门户中用户可以对自身的门户进行各种个性化的配置,以满足不同用户的需要。图 用户个性化配置门户为用户提供的协作办公组件,例如日程安排、待办提醒、讨论组等功能组件,详细内容请见“门户协作”章节。门户还为用户提供个人空间、Blog、文件上下载区功能,来丰富门户的内容,提升信息服务质量。个人空间管理1.1.1.4.4. 统计分析面向校园用户提供分权限的资源查询、统计、分析功能。系统会根据管理员的设置将信息化校园中的各种资源数据开放,向用户提供数字、表格、二维图、三维图、曲线等多种统计分析表现形式。通过建设统计分析模型,提供对高基报表中的统计数据的多种分析方法,以图形方式(二维饼图、二维柱图、三维饼图、三维柱图、环形图、直线图、曲线图、线性图、面积图、累加图等)展现,从而简便、快捷地访问高级报表中的各种数据,得到统计分析结果。主题(域)建设内容如下:l 教学主题域建设对学校的专业、教师、计划、开课、成绩、教室资源、教学设施、教学实践、教学质量、教学评估等各类教学过程进行分析,为合理安排教学过程、调整教学资源、提高教学效果等内容提供支持,促进学校教学工作的优化和发展。教学主题域分析内容主要包括师资队伍、教学效果、专业、课程及开课、实践教学、教学管理、毕业论文、教学设施等方面。l 科研主题域建设对学校的科研项目、科研成果、科研奖励、学术论文、科研组织等科研过程进行分析,为监控科研项目运作、分析科研效果、提高科研获奖等各项科研工作提供支持,从而促进学校科研成效的提高。科研主题域分析内容主要包括科研项目状况、科研成果监控、科研人员培养、科研活动安排、科研机构成效、学术会议等方面。l 学生主题域建设对本科生、研究生、成人、专科等各类学生进行分析,为学生招生、学籍管理、资助管理、三助管理、思想教育管理、就业管理等管理过程提供支持,促进学校的学生工作优化。学生主题域分析内容主要包括招生计划调配、招生规模指导、学籍管理指导、资助分析、思想状况分析、就业指导等方面。l 人事主题域建设对学校的各类人员,包括教师、职工、临时人员、离退休人员等进行分析,为学校的师资结构调整、工作量考核、学科规划、招聘、部门人力资源调配等管理内容提供支撑,从而促进学校的教学、科研人力资源合理化发展。人事主题域分析内容主要包括人力资源结构、师资结构、学科人员分析、教职工工作量分析、教职工职称配置分析、教职工能力模型等方面。l 财务主题域建设对学校的各项经费,包括科研经费、学生收缴费、办公经费、设备采购经费等进行分析,从而为经费计划制定,经费划拨、经费使用监控、经费发放等管理内容提供支持。财务主题域分析内容主要包括经费构成、科研经费规划、科研经费使用监控、学生缴费状况、往来帐、教职工应付应收款、办公经费监控等方面。l 设备资产主题域建设对学校的设备资产进行分析,为学校的资产采购、库存、设备使用监控、设备折旧、设备报废、设备保养等工作提供支持,促进设备有效利用和设备维护的合理安排。设备资产主题域分析内容主要包括采购计划落实、设备使用状态监控、设备利用情况、设备维修情况、精密仪器情况、部门资产配置情况等方面。统计图形举例如下:图 教职工学历结构图表图 学生构成图表1.1.1.4.5. 校内应用 主要通过门户集成方式,校内各应用向用户提供查询服务。例如:教师可以通过系统查询自己的人事信息和工资发放情况等信息;学生可以通过教务系统查询课程信息、上课教室等;图 一卡通消费记录查询图 查询个人公积金和课表1.1.2. 数据交换集成平台数据交换平台依据学校实际需要,建立分层次的功能处理结构。数据交换引擎建设成为一个面向服务的、流程驱动的综合服务平台,通过标准、开放的数据连接、服务接口,实现跨越异构应用系统的数据交换与服务合成,实现对综合服务平台的Web服务的集中管理、健康监控、安全管理、统计分析等服务管理功能。图 信息交换平台示意图数据中心通过ETL方式从业务数据库中抽取数据,将数据抽取到逻辑层的ODS中,并进行更高层次的抽取和清洗工作,为数据仓库提供数据支撑。对于需要提供数据交换服务的系统,数据中心提供了完善的Web Services接口,相关系统可通过标准的接口调用获得所需要的数据。1.1.2.1. 数据交换平台规划交换平台由应用服务层、信息接口及工具层、信息存储层、信息集成层、信息接入层、业务数据源层组成。l 应用服务层提供高级报表、教育评估、综合查询、应用业务历史查询、一体化应用操作与监管服务。该层面向最终使用者,为校内用户提供个性化服务,包括应用系统(学生服务、教务服务、人事服务、科研服务、学籍服务、设备服务、办公服务、外事服务等)、对外数据服务、共享数据的统计查询及报表服务、和没有业务系统对应的共享数据管理等服务。l 信息接口及工具层提供Web services XML交换、SQL操作、Search API、报表/查询配置工具等。其中面向个人查询、管理定制服务是由本层提供的。信息服务层的各种服务不能直接操作数据库,必须通过调用统一的数据访问模块实现对数据库中数据的操作。l 信息存储层提供给予校园信息标准的共享数据存储,包括操作数据库(直接与业务系统数据、文件进行交换的信息,保留业务系统当前数据状态);具有周期性全库扫描存储操作数据库镜像的历史数据库;学校未来跨业务部门一体化流程业务数据库;部门临时报表及统计使用的临时数据库等五个部分。该层的数据是学校一切活动所涉及的、用于共享的公共数据集,来源于学校的各个业务部门,并基于“谁产生,谁维护”的原则,由对应的业务部门管理。从数据来源上分。基于校园信息标准的临时、当前及历史数据存储;提供异构校园应用系统数据源的数据复制、转换、查询、缓存、标准化ETL等数据服务。统一交换平台支持基于语义的SQL、XML、Web Services 、Search API的共享访问接口;自身提供自定义报表工具、灵活查询工具以及在此之上建立的综合业务报表、自定义查询等共享应用服务。保障了学校跨业务部门的数据标准一致性与共享互换的技术需求。1.1.2.2. ETLETL是数据抽取、清洗、转换、装载的过程,同时提供数据质量的管理、数据转换与清洗、调度监控,并且贯穿整个数据中心解决方案的全过程。ETL是构建数据中心的关键环节,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据中心转化的过程,是实施数据中心的重要步骤。ETL规则设计和实施是项目中工作量很大的部分,其工作量通常要占整个项目工作量的50%以上。1. 数据抽取数据抽取是从源系统中获取数据,以便加载到数据仓库中。数据的抽取必须能够充分满足数据中心系统分析及决策支持的需要,同时必须保证不能影响业务系统的性能,所以进行数据抽取时必须充分考虑这些因素,制定相应的策略,包括抽取方式、抽取时机、抽取周期等内容。l 抽取方式:增量抽取、完全抽取等。l 抽取时机:尽可能避开业务系统的高峰时段,比如在夜间业务系统比较闲时。l 抽取周期:综合考虑业务需求和系统代价,制定合理的抽取周期,如按照小时、天、周、季度等。2. 数据清洗数据清洗的目的是选出有缺陷的数据,通过把他们正确化和规范化来满足信息使用者需求的数据质量。由于数据清洗是一件增加成本的过程,提高数据质量的最终目的是希望得到干净和标准的数据来降低数据清洗和转换上的工作。数据清洗可以在以下场合发生:1) 源数据的清洗:目的是提高系统中已有数据结构的数据质量。2) 对数据转换的数据清洗:目的是清洗、转换和提高从现有系统到目标架构中的数据质量。3) 数据中心的数据清洗:目的是确保用于数据分析的数据的质量。以下是数据清洗的流程:1) 定义数据源:记录下所有会包含需要实体的数据源,并且标识出权威的数据源。决定在哪里进行数据清洗和转换。2) 抽取和分析数据源:从数据源中提取数据样本,分析这些数据是否符合定义,发现数据非正常的结构和格式,定义业务规则。3) 标准化数据:转换数据到一个通用的数据模型中,基于定义标准化格式和数据值。4) 正确和完整的数据:基于正确的规则纠正不正确和非标准的数据。定义如何处理遗失的数据,例如是找寻丢失的数据还是使用默认的数据。确定如何处理不确切的错误数据。5) 匹配和合并数据:确定对于同一个实体的多个数据,并把他们合并到同一个同期的记录中。合并同时需要把所有和这个合并有关的记录进行去重。6) 分析数据错误类型:发现数据错误的种类来提高流程和降低重大问题出现的可能性。7) 转换和增强数据:转换数据来把它加载到主题数据库中,这包含转换、格式化清洗数据和外部数据合并等。3. 数据转换数据转换是指对从业务应用系统中抽取的源数据,根据主题数据库系统模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据的一致性和完整性,并按要求装入主题数据库。ETL转换过程的集中体现为:1) 空值处理,可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。2) 规范化数据格式,可实现字段格式约束定义,对于数据源中,时间、数值、字符等数据,可自定义加载格式。3) 拆分数据,依据业务需求对字段可进行分解。4) 验证数据正确性,可利用查询表及拆分功能进行数据验证。5) 数据替换,对于因业务因素,可实现无效数据、缺失数据的替换。6) 从查询表获取丢失数据,查询表实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。7) 建立ETL过程的主外键约束,对无依赖性的非法数据,可替换或导出到错误数据文件中,保证了主键唯一记录的加载。8) 可实现数据规则过滤。4. 数据加载数据加载就是将从源应用系统中抽取、转换后的数据加载到主题数据库系统中。要求数据加载工具必须具有高效的加载性能。数据加载策略要考虑加载周期及数据追加策略两方面的内容,主要加载技术:1) 使用主题数据库引擎厂商提供的数据加载工具进行数据加载;2) 通过主题数据库引擎厂商提供的API编程进行数据加载;5. 数据审计每个数据加载周期中,如何保证数据仓库系统中数据同业务系统中数据业务意义上的一致性及数据的准确性极其重要。必须引进数据审计功能。数据正确性的保证在数据的ETL过程中实现,但数据正确性的审计工作则是在数据加载工作完成以后。一方面要从设计到实施的整个过程中确保算法的正确性,另一方面要通过事后的检验来检查ETL的正确性。理想的情况是,审计工作必须在数据抽取、转换、加载等所有的阶段都要进行,比如:如果采用异步数据抽取和加载,则在数据抽取传输完毕后,要从记录数、文件大小等角度检验抽取和传输的正确性。数据加载完毕后,一方面通过加载日志检验加载过程的正确性,另一方面要通过业务规则来校验数据的正确性。6. 统一调度统一调度是ETL中较为重要的功能。它不但可以将源数据加载到主题数据库中,而且还可以更新数据仓库,并且还可以更新OLAP Server和挖掘模型数据。它在整个商务智能方案中扮演着总指挥、总调度的角色。ETL的调度控制方式有两种: 自动方式由每天定时或准实时启动后台程序,自动完成数据仓库ETL处理流程。 手动方式用户可以通过前台监控平台,对单个目标或批量目标进行手工调度。7. 监控主要是监控ETL的整个过程,通过扫描ETL各模块的日志中的关键值,如记录时间等信息与当前的状态作比较,如果超过某一个值,则认为该模块运行可能出现问题,应当报警通知系统管理员等。1.1.2.3. 数据服务接口为了实现数据中心和外界信息环境的沟通,提供可灵活的组织、扩充、维护共享和互操作数据的功能,采用SOA模式建立标准的元数据管理系统,对数据中心的各类数据进行封装,并采用Web Services模式提供数据访问和维护接口。元数据接口提供将外部元数据系统映射到数据中心的内部体系中的方法,并建立同构关系,元数据管理系统的结构包括6个组成部分。(1)基准元数据系统。是指某个数字校园标准的元数据系统。它的作用是:作为基准元数据,组织标识数字校园中的数字化信息资源;以标准形式描述用户的查询提问;为各种网络信息发掘工具提供数字化信息。(2)元数据字典。是一种用于各种元数据体系到系统基准元数据系统相互转换的对照表,它描述了各种元数据的基本特征,构建了各种元数据与基准元数据系统的对应关系。其基本作用是为系统的转换模块提供转换依据。(3)数据属性集。是指数字校园存储数据的属性总和。元数据管理系统可通过数据属性集将数字校园的数据结构和基准元数据相对照,保障它们之间的可互换性。(4)数字化信息资源集。它描述的对象是信息源。数字校园可以通过信息源特征集来确定个信息源所采用的元数据体系,将用基准元数据表达的查询式转换成各个信息源所采用的元数据表达式,从而决定各个信息源的检索方法并解释检索结构。(5)转换模块。提供了实现各种元数据之间相互转换、翻译的方法。(6)维护模块。可以对各种对照表进行添加、删除、修改等动态管理,保证元数据系统的可扩展性和可维护性。(7)一卡通系统对应的共享数据服务平台:数据由一卡通应用产生,同时为全校用户提供一卡通系统的查询及相关服务,平台提供与一卡通系统的接口。1.1.2.4. 数据导入导出数据中心的导入导出工具解决非结构化与数据中心的交互,用户可以根据授权把异构的数据(Excel、DBF格式)导入到数据中心,用户也可以根据授权把数据中心中的数据导出成非结构化或桌面数据库格式,再对导出的数据分析整理成业务需要的数据、报表等。图 导入导出逻辑图图 导入导出工具使用界面1.1.2.5. 数据源适配器提供异构数据源的适配器:支持结构化、半结构化、非结构化数据源;支持Informix、Sybase、Oracle、MS SQL Server、ODBC、OLEDB、JDBC、Native数据源;Web Services、XML、消息队列数据源。(我校目前现有的业务子系统基于的数据库管理系统有Oracle、DB2、SQL Server、Mysql、Sybase等,且应用运行的操作系统也各不相同,有AIX、Solaris、Windows、linux等。)数据交换应具有灵活的方式与多种交换触发机制,能同步或异步方式实现数据的交换及推送,并保证各应用系统交换和共享的各种数据的一致性、准确性;实现原理如下图所示:1.1.2.6. 数据同步工具数据交换平台数据同步工具采用DXP 系统,DXP 是一款专业化数据库转换工具,可以在多种数据库之间进行相互数据转换,在数据转换过程的各个环节可用通过数据计算功能,实现高效、复杂的数据计算、转换功能。能充分读取关系数据库中的数据和您机器中的各种格式的数据,DXP 提供图形化的转换过程设计功能,您无需掌握任何数据库方面的技能,只需可以通过简单的配置,就可以实现您所需要的转换功能。如果您是数据库管理员,您可以:将分散在各个地方的文件数据或其它关系数据库的数据,集中转换到您所需要的数据库中。如果您是野外数据采集员,您可以:将您野外计算机中的数据,实时的转换、传输到总部数据库中。如果您是网站管理员,您可以将主机上的数据库数据下载到本地,也可以将本地的数据上传到远程数据库中。如果您是临时数据使用用户,您可以:将数据库中的数据转换成Word、Excel、PDF、Lotus、等各种格式的文件,总之,您如果遇到了在不同系统之间的数据交换或转换的工作时,DXP 可以帮助您轻松的实现您的工作要求。支持实时数据交换和批量定时数据交换;支持全表和增量两种交换方式;数据交换不影响应用系统的正常运行;支持大对象数据的交换和文件交换;支持的数据库介绍支持的数据库类型DXP 支持多种大中型的关系数据库系统、单机文件型数据库、多种格式的电子文件。按照读取和写入类型,DXP 支持以下的数据类型: 读取数据:Oracle、SYBASE、DB2、SQLServer、Informix 、Interbase、Accesse、MySQL、dbf、Foxpro、Paradox、Text file (*.txt)。写入数据:Oracle、SYBASE、DB2、SQLServer、Informix 、Interbase、Accesse 、MySQL 、dbf 、Foxpro 、Paradox 、Text file (*.txt) 、HTML file(*.htm)、Excel spreadsheet (*.xls)、SYLK (Symbolic Link) (*.slk)、DIF (Data Interchange Format) (*.dif) 、Lotus 1-2-3 file (*.wk1) 、QuattroPro file (*.wq1)、XML file (*.xml)、Rich Text format (*.rtf)、SPSS format (*.sav)、 Adobe Acrobat Document (*.pdf)、LDAP/Lightweight Data Interchange Format (*.