数据仓库总体设计报告44531.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据仓库总体设计报告44531.docx》由会员分享,可在线阅读,更多相关《数据仓库总体设计报告44531.docx(128页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、文档编号产品版本密级1.0共87页数据仓库系统总体设计文档作者:_ _日期:20001/12/20项目经理:_ _日期:20001/12/28部门经理:_ _ 日期:22002/01/08总 工 办:_ _日期:22002/01/08目 录1概述71.1背景71.1.1待待开发的软件件系统名称81.1.2系系统的基本概概念81.1.3项项目组名称81.1.4项项目代号81.2术语和和缩写词81.3设计目目标92系统设计92.1设计原原则92.2系统结结构112.2.1子子系统划分112.3系统数数据结构172.3.1逻逻辑结构122.3.2层层次结构132.3.3网网络拓扑结构构142.3.4
2、网网络层次结构构162.4行业特特殊需求172.5底层数数据库(仓库库)设计192.5.1设设计原则192.5.2数数据现状202.5.3数数据存储整体体规划212.6ETLL系统242.6.1需需求规定242.6.2运运行环境242.6.3设设计思想242.6.4结结构说明252.6.5处处理流程262.7系统管管理272.7.1需需求规定272.7.2运运行环境282.7.3设设计思想282.7.4结结构说明282.7.5处处理流程292.8数据展展现302.8.1需需求规定302.8.2运运行环境322.8.3设设计思想322.8.4结结构说明322.8.5处处理流程342.9界面设设计
3、342.9.1需需求规定342.9.2主主程序界面342.9.3主主要页面设计计352.10接口口设计382.10.1外部接口382.10.2内部接口392.11安全全设计392.11.1网络安全392.11.2数据库安全全422.12系统统可靠性设计计432.12.1可靠性432.12.2可维护性432.12.3可扩展性442.12.4健壮性442.12.5性能保证442.12.6出错处理452.12.7备份与恢复复452.13运行行设计462.14相关关工具选择462.14.1数据库选择择472.14.2WEB服务器器和应用服务务器472.14.3数据库建模模工具482.14.4分析型工具
4、具482.14.5OLAP工具具介绍492.14.6ORACLLE公司OLAPP介绍502.15开发发环境512.15.1硬件环境512.15.2操作系统512.15.3开发语言522.15.4数据库系统统522.15.5中间件系统统522.15.6应用系统533系统调试和和测试533.1目的533.2基本要要求543.2.1测测试计划543.2.2测测试说明543.2.3测测试环境建立立543.2.4测测试报告543.3应遵循循的原则543.4测试方方法553.5测试重重点554项目进度564.1项目资资源计划564.1.1项项目组564.1.2数数据仓库领导导小组办公室室564.2项目工工
5、期计划564.3时间进进度计划564.3.1数数据仓库系统统需求调查与与两会系统574.4第一期期开发主题574.5第二期期开发主题574.6工作量量分配计划575小结5886参考文献607附录6117.1Oraacle性能能评估报告617.2主流WWEB服务器器比较657.3IBMM小型机性能能评估报告767.4详细网网络拓扑图及及设备清单787.5在多层层体系结构下下建立数据仓仓库83摘 要数据仓库系统的的建立可以解解决传统数据据库不能很好好提供分析决决策功能的问问题,可以发发掘历史数据据中隐含的大大量有价值的的信息,为国国民经济的发发展和宏观决决策提供大量量有效的参考考信息。系统统数据来
6、源复复杂,在数据据仓库设计中中不能采用常常规方法解决决问题;主题题众多且分析析热点会随时时间变化而变变化,要求主主题下所含的的信息在一定定范围可变;主题下指标标可能需要调调整等实际情情况,这和数数据仓库的数数据的不可修修改性有矛盾盾;等等。我我们结合数据据仓库的特点点和系统实际际情况,提供供了一套完整整的数据仓库库系统的解决决方案。整个个数据仓库系系统从数据采采集到数据展展现共分为四四部分:1、数数据抽取、转转换、加载;2、系统管管理(包括数数据库维护);3、数据展展现;4、支支撑整个系统统的数据库的的设计(包括括ETL中间间数据库和数数据仓库)保保证系统具有有相当的灵活活性。各个部部分独立完
7、成成本部分功能能,同时紧密密协作组成数数据仓库系统统。数据仓库库系统管理与与数据导入部部分采用C/S模式有针针对性的开发发;数据仓库库系统的数据据展现采用流流行的B/SS模式向用户户提供数据查查询、决策分分析。关键词:指标,主题,数数据仓库,联联机分析,数数据挖掘,决决策支持。1 概述1.1 背景经过2个多月的的需求分析调调查,确定了了数据仓库系系统总体定位位(省政府数数据仓库是以以充分发挥信信息的社会作作用和经济效效益为最终目目的)和系统统功能需求。现现根据需求分分析规定和局局具体情况,确确定数据仓库库整体方案,以以指导数据仓仓库系统研究究、开发、实实现。省政府局数据具具有建立数据据仓库系统
8、的的基本条件:l 积累了大量历史史数据,这是是数据仓库存存在的必要条条件;l 随着市场经济的的发展,社会会各界(如金金融投资等领领域为了规避避市场风险,提提高决策的准准确度,开发发新的市场和和利润增长点点,挖掘市场场潜力)对数数据的需求不不断增大,社社会各界迫切切需要利用数数据进行决策策分析,指导导经济建设。省政府数据仓库库建设存在以以下困难:l 当前局各个处室室没有统一规规划的数据库库系统;l 只有少量数据以以电子文件形形式存在,大大部分历史数数据保存在纸纸介质上,到到目前为止,建建国以来的数数据有一般以以上以纸介质质方式存储;l 由于我国制度在在不断发展完完善,指标在在不同的历史史时期的口
9、径径不同,为了了使同类指标标具有可比性性,要确定不不同时期各个个指标的调整整规则,并对对历史数据按按规则进行调调整,这种调调整除了少数数指标可以按按统一的算法法进行以外,大大部分调整工工作需要人工工参与;因此,省政府数数据仓库的建建设中数据的的整理加载工工作量极大,EETL(Exxtractt、Transsform、CCleaniing、Load)工工具开发难度度大;完善的的、与数据仓仓库系统良好好联接的、统统一规划的各各个处室的数数据库系统是是据仓库系统统的具有长久久生命力的基基本保障,因因此各处室数数据库的建设设应同步进行行。1.1.1 待开发的软件系系统名称省政府数据仓库库系统1.1.2
10、 系统的基本概念念指标:系统的数数据以指标为为载体,所有有的数据都是是指标在不同同时间,不同同地域上的取取值,统一指指标可能有年年度、月度、季季度、半年、连连续某几个月月等时间段的的数据,可能能有国家、省省、地、市、县县、乡、村的的数据,甚至至有居民户、具具体企业单位位的明细数据据,数据仓库库中的数据就就是这些数据据的有机集合合。主题:数据仓库库中的数据按按主题组织,这这是由数据仓仓库以分析决决策为主要目目的决定的。主主题是一个在在较高层次上上将数据归类类的标准,每每一个主题对对应一个宏观观的分析领域域。省政府数数据仓库是将将指标数据按按分析主题集集成起来,供供查询、分析析、辅助决策策。1.1
11、.3 项目组名称数据仓库项目组组1.1.4 项目代号XhnTJDWW001-000191.2 术语和缩写词指标:Stattisticcal Paarametter数据仓库:DWW(DataaWarehhouse)主题:Subjject数据集市:DaataMarrt元数据:MettaDataa数据抽取、转换换、加载:EETL(Exxtractt、Transsform、CCleaniing、Load)联机分析处理:OLAP(On-LineAnalyticalProcessing)联机事务处理:OLTP(OOn-LinneTrannsactiionProocessiing)决策支持系统:DSS(DD
12、ecisiionSuppportSSystemm)数据挖掘:DMM(DataaMininng)应用服务器:AAS(AppplicattionSeerver)Web服务器:WebSeerver1.3 设计目标省政府数据仓库库系统是以充充分发挥信息息的社会效益益和经济价值值为最终目的的。将大量事务处理理数据库中的的数据进行清清理、抽取和和转换,并按按决策主题进进行多维重组组,在高效的的网络平台上上充分发挥系系统作为社会会“数据库,信信息库,思想想库,智囊库库”的作用,直直接向党政领领导、社会各各界提供数据据、信息服务务,为信息工工程建设提供供一个“决策数据管管理与分析中中心”的基本解决决方案。为省
13、政府局建立立一套面向党党政领导、专专业分析人员员、广大社会会群众对外发发布信息的数数据仓库系统统。整个系统统集数据采集集、管理、维维护、展现于于一体,旨在在建立数据仓仓库后既减轻轻局工作人员员工作量,又又能很好的为为公众服务。前前端数据展现现要有通用性性,采用浏览览器浏览数据据,是瘦客户户端。后端维维护系统要具具有高效性,能能及时、高效效处理、管理理数据,功能能强大,是胖胖客户端。数据仓库系统重重在建立一个个适应分析的的系统环境,首首期开发“两会”信息咨询,企企业名录、人人口普查、字字典、工业经经济、农业经经济等主题。2 系统设计2.1 设计原则从充分发挥系统统作为社会“数据库,信信息库,思想
14、想库,智囊库库”的作用,直直接向党政领领导、社会各各界提供“快、精、准准”的信息服务务的需要出发发,采用当今今数据库领域域成熟稳定的的数据仓库、决决策分析等技技术,在高效效的网络平台台上为全省信信息工程建设设提供一个“决策数据管管理与分析中中心”的基本解决决方案。1、 系统采用多层体体系结构,建建立一个良好好开放性的数数据仓库系统统环境,适应应不断增加和和变化的业务务需求。多层层体系结构通通过引入中间间层组件,扩大了传统统的客户/服服务器和两层层计算模式。多多层结构可由由以下三类分分层来定义:前端的客户户层,负责提提供可移植的的表达逻辑;中间的应用层层,允许用户户通过将其与与实际应用隔隔离而共
15、享和和控制业务逻逻辑;后端的数据据管理与服务务层,提供对专门门服务(例如数据库库服务器)的访问。多多层结构与传传统的客户/服务器结构构的区别在于于:在传统的客客户/服务器器两层结构中中,用户将实实际的业务逻逻辑放置到客客户端(作为为对表达逻辑辑的增补)或或放置到后端端数据库(作作为数据逻辑辑的一部分包包含在存储过过程中)。而而在多层结构构中,用户将将业务逻辑放放到中间层上上。这种模块块化方法明确确地划分了表表达逻辑、业业务逻辑和数数据存储。多多层结构通过过将应用逻辑辑集中到中间间层,开发者者可以迅速更更新业务逻辑辑,而无需重重新将应用递递交到成千上上万的桌面系系统上。提高高数据库的性性能、改善
16、系统的开开放性、可扩扩展性和数据据的安全性,并并降低管理的复复杂性。2、 结构化、层次化化、模块化。采采用面向对象象技术,使系系统高度结构构化、模块化化、层次化,整整个系统由接接口定义良好好的多个模块块组成,每个个模块都有详详细的功能说说明和设计文文稿,每个模模块完成相对对独立的功能能,模块之间间的接口定义义规范,使模模块功能的变变化相对独立立,不影响整整个系统的功功能和结构,便便于系统升级级,维护。3、 具有良好的平台台移植性。选选用支持多种种操作平台的的数据库服务务器、应用服服务器、WEEB服务器等等服务器软件件系统,选用用具有良好平平台移植性的的B/S和CC/S模式下下的开发语言言开发应
17、用程程序和应用中中间件,提高高应用系统的的平台移植性性;4、 统一性和多样性性相结合。面面向用户的各各个应用系统统,尽量保持持统一风格以以适应用户的的操作习惯,但但各个系统根根据内容具有有各自的特色色,整个系统统和谐统一,清清新明了。5、 自主开发和利用用现有工具相相结合。尽量量利用各成熟熟的数据仓库库系统软件(工工具)为数据据仓库这个具具有特殊性的的项目服务,针针对具有特殊殊性的需求,开开发特定的系系统软件,缩缩短数据仓库库开发周期,降降低开发成本本,保证系统统正常开发。6、 安全性的考虑。系系统安全和数数据安全是一一个网络应用用系统应该首首先考虑的问问题,数据仓仓库系统的设设计要从网络络安
18、全、系统统安全、数据据安全等各个个方面充分考考虑,保障系系统安全稳定定。7、 分散与集中相结结合。数据仓仓库系统是一一个非常庞大大的系统,所所有数据集中中存储,但局局各处室能分分别维护本处处室数据,数数据仓库根据据需要能对系系统管理分别别设置权限,不不同用户维护护不同数据。8、 稳定优先,注重重效率。数据据仓库的海量量数据存储和和高效查询是是一对矛盾,在在当今硬件技技术不断发展展和成本不断断降低的形式式下,我们优优先考虑系统统效率,但是是在系统稳定定性和效率不不可兼顾时,以以系统稳定优优先。例如如在数据仓库库设计方面,我我们通过逆规规范化(引进进适当冗余)来来提高系统查查询效率。9、 以最简单
19、的方式式实现复杂的的功能。为提提高系统的稳稳定性和可读读性,可维护护性,尽量采采用简洁易懂懂的方式实现现系统功能,不不追求复杂、深深奥的算法。2.2 系统结构2.2.1 子系统划分整个系统按功能能分为四大系系统,各系统统分别为:1. 数据库系统 中间数据库 数据仓库2. ETL系统 指标数据抽取子子系统 指标数据加载子子系统3. 系统管理系统 ETL管理管理理子系统 数据仓库管理子子系统元数据管理子系系统4. 数据展现系统 应用服务器子系系统 WEB服务器子子系统 OLAP多维分分析决策支持分析子系统 数据挖掘子系统统图形展示子系统统报表处理子系统统数据导出子系统统2.2.2 逻辑结构2.2.
20、3 层次结构整个系统在逻辑辑上分为三层层:原始数据据层,中间逻逻辑层(业务务逻辑层、WWEB服务层层、安全服务务层),应用用层。原始数据层:以以统一规范的的方式存储数数据;中间逻辑层:解解析应用层的的业务逻辑,使使应用层和原原始数据相互互独立,提高高应用层系统统(程序)的的可扩展性、可可移植性;应用层:面向最最终用户,提提供友好、简简洁、方便的的用户界面,具具有良好的业业务无关性。2.2.4 网络拓扑结构我们根据以下列列出的几点,确确定硬件系统统结构:1. 系统已经拥有比比较完备的内内部网络系统统,此系统是是全国系统的的专用网络。2. 省政府数据仓库库系统的数据据、信息既能能够在系统的的网络内
21、最大大限度的实现现数据共享,又又能将可以对对公众发布的的信息分不同同的级别向外外界发布。3. 尽可能在网络设设计上考虑防防止黑客攻击击、病毒传播播等破坏数据据的手段和方方式。4. 尽可能利用现有有网络系统,包包括系统专有有网,公共IInternnet网,政政府办公局域域网等。我们设计了一个个在物理上可可以随时隔离离或连接、由由两大部分组组成的网络系系统结构,如如下图所示:说明:1、 出于网络安全的的原因,将整整个网络分为为内部网络和和外部网络两两部分。2、 内部网络与外部部网络的系统统机构基本相相同。外部网网络基本上用用在对外发布布,不包括保保密信息。3、 外部网络需要的的发布数据从从内部网络
22、中中通过ETLL工具获得,存存放在外部网网络的数据仓仓库中。4、 外部网络经过防防火墙、路由由器与Intternett相连。5、 为保证数据安全全,只在外部部网络从内部部网络抽取数数据时,两者者才是连通的的(且要经过过防火墙),其其余时间两个个网络物理隔隔离。6、 工作站分别为各各个处室的个个人PC机,也也可以是单独独的工作站,功功能为向ETTL服务器提提供仓库所需需数据及通过过浏览器访问问数据仓库数数据信息。7、 ETL工具定期期从各个处室室的数据库系系统抽取数据据,且ETLL服务器兼中中间数据库服服务器,抽取取的数据暂时时保存在ETTL服务器上上,在导入数数据仓库之前前容许修改。8、 考虑
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 总体 设计 报告 44531
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内