基于数据仓库的决策支持系统的设计与实现.pdf
《基于数据仓库的决策支持系统的设计与实现.pdf》由会员分享,可在线阅读,更多相关《基于数据仓库的决策支持系统的设计与实现.pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第2 9 卷第2 0 期计算机工程与设计2 0 0 8 年l o 月V 0 1 2 9N o 2 0C o m p u t e rE n g i n e e r i n ga n dD e s i g nO c t 2 0 0 8基于数据仓库的决策支持系统的设计与实现陈俊,王毙声(中国航天工程咨询中心,北京1 0 0 0 3 7)摘要:在大型企业中,随着财务信息化建设的发展,积累了大量的财务数据讨论了如何利用这些数据快速而正确地支持决策在对数据仓库技术和决策支持系统研究的基础上,提出并实现了一种基于数据仓库技术的决策支持系统(D S S),内容包括系统体系结构、数据仓库模型,联机分析处理(O
2、U 心)策略以及基于门户技术的个性化展示方式,并对系统的关键技术进行了阐述该系统实现了将企业所掌握的数据转换为信息,进而转换成知识,提高企业决策能力,决策效率、决策准确性关键词:决策支持系统;数据仓库;数据挖掘;联机处理分析;门户中图法分类号:T P 3 9 2文献标识码:A文章编号:1 0 0 0 7 0 2 4(2 0 0 s)2 0-5 2 8 0 0 4D e s i g na n dr e a l i z a t i o no fd e c i s i o ns u p p o r ts y s t e mb a s e do nd a t aw a r e h o u s eC H
3、 E NJ t m,艮蝌GK u n-s h e n g(C h i n aA e r o s p a c eE n g i n e e r i n gC o n s u l t a t i o nC e n t e r,B e i j i n g1 0 0 0 3 7,C h i n a)A b s t r a c t:W i t ht h ed e v e l o p m e n to ff m a n c i a li n f o r m a t i z a t i o n,l a r g ec o m p a n yh a sa c c u m u l a t e dm o r et
4、h a nt e nm i l l i o n sf i n a n c i a li t e m s H o wt om a k ec o r r e c ta n df a s td e c i s i o nb yu s i n gt h e s ei t e m s T h es o l u t i o nf o rf i n a n c i a lm a n a g e m e n tD S Sb a s e d0 1 1D Wt e c h n o l o g i e si sp r e s e n t e da n dr e a l i z e d,w h i c hi n c
5、l u d e st h ea n a l y s i so fs y s t e ma r c h i t e c t u r e,D Wd a t am o d e l,0 U 峨p e r s o n a ld i s p l a yb a s e d P o r t a l,a n dk e yp o i n t si ns y s t e mi m p l e m e n t a t i o n T h i ss y s t e mr e a l i z e dt h ep r o g r e s st h a tc h a n g i n gd a t at oi n f o r
6、m a t i o n,t h e nt ok n o w l e d g e,w h i c hh e l pt h ec o m p a n yt oi m p r o v et h ec a p a b i l i t y,e f f i c i e n c ya n dc o n c t l l e s si nD S S K e yw o r d s:D S S;d a t aw a r e h o u s e;d a t am i n i n g;O L A P;p o r t a l0 引言随着业务的扩展和时间的推移,企业的财务数据正在以成倍的速度增长,传统数据库已无法支撑D S
7、 S 对数据的分析功能。这是因为:财务数据除了物理存储地点上的差异外,还可能在数据格式上有所不同。传统的数据库系统难以实现集成这些来自不同数据源的数据,从各个部门和财务模块抽取的数据缺乏统一的标准,原始数据格式不一致,且存在着大量的冗余数据:D S S 的关键是对历史数据进行分析以辅助决策,而传统数据库是面向日常操作和事物处理的,对快速响应要求较高,但查询和分析能力较弱川;D S S 的建立需要对数据、模型、知识和接口进行集成,但传统数据库语言数值计算能力差,因而采用数据库技术建立的决策支持系统,知识表达和知识综合能力比较薄弱,难以满足财务管理日益提高的决策需求。决策支持系统以集成数据为基础,
8、然而现实中的数据往往分散管理且大多数分布于异构数据平台,数据不易集成,模型库所提供的分析能力有限。它所提供的模型独立于环境之外,决策者和模型交互很少,不符合决策要求。数据仓库以及基于此技术的商业智能为决策支持系统提供了新的手段,有效弥补了传统D S S 的不足。数据仓库的创始人W H I n m o n 对数据仓库概念的定义是:数据仓库是面向主题的、集成的、稳定的(不可更新)、随时间变化(不同时间)的数据集合,它用于支持经营管理中的决策制定过程。数据仓库作为一个集成了许多数据源的中央数据库系统,从许多不同的联机事务处理数据源收集和提取数据,并通过一系列汇总计算将数据组织成易于分析的形式,从而为
9、企业提供了一个信息集成平台。l 系统整体架构近年来,国际上许多大型企业集团已经纷纷建立自己的财务数据中心,为科学决策奠定了基础并取得了显著的效果。数据仓库系统是具有综合企业数据,能够对大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统脚。该文提出的基于数据仓库的财务决策支持系统,是在传统决策支持系统的基础上,通过构建企业财务数据仓库,结合联机分析处理等形成的。该系统为企业的财务动态分析、预测和监控提供了更好的决策支持。系统的框架图如图1 所示。收稿日期:2 0 0 7-1 0-1 2E-m a i hj a m i e _ s x :1 6 3 c o r n作者简介:陈俊(1 9
10、8 2 一),男,湖北随州人,硕士研究生,研究方向为决策支持系统、数据仓库;王毫声(1 9 一),男,黑龙江齐齐哈尔人,硕士,研究员,研究方向为系统工程、计算机技术-5 2 8 0-万方数据图1 系统框架图1 中主要有5 部分:第1 部分包括不同的数据来源;第2 部分是数据抽取、转换和加载的过程,该过程完成从多个数据源抽取数据,并对数据进行转换、规约,然后将整理好的数据加载到数据仓库;第3 部分是企业级数据仓库,为了更好地进行决策支持分析,数据仓库中的数据可进行二次抽取,加载到面向分析主题的数据集市脚;第4 部分是联机分析处理和数据挖掘,实现对数据多维度,多层次的分析和隐性知识的发掘;第5 部
11、分是门户系统,将分析结果内容进行组合,针对不同用户展现不同的定制内容。2 数据仓库系统需求分析需求分析是数据仓库设计中很重要的一个阶段,好的需求分析会使数据仓库创建成功的机率大大增加脚。在一个企业中,大单位、大项目,大资金往往是决策者关注的问题,财务决策支持系统应当能够对重大财务风险事项预警、跟踪;能够监控大额投资融资、借贷担保抵押、财务公司运作状况等M,防止出现重大风险事件,把财务风险控制在可承受的范围内;能够对金融性投资、存款、往来款、银行账户嗍等情况进行监督,发现存在的问题,及时预警;需要为决策者提供各项主要的财务指标,并能够根据决策者的意愿进行指标的定制,为财务决策提供依据。根据以上分
12、析,确定数据仓库系统围绕单位、项目、资金、时间展开分析。3 数据仓库模型的设计3 1 主题的确定数据仓库设计首先应明确其主题,主题是一个在较高层次将数据归类的标准嘲,每一个主题对应一个宏观的分析领域,针对具体决策需求可细化为多个主题表,具体来说就是确定决策涉及的范围和所要解决的问题。但是主题的确定必须建立在现有联机事务处理(O L T P)系统基础上,否则按此主题设计的数据仓库存储结构将成为一个空壳,缺少可存储的数据。但一味注重O L T P 数据信息,也将导致迷失数据提取方向,偏离主题。为此,在模型设计过程中,需要在O L T P 数据和主题之间找到一个“平衡点”,根据主题的需要完整地收集数
13、据,这样构建的数据仓库才能满足决策和分析的需要。根据财务需求分析,决策者主要是需要面向大单位、大项目、大资金的财务分析,通过分析这些财务数据,对企业的下一步经营决策进行调整。3 2 维度及其级别的选择维度是人们观察客观世界的维度,它一般包含着层次关系,这种层次关系有时会相当复杂忉。通过把一个实体的多项重要属性定义为多个维度,可以使用户能够对不同维度上的数据进行分析比较。与维度相关联的事实,也称为度量,是数据仓库中的信息单元,可以将其看成是多维空间中多个维交叉点上的值。从系统需求分析和确定的主题可以确定需要的维度:单位维度、项目维度、时间维度和指标维度。通过对主题和维度的分析,确定数据仓库框架选
14、用星型结构,结构如图2 所示。一图2 星型结构层次结构是使用有序层次作为组织数据的逻辑结构,层次结构可以用来定义数据聚集“。例如,在时间维中,层次结构能够聚集从m o n t h 层到q u a r t e r 层到y e a r 层的数据。一个层次结构可以用来定义导航切片路径,建立一组结构。级别是维度层次结构的一个元素。级别述了数据的层次结构,从数据的最高(汇总程度最大)级别直到最低(最详细)级别。级别仅存在于维度内。级别基于维度表中的列或维度中的成员属性。级别在维度内定义,以指定维度层次结构的内容和结构,即级别的定义确定层次结构中包含的成员及它们在层次结构中的相互位置。例如,“时间”维度包
15、含级别“年”、“季度”、和“月”。“时间”维度的级别和成员之间的关系如图3 所示。向上聚集回矩向下蕞季度月第一季度第三季度1 月J 1 2 月1 1 3 月I|4 月1 1 5 月1 1 6 月Jr 7 月I I s 月1 1 9 月|1 1 0 月I I l l 月J l l 2图3。时间”维度同样的分析方法,将“单位”维度进行级别划分,现实中的单位之间存在“父子关系”,其级别和成员之间的关系如图4 所示。对于“项目”和“指标”维度,层次结构的组织同“单位”维一5 2 8 l 一万方数据向上聚集图4 啤位”维度度,亦具有“父子关系”。在使用父子维度时,区分层次结构中的级别对象和级别很重要。父
16、子维度始终只包含一个级别对象,而维度的层次结构通常包含多个级别。对于父子维度,从维表中选择两列。一列用来标识维度的成员,一列用来表识成员的父代。这两列为表中的每一行表识一个父子链接。所有的链接结合起来确定维度的层次结构。3,3 数据仓库物理设计在完成数据仓库的模型设计和维度设计后,然后建立数据仓库的物理结构,其维度表和事实表的结构关系如图5 所5 2 8 2-生垒:!l L 量堕型丛曼曼垦三E 坚三F KB A S E _ Q U A _ N E F E R E N C E _ B A S E _ Y E A季垩廑麴量型型坚竖!墨二E 塾年编号N U M B E R F K _ B A S E
17、 _ M O N R E F E R。E N C E _ B A S E _ Q U A旦堡绩曼丛!型堡!曼三E 2年编号N U M B E R季度编号N U M B E R 示。该图以财务事实表为核心,结合“时间”、“项目”、“单位”、“指标”4 个具有层次结构的维度,实现了对基本数据的存储和预处理,为多维数据分析处理奠定了基础。4 联机分析处理(O L A P)联机分析处理是指对共享的多维信息的快速分析,是以总计管理作为基础、以报表为基本骨干、以多维方阵、决策控制为组织形式的“】。4 1 构建多维数据集数据的多维分析是决策支持的支柱,也是O L A P 的核心在数据仓库中经常要进行复杂查询
18、因此数据仓库立方体的有效计算已成为影响数据仓库性能的重要因素埘。为了保证数据立方体的有效计算,可以采用的策略有:数据的聚集、数据压缩并进行近似查询、合理选择立方体的存储格式等州。数据仓库模型基于事实表及维表,创建多维分析的超立方体模型,如图6 所示,使得用户能够方便的进行多维度的查询。F KB A S ED A Y1 E F E R E N C EB A S EM O N一芒兰五三j1 日编号D A T Ep k 11 月度编号N U M B E R lI 季度编号N U M B E R1 年度编号N U M B E RF KD A T AD A Y一级单位整丝塑呈型望坚旦!墨单位简称是甭育F
19、 级-二级单位皇!垡!l L 曼塑型坚!垦三l!芝单位简称V A R C H A R 2是否有下级一级单位编号一单位编号p k l单位简称是否有F 级l二级单位编号 I一级单位编号1 一C一一一厂二_ 二丙瓢一塑U 编呈E k:f k p单付编号N,n c 2 同编号,f k 3 指枷、编号N,指标值DP R E c I S I o N指标差额值P R E c I s I o N数据标记N U M B E RBB A s EP R 0F 畔A T A-D A Y-R E F E R E N c E-B A s E-T A R三级项目项目编号p k 项简称V是否有下级N U二级项目编号日p级项目
20、编弓N U一二级项目塑旦篓呈塑型丛曼E 垦三E 坠项目简称()是否育下级N U M B E R一级项U 编号M r MF KBQ 刁盎百一级项目垄l i 绩呈堕望竺璺!垦毛E 坠项目简称是否有下级塑堡堡呈业指标名称(是青有下级二级指标编号c n p一级指标编号_级指标塑堡塑呈型型坚!垦!指杯名称是否有下级一级指标编号三竺一堂塑堕!塑型坚!垦业指杯名称是否有F 级图数据仓库事实表与维表及其之间的关系位位位圃啡一一向下钻取万方数据-循林耀时I知一图6 超立方体维基于多维数据集的O L A P 有钻取(r o l l 叩和d r i l l 曲帅)、切片和切块、以及旋转等基本多维分析操作,帮助用户从
21、多角度,多层面观察数据仓库中的数据,深入了解隐藏在数据后面的规律和趋势,从而有效地辅助决策。钻取是改变维的层次,变换分析的粒度。它包括向上钻取和向下钻取。r o l lu p 是在某一维上将低层次的细节数据概括到高层次的汇总数据;而d r i l ld o 啪则相反,它从汇总数据深入到细节数据进行观察。切片和切块是在一部分维度上选定值后,关心度量数据在剩余维度上的分布。如果剩余的维度只有两个,则是切片,否则是切块。旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。4 2 两种O L A P 的比较根据多维数据存储的位置,O L A P 一般分为M O L A P(m u l t
22、i d i m e n s i o n a l0 L A P)和R O L A P(r e l a t i o n a lO L A P)两种,此外,还有混合的H O L A P(h y b r i dO U 心)。4 2 1R O 乙”的特点数据结构和组织模式需要预先设计和建立;数据查询需要进行表连接,在查询性能测试中往往是影响速度的关键;数据汇总查询(例如查询某个单位的所有产品销售额),需要进行G r o u p b y 操作,虽然实际得出的数据量很少,但查询时间变得更长;为了改善数据汇总查询的性能,可以建立汇总表,但汇总表的数量与用户分析的角度数目和每个角度的层次数目密切相关。可以采取对
23、常用汇总数据建立汇总表,对不常用的汇总数据进行G r o u pb y 操作,这样来取得性能和管理复杂度之间的均衡。4 2 2M O b”的特点需要预先定义概要文件;数据查询采用索引搜索与直接寻址的方式相结合,不需要进行表连接,在查询性能测试中比起R O L A P 有相当大的优势;在进行数据汇总查询之前,M O L-A P 需要预先按概要文件中定义的数据汇总关系进行计算,这个计算通常以批处理方式运行。计算结果回存在数据文件中,当用户查询时,直接调用计算结果,速度非常快。无论是数据汇总还是计算衍生数据,预先计算的方式实际上是用空间来换时间。当然,用户也可以选择动态计算的方式,用查询时间来换取存
24、储空间。M O L A P 可以灵活调整时空的取舍平衡。用户难以使用概要文件中没有定义的数据汇总关系和衍生指标。在大数据量环境下,关系型数据库可以达到T B 级的数据量,现有的M O L A P 应用局限于基于文件系统的处理和查询方式,其性能会在1 0 0G B 级别开始下降,需要进行数据分区处理,因此扩展性不如R O L A P。因此,M O L A P 多数用于部门级的主题分析应用。综上所述,无论R O L A P 还是M O L A P,都能够实现联机分析处理的基本功能,两者在查询效率,存储空间和扩展性方面各有千秋。根据前面数据库模型的设计和数据库表的设计,确定选用R O L A P。5
25、 企业门户实现对O L A P 结果的个性化展现数据仓库的建设及其O L A P 完成了对数据的分析处理,如何将这些结果整理以便更好的展现给决策者。下面来介绍门户技术在辅助决策中的作用。门户技术是现今较为成熟的内容整合框架。内容整合是指将已有的信息集合起来,按一定的逻辑关系对这些信息进行统一的规划和组织,实现信息的有效共享,并且根据用户的行为习惯,优化用户访问信息资源的模式,为用户提供个性化,条理化的服务,为后续的信息和管理提供规范,从而实现信息的增值利用附“。通过企业门户,决策者在很短的时间内获得大量的重要信息和经验,然后可以把更多的时间用于决策。在组织决策过程中,针对特定的问题和机会,决策
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据仓库 决策 支持系统 设计 实现
限制150内