《第6章: 综合决策支持系统(1).ppt》由会员分享,可在线阅读,更多相关《第6章: 综合决策支持系统(1).ppt(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第6 6章章 综合决策支持系统综合决策支持系统(1 1)6.1 6.1 基于模型库与知识库的基于模型库与知识库的 传统决策支持系统传统决策支持系统 6.2 6.2 基于数据仓库的基于数据仓库的 新决策支持系统新决策支持系统第(第(1 1)部分)部分 6.1.1 6.1.1 传统决策支持系统传统决策支持系统1 1、19801980年年SpragueSprague提出了决策支持系统三部件结构;提出了决策支持系统三部件结构;2 2、19811981年年BonczakBonczak等提出了决策支持系统三系统结构;等提出了决策支持系统三系统结构;3 3、根据以上两种结构的优缺点建立起来的统一的、根据以
2、上两种结构的优缺点建立起来的统一的DSSDSS结构;结构;4 4、2020世纪世纪9090年代初,决策支持系统与专家系统结合起来,年代初,决策支持系统与专家系统结合起来,形成了智能决策支持系统(形成了智能决策支持系统(IDSSIDSS)。)。6.1 6.1 基于模型库基于模型库与知识库的传统决策支持系统与知识库的传统决策支持系统1 1、19801980年年SpragueSprague提出了决策支持系统三部件结构提出了决策支持系统三部件结构:用户用户人机交互系统人机交互系统模型库管理系统模型库管理系统MBMS数据库管理系统数据库管理系统DBMS模型库模型库MB数据库数据库DB2 2、198119
3、81年年BonczakBonczak等提出了决策支持系统三系统结构等提出了决策支持系统三系统结构:用户用户语言系统语言系统(LS)问题处理系统问题处理系统(PPS)知识系统知识系统(KS)3 3、根据以上两种结构的优缺点建立起来的统一的、根据以上两种结构的优缺点建立起来的统一的DSSDSS结构结构:人机交互及问题综合系统人机交互及问题综合系统(综合部件)(综合部件)模型库管理系统模型库管理系统数据库管理系统数据库管理系统模型库模型库数据库数据库 用户用户 问题综合与交互系统 模型库管理系统 数据库管理系统 知识库 管理系统 推理机用户 模型库 知识库 数据库4 4、2020世世纪纪9090年年
4、代代初初,决决策策支支持持系系统统与与专专家家系系统统结合起来,形成了智能决策支持系统(结合起来,形成了智能决策支持系统(IDSSIDSS):6.1.2 6.1.2 传统决策支持系统的进展传统决策支持系统的进展 1 1、大连理工大学、山西省自动化所和国际应用系大连理工大学、山西省自动化所和国际应用系统分析研究所(统分析研究所(IIASAIIASA)合作完成了山西省整体发展规合作完成了山西省整体发展规划决策支持系统。划决策支持系统。2 2、国防科技大学完成的北京市房山区发展规划决国防科技大学完成的北京市房山区发展规划决策支持系统。策支持系统。3 3、我国早期创办的决策与决策支持系统刊物,我国早期
5、创办的决策与决策支持系统刊物,现为管理科学学报现为管理科学学报,为决策支持系统的发展作出了为决策支持系统的发展作出了贡献。贡献。4 4、作者于作者于19891989年在国内较早地研制完成了年在国内较早地研制完成了“决策支持系统开发工具决策支持系统开发工具GFKDGFKDDSSDSS”。作者用作者用GFKDGFKDDSSDSS工具开发了南京林业大学的工具开发了南京林业大学的“松毛虫智能预测系统松毛虫智能预测系统”。5 5、中国科学院计算技术研究所中国科学院计算技术研究所19961996年完成的年完成的“智能决策系统开发平台智能决策系统开发平台IDSDPIDSDP”。6 6、作者于作者于19951
6、995年完成的年完成的“分布式多媒体智能分布式多媒体智能决策支持系统平台决策支持系统平台DMDMIDSSPIDSSP”。7 7、作者于作者于19991999年研制出年研制出“基于客户机基于客户机/服务器的服务器的决策支持系统快速开发平台决策支持系统快速开发平台CSCSDSSPDSSP”,平台在互联平台在互联网上由客户端、广义模型服务器、数据库服务器三部网上由客户端、广义模型服务器、数据库服务器三部分组成,构成三层客户机分组成,构成三层客户机/服务器结构模式。服务器结构模式。CS CSDSSPDSSP平台的可视化系统生成工具平台的可视化系统生成工具能够快速地能够快速地制作应用系统制作应用系统并并
7、能够可视化运行应用系统能够可视化运行应用系统,又可以,又可以快快速改变应用系统方案速改变应用系统方案。6.1.3 6.1.3 传统决策支持传统决策支持系统的关键技术和开发困难系统的关键技术和开发困难DSSDSS的关键技术:的关键技术:(1 1)模型库系统的设计和实现。)模型库系统的设计和实现。(2 2)部件接口。部件接口包括对数据部件的数据)部件接口。部件接口包括对数据部件的数据的存取,对模型部件的模型的调用和运行,以及对知的存取,对模型部件的模型的调用和运行,以及对知识部件的知识完成推理。识部件的知识完成推理。(3 3)系统综合集成。通过集成语言完成对各部件)系统综合集成。通过集成语言完成对
8、各部件的有机综合,形成一个完整的系统。的有机综合,形成一个完整的系统。DSSDSS的开发困难:的开发困难:(1 1)模型库系统没有统一的理论和产品,研制者)模型库系统没有统一的理论和产品,研制者需要自己设计和开发。需要自己设计和开发。(2 2)DSSDSS综合部件对数据、模型、知识综合部件对数据、模型、知识3 3个部件进个部件进行有机集成。现已开发出来的决策支持系统行有机集成。现已开发出来的决策支持系统都是自行都是自行设计和实现模型库系统、自己研制实现模型、知识、设计和实现模型库系统、自己研制实现模型、知识、数据集成的综合语言。数据集成的综合语言。6.2基于数据仓库的新决策支持系统基于数据仓库
9、的新决策支持系统6.2.1新决策支持系统与商业智能新决策支持系统与商业智能6.2.2数据仓库的关键技术数据仓库的关键技术6.2.3 数据仓库开发的困难数据仓库开发的困难6.2.1新决策支持系统与商业智能新决策支持系统与商业智能 6.2.1.1 数据仓库的用户数据仓库的用户 6.2.1.2 商业智能商业智能 数据仓库用户数据仓库用户有两类:有两类:1.1.一一般般用用户户(信信息息的的使使用用者者),他他们们是是数数据据仓仓库库的的大大多多数数用户,他们从数据仓库中获取所需要的信息;用户,他们从数据仓库中获取所需要的信息;2.2.决决策策支支持持系系统统用用户户(探探索索者者),他他们们利利用用
10、联联机机分分析析处处理理(OLAPOLAP)和和数数据据挖挖掘掘(DMDM)工工具具对对数数据据仓仓库库进进行行深深层层次次的的分分析析,获取辅助决策信息,即获取辅助决策信息,即利用数据仓库建立决策支持系统。利用数据仓库建立决策支持系统。6.2.1.1 6.2.1.1 数据仓库的用户数据仓库的用户 信信息息使使用用者者以以一一种种可可预预测测的的、重重复复性性的的方方式式来来使使用用数数据据仓仓库库平平台台。信信息息使使用用者者完完成成查查询询时时,他他们们找找到到的的只只是是少少量量“精精华华”。他他们们查查看看相相对对少少量量的的数数据据,并并通通常常查查看看概概括括数数据据或或聚集数据。
11、聚集数据。信信息息使使用用者者通通常常查查看看相相同同的的商商业业维维度度(也也就就是是产产品品、客客户、时间)和指标(即收入和成本)随时间的发展趋势。户、时间)和指标(即收入和成本)随时间的发展趋势。1.1.数据仓库系统的一般用户数据仓库系统的一般用户信息使用者的特征信息使用者的特征 (1 1)在搜索数据前,已经知道对数据的需求。在搜索数据前,已经知道对数据的需求。(2 2)他们是有规律地访问数据。他们是有规律地访问数据。(3 3)能知道他们正在寻找什么。能知道他们正在寻找什么。(4 4)他们访问的数据量较小。他们访问的数据量较小。(5 5)访问可预测的数据。访问可预测的数据。(6 6)经常
12、处理以前访问的数据。经常处理以前访问的数据。(7 7)经常访问各类综合数据。经常访问各类综合数据。(8 8)较少访问最近的详细数据。较少访问最近的详细数据。(9 9)能发现少量的精华。能发现少量的精华。(1010)最佳的数据结构是星型模型。最佳的数据结构是星型模型。利利用用数数据据仓仓库库建建立立的的新新决决策策支支持持系系统统,是是在在数数据据仓仓库库基基础础上上利利用用联联机机分分析析处处理理(OLAPOLAP)和和数数据据挖挖掘掘(DMDM)来挖掘辅助决策信息。来挖掘辅助决策信息。决策支持系统的用户是决策支持系统的用户是探索者探索者。探探索索者者并并不不知知道道什什么么是是他他们们所所需
13、需要要的的。“当当我我看看见它的时候,我就会知道我需要的是什么见它的时候,我就会知道我需要的是什么”探探索索者者的的一一项项任任务务就就是是根根据据过过去去的的成成功功和和失失败败来来尽力确定未来处理商务的更好方法。尽力确定未来处理商务的更好方法。例例如如,过过去去哪哪些些商商品品促促销销的的不不错错?其其中中,偏偏爱爱这这类商品的客户特征是什么?类商品的客户特征是什么?2.2.决策支持系统的用户决策支持系统的用户探索者探索者4种基本工作种基本工作(1)概况分析:)概况分析:概况分析用来评定是否有充分的概况分析用来评定是否有充分的样本数据量。在抽取、建模和分类之前,概况分样本数据量。在抽取、建
14、模和分类之前,概况分析活动对于确保数据质量非常关键。析活动对于确保数据质量非常关键。(2)抽取:)抽取:数据抽取的任务就是从数据仓库中抽数据抽取的任务就是从数据仓库中抽取指定的数据,送入用来支持探索者分析活动的取指定的数据,送入用来支持探索者分析活动的临时仓库中。临时仓库中。(3)建模:)建模:建模是开发一种用来描述实体(也建模是开发一种用来描述实体(也就是客户、产品和渠道)特征的模型的过程,就是客户、产品和渠道)特征的模型的过程,根据数据仓库中的实体来分类这些实体,并可根据数据仓库中的实体来分类这些实体,并可预测将来的结果。预测将来的结果。探索者普遍使用的模型应包括客户分段、探索者普遍使用的
15、模型应包括客户分段、后续产品、欺诈检测、渠道响应、客户生存期后续产品、欺诈检测、渠道响应、客户生存期价值和推销响应。价值和推销响应。(4)分类:)分类:探索者依据这些实体与这个模型的探索者依据这些实体与这个模型的匹配来分类数据仓库中的其他实体。匹配来分类数据仓库中的其他实体。探探索索者者帮帮助助指指导导战战略略的的处处理理商商务务,而而信信息息使使用用者者是是从从战术上监控这些决策的效果。战术上监控这些决策的效果。例例如如,根根据据信信息息使使用用者者的的报报告告,公公司司正正在在流流失失更更多多的的顾顾客客。探探索索者者开开始始调调查查以以揭揭示示为为什什么么公公司司正正在在失失去去这这么么
16、多多客户。客户。探索者探索者将和业务组一起制定保留高价值客户的战略。将和业务组一起制定保留高价值客户的战略。信信息息使使用用者者则则需需要要连连续续观观察察客客户户保保留留量量,并并报报告告执执行行这这些战略的效果和它们与所期望的程度相差多少。些战略的效果和它们与所期望的程度相差多少。3.3.信息使用者和探索者的关系信息使用者和探索者的关系 商商业业智智能能(business business intelligenceintelligence,BIBI)概概念念最最早早是是GartherGarther于于19961996年年提提出出的的。商商业业智智能能以以数数据据仓仓库库为为基基础础,通通过
17、过联联机机分分析析处处理理和和数数据据挖挖掘掘技技术术帮帮助助企企业业领领导导者者针针对对市市场场变变化化的的环境,作出快速、准确的决策。环境,作出快速、准确的决策。商商业业智智能能是是一一种种技技术术,新新决决策策支支持持系系统统是是解解决决实实际际决决策策问问题题的的一一个个系系统统。新新决决策策支支持持系系统统是是利利用用商商业业智智能能技技术术来来解解决决实实际决策问题的系统。际决策问题的系统。商商业业智智能能所所体体现现的的智智能能行行为为在在于于,能能够够解解决决市市场场环环境境中中随随机变化的决策问题。机变化的决策问题。6.2.1.2 6.2.1.2 商业智能商业智能 商业智能的
18、决策支持表现为以下几方面。商业智能的决策支持表现为以下几方面。1 1、商业智能的数据分析、商业智能的数据分析(1 1)联机分析处理的多维数据分析)联机分析处理的多维数据分析 对对多多维维数数据据进进行行切切片片、切切块块、钻钻取取、旋旋转转等等操操作作来来完完成成多多维数据的分析。维数据的分析。(2 2)what-ifwhat-if分析(假设分析)分析(假设分析)what-if what-if分析为决策者提供多种参考依据,提高决策效果。分析为决策者提供多种参考依据,提高决策效果。(3 3)建立客户购买商品的偏爱和选择模型)建立客户购买商品的偏爱和选择模型 通通过过模模型型找找出出客客户户偏偏爱
19、爱和和选选择择商商品品的的关关系系,扩扩大大公公司司在在市市场中的竞争能力。场中的竞争能力。2 2、业务智能管理、业务智能管理(1 1)客户智能)客户智能 客客户户智智能能是是提提供供全全方方位位的的客客户户信信息息查查询询、分分析析和和监监控控的的系统。系统。(2 2)营销智能)营销智能 通通过过分分析析、报报告告、管管理理和和监监控控营营销销信信息息来来帮帮助助企企业业的的高高级执行官、营销专家和分析人员制定战略性的营销策略。级执行官、营销专家和分析人员制定战略性的营销策略。(3 3)销售智能)销售智能 提提供供全全面面的的销销售售团团队队分分析析、销销售售业业绩绩分分析析、根根源源分分析
20、析和和业业绩绩管管理理来来帮帮助助企企业业领领导导者者制制定定销销售售策策略略及及对对销销售售业业务务快快速速作出市场反应。作出市场反应。(4 4)服务智能)服务智能 提提供供强强大大的的服服务务智智能能分分析析(服服务务请请求求状状态态分分析析、服服务务请请求求解解决决方方案案分分析析、代代理理商商/分分析析人人员员效效率率分分析析等等)和和个个性性化化服服务务来来分分析析与与服服务务相相关关活活动动的的全全面面信信息息,监监控控服服务务质质量量。最最终终帮助企业制定更合理高效的服务策略。帮助企业制定更合理高效的服务策略。(5 5)采购智能)采购智能 提提供供一一些些工工具具,用用于于确确定
21、定哪哪些些供供应应商商一一直直在在及及时时提提供供质质优优价价廉廉的的产产品品和和服服务务。这这些些信信息息用用来来建建立立供供应应商商战战略略联联盟盟,改改善善供供应应商商关关系系,更更直直接接地地将将重重点点放放到到改改进进供供应应商商服服务务的的机机会上。会上。(6 6)流程管理智能)流程管理智能 为为流流程程制制造造商商提提供供产产品品、生生产产、存存货货和和成成本本信信息息以以解解决决流流程程制制造造业业中中的的特特定定问问题题,为为流流程程制制造造商商提提供供更更好好的的决决策策信信息和持续流程改善的建议。息和持续流程改善的建议。(7 7)财务智能)财务智能 提提供供一一种种易易于
22、于使使用用的的WebWeb格格式式的的财财务务盈盈利利状状况况分分析析报报表表、现现金金流流分分析析报报表表、现现金金状状况况分分析析报报表表、资资产产管管理理分分析析报报表表、项项目目分分析析报报表表等等,方方便便企企业业迅迅速速地地分分发发财财务务信信息息,从从而而使使财财务主管能更及时地作出更好的决策。务主管能更及时地作出更好的决策。数据仓库技术是围绕数据的装入和访问两个过程:数据仓库技术是围绕数据的装入和访问两个过程:(1 1)数据从大量数据库中集成、转换和装裁到数据仓库中去。)数据从大量数据库中集成、转换和装裁到数据仓库中去。(2 2)数据到了数据仓库后,将被访问和分析。)数据到了数
23、据仓库后,将被访问和分析。1 1、管理大量数据、管理大量数据 数数据据仓仓库库中中的的数数据据量量是是1010GBGB或或100100GBGB级级的的,数数据据仓仓库库开开发发需需要满足处理大量数据的需求。要满足处理大量数据的需求。2 2、数据的高效装入和数据压缩、数据的高效装入和数据压缩(1 1)装入数据:装入的数据量很大,同时也要装入)装入数据:装入的数据量很大,同时也要装入高效的高效的索引。索引。(2 2)数据压缩:)数据压缩:DWDW数据量大需要进行数据的压缩。数据量大需要进行数据的压缩。6.2.2 6.2.2 数据仓库的关键技术数据仓库的关键技术 3 3、存储介质的管理、存储介质的管
24、理 数数据据仓仓库库中中的的数数据据量量是是1010GBGB或或100100GBGB级级的的,数数据据仓仓库库开开发需要满足处理大量数据存储介质的需求。发需要满足处理大量数据存储介质的需求。存存储储介介质质 访问访问速度速度 存存储费储费用用主存主存 非常快非常快 非常非常贵贵扩扩展内存展内存 非常快非常快 贵贵高速高速缓缓存存 非常快非常快 贵贵磁磁盘盘 快快 适中适中光光盘盘 不慢不慢 不不贵贵微微缩缩胶片胶片 慢慢 便宜便宜 4 4、元数据管理、元数据管理 没没有有一一个个好好的的元元数数据据来来运运作作的的话话,DSSDSS分分析析员员的的工工作作就就非常困难。非常困难。5 5、数据仓
25、库语言、数据仓库语言 数数据据仓仓库库语语言言可可有有效效管管理理数数据据仓仓库库中中的的数数据据和和快快速速、高效地访问数据仓库中的数据。高效地访问数据仓库中的数据。6 6、高效索引、高效索引 数数据据仓仓库库不不仅仅能能够够方方便便地地支支持持新新索索引引的的创创建建和和装装入入,而且要能够高效地访问这些索引。而且要能够高效地访问这些索引。7、数据质量与数据清洗、数据质量与数据清洗数据质量是数据仓库的成功关键。数据质量是数据仓库的成功关键。数据质量包括数据的许多特征,其中有遵守企业数据质量包括数据的许多特征,其中有遵守企业规则的符合性、确认数值的合法性、完备性、规则的符合性、确认数值的合法
26、性、完备性、时间性以及完整性。时间性以及完整性。数据应该是易懂、不冲突和不冗余的。数据应该是易懂、不冲突和不冗余的。(1)数据质量表现形式)数据质量表现形式 字段中的虚假值。在输入数据时,有时会将字母字段中的虚假值。在输入数据时,有时会将字母“P”、“O”等,误改成数字等,误改成数字“9”和和“0”。数据值缺失。这在客户数据中经常出现。数据值缺失。这在客户数据中经常出现。不一致的值。不同的源系统代码表示不一致。如有的代码表不一致的值。不同的源系统代码表示不一致。如有的代码表示为示为A(Auto)、)、H(Home)、)、F(Flood);有的表);有的表示为示为AU、HO、FL等。等。违反常规
27、的不正确值。如一年工作的天数,加上假日、病假违反常规的不正确值。如一年工作的天数,加上假日、病假天数超过天数超过365天。天。一个字段有多种用途。一个字段同一数据在不同部门可能有一个字段有多种用途。一个字段同一数据在不同部门可能有不同的含义。不同的含义。标法不唯一。例如销售系统与库存系统的产品代码不一致。标法不唯一。例如销售系统与库存系统的产品代码不一致。这些错误数据被称为这些错误数据被称为“脏数据脏数据”。(2)数据被)数据被“脏数据脏数据”污染所产生的原因污染所产生的原因n系统转换系统转换。系统转换和迁移是数据污染的重要原因。查找。系统转换和迁移是数据污染的重要原因。查找数据污染需要了解每
28、一次源系统所经过的转换过程。数据污染需要了解每一次源系统所经过的转换过程。n数据老化数据老化。旧的值随着时间的变化会失去它的含义和意义,。旧的值随着时间的变化会失去它的含义和意义,逐渐形成数据污染。逐渐形成数据污染。n复杂的系统集成复杂的系统集成。数据仓库的源系统种类越多,出现污染。数据仓库的源系统种类越多,出现污染数据的可能性越大。数据的可能性越大。n数据输入的不完整信息数据输入的不完整信息。在初始数据输入时,没有输入所。在初始数据输入时,没有输入所有的字段,将导致数据值缺失;对必须输入的字段,随便有的字段,将导致数据值缺失;对必须输入的字段,随便输入一些通用数据,都将产生数据污染。输入一些
29、通用数据,都将产生数据污染。n欺诈欺诈。有些人为了欺诈,千方百计往系统中输入错误的数。有些人为了欺诈,千方百计往系统中输入错误的数据。特别是涉及金额或产品数量的字段。据。特别是涉及金额或产品数量的字段。n缺乏相关政策缺乏相关政策。当公司对数据质量没有明确的相关政策,。当公司对数据质量没有明确的相关政策,它的数据质量就不可能得到保证。它的数据质量就不可能得到保证。(3)休眠数据的处理)休眠数据的处理n休眠数据休眠数据是那些存在于数据仓库中的、当前并不使用、将是那些存在于数据仓库中的、当前并不使用、将来也很少或者根本就不会使用的数据。来也很少或者根本就不会使用的数据。n在运作的第一年内,数据仓库中
30、几乎没有休眠数据。在运作的第一年内,数据仓库中几乎没有休眠数据。n第第2年,休眠数据开始出现,在这个时候,休眠数据并没有年,休眠数据开始出现,在这个时候,休眠数据并没有造成真正的问题。造成真正的问题。n第第3年,休眠数据成为数据仓库的一个很大部分。年,休眠数据成为数据仓库的一个很大部分。n第第4年,数据仓库已经非常大。在这个时候,休眠数据量是年,数据仓库已经非常大。在这个时候,休眠数据量是非常沉重的,并且休眠数据已成为了数据仓库中占非常大非常沉重的,并且休眠数据已成为了数据仓库中占非常大比重的一类数据。这些数据中的绝大部分并不会使用。比重的一类数据。这些数据中的绝大部分并不会使用。对休眠数据需
31、要进行适时删除,才能提高数据质量。对休眠数据需要进行适时删除,才能提高数据质量。(4)数据清洗)数据清洗 为了保证数据质量必须进行数据清洗,否则会导致为了保证数据质量必须进行数据清洗,否则会导致数据仓库的失败。数据仓库的失败。绝对的高质量数据是不现实的,不能期望绝对的高质量数据是不现实的,不能期望100%的数据质量。清洗数据采用的数据质量。清洗数据采用“面向目标面向目标”的原则,的原则,先确定要使用哪些数据,然后确定你的目标是什么。先确定要使用哪些数据,然后确定你的目标是什么。清洗数据要明确如下问题:清洗数据要明确如下问题:1)需要清洗哪些数据需要清洗哪些数据清洗哪些数据是根据数据仓库要回答用
32、户的问题类型,清洗哪些数据是根据数据仓库要回答用户的问题类型,找出回答问题所需要的数据。找出回答问题所需要的数据。2)在缓存区域中清洗在缓存区域中清洗通常,数据在被存储进数据仓库之前就应该进行清洗。通常,数据在被存储进数据仓库之前就应该进行清洗。数据抽取过程中被抽取的数据一般进入缓存区域,数据抽取过程中被抽取的数据一般进入缓存区域,在缓存区域中清洗数据相对容易。在缓存区域中清洗数据相对容易。3)怎么清洗)怎么清洗已有很多完成各种数据清洗功能的工具软件可以采用。已有很多完成各种数据清洗功能的工具软件可以采用。对于特殊的数据污染则要专门编制程序来完成数据对于特殊的数据污染则要专门编制程序来完成数据
33、清洗。清洗。对于要净化的数据元素分为对于要净化的数据元素分为3个优先级类型:个优先级类型:高优先级高优先级的数据要达到的数据要达到100%的数据质量等级的数据质量等级中优先级中优先级的数据越准确越好,在数据修正的成本和坏的数据越准确越好,在数据修正的成本和坏数据可能造成的影响之间进行平衡。数据可能造成的影响之间进行平衡。低优先级低优先级的数据可以在你有时间和需要的时候进行清的数据可以在你有时间和需要的时候进行清洗。洗。4)建立一个数据质量框架)建立一个数据质量框架 数据质量框架包括:建立数据质量领导小组;数据质量框架包括:建立数据质量领导小组;建立数据质量政策和标准;定义质量指标参数建立数据质
34、量政策和标准;定义质量指标参数和基准;选择那些有较大影响力的数据元素,和基准;选择那些有较大影响力的数据元素,确定优先级;对有较大影响力的数据元素定制确定优先级;对有较大影响力的数据元素定制清洗计划,并执行数据清洗;再为较小影响的清洗计划,并执行数据清洗;再为较小影响的数据元素制定清洗计划,并执行数据清洗。数据元素制定清洗计划,并执行数据清洗。这个框架是确保数据质量的基础。这个框架是确保数据质量的基础。8 8、多维数据库和数据仓库、多维数据库和数据仓库 多多维维数数据据库库提提供供了了用用多多种种方方法法对对数数据据进进行行切切片片、分分割割,动动态态地地考考查查汇汇总总数数据据和和细细节节数
35、数据据的的关关系系,非非常常适适合合DSSDSS环境。环境。数数据据仓仓库库中中的的细细节节数数据据为为多多维维数数据据库库提提供供了了数数据据源源,数数据据要要定定期期从从数数据据仓仓库库中中导导入入到到多多维维数数据据库库中中去去,为为DSSDSS用户服务。用户服务。n数据仓库能容纳非常详细的数据,这些数据在导入多维数数据仓库能容纳非常详细的数据,这些数据在导入多维数据库时被轻度综合了,导入多维数据库后,数据还会被进据库时被轻度综合了,导入多维数据库后,数据还会被进一步地汇总。一步地汇总。n使用多维数据库的分析者可以一种灵活和高效的方式来对使用多维数据库的分析者可以一种灵活和高效的方式来对
36、多维数据库中所有不同层次的数据进行钻取。如果需要的多维数据库中所有不同层次的数据进行钻取。如果需要的话,分析者还可以向下钻取到数据仓库。话,分析者还可以向下钻取到数据仓库。n通过这种方式将数据仓库和多维数据库结合。通过这种方式将数据仓库和多维数据库结合。DSS分析者分析者可以得到这两者的好处。可以得到这两者的好处。DSS分析者大部分时间里可以在多维数据库中享受其操作分析者大部分时间里可以在多维数据库中享受其操作高效的优点,同时如果需要的话,还可以向下钻取最低层高效的优点,同时如果需要的话,还可以向下钻取最低层次的细节数据。次的细节数据。数数据据仓仓库库由由于于数数据据量量大大(具具有有GBGB
37、级级到到TBTB级级的的数数据据),使使得得数数据据的的存存储储和和管管理理复复杂杂,因因此此数数据据仓仓库库需需要要一一个个具具有有海海量量存存储储的的硬硬件件平平台台和和一个能进行一个能进行并行处理的大型数据库系统并行处理的大型数据库系统。6.2.3 6.2.3 数据仓库开发的困难数据仓库开发的困难 总结开发数据仓库的典型错误包括以下几方面:总结开发数据仓库的典型错误包括以下几方面:(1 1)没有理解数据的价值。)没有理解数据的价值。(2 2)未能理解数据仓库概念。)未能理解数据仓库概念。(3 3)未未清清楚楚了了解解用用户户将将如如何何使使用用数数据据仓仓库库之之前前,便便贸贸然然开发数据仓库。开发数据仓库。(4 4)对数据仓库规模的估计模糊。)对数据仓库规模的估计模糊。(5 5)忽视了数据仓库体系结构和数据仓库开发方法。)忽视了数据仓库体系结构和数据仓库开发方法。数数据据仓仓库库的的开开发发只只有有克克服服了了以以上上的的错错误误观观念念,才才能能真真正正发挥它的作用,得到发展。发挥它的作用,得到发展。习习 题题 1,3,5,1,3,5,7 7,8,8,10,11,13 10,11,13
限制150内