商务智能原理与应用第二章数据仓库课件.ppt
《商务智能原理与应用第二章数据仓库课件.ppt》由会员分享,可在线阅读,更多相关《商务智能原理与应用第二章数据仓库课件.ppt(80页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据仓库商务智能原理与应用-第二章前请回顾13524商务智能产生的背景商务智能的基本架构商务智能在一些行业中的实际应用商务智能的定义商务智能相关的技术目录01020304数据仓库概念ETL处理过程数据仓库模型数据仓库工具Hive01数据仓库概念什么是数据仓库?比尔恩门(BillInmon)数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。数据仓库之父比尔恩门(Bill Inmon)定义数据仓库是一种存
2、储方案,不是具体的某个产品数据仓库用于支持决策,面向分析型数据处理数据仓库由企业中的多个异构数据源进行集成数据库是数据仓库的基础理解数据仓库的特点操作型数据库的数据组织面向事务处理任务,各个联机事物处理系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。面向主题养老保险医疗保险财产保险汽车保险操作型应用程序顾客账户保险金索赔数据仓库主题数据仓库的特点数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。集成性不同的操作型系统之间的数据一般是相互独立、异构的,而数据
3、仓库中的数据是对分散的数据进行抽取、清理、转换和汇总后得到的,这个过程我称之为ETL处理过程,我们在下一章将会深入研究ETL过程。数据库1数据库2数据库3ETL处理数据仓库数据仓库的特点数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。数据相对稳定数据库实时更新,增删改操作多技术难点多数据仓库只需定期加载、刷新,删除和修改操作少查询要求高数据仓库的特点操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系
4、统记录了企业从过去某一时间点(如开始应用数据仓库的时间)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。反映历史变化1.数据仓库随时间变化不断增加新的数据内容。表现在3.数据仓库的数据时限一般要远远长于操作型数据的数据时限。2.操作型系统存储的是当前数据,而数据仓库存储的数据是历史数据。数据仓库的功能数据仓库的主要功能是对现有的数据进行分析整理,以利于各种分析方法如联机分析处理(OLAP)、数据挖掘(DataMining)的进行,为决策的拟定提供数据支持,帮助构建商务智能。数据仓库的结构数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层源数据
5、、数据存储、数据应用。源数据点击流日志文档数据数据库数据其它数据存储聚合数据业务模型多维数据模型细节数据数据应用报表展示数据分析即席查询数据挖掘ETL数据库与数据仓库的区别数据库是数据仓库的基础,数据库是为了捕获数据而设计的,而数据仓库是为了分析数据而设计的,除此之外,数据库与数据仓库在其他方面也存在着一些差别。对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序,重复处理面向主题域、管理决策分析应用数据特性动态变化、按字段更新静态、不能直接更新、只定时添加数据结构高度结构化、复杂、适合操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量
6、记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计量以秒、分钟,甚至小时为计量单位数据库与数据仓库的区别数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据内容数据库是为捕获数据而设计,面向业务操作程序,重复处理;数据仓库是为分析数据而设计,面向主题域、管理决策分析应用。数据目标数据库主要由原子事物组成,数据更新频繁,需要并行控制和恢复机制。而数据仓库往往处理的是复杂的数据查询,大部分是只读操作,不能直接更新、只定时添加。数据特性数据库与数据仓库的区别数据库存储的是联机事务处理的操作数据,通常联机事务处理每时每刻都在进行着对数据的读写,对数据的使用频率较高。而数据仓库是为分析
7、型系统提供数据支持,一般是企业管理层或者决策者需要,使用频率较低。使用频率数据库中的建模一般遵循三范式,是高度结构化、复杂、适合操作计算的数据,而数据仓库的建模有特定的方式,一般采用维度建模,数据结构比较简单,可以提高查询效率,适合统计分析。数据结构数据仓库中的数据通常来源于多个不同的联机事物处理系统数据库(存储多年的数据),数据量远远大于操作型数据库,一般作为企业数据中心用。数据规模数据库与数据仓库的区别数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。设计方式联机事务处理系统涉及频繁、简单的数据存取,因此对数据库的性能要求较高,需
8、要数据库在短时间内做出响应,而分析型系统对响应的时间要求不是那么苛刻,有的分析甚至可能需要几个小时。处理性能数据仓库与商务智能的关系数据仓库是一种技术,也是一种解决方案。对于企业来说,商务智能系统一般构建在数据仓库上。数据仓库是构建商务智能系统的基础。商务智能是数据仓库、联机分析处理和数据挖掘等相关技术走向商业应用后形成的一种应用技术,二者是一种包含关系。决策支持数据分析与挖掘数据仓库数据源02ETL处理过程什么是ETL异构数据库数据仓库抽取转换、清洗加载ETL(Extract-Transform-Load)是将联机事务处理系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的
9、分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是构建数据仓库的重要过程。ETL的实现方法ETL的实现有多种方法,常用的有三种:ETL工具实现、SQL方式实现、ETL工具结合SQL方式实现。实现方法优点缺点ETL工具速度快、难度低灵活度低、运行效率低SQL方式灵活度高、运行效率高编码复杂、技术要求高ETL工具+SQL开发速度和效率高数据抽取数据仓库是面向主题的,并非所有源数据库的数据都是有用的,因此在把数据库中的相关数据导入到数据仓库之前,需要先确定该数据库中哪些数据是与决策相关的。1.确定数据源的数据及其含义2.确定数据的抽取范围3.确定数据的抽取频率4.确定外部数据
10、的导入方式5.确定抽取异常的处理方式6.确定输出目的地和格式具体流程和主要工作:数据转换数据仓库的数据通常来源于多个异构的数据库,因此源数据在加载到数据仓库之前,需要对数据进行一定的数据转换,以保证数据的一致性。1.不一致数据的转换2.数据粒度的转换3.商务规则的计算数据转换数据清洗数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。数据的清洗是一个循环反复的过程。清洗重复的数据清洗错误的数据清洗不完整的数据数据加载数据转换、清洗结束后,需要把数据装载到数据仓库中,数据的装载有三种方式。数据装载初始装载增量装载完全刷新03数据
11、仓库模型什么是数据模型数据模型是现实世界数据特征的抽象,用于描述一组数据的概念和定义。数据模型是数据库中数据的存储方式,是数据库系统的基础。现实世界信息世界(概念模型)计算机世界(物理模型)抽象转换现实世界是指客观存在的事物及其相互间的联系。信息世界是人们把现实世界的信息和联系,通过“符号”记录下来,然后用规范化的数据库定义语言来定义描述而构成的一个抽象世界。现实世界计算机世界是将信息世界的内容数据化后的产物。信息世界计算机世界数据模型的结构数据模型所描述的内容包括三个部分:数据结构、数据操作、数据约束。数据结构数据操作数据约束数据模型主要描述数据的类型、内容、性质以及数据间的联系等,是目标类
12、型的集合。主要描述在相应的数据结构上的操作类型和操作方式。数据结构主要描述数据结构内数据间的语法、词义联系、他们之间的制约和依存关系,以及数据动态变化的规则,以保证数据的正确、有效和相容。数据操作数据约束数据模型的价值只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用,也是衡量数据模型价值的标准。良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐,提高使用数据的效率。良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低存储和计算成本。性能良好的数据模型在业务或系统发生变化时,可以保持稳定或很容易地实现扩展,提高
13、数据稳定性和连续性。成本良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。效率质量数据模型的分类目前成熟地应用在数据库系统中的数据模型主要有三种:层次模型、网状模型和关系模型。网状模型关系模型层次模型层次模型用树形结构表示实体之间联系的模型叫层次模型,树中每一个节点代表一个记录类型,树状结构表示实体型之间的联系。层次模型的特征是:有且仅有一个结点没有父结点,它就是根结点;其他结点有且仅有一个父结点。学校文学外语数学计算机软件工程网络工程应用数学英语网状模型用网络结构表示实体类型及其实体之间联系的模型,网状模型是一种可以灵活地描述事物及其之间关系的数据库模型。网状模型的特征:
14、允许结点有多于一个父结点;可以有一个以上的结点没有父结点。课程专业系教研室学生教师任课选课关系模型关系模型以二维表结构来表示实体与实体之间的联系,它是以关系数学理论为基础的。关系模型的数据结构是一个“二维表框架”组成的集合。学生编号姓名性别所在院系11001刘振杰男计算机11002郭卫东男计算机11003宋爱梅女文学院11004贾燕青女商学院课程编号课程名学生编号上课教室21001高等数学11001一教20121002线性代数11002三教30421003大学英语11004三教40121004软件工程11001二教101学生信息表选课信息表数据仓库数据模型架构数据仓库的数据数据区域划分和数据仓
15、库的整体架构是紧密关联在一起的,整个数据仓库的数据区域分成5大部分,每个部分都有其独特的功能。数据仓库数据模型架构这部分是主要的数据仓库业务数据存储区,数据模型在这里确保数据的一致性。这部分主要存储数据仓库用于内部管理的元数据,数据模型在这里能够帮助进行统一的元数据的管理。系统记录域这部分数据来自于系统记录域的汇总,数据模型在这里保证了分析域的主题分析的性能,满足了部分的报表查询。内部管理域这部分数据模型主要用于各个业务部分的具体的主题业务分析。汇总域这部分数据模型主要用于相应前端的反馈数据,数据仓库可以根据业务的需要设置这一区域。分析域反馈域数据仓库的建模阶段划分数据仓库的数据建模按照时间的
16、先后顺序,可以大致分为四个阶段,依次为业务建模、领域概念建模、逻辑建模、物理建模。业务建模领域概念建模逻辑建模物理建模业务建模的主要工作1划分整个单位的业务,一般按照业务部门的划分,进行各个部分之间业务工作的界定,理清各业务部门之间的关系2深入了解各个业务部门的内具体业务流程并将其程序化3提出修改和改进业务部门工作流程的方法并程序化4数据建模的范围界定,整个数据仓库项目的目标和阶段划分领域概念建模的主要工作1抽取关键业务概念,并将之抽象化2将业务概念分组,按照业务主线聚合类似的分组概念3细化分组概念,理清分组概念内的业务流程并抽象化4理清分组概念之间的关联,形成完整的领域概念模型逻辑建模的主要
17、工作1业务概念实体化,并考虑其具体的属性2事件实体化,并考虑其属性内容3说明实体化,并考虑其属性内容物理建模的主要工作1针对特定物理化平台,做出相应的技术调整2针对模型的性能考虑,对特定平台作出相应的调整3针对管理的需要,结合特定的平台,做出相应的调整4生成最后的执行脚本,并对其完善建模方法目前业界较为流行的数据仓库的建模方法非常多,这里主要介绍范式建模法,维度建模法,实体建模法等几种方法,每种方法其实从本质上讲就是从不同的角度看业务中的问题。维度建模法实体建模法范式建模法范式建模法所有表中的数据都为原子数据,不可再分所有表中的所有字段都必须依赖主关键字第一范式(1NF)所有表中的非主关键词之
18、间不能函数依赖关系第二范式(2NF)第三范式(3NF)范式建模法是在构建数据模型常用的一个方法,主要利用技术层面上的方法解决关系型数据库的数据存储。在学习范式建模法之前,我们先来了解一下数据库三范式。范式建模的优缺点优点:从关系型数据库的角度出发,结合了联机事务处理系统的数据模型,能够比较方便的实现数据仓库的建模。缺点:由于建模方法限定在关系型数据库之上,在某些时候反而限制了整个数据仓库模型的灵活性,性能等。维度建模法事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性纬度表的
19、主键。维度表可以看作是用户来分析数据的窗口,纬度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特性的层次结构。事实表维度表维度建模法按照事实表,维度表来构建数据仓库,数据集市。这种方法的最被人广泛知晓的名字就是星型模式。星型模型以商品销售模型为例,销售表即为事实表,而其它描述性的表即为维度表,如时间维度,类别维度,属地维度等。这就是一个典型的星型模型。星型模型的优缺点针对各个维度作了大量的预处理,能够极大的提升数据仓库的处理能力维度建模非常直观,紧紧围绕着业务模型,可以直观的反映出业务模型中的
20、业务问题不需要经过特别的抽象处理,即可以完成维度建模优点由于在构建星型模式之前需要进行大量的数据预处理,因此会导致大量的数据处理工作当业务发生变化,需要重新进行维度的定义时,往往需要重新进行维度数据的预处理不能保证数据来源的一致性和准确性,在数据仓库的底层,不是特别适用于维度建模的方法缺点维度建模法的步骤维度模型设计的大致过程主要包括:选择业务流程,声明粒度,确认维度,确认事实。在各个阶段内容的设定都是通过考虑业务的需求以及协作建模会话中底层源数据的现实来确定的。选择业务流程声明粒度确认维度确认事实实体建模将任何一个业务过程划分成3个部分,实体,事件和说明就是我们实体建模的主要工作。主要指领域
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商务 智能 原理 应用 第二 数据仓库 课件
限制150内