数据仓库实践培训.pptx
《数据仓库实践培训.pptx》由会员分享,可在线阅读,更多相关《数据仓库实践培训.pptx(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、什么是OLTP(联机事务处理)?On-Line Transaction Processing联机事务处理系统(OLTP)也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统(Real time System)。衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。OLTP 数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。支持大量并发
2、用户定期添加和修改数据。反映实时变化的对象状态,但不保存其历史记录。包含大量数据,其中包括用于验证事务的大量数据。一般具有复杂的数据结构。可以进行优化以对事务活动做出响应。提供用于支持单位日常运营的技术基础结构。个别事务能够很快地完成,并且只需访问相对较少的数据。OLTP OLTP 系统旨在处理同时输入的成百上千的事务。OLTP 系统中的数据主要被组织为支持一些事务性的数据操作,完成基础业务数据的增、删、改及简单的查询操作,这些操作往往是基于关系数据库的数据操作。包括的应用系统小型的有如MIS、OA系统、电子商务交易系统、财务系统、eHR等;大型的如ERP、BOSS等。这类应用系统对响应时间要
3、求比较高,强调的是密集数据更新处理的性能和系统的可靠性及效率。定义定义特征特征应用领域应用领域第1页/共17页什么是OLAP(联机分析处理)?联机分析处理(OLAPOLAP)的概念最早是由关系数据库之父于1993年提出的。当时,CoddCodd认为联机事务处理(OLTP(OLTP)已不能满足终端用户对数据库复杂查询分析的需要,SQLSQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求,因此Codd提出了多维数据库和多维分析的概念即OLAP。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重
4、决策支持,并且提供直观易懂的查询结果,OLAP的技术核心就是“维度”这个概念。基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结
5、构进行多维数据的表示和存储 MOLAP表示基于多维数据结构组织的OLAP实现(Multidimensional OLAP)MOLAP使用多维数组存储数据。HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。定义定义OLAP操作操作OLAP存储存储第2页/共17页数据仓库架构数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的,以OLAP系统的分析需求为目的。第3页
6、/共17页星型模型与雪花模型数据仓库的架构模型包括了星型架构与雪花型架构两种模式。如图所示,星型架构的中间为事实表,四周为维度表,类似星星;而相比较而言,雪花型架构的中间为事实表,两边的维度表可以再有其关联子表,从而表达了清晰的维度层次关系。从OLAP系统的分析需求和ETL的处理效率两方面来考虑:星型结构聚合快,分析效率高;而雪花型结构明确,便于与OLTP系统交互。因此,在实际项目中,我们将综合运用星型架构与雪花型架构来设计数据仓库。第4页/共17页数据仓库建立“五步法”一、确定主题例如:我们希望分析某年某月某一地区的啤酒销售情况,这就是一个主题。主题要体现出某一方面的各分析角度(维度)和统计
7、数值型数据(量度)之间的关系,确定主题时要综合考虑。我们可以形象的将一个主题想象为一颗星星:统计数值型数据(量度)存在于星星中间的事实表;分析角度(维度)是星星的各个角;我们将通过维度的组合,来考察量度。那么,“某年某月某一地区的啤酒销售情况”这样一个主题,就要求我们通过时间和地区两个维度的组合,来考察销售情况这个量度。从而,不同的主题来源于数据仓库中的不同子集,我们可以称之为数据集市。数据集市体现了数据仓库某一方面的信息,多个数据集市构成了数据仓库。即确定数据分析或前端展现的主题度量维度维度维度维度维度分析主题:事实表第5页/共17页数据仓库建立“五步法”二、确定度量 它们一般为数值型数据。
8、我们或者将该数据汇总,或者将该数据取次数、独立次数或取最大最小值等,这样的数据称为量度。量度是要统计的指标,必须事先选择恰当,基于不同的量度可以进行复杂关键性能指标(KPI)等的设计和计算。在确定了主题以后,我们将考虑要分析的技术指标,诸如年销售额之类第6页/共17页数据仓库建立“五步法”三、确定事实数据粒度 例如:假设目前的数据最小记录到秒,即数据库中记录了每一秒的交易额。那么,如果我们可以确认,在将来的分析需求中,时间只需要精确到天就可以的话,我们就可以在ETL处理过程中,按天来汇总数据,此时,数据仓库中量度的粒度就是“天”;反过来,如果我们不能确认将来的分析需求在时间上是否需要精确到秒,
9、那么,我们就需要遵循“最小粒度原则”,在数据仓库的事实表中保留每一秒的数据,以便日后对“秒”进行分析。在采用“最小粒度原则”的同时,我们不必担心海量数据所带来的汇总分析效率问题,因为在后续建立多维分析模型(CUBE)的时候,我们会对数据提前进行汇总,从而保障产生分析结果的效率。关于建立多维分析模型(CUBE)的相关问题,我们将在下期栏目中予以阐述。在确定了量度之后,我们要考虑到该量度的汇总情况和不同维度下量度的聚合情况。考虑到量度的聚合程度不同,我们将采用“最小粒度原则”,即将量度的粒度设置到最小。第7页/共17页数据仓库建立“五步法”四、确定维度这里我们首先要确定维度的层次(Hierarch
10、y)和级别(Level)(图四:pic4.bmp)。如图所示,我们在时间维度上,按照“年-季度-月”形成了一个层次,其中“年”、“季度”、“月”成为了这个层次的3个级别;同理,当我们建立产品维度时,我们可以将“产品大类-产品子类-产品”划为一个层次,其中包含“产品大类”、“产品子类”、“产品”三个级别。那么,我们分析中所用到的这些维度,在数据仓库中的存在形式是怎样的呢?我们可以将3个级别设置成一张数据表中的3个字段,比如时间维度;我们也可以使用三张表,分别保存产品大类、产品子类、产品三部分数据,比如产品维度。(图五:pic5.bmp)另外,值得一提的是,我们在建立维度表时要充分使用代理键。代理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 实践 培训
限制150内