数据仓库的概念和体系结构综述35688.pptx
《数据仓库的概念和体系结构综述35688.pptx》由会员分享,可在线阅读,更多相关《数据仓库的概念和体系结构综述35688.pptx(42页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第1章章数据仓库的数据仓库的概念与体系结构概念与体系结构3/14/20233/14/20231数据仓库与数据挖掘数据仓库与数据挖掘1.1数据仓库的概念、特点与组成数据仓库的概念、特点与组成l数据仓库的概念数据仓库的概念l数数据据仓仓库库就就是是一一个个面面向向主主题题的的(SubjectOriented)、集集成成的的(Integrate)、相相对对稳稳定定的的(Non-Volatile)、反反映映历历史史变变化化(TimeVariant)的的数数据据集集合合,通通常常用用于辅助决策支持(于辅助决策支持(DDS)3/14/20233/14/20232数据仓库与数据挖掘数据仓库与数据挖掘1.1
2、数据仓库的概念、特点与组成数据仓库的概念、特点与组成l数据仓库的特点:数据仓库的特点:l面向主题;面向主题;l集成的;集成的;l相对稳定的;相对稳定的;l反映历史变化。反映历史变化。3/14/20233/14/20233数据仓库与数据挖掘数据仓库与数据挖掘3/14/20233/14/20234数据仓库与数据挖掘数据仓库与数据挖掘数据库与数据仓库的比较数据库与数据仓库的比较3/14/20233/14/20235数据仓库与数据挖掘数据仓库与数据挖掘1.1数据仓库的概念、特点与组成数据仓库的概念、特点与组成l数据仓库的组成:数据仓库的组成:l数据仓库数据库;数据仓库数据库;l数据抽取工具;数据抽取工
3、具;l元数据:技术元数据与业务元数据;元数据:技术元数据与业务元数据;l访问工具;访问工具;l数据集市(数据集市(DataMarts););l数据仓库管理;数据仓库管理;l信息发布系统。信息发布系统。3/14/20233/14/20236数据仓库与数据挖掘数据仓库与数据挖掘1.2数据挖掘的概念与方法数据挖掘的概念与方法l数据挖掘的概念数据挖掘的概念l数数据据挖挖掘掘(DataMining),就就是是从从大大量量数数据据中中获获取取有有效效的的、新新颖颖的的、潜潜在在有有用用的的、最最终终可可理理解解的的模模式式的的过过程程,简简单单的的说说,数数据据挖挖掘掘就就是是从从大大量量数数据据中中提提
4、取取或或“挖挖掘掘”知知识识,又又 被被 称称 为为 数数 据据 库库 中中 的的 知知 识识 发发 现现(Knowledge Discovery in Database,KDD)3/14/20233/14/20237数据仓库与数据挖掘数据仓库与数据挖掘1.2数据挖掘的概念与方法数据挖掘的概念与方法l数据挖掘的方法:数据挖掘的方法:l直接数据挖掘直接数据挖掘l间接数据挖掘。间接数据挖掘。3/14/20233/14/20238数据仓库与数据挖掘数据仓库与数据挖掘1.2数据挖掘的概念与方法数据挖掘的概念与方法l数据仓库与数据挖掘的关系数据仓库与数据挖掘的关系l若若将将数数据据仓仓库库(DataWa
5、rehouse)比比作作矿矿井井,那那么么数数据据挖挖掘掘(DataMining)就是深入矿井采矿的工作就是深入矿井采矿的工作l数数据据挖挖掘掘是是从从数数据据仓仓库库中中找找出出有有用用信信息息的一种过程与技术的一种过程与技术3/14/20233/14/20239数据仓库与数据挖掘数据仓库与数据挖掘1.3数据仓库的技术、方法与产品数据仓库的技术、方法与产品l联联机机事事务务处处理理(OLTP)与与联联机机分分析析处处理理(OLAP)的比较;)的比较;OLTPOLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合
6、理面向应用,事务驱动面向分析,分析驱动3/14/20233/14/202310数据仓库与数据挖掘数据仓库与数据挖掘lOLAP技技术术的的有有关关概概念念:多多维维数数据据集集、维度、数据立方体、度量值和多维分析;维度、数据立方体、度量值和多维分析;1.多维数据集是数据的集合(多维数据集是数据的集合(多维数组多维数组)l多维数据集是决策支持的依据,也是OLAP的核心。lOLAP展现的结果是一幅幅多维视图。l多维数据集可以用一个多维数组表示。例如经典的时间、地理位置和产品的多维数据集可以表示为:(时间,地理位置,产品,销售数据),类似地,其它多维数据集可表示为:(维1,维2,维3,维n,观察变量)
7、形式。3/14/20233/14/202311数据仓库与数据挖掘数据仓库与数据挖掘数据仓库是用于决策支持的,管理人员在进行数据仓库是用于决策支持的,管理人员在进行决策分析时,经常需要选择一个对决策支持活动有决策分析时,经常需要选择一个对决策支持活动有重要影响的因素去进行决策分析,这些决策因素就重要影响的因素去进行决策分析,这些决策因素就构成了分析问题的角度,这些分析角度就是数据仓构成了分析问题的角度,这些分析角度就是数据仓库中的维度。从而构成了三维、多维空间。库中的维度。从而构成了三维、多维空间。维度是数据仓库中识别数据的索引。维度是数据仓库中识别数据的索引。维度具有层次性。维度具有层次性。可
8、以根据数据的组织层次进行可以根据数据的组织层次进行“上卷上卷”或或“下钻下钻”,了解具体信息。,了解具体信息。2.2.维度维度维是人们观察数据的特定角度3/14/20233/14/202312数据仓库与数据挖掘数据仓库与数据挖掘3.3.数据立方体数据立方体从不同角度对同一数据进行观察得到的数据从不同角度对同一数据进行观察得到的数据交点,构成了数据立方体。交点,构成了数据立方体。当观察的角度(参数)超过三个所构成的数当观察的角度(参数)超过三个所构成的数据结果集称为超立方体,也称为超维数据集。据结果集称为超立方体,也称为超维数据集。商品商品城市城市日期日期牛奶牛奶浴巾浴巾毛巾毛巾可乐可乐果汁果汁
9、4321北京北京上海上海长沙长沙广州广州武汉武汉商品、城市、日期维工业 国家 年商品 市 日类别 省 月3/14/20233/14/202313数据仓库与数据挖掘数据仓库与数据挖掘4.4.度量值度量值是多维数据集的核心值。是最终用户在数据仓库应用中所需要查看的数据。如:销售量、成本、费用等。3/14/20233/14/202314数据仓库与数据挖掘数据仓库与数据挖掘5.5.多维分析多维分析qOLAP的多维分析是指对多维数据集中的数据用切片、切块、旋转等方式分析数据。q使用户能从多个角度、多个侧面去观察数据仓库中的数据。CTCT?3/14/20233/14/202315数据仓库与数据挖掘数据仓库
10、与数据挖掘(1 1)多维的切片)多维的切片q在在多多维维分分析析过过程程中中,如如果果对对多多维维数数据据集集的的某某个个维维选选定定一一维维成成员员,这这种种选选择择操操作作,就就可可以以称称之之为切片。为切片。q有有多多维维数数据据集集(维维1 1,维维2 2,维维i i,维维n n,观观察察变变量量),如如果果确确定定了了某某个个维维成成员员维维i i 的的值值,则则称称:在在维维i i上上的的一一个个切切片片为为(维维 1 1,维维2 2,维,维i i成员,成员,维,维n n,观察变量)。,观察变量)。qq一一一一个个个个多多多多维维维维数数数数组组组组的的的的切切切切片片片片最最最最
11、终终终终是是是是由由由由该该该该数数数数组组组组中中中中除除除除切切切切片片片片所在平面之外的其他成员值确定的。所在平面之外的其他成员值确定的。所在平面之外的其他成员值确定的。所在平面之外的其他成员值确定的。qq维维维维是是是是观观观观察察察察数数数数据据据据的的的的角角角角度度度度,切切切切片片片片的的的的作作作作用用用用或或或或结结结结果果果果是是是是舍舍舍舍弃一些观察角度,以便集中观察该维的数据。弃一些观察角度,以便集中观察该维的数据。弃一些观察角度,以便集中观察该维的数据。弃一些观察角度,以便集中观察该维的数据。3/14/20233/14/202316数据仓库与数据挖掘数据仓库与数据挖
12、掘 产品产品北京北京上海上海 化妆品化妆品江苏江苏 玩具玩具 服装服装 电器电器 1 2 3 4 时间(月时间(月)销售数量:10000服装切片服装切片3/14/20233/14/202317数据仓库与数据挖掘数据仓库与数据挖掘(2 2)多维的切块)多维的切块q与切片类似,如果在一个多维数据集上对两个及其以上的维选定维成员的操作称为切块。q如有多维数据集(维1,维2,维i,维k,维n,观察变量),对维i,维k,选定了维成员,那么(维1,维2,维i成员,维k成员,维n,观察变量)就是多维数据集(维1,维2,维i,维k,维n,观察变量)在维i,维k上的一个切块。3/14/20233/14/2023
13、18数据仓库与数据挖掘数据仓库与数据挖掘(3 3)旋转)旋转q改变多维数据集显示的维方向。改变多维数据集显示的维方向。q旋转前的维方向旋转前的维方向2002年年2003年年1季度季度2季度季度3季度季度4季度季度1季度季度2季度季度3季度季度4季度季度北京市北京市123564566134562355上海市上海市13410398871021399782天津市天津市67735996736962943/14/20233/14/202319数据仓库与数据挖掘数据仓库与数据挖掘q旋转后的维方向(不同维度间的旋转操作)旋转后的维方向(不同维度间的旋转操作)北京市北京市上海市上海市天津市天津市2002年年1
14、季度季度123134672季度季度56103733季度季度4598594季度季度6687962003年年1季度季度134102732季度季度56139693季度季度2397624季度季度5582942002年年2003年年1季度季度2季度季度3季度季度4季度季度1季度季度2季度季度3季度季度4季度季度北京市北京市123564566134562355上海市上海市13410398871021399782天津市天津市67735996736962943/14/20233/14/202320数据仓库与数据挖掘数据仓库与数据挖掘q旋转后的维方向(维度层次上的旋转操作)旋转后的维方向(维度层次上的旋转操作)
15、2002年年2003年年1季度季度2季度季度3季度季度4季度季度1季度季度2季度季度3季度季度4季度季度北京市北京市123564566134562355上海市上海市13410398871021399782天津市天津市67735996736962941季度2季度3季度4季度20022003200220032002200320022003北京市北京市123134565645236655上海市上海市13410210313998978782天津市天津市67737369596296943/14/20233/14/202321数据仓库与数据挖掘数据仓库与数据挖掘(4)(4)其它其它OLAPOLAP操作操作
16、l维度是有层次性的,如时间维可能由:年、季、月、日构成,维度的层次反映了数据的综合程度。l维度层次越高、代表的数据综合度越高,数据量越少。l维度层次越低、代表的数据综合度越低,细节越充分,数据量越多。l有关操作:“上卷”(roll_up)、“下钻”(drill_down)、“钻过”(drill_across)和“钻透”(drill_through)等。3/14/20233/14/202322数据仓库与数据挖掘数据仓库与数据挖掘q“上卷”是指沿某一个维的概念分层向上归约;q下钻”是上卷的逆向操作,它是沿某一个维的概念分层向下或引入新的维来实现;q“钻过”是指对多个事实表进行查询;q“钻透”是指对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 概念 体系结构 综述 35688
限制150内