数据仓库与数据挖掘在生产决策中的应用.ppt
《数据仓库与数据挖掘在生产决策中的应用.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘在生产决策中的应用.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据仓库与数据挖掘数据仓库与数据挖掘(DATA WAREHOUSING AND DATA MINING)参考书参考书1 1、数据仓库与数据挖掘数据仓库与数据挖掘,作者:陈志泊主编,清华大学出版社作者:陈志泊主编,清华大学出版社2 2、数据挖掘概念与技术数据挖掘概念与技术,JiaweiHanJiaweiHan MichelineMicheline KamberKamber 著著 范明范明 等译,机械工业出版社等译,机械工业出版社 数据仓库与数据挖掘数据仓库与数据挖掘在生产决策中的应用在生产决策中的应用数据仓库与数据挖掘在生产决策中的应用数据仓库与数据挖掘在生产决策中的应用l数据爆炸问题数据爆炸问
2、题 随着信息技术的不断推广和应用,许多企业都已经在使用管理信息系统处随着信息技术的不断推广和应用,许多企业都已经在使用管理信息系统处理管理事务和日常业务。这些管理信息系统为企业积累了大量的信息。理管理事务和日常业务。这些管理信息系统为企业积累了大量的信息。l从数据中获得知识从数据中获得知识 企业管理者开始考虑如何利用这些信息海洋对企业的管理决策提供支持。企业管理者开始考虑如何利用这些信息海洋对企业的管理决策提供支持。因此,产生了与传统数据库有很大差异的数据环境要求和从这些海洋数据中获因此,产生了与传统数据库有很大差异的数据环境要求和从这些海洋数据中获取特殊知识的工具需要。取特殊知识的工具需要。
3、解决方法:解决方法:数据仓库技术和数据挖掘技术数据仓库技术和数据挖掘技术数据仓库数据仓库(Data Warehouse)(Data Warehouse)和在线分析处理和在线分析处理(OLAP)(OLAP)数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据处理技术的发展数据处理技术的发展1960s1960s和以前和以前:文件系统文件系统1970s:1970s:层次数据库和网状数据库层次数据库和网状数据库1980s1980s早期早期:关系数据模型关系数据模型,关系数据库管理系统关系数据库管理系统(RDBMS)(R
4、DBMS)。1980s1980s晚期晚期:各种高级数据库系统(面向应用的数据库系统各种高级数据库系统(面向应用的数据库系统 、空间数据库、空间数据库 时序数据库、多媒体数据库等等)。时序数据库、多媒体数据库等等)。1990s:1990s:数据挖掘数据挖掘,数据仓库。数据仓库。2000s2000s:基于各种应用的数据挖掘基于各种应用的数据挖掘XMLXML数据库和整合的信息系统数据库和整合的信息系统 数据库与数据库技术数据库与数据库技术1 1、数据库系统数据库系统 数据库是按一定组织方式存储在计算机中的相互关联的数据集合,数据库的建立独立于程序。数据库管理系统是一个管理数据库的软件系统,它为用户提
5、供了描述数据库、操纵数据库和维护数据库的方法和命令,并且能自动控制数据库的安全以及数据完整。2 2、数据库系统的特点、数据库系统的特点1.数据的结构化2.数据的共享性3.数据的独立性4.数据统一由DBMS管理和控制 (1)数据的安全性 (2)数据的完整性 (3)并发控制 (4)数据库恢复数据仓库的发展数据仓库的发展 从传统数据库到数据仓库从传统数据库到数据仓库 随着市场竞争的加剧,信息系统的用户已经不满足于仅仅用计算机去处理每天所发生的事务数据,而是需要信息能够支持决策的信息,去帮助管理决策。这就需要一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术,传统数据库系统无法承担
6、这一责任。因为传统数据库的处理方式和决策分析中的数据需求不相称。这些不相称性主要表现在决策处理中的系统响应问题、决策数据需求的问题和决策数据操作的问题。数据库处理的两大应用数据库处理的两大应用1、联机事务处理(OLTP)2、决策支持系统(DSS)联机事务处理(联机事务处理(OLTPOLTP)u操作型处理,为企业的特定应用服务操作型处理,为企业的特定应用服务u是对数据库的联机的日常操作,通常是对一个或一组是对数据库的联机的日常操作,通常是对一个或一组记录的查询和修改记录的查询和修改u人们关心的是响应时间、数据的安全性和完整性人们关心的是响应时间、数据的安全性和完整性u处理的是当前的数据。处理的是
7、当前的数据。数据仓库的发展数据仓库的发展 决策支持系统(决策支持系统(DSSDSS)u分析型处理,用于管理人员的决策分析分析型处理,用于管理人员的决策分析u经常需要访问大量的历史数据经常需要访问大量的历史数据u数据操作的特点:只查询,不更新。数据操作的特点:只查询,不更新。u数据仓库数据仓库 +联机分析处理联机分析处理+数据挖掘数据挖掘u(DW+OLAP+DM DW+OLAP+DM)DSSDSS数据仓库的发展数据仓库的发展 传统数据库在联机事物处理中取得了较大的成功,但在基于事物处理的数据库帮助决策分析时却产生了很大的困难。主要原因是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数
8、据库无法支持决策分析活动。这些不相称主要体现在如下几个方面:(1)决策处理的系统响应问题 (2)决策数据需求的问题 (3)决策数据操作的问题数据仓库的发展数据仓库的发展对比比内内容容数数据据库数数据据仓库数数据据内内容容当前值历史的、存档的、归纳的、计算的数据数数据目据目标面向业务操作程序、重复处理面向主题域、管理决策分析应用数数据特性据特性动态变化、按字段更新静态、不能直接更新、只定时添加数数据据结构构高度结构化、复杂、适合操作计算简单、适合分析使用使用频率率高中到低数数据据访问量量每个事务只访问少量记录有的事务可能要访问大量记录对响响应时间的要的要求求以秒为单位计量以秒、分钟、甚至小时为计
9、量单位数据仓库的发展数据仓库的发展联机分析处理技术(联机分析处理技术(OLAPOLAP)联机分析处理联机分析处理OLAPOLAP(On-Line Analytical Processing)应用是不同于与联机事务处理(OLTP)的一类应用。它专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持,可以应分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策制定人,以便他们准确掌握企业(公司)的经营状况,了解市场需求,制定正确方案,增加效益。数据挖掘技术数据挖掘技术数据挖掘数据挖掘(Data Mining,简记为DM)是从关系数据库、数
10、据仓库、WEB数据库以及其他文件系统中发现重要的数据模式、规律的过程,因此又称为数据库中的知识发现(Knowledge Discovery in Database,简记为KDD),它是OLAP的高级阶段。自20世纪80年代起,开始了数据挖掘技术的研究。1989年在美国召开的国际学术会议上包含了“从数据库中知识发现”的主题;1995年在加拿大召开了第一届知识发现与数据挖掘国际学术会议。从数据库到数据仓库从数据库到数据仓库 在线分析处理(OLAP)在线事务处理 决策支持(DSS)(OLTP)(OLTP)数据挖掘数据挖掘(Data Mining)(Data Mining)数据仓库的定义数据仓库的定义
11、数据仓库用来保存从多个数据库或其它信息源选取的数据数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一的用户接口,完成数据查询和分析。并为上层应用提供统一的用户接口,完成数据查询和分析。数据仓库是作为数据仓库是作为DSSDSS服务基础的分析型服务基础的分析型DBDB,用来存放大容量用来存放大容量的只读数据,为制定决策提供所需要的信息。的只读数据,为制定决策提供所需要的信息。数据仓库是与操作型系统相分离的、基于标准企业模型集成数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。的、带有时间属性的、面向主题及不可更新的数据集合。
12、数据仓库的定义数据仓库的定义 数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用以支持企业或组织的决策分析处理。数据仓库的定义数据仓库的定义数据仓库中数据的特点数据仓库中数据的特点 面向主题面向主题 集成性集成性 不可更新的不可更新的随时间不断变化随时间不断变化数据仓库的定义数据仓库的定义1 1、面向主题:、面向主题:主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类。在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。主题是在较高层次上对数据抽象主题是在较高层次上对数据抽象面向主题的数据组织分为两步骤面向主题的数据组织分为两步骤u抽取主题抽
13、取主题u确定每个主题所包含的数据内容确定每个主题所包含的数据内容每个主题在数据仓库中都是由每个主题在数据仓库中都是由一组关系一组关系表实现的表实现的数据仓库的定义数据仓库的定义数据仓库的特点数据仓库的特点 面向主题面向主题2 2、集成的、集成的 数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。因此,数据仓库在提取数据时必须经过数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数
14、据库提供的信息更概括、更本质。数据集成过程:u数据提取:数据仓库的数据是从原有的分散数据库数据中抽取来的u净化、转换:消除数据表述的不一致性(数据的清洗)u装载u数据的综合数据仓库的定义数据仓库的定义 数据仓库的特点数据仓库的特点 集成集成 3 3、不可更改的、不可更改的 数据仓库中的数据反映的是一段时间内历史数据的内容。主要供企业高层决策分数据仓库中的数据反映的是一段时间内历史数据的内容。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作,即数据仓库析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作,即数据仓库中的数据是不可实时更新的,仅当超过规定
15、的存储期限,才将其从数据仓库中删除,中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。提取新的数据经集成后输入数据仓库。数据仓库的主要数据操作是查询、分析数据仓库的主要数据操作是查询、分析不进行一般意义上的数据更新(过期数据可能被删除)不进行一般意义上的数据更新(过期数据可能被删除)数据仓库强化查询、淡化并发控制和完整性保护等技术数据仓库强化查询、淡化并发控制和完整性保护等技术数据仓库的定义数据仓库的定义数据仓库的特点数据仓库的特点数据不可更改数据不可更改4 4、随时间变化的、随时间变化的 时变性:许多商业分析要求对发展趋势做出预测,对
16、发展趋势的分析时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉需要访问历史数据。因此数据仓库必须不断捕捉OLTPOLTP数据库中变化的数据。数据库中变化的数据。不断增加新的数据内容不断增加新的数据内容不断删除旧的数据内容不断删除旧的数据内容定时综合定时综合数据仓库中数据表的键码都包含时间项,以标明数据的历史时期数据仓库中数据表的键码都包含时间项,以标明数据的历史时期数据仓库的定义数据仓库的定义数据仓库的特点数据仓库的特点 随时间变化随时间变化数据仓库的技术要求数据仓库的技术要求l大量数据的组织和管理:包含了大量的历史数据,它是从数据库中提取
17、得来的,不必关心数据的完整性。l复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。l对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。l对进行高层决策的最终用户的界面支持:提供各种分析应用工具。数据仓库的体系结构数据仓库的体系结构 数据仓库的概念结构 从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。数据源业务系统数据源外部数据源数据
18、准备区数据仓库数据库OLAP应用服务器管理工具数据集市 数据挖掘应用服务器数据集市数据挖掘的定义数据挖掘的定义数据挖掘数据挖掘(Data Mining,简记为DM):从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知、有潜在应用价值的模式或知识的处理过程。模式模式:即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。数据挖掘是一门交叉性学科,它涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。可广泛地应用于信
19、息管理、过程控制、科学研究、决策支持等许多方面。数据挖掘的过程数据挖掘的过程数据挖掘知识挖掘的核心数据清理数据清理数据库数据库模式评估、模式评估、数据集成数据集成数据仓库数据仓库任务相关数据任务相关数据选择选择数据挖掘数据挖掘数据挖掘的步骤1.1.数据清理数据清理:(:(这个可能要占全过程这个可能要占全过程6060的工作量的工作量)2.2.数据集成数据集成3.3.数据选择数据选择4.4.数据变换数据变换5.5.数据挖掘(选择适当的算法来找到感兴趣的模式)数据挖掘(选择适当的算法来找到感兴趣的模式)6.6.模式评估模式评估7.7.知识表示知识表示数据挖掘的类型数据挖掘的类型 数据挖掘的任务是从大
20、量的数据中发现模式。根据数据挖掘的任务可分为多种类型,其中比较典型的有:概念描述概念描述预测模型预测模型关联分析关联分析分类分析分类分析聚类分析聚类分析序列分析序列分析偏差检测偏差检测模式相似性挖掘模式相似性挖掘WebWeb数据挖掘数据挖掘概念描述概念描述:为数据的特征化和比较产生描述特征化特征化:提供给定数据集的简洁汇总。例:对公司的例:对公司的“大客户大客户”(月消费额在(月消费额在50005000以上)的特征化描述:以上)的特征化描述:40405050岁,有固定职业,信誉良好,等等岁,有固定职业,信誉良好,等等数据挖掘的类型数据挖掘的类型预测模型预测模型 所谓预测即从数据库或数据仓库中已
21、知的数据推测未知的数据或对象集中某些属性的值分布。建立预测模型的常用方法:建立预测模型的常用方法:回归分析回归分析线性模型线性模型关联规则关联规则决策树预测决策树预测遗传算法遗传算法神经网络神经网络数据挖掘的类型数据挖掘的类型关联分析关联分析 从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。广泛的用于购物篮或事务数据分析。(1 1)关联发现算法:得到关联规则、找出关联组合,在关联组合中,如果出)关联发现算法:得到关联规则、找出关联组合,在关联组合中,如果出现某一项,则另一项也会出现。现某一项,则另一项也会出现。(2 2)序列模式发现算法:发
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 生产 决策 中的 应用
限制150内