数据挖掘原理第6章 41.ppt
《数据挖掘原理第6章 41.ppt》由会员分享,可在线阅读,更多相关《数据挖掘原理第6章 41.ppt(72页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第6 6章章数据挖掘原理数据挖掘原理6.16.1数据挖掘的基本概念数据挖掘的基本概念6.26.2数据挖掘的过程数据挖掘的过程6.36.3数据挖掘的常用方法和技术数据挖掘的常用方法和技术6.46.4数据挖掘的知识表示数据挖掘的知识表示1从从OLTPOLTP到数据挖掘到数据挖掘数据库应用的规模和深度数据库应用的规模和深度点点 线线 面面 互联网互联网 在线分析处理在线分析处理(OLAP)(OLAP)在线事务处理在线事务处理 决策支持决策支持(DS)(DS)(OLTP)(OLTP)数据挖掘数据挖掘(Data Mining(Data Mining)26.1 6.1 数据挖掘的基本概念数据挖掘的基本概
2、念数据挖掘(数据挖掘(ataata Mining Mining):又称为数据库中的知识发现又称为数据库中的知识发现,是基于、机器学习、统计学等技术,高度自动化地分析是基于、机器学习、统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从数据仓库或数据库中提取原有的数据,进行归纳性推理,从数据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能别人理解的知可信的、新颖的、有效的、人们感兴趣的、能别人理解的知识的高级处理过程。识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者
3、作出表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。正确的决策。模式:它给出了数据特性或数据之间的关系,是对数据所模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。模式、聚类模式和序列模式等。3数据挖掘的发展数据挖掘的发展“从数据中发现有用模式从数据中发现有用模式”历来有很多称法,如历来有很多称法,如:数据挖掘数据挖掘(d data mining
4、ata mining)知识提取知识提取(knowledge extraction)(knowledge extraction)信息发现信息发现(information discovery)(information discovery)信息收获信息收获(information harvesting)(information harvesting)数据考古数据考古(data archaeology)(data archaeology)数据模式处理数据模式处理(data pattern processing)(data pattern processing)“数据挖掘数据挖掘”的称法大部分是的称法大
5、部分是由统计学家,数据分由统计学家,数据分析学家和析学家和MISMIS团体使用团体使用的,在数据库领域也得到了的,在数据库领域也得到了广泛接受。广泛接受。4数据挖掘的发展数据挖掘的发展70708080年代:知识发现与数据挖掘结合年代:知识发现与数据挖掘结合19891989年年6 6月:在美国底特律举行了第一届月:在美国底特律举行了第一届“从数从数据库中据库中知识发现知识发现”的国际学术会议,在这次会议的国际学术会议,在这次会议中第一次使用了中第一次使用了KDD KDD 这个词来强调这个词来强调“知识知识”是数是数据驱动据驱动(data-driven)(data-driven)发现的最终结果。发
6、现的最终结果。19951995:加拿大召开第一届知识发现与数据挖掘国:加拿大召开第一届知识发现与数据挖掘国际学术会议际学术会议5 数据挖掘技术的应用开发在国外已经迅速发数据挖掘技术的应用开发在国外已经迅速发展,许多大公司(如展,许多大公司(如Informix,Oracle,IBMInformix,Oracle,IBM等)等)都投入了巨资对其进行研究,并开发出了一些产品都投入了巨资对其进行研究,并开发出了一些产品和原型,如和原型,如DBMinerDBMiner、QuestQuest、EXPLORAEXPLORA等。等。第一本关于数据挖掘的国际学术杂志第一本关于数据挖掘的国际学术杂志Data Da
7、ta Mining and Knowledge DiscoveryMining and Knowledge Discovery于于19971997年年3 3月月创刊。创刊。国内在这方面的研究起步比较晚,国内在这方面的研究起步比较晚,早期研究的早期研究的方向多集中于关联规则的挖掘,方向多集中于关联规则的挖掘,近来关于近来关于时序模式、时序模式、分类、聚类、分类、聚类、WEBWEB数据挖掘等的研究也日益受到重数据挖掘等的研究也日益受到重视视,并取得了不少可喜的成果,一些原型系统或数,并取得了不少可喜的成果,一些原型系统或数据挖掘工具已经研制成功并在不断完善中。据挖掘工具已经研制成功并在不断完善中。
8、6DMDM系统的体系结构系统的体系结构(1 1)DW DW 的步骤:的步骤:l数据准备:数据准备:n数据集成数据集成n数据选择数据选择n预分析预分析l挖掘挖掘l表述表述l评价评价(2 2)DW DW 系统的结构:系统的结构:用户界面用户界面结果输出结果输出数据挖掘核心数据挖掘核心知识库知识库数据仓库数据仓库数据库数据库文件系统文件系统其他其他数据源数据源ODBC或其他专用数据库接口或其他专用数据库接口7l6.2.1 数据挖掘步骤数据挖掘步骤:第一步第一步:数据准备数据准备;第二步第二步:数据挖掘数据挖掘 第三步第三步:评价评价 第四步第四步:巩固和运用巩固和运用6.2.2 数据挖掘的对象数据挖
9、掘的对象:6.2.3 数据挖掘的任务数据挖掘的任务:6.2 数据挖掘的过程数据挖掘的过程8l1.数据准备阶段:数据准备阶段:经过处理过的数据一般存储在数经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。包括:掘的效率和准确度以及最终模式的有效性。包括:n数据的选择:选择相关的数据数据的选择:选择相关的数据n数据的净化:消除噪音、冗余数据数据的净化:消除噪音、冗余数据n数据的推测:推算缺失数据数据的推测:推算缺失数据n数据的转化:离散值数据与连续值数据之间的相互转换、数据的转化:离散值数据与连
10、续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等数据值的分组分类、数据项之间的计算组合等n数据的缩减:减少数据量数据的缩减:减少数据量6.2.1 数据挖掘步骤数据挖掘步骤:92.挖掘阶段:挖掘阶段:该阶段是数据挖掘的核心该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得分析数据并通过可视化工具表述所获得的模式或规则。的模式或规则。103.评价阶段:评价阶段:在数据挖掘
11、中得到的模式可能在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。用数据来检验其准确性。114.巩固和运用阶段:巩固和运用阶段:用户理解的、并被认为是用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还符合实际和
12、有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一由此可能产生新的问题,而需要对知识作进一步的优化。步的优化。126.2.2 数据挖掘的对象数据挖掘的对象:根据信息存储格式
13、根据信息存储格式“用于挖掘的对象有用于挖掘的对象有关系数据库关系数据库;面向对象数据库面向对象数据库;数据仓库数据仓库;文本数据文本数据;多媒体数据库多媒体数据库;以及全球网以及全球网web数据数据.目前用于数据挖掘的数据源主要是关系用于数据挖掘的数据源主要是关系数据库数据库;数据仓库数据仓库和全球网web数据.136.2.3 数据挖掘的任务数据挖掘的任务主要有主要有:1.数据约简数据约简2.分类分类3.聚类聚类4.关联规则发现关联规则发现141.数据约简数据约简目的是对数据进行浓缩目的是对数据进行浓缩,给出它的紧凑描述给出它的紧凑描述,最简单的数据约简方最简单的数据约简方法是计算出数据库的各
14、个字段上的求和值、平均值、方差值等统法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值、或者用直方图、饼状图等图形方式表示。计值、或者用直方图、饼状图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据约简。数据挖掘主要关心从数据泛化的角度来讨论数据约简。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。上的过程。为了不遗漏任何可能有用的数据信息“数据库中所包的数据或信息总是最原始、最基本的信息但人们有时希望能从较高层次的视图上处理或浏览数据因此需要对数据进行不同层次上的泛化以适应挖掘目的要求!数据泛化目前主要
15、有两种技术:多维数据分析方法和面向属性的归纳方法。多维数据分析方法是一种数据仓库技术,也称作联机分析处理。15数据仓库是面向决策支持的集成的稳定的不同时间的历史数据集合。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作。这类操作的计算量特别大,因此一种很自然的想法是:把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库16多维数据分析方法多维数据分析方法进行进行数据约简,针对的是数据仓库。数据约简,针对的是数据仓库。数据仓库存储静态的历史数据,为了处理联机数据,数据仓库存储静态的历史数据,为了处理联机数据,研究人员提出了一种面向属性的归
16、纳方法。研究人员提出了一种面向属性的归纳方法。它的思路是:直接对用户感兴趣的数据视图(用一它的思路是:直接对用户感兴趣的数据视图(用一般的般的sql查询语言即可获得)进行泛化,而不是像多维查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先将泛化数据存储在数据仓库中,数据分析方法那样预先将泛化数据存储在数据仓库中,方法的提出者对这种数据泛化技术称之为面向属性的方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始化关系,它从较高的层次上总结了在低层次上的原始
17、关系,有了泛化关系后,就可以对它进行各种深入的关系,有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识:如生成特性规则、操作而生成满足用户需要的知识:如生成特性规则、判别规则、分类规则以及关联规则等。判别规则、分类规则以及关联规则等。172.数据数据分类 分类在数据挖掘中是一项非常重要的任务。目前在分类在数据挖掘中是一项非常重要的任务。目前在商业上应用最多。商业上应用最多。分类的目的是找到一个分类函数或分类模型。分类的目的是找到一个分类函数或分类模型。该模型能把数据库中的数据项映射到给定类别中的该模型能把数据库中的数据项映射到给定类别中的某一个。分类目的是从历史数据纪录中自动
18、推导出对某一个。分类目的是从历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。给定数据的推广描述,从而能对未来数据进行预测。要构造分类器,需要有一个训练样本数据集作为输入。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量。个由有关字段(又称属性或特征)值组成的特征向量。分类器的构造方法有统计方法、机器学习方法、神经分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。网络方法等等。统计方法包括贝叶斯法和基于事例的学习统计方法包括贝
19、叶斯法和基于事例的学习“对应的对应的知识表示为判别函数和原型事例。知识表示为判别函数和原型事例。18 机器学习方法包括决策树法和规则归纳法。机器学习方法包括决策树法和规则归纳法。神经网络方法主要是前向反馈神经网络算法,神经网络方法主要是前向反馈神经网络算法,该算法本质上是一种非线性判别函数。该算法本质上是一种非线性判别函数。粗糙集理论是一种新的分类方法。其主要粗糙集理论是一种新的分类方法。其主要原理是在对数据库泛化的基础上,根据对象的原理是在对数据库泛化的基础上,根据对象的属性值的不同将对象分成不同的等价类,然后属性值的不同将对象分成不同的等价类,然后找出具有相同分类能力,而且简化的属性集合,
20、找出具有相同分类能力,而且简化的属性集合,经过进一步的操作,将获得的知识以产生式规经过进一步的操作,将获得的知识以产生式规则表示出来。则表示出来。193.数据数据聚类聚类是把一组个体按照相似性归成若干聚类是把一组个体按照相似性归成若干类别。即:物以类聚。它的目的是使得类别。即:物以类聚。它的目的是使得属于同一类别的个体之间的距离尽可能属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽的小,而不同类别上的个体间的距离尽可能的大。可能的大。聚类方法也主要包括统计方法、机器学聚类方法也主要包括统计方法、机器学习方法、神经网络方法。习方法、神经网络方法。204.关联规则发现 挖掘关联
21、规则主要是针对事务型数据库,特别是售挖掘关联规则主要是针对事务型数据库,特别是售货数据,由于条形码技术的发展,零售部门可以利用货数据,由于条形码技术的发展,零售部门可以利用前端收款机收集存储大量的售货数据,如果对这些历前端收款机收集存储大量的售货数据,如果对这些历史事务数据进行分析,则可对顾客的购买行为提供极史事务数据进行分析,则可对顾客的购买行为提供极有价值的信息。有价值的信息。例如例如“可以帮助如何摆放货架上的商品可以帮助如何摆放货架上的商品”把顾客经把顾客经常同时买的商品放在一起常同时买的商品放在一起“帮助规划市场,减少库存,帮助规划市场,减少库存,对市场变化提供预测。对市场变化提供预测
22、。由此可见,从事务数据中发现关联规则,对于改进由此可见,从事务数据中发现关联规则,对于改进零售业等商业活动的决策非常重要。在事务数据库中零售业等商业活动的决策非常重要。在事务数据库中存在非常多的关联规则。事实上,人们结合领域知识,存在非常多的关联规则。事实上,人们结合领域知识,选取适当挖掘方法抽取那些满足一定的支持度和可信选取适当挖掘方法抽取那些满足一定的支持度和可信度的关联规则。度的关联规则。216.36.3数据挖掘的常用方法和技术数据挖掘的常用方法和技术 通常采用的方法为:机器学习方法、统计方法、神通常采用的方法为:机器学习方法、统计方法、神经网络方法和数据库方法。经网络方法和数据库方法。
23、机器学习中可细分为:归纳学习方法(决策树、机器学习中可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析、判别分析统计方法中,可细分为:回归分析、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。分析法、相关分析法等)等。神经网络方法中可细分为前向神经网络、自组织神经网络方法中可细分为前向神经网络、自组织神经网络、自组织特征映射、竞争学习等
24、。神经网络、自组织特征映射、竞争学习等。数据库方法主要是多维数据分析或数据库方法主要是多维数据分析或OLAP方法。方法。另外还有面向属性的归纳方法。另外还有面向属性的归纳方法。22数据挖掘常用技术数据挖掘常用技术生物学方法生物学方法人工神经网络人工神经网络遗传算法遗传算法信息论方法信息论方法决策树决策树集合论方法集合论方法约略集约略集模糊集模糊集最邻近技术最邻近技术统计学方法统计学方法可视化技术可视化技术23生物学方法生物学方法神经网络方法神经网络方法神经网络是人工智能领域的一个重要的分支。采用神经网络神经网络是人工智能领域的一个重要的分支。采用神经网络设计的系统模拟人脑的结构,而与传统的系统
25、截然不同。由设计的系统模拟人脑的结构,而与传统的系统截然不同。由医学可知,人的大脑中有几十亿个大脑细胞(称为神经元),医学可知,人的大脑中有几十亿个大脑细胞(称为神经元),这些神经元通过神经中枢的导电神经纤维互相连接,从而形这些神经元通过神经中枢的导电神经纤维互相连接,从而形成一个复杂的脑神经网络。人在学习某一件事的时候,某些成一个复杂的脑神经网络。人在学习某一件事的时候,某些神经元的连接得到强化。神经元的连接得到强化。在人工神经网络中,用计算机处理单元来模拟人脑的神经元,在人工神经网络中,用计算机处理单元来模拟人脑的神经元,并将这些处理单元象人脑的神经元那样互相连接起来,构成并将这些处理单元
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘原理 第6章 4。1 数据 挖掘 原理
限制150内