第5章 数据开采技术.ppt
《第5章 数据开采技术.ppt》由会员分享,可在线阅读,更多相关《第5章 数据开采技术.ppt(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第5 5章数据开采技术章数据开采技术数据开采技术研究背景及现状数据开采技术研究背景及现状5.1商业领域(比如大型超市)对大量条形码的普遍使用,使得每天都积累大量的数据;Internet的迅猛发展,使得网上各种资源信息异常丰富;证券市场的逐步规范,使得日交易行情数据已达到几十兆,甚至几百兆。但是大量信息给人们带来方便的同时,也带来了一大堆问题:第一,信息过量,难以消化;第二,信息分散,难以整合;第三,信息形式不一致,难以统一。人们开始提出一个新的口号“要学会抛弃信息”。面对这些“堆积如山”的信息集合,人们希望能够对其进行更高层次的分析,以便更有效地利用这些信息。目前的数据库系统可以高效地实现数
2、据录入、查询、统计等,但无法发现数据中存在的关系和规则;无法根据现有数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的知识手段,导致“数据爆炸,知识贫乏”的现象。面对这一挑战,数据挖掘应运而生。十多年来,零售业和证券业积累了大量的客户交易数据和行情数据,通过对这些数据的挖掘分析,发现一些有助于投资的信息,提供给客户相应的服务,已成为有竞争优势的一个重要手段。数据挖掘的出现实现了这个目标,但是国内的这两个行业仍停留在较落后的水平。中国的这些行业与国外相比主要是服务。国内的行业对客户的了解只是表面上的,不能够深入了解客户需求,长期以来实行无差别的服务策略,不能够抓住真正的赢利客户,以进行区别对待,为客
3、户提供一对一的服务。随着数据挖掘的不断完善,完全可以利用这些数据为决策提供支持。通过数据挖掘能自动处理数据仓库中的海量数据,抽象出具有意义的模式,找出人们所需的目标知识。同时数据挖掘应用范围非常广泛,用于零售、银行、金融、保险和电信等诸多行业。在信息化过程中有很大的应用背景,所以进行数据挖掘的研究具有重大的理论意义和实践意义。使用数据挖掘技术的机构由于发现了分析人员发现不了的隐含的关系和模式,出人意料但有价值的事实、趋势、例外和异常等,从而对各自的行业有了更深的了解。这表明虽然数据挖掘是一门新兴的学科,但已在经济系统中显出巨大的潜在价值。数据库中知识发现(数据库中知识发现(knowledge
4、discovery in database,KDD)一词首先出现在)一词首先出现在1989年年8月在美国底特律召开的月在美国底特律召开的第第11届国际人工智能会议(届国际人工智能会议(The 11th International Joint Conference on AI)。)。1999年,亚太地区在北京召开了第三届年,亚太地区在北京召开了第三届PAKDD会议,收到会议,收到158篇论文,电子工程师学会(篇论文,电子工程师学会(Institute of Electrical and Electronic Engineers,IEEE)的的Knowledge and Data Engineer
5、ing会刊率先在会刊率先在1993年出版了年出版了KDD技术专刊。并技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题讨论,甚至到了脍炙人口的程度。到数据挖掘和知识发现列为专题讨论,甚至到了脍炙人口的程度。到目前为止,由美国人工智能协会主办的目前为止,由美国人工智能协会主办的KDD国际研讨会已召开了国际研讨会已召开了多次,规模由原来的专题讨论会发展到国际学术大会;研究重点逐多次,规模由原来的专题讨论会发展到国际学术大会;研究重点逐渐从发现方法的研究转向实际的系统应用,注重发现多种策略和技渐从
6、发现方法的研究转向实际的系统应用,注重发现多种策略和技术的集成,以及多种学科之间的渗透。术的集成,以及多种学科之间的渗透。数据挖掘技术一开始就是面向应用的,它不仅是面向特定数据库的简单检索、查询调用,而且要对这些数据进行微观、中观及宏观的统计分析、综合、推理,以指导实际问题的求解,企图发现事件间的相互关联甚至用已有的数据对未来的活动进行预测。对于数据挖掘技术的研究,在国外已经有好多年的历史了。数据挖掘技术及相关的决策支持系统发展很快,已经快速、直接地给商业界、公共服务行业等众多行业带来了令人吃惊的利润。并且有很多学校和科研机构也正投入大量资金,进行数据挖掘技术的进一步开发和深入研究。国内:最近
7、几年,国内也有相当多的数据挖掘和知识发现方面的研究成果,许多学术会议上都设有专题进行学术交流。许多科研单位和高等院校竞相开展数据挖掘的基础理论及应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中北京系统工程研究所对模糊方法在知识发现中的应用进行了深入研究;北京大学在开展对数据立方体代数的研究;华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化改造;南京大学、四川联合大学和上海交通大学等单位探讨研究非结构化数据的知识发现以及Web数据挖掘。但是国内与国外相比,对数据挖掘领域研究仍处于初期。绝大
8、多数工作集中于局部算法设计,有的开始软件的开发,但还是处在业务数据转移和建立数据仓库的初级阶段;进行综合的系统集成设计却寥寥无几。由于技术核心的欠缺,使得数据挖掘在国内一些领域只是初步开始应用。在零售业、证券业等行业开始有研究,只是提出一些应用构思和解决方案,实现系统方面仍处于初级阶段;证券公司开始数据仓库建设阶段,但还没有对数据进行深一步挖掘和实证研究。所以国内虽然实施了数据挖掘,仍存在一些问题,结果不尽如人意。其原因如下。(1)进行数据挖掘研究一定要先确认为什么要投资数据挖掘。(2)明确要用数据挖掘解决什么问题。(3)数据挖掘达到什么目的可以告一段落,如何评价成功与否。数据开采(data
9、mining),又译作数据挖掘、数据采掘,还有的译成数据发掘。一种比较公认的数据开采定义是W.J.Frawley、G.Piatetsky、Shapiro 等人提出的:数据开采就是从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念(concepts)、规则(rules)、规律(regularities)、模式(patterns)等形式。这种定义把数据开采的对象定义为数据库。而更广义的说法是,数据开采意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。数据开采的对象不仅是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,例如WWW
10、信息资源。与知识发现的区别:数据开采的任务是发现可以理解的知识,而机器学习关心的是提高系统的性能,因此训练神经网络来控制一根倒立棒是一种机器学习过程,但不是数据开采;数据开采的对象是大型的数据库,一般来说机器学习处理的数据集要小得多,因此效率问题对数据开采是至关重要的。数据开采技术基本概念数据开采技术基本概念5.2数据开采处于影响空间中,从中可以看出数据开采在整个决策支持中所处的重要地位。决策支持空间处理基于关键字(key based)的决策查询 处理诸如“某一商场在某月某种商品的销售额是多少?处理逻辑性质的决策支持 负责回答某种变化的过程和速率问题 数据开采的目的在传统的决策支持系统中,知识
11、库中的知识和规则是由专家或程序人员建立的,是由外部输入的。而数据开采的任务是发现大量数据中尚未被发现的知识,是从系统内部自动获取知识的过程。对于那些决策者明确了解的信息,可以用查询、联机分析处理(OLAP)或其他工具直接获取,比如“列出各子公司在上个月的销售情况”。而另外一些隐藏在大量数据中的关系、趋势,即使是管理这些数据的专家也是没有能力发现的,这些信息对于决策可能又是至关重要的,现在让数据开采来解决这类问题吧!数据开采发现的知识通常是用以下形式表示:概念(concepts),规则(rules),规律(regularities),模式(patterns),约束(constraints)和可视
12、化(visualizations)。这些知识可以直接提供给决策者,用以辅助决策过程;或者提供给领域专家,修正专家已有的知识体系;也可以作为新的知识转存到应用系统的知识存储机构中,比如专家系统(expert system)、规则库(rule base)等。数据开采的过程根据发现知识的种类根据采用的技术分类 人工神经网络 决策树 遗传算法最近邻技术可视化规则归纳数据开采的分类总结(summarization)规则开采、特征(characterization)规则开采、关联(association)规则开采、分类(classification)规则开采、聚类(clustering)规则开采、趋势(t
13、rend)分析、偏差(deviation)分析和模式(pattern analysis)分析等最后均走上数据开采的道路DMKD的研究主的3个技术支柱数据库人工智能数理统计查询是数据库的奴隶,发查询是数据库的奴隶,发现才是数据库的主人现才是数据库的主人知识获取、知识表示、基知识获取、知识表示、基本常识成为三大难题本常识成为三大难题进入进入DMKD行业行业 数据开采的内容和本质数据开采的内容和本质数据仓库作为一种新型的数据存储地,为数据开采提供了新的支持平台。可以预见,数据仓库以其内在的对决策的支持能力,将会成为数据开采的主战场。数据仓库的发展不仅仅是为了数据开采开辟了新的空间,更对数据开采技术提
14、出了新的要求。数据仓库环境下的数据开采基于数据仓库的数据开采技术2规 模历史数据数据集成和综合性查询支持数据仓库环境中的数据开采的新特点:总结:总结:数据仓库在纵向和横向都为数据开采提供了更广阔的数据仓库在纵向和横向都为数据开采提供了更广阔的活动空间。数据仓库完成了数据的收集、集成、存储、管活动空间。数据仓库完成了数据的收集、集成、存储、管理等工作,数据开采面对的是经初步加工的数据,使得数理等工作,数据开采面对的是经初步加工的数据,使得数据开采更专注于知识的发现;另一方面,由于数据仓库所据开采更专注于知识的发现;另一方面,由于数据仓库所具有的新特点,又对数据开采技术提出了更高的要求。可具有的新
15、特点,又对数据开采技术提出了更高的要求。可以说,数据开采技术要充分发挥潜力,就必须和数据仓库以说,数据开采技术要充分发挥潜力,就必须和数据仓库的发展结合起来。的发展结合起来。数据开采方法分类的效果一般和数据的特点有关。有的数据噪声大;有的有缺值;有的分布稀疏;有的字段或属性间相关性强;有的属性是离散的,而有的是连续值或混合式的,目前普遍认为不存在某种方法能适合于各种特点的数据。目的目的:学会一个分类函数或分类模型(也常称为分类器),该模型能把数据库中的数据映射到给定类别中的某一个分类器评价或比较尺度:预测准确度 计算复杂度 模型描述的简洁度 定义:聚类是把一组个体相似性归成若干类别,即“物以类
16、聚”。它的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能的大。方法:统计方法、机器学习方法、神经网络方法和面向数据库的方法 主要研究基于主要研究基于几何距离的聚类几何距离的聚类在机器学习中聚在机器学习中聚类称为无监督或类称为无监督或无教师归纳无教师归纳 一个6结点的前馈神经网络是一种复杂的分类和回归算法,常被称做“黑箱”神经网络一个输入结点的运算F(I)=w1x1+w2x2+w3x3+w4x4+w5x5,而F(I)是对F(I)的一次非线性转换。两种最常使用的前馈神经网络是多层感知器(MLPS)和径向基函数(radial basis function,RBF)网
17、络。这两者之间唯一的根本差异是在隐藏层结合网络前面的层的数据时,MLPS用内部的产品,而RBF却用欧几里的距离 神经网络方法的优点和缺点:神经网络因为不能解释发现的关系,常被看做黑箱。它只能输入数字数据,这就意味着非数字数据需要转换。另外,输入还需要归一为0至1之间。神经网络通过很好的训练能快速预测新的案例,训练阶段是非常精密的,需要选择合适的数字和控制过度匹配。神经网络的一个缺点是它永远不是非常精确,即使永远训练。关联规则挖掘算法可以分解为两个子问题。(1)找到所有支持度大于最小支持度的项集(itemset),这些项集称为频集(frequent itemset)。(2)使用第1步找到的频集产
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第5章 数据开采技术 数据 开采 技术
限制150内