数据挖掘概述.ppt
《数据挖掘概述.ppt》由会员分享,可在线阅读,更多相关《数据挖掘概述.ppt(80页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘概述现在学习的是第1页,共80页从大量数据中挖掘出有用的知从大量数据中挖掘出有用的知识现在学习的是第2页,共80页4.1.2 4.1.2 数据挖掘的知识表示数据挖掘的知识表示1.规则规则知知识由由前提条件前提条件和和结论两部分两部分组成,前提条件由字段成,前提条件由字段(或属性)的取(或属性)的取值的合取(与,的合取(与,AND,)析取(或,)析取(或,OR,)组合而成,合而成,结论为决策字段(或属性)的取决策字段(或属性)的取值或者或者类别组成。成。如:如:if A=a B=b then C=c,或者,或者A(a)AND B(b)C(c)。现在学习的是第3页,共80页2.决策决策树决
2、策决策树采用采用树的形式表示知的形式表示知识,叶子,叶子结点表示点表示结论属性的属性的类别,非叶子,非叶子结点表示条件属性,每个非叶子点表示条件属性,每个非叶子结点引出若干条点引出若干条分支分支线,表示,表示该条件属性的各种取条件属性的各种取值。一棵决策一棵决策树可以可以转换成若干条成若干条规则。现在学习的是第4页,共80页if A=a1 B=b1 then D=d1if A=a1 B=b2 then D=d2if A=a2 then D=d3if A=a3 C=c1 then D=d4if A=a3 C=c2 then D=d5现在学习的是第5页,共80页3.知知识基基通通过数据挖掘原表中的
3、冗余属性和冗余数据挖掘原表中的冗余属性和冗余记录,得到,得到对应的的浓缩数据,数据,称称为知知识基基。它是原表的精。它是原表的精华,很容易,很容易转换成成规则知知识。ABCDa1b1d1a1b2d2a2d3a3c1d4a3c2d5if A=a1 B=b1 then D=d1if A=a1 B=b2 then D=d2if A=a2 then D=d3if A=a3 C=c1 then D=d4if A=a3 C=c2 then D=d5现在学习的是第6页,共80页4.网网络权值神神经网网络方法得到的知方法得到的知识是一个网是一个网络结构和各构和各边的的权值,这组网网络权值表示表示对应的知的知识
4、。现在学习的是第7页,共80页4.1.3 4.1.3 数据挖掘的主要任务数据挖掘的主要任务根据根据发现知知识的不同,可以将数据挖掘的任的不同,可以将数据挖掘的任务归纳为以下以下几几类:关关联分析:分析:关关联是某种事物是某种事物发生生时其他事物会其他事物会发生的生的这样一一种种联系。例如每天系。例如每天购买啤酒的人也有可能啤酒的人也有可能购买香烟,比重有多香烟,比重有多大,可以通大,可以通过关关联的支持度和置信度来描述。关的支持度和置信度来描述。关联分析的目的分析的目的是挖掘是挖掘隐藏在数据藏在数据间的的满足一定条件的关足一定条件的关联关系,如:关系,如:buy(computer)buy(so
5、ftware)关关联规则表示表示顾客客购买计算机和算机和软件之件之间的关的关联关系。关系。时序分析:序分析:与关与关联分析不同,分析不同,时序分析序分析产生的生的时序序列序序列是一种与是一种与时间相关的相关的纵向向联系。例如今天系。例如今天银行行调整利整利率,明天股市的率,明天股市的变化。化。现在学习的是第8页,共80页分分类:按照分析按照分析对象的属性、特征,建立不同的象的属性、特征,建立不同的组类来描述事物。来描述事物。例如例如银行部行部门根据以前的数据将客根据以前的数据将客户分成了不同的分成了不同的类别,现在就在就可以根据可以根据这些来区分新申些来区分新申请贷款的客款的客户,以采取相,以
6、采取相应的的贷款方案。款方案。聚聚类:识别出分析出分析对内在的内在的规则,按照,按照这些些规则把把对象分成若象分成若干干类。例如将申。例如将申请人分人分为高度高度风险申申请者,中度者,中度风险申申请者,低者,低度度风险申申请者。者。预测:把握分析把握分析对象象发展的展的规律,律,对未来的未来的趋势做出做出预见。例如。例如对未未来来经济发展的判断。展的判断。现在学习的是第9页,共80页4.1.4 4.1.4 数据挖掘的发展数据挖掘的发展数据挖掘一数据挖掘一词是在是在1989年年8月于美国底特律市召开的第十一界国月于美国底特律市召开的第十一界国际联合人工智能学合人工智能学术会会议上正式形成的。上正
7、式形成的。1995年开始,每年主年开始,每年主办一次一次KDD(Knowledge Discovery in Database)和)和DM的国的国际学学术会会议,将,将KDD和和DM方面的研究推向方面的研究推向了高潮,从此,了高潮,从此,“数据挖掘数据挖掘”一一词开始流行。在中文文献中,开始流行。在中文文献中,DM有有时还被翻被翻译为数据采掘、数据开采、知数据采掘、数据开采、知识提取、数据考古等。提取、数据考古等。现在学习的是第10页,共80页数据挖掘常常与数据挖掘常常与KDD混用,关于两者的关系,有混用,关于两者的关系,有许多不同的多不同的看法。看法。归纳起来有起来有这样几种几种观点:点:无
8、无论哪种哪种观点都点都认为数据挖掘是数据挖掘是KDD的核心。本的核心。本书也不明也不明确区分确区分KDD和和DM两者。两者。将将KDD看成数据挖掘的一个特例,看成数据挖掘的一个特例,将数据挖掘作将数据挖掘作为KDD过程的一个步程的一个步骤,认为KDD与数据挖掘含与数据挖掘含义相同。相同。现在学习的是第11页,共80页4.1.5 4.1.5 数据挖掘的对象数据挖掘的对象1.关系数据关系数据库2.数据数据仓库3.事事务数据数据库4.高高级数据数据库 现在学习的是第12页,共80页4.1.6 4.1.6 数据挖掘的分类数据挖掘的分类1.按数据按数据库类型分型分类从关系数据从关系数据库中中发现知知识从
9、面向从面向对象数据象数据库中中发现知知识从多媒体数据从多媒体数据库中中发现知知识从空从空间数据数据库中中发现知知识从从历史数据史数据库中中发现知知识从从Web数据数据库中中发现知知识现在学习的是第13页,共80页2.按挖掘的知按挖掘的知识类型分型分类按挖掘的知按挖掘的知识类型分型分类主要有关主要有关联规则、特征、特征规则、分、分类规则、偏差、偏差规则、聚集、聚集规则、判、判别式式规则及及时序序规则等等类型。型。按知按知识的抽象的抽象层次可分次可分为归纳知知识、原始、原始级知知识、多、多层次知次知识。现在学习的是第14页,共80页3.按利用的技按利用的技术类型分型分类按数据挖掘方式分按数据挖掘方
10、式分类主要有自主要有自发知知识挖掘、数据挖掘、数据驱动挖掘、挖掘、查询驱动挖掘和交互式数据挖掘。挖掘和交互式数据挖掘。按数据挖掘途径可分按数据挖掘途径可分为基于基于归纳的挖掘、基于模式的挖掘、的挖掘、基于模式的挖掘、基于基于统计和数学理和数学理论的挖掘及集成挖掘等。的挖掘及集成挖掘等。现在学习的是第15页,共80页4.按挖掘的深度分按挖掘的深度分类在在较浅的浅的层次上,利用次上,利用现有数据有数据库管理系管理系统的的查询及及报表功能,表功能,与多与多维分析、分析、统计分析方法相分析方法相结合,合,进行行OLAP,从而得出可供决,从而得出可供决策参考的策参考的统计分析数据。分析数据。在深在深层次
11、上,从数据次上,从数据库中中发现前所未知的、前所未知的、隐含的知含的知识。现在学习的是第16页,共80页4.1.7 4.1.7 数据挖掘与数据仓库及数据挖掘与数据仓库及OLAPOLAP的关系的关系1.数据挖掘与数据数据挖掘与数据仓库的关系的关系融合和互融合和互补的关系:的关系:数据数据仓库中的数据可以作中的数据可以作为数据挖掘的数据源数据挖掘的数据源 数据挖掘的数据源不一定必数据挖掘的数据源不一定必须是数据是数据仓库 共同之共同之处:都是从数据都是从数据库的基的基础上上发展起来的,它展起来的,它们都是决策支持新技都是决策支持新技术 现在学习的是第17页,共80页2.数据挖掘与数据挖掘与OLAP
12、的关系的关系数据挖掘与数据挖掘与OLAP都是数据分析工具。都是数据分析工具。数据挖掘是挖掘型的,建立在各种数据源的基数据挖掘是挖掘型的,建立在各种数据源的基础上,上,重在重在发现隐藏在数据深藏在数据深层次的次的对人人们有用的模式,并有用的模式,并做出有效的做出有效的预测性分析。性分析。OLAP是是验证型的,型的,OLAP更多地依靠用更多地依靠用户输入入问题和假和假设,建立在多建立在多维数据的基数据的基础之上之上。相同点:相同点:不同点:不同点:现在学习的是第18页,共80页4.1.8 4.1.8 数据挖掘的应用数据挖掘的应用1.科学研究中的数据挖掘科学研究中的数据挖掘2.市市场营销的数据挖掘的
13、数据挖掘3.金融数据分析的数据挖掘金融数据分析的数据挖掘4.电信信业的数据挖掘的数据挖掘5.产品制造中的数据挖掘品制造中的数据挖掘6.Internet应用中的数据挖掘用中的数据挖掘现在学习的是第19页,共80页4.2 数据挖掘系统数据挖掘系统4.2.1 4.2.1 数据挖掘系统的结构数据挖掘系统的结构现在学习的是第20页,共80页4.2.2 4.2.2 数据挖掘系统的设计数据挖掘系统的设计1.数据挖掘系数据挖掘系统怎怎样与数据源系与数据源系统的集成的集成不耦合:是指数据挖掘系不耦合:是指数据挖掘系统不利用数据源系不利用数据源系统的任何功能;的任何功能;松散耦合:是指利用数据源系松散耦合:是指利
14、用数据源系统的某些功能。的某些功能。半半紧密耦合:是指将数据挖掘系密耦合:是指将数据挖掘系统连接到数据源系接到数据源系统,在数据,在数据源系源系统中中实现并存并存储一些基本数据挖掘一些基本数据挖掘计算和中算和中间结果;果;紧密耦合:是指数据挖掘系密耦合:是指数据挖掘系统平滑地集成到数据源系平滑地集成到数据源系统,数,数据挖掘系据挖掘系统作作为数据源系数据源系统的一个功能的一个功能组件,数据挖掘任件,数据挖掘任务根据数据源系根据数据源系统的功能的功能进行行优化与化与实现。现在学习的是第21页,共80页2.数据挖掘系数据挖掘系统怎怎样指定目指定目标数据集数据集指定目指定目标数据集就是数据集就是说明
15、与数据挖掘任明与数据挖掘任务相关的数据、用相关的数据、用户感感兴趣趣的数据或者要的数据或者要进行挖掘的数据。行挖掘的数据。现在学习的是第22页,共80页3.数据挖掘系数据挖掘系统怎怎样指定数据挖掘任指定数据挖掘任务指定数据挖掘任指定数据挖掘任务就是就是说明用明用户感感兴趣的知趣的知识类型或者要挖掘得型或者要挖掘得到的知到的知识类型。型。目前,知目前,知识类型包括特征型包括特征规则、比、比较规则、分、分类规则、关、关联规则、聚、聚类规则和和预测规则等。等。现在学习的是第23页,共80页4.数据挖掘系数据挖掘系统怎怎样解解释与与评价模式价模式一个数据挖掘系一个数据挖掘系统可以挖掘出数以千可以挖掘出
16、数以千计的模式,并非所有的模式,并非所有的模式都是用的模式都是用户感感兴趣的。趣的。因此数据挖掘系因此数据挖掘系统应该提供帮助用提供帮助用户评估模式的功能,目前估模式的功能,目前常用的手段是通常用的手段是通过用用户设置置兴趣度趣度阈值来来选择感感兴趣的模式,没趣的模式,没有有兴趣度度量,挖掘出来的有用模式很可能会淹没在用趣度度量,挖掘出来的有用模式很可能会淹没在用户不感不感兴趣的模式中。趣的模式中。现在学习的是第24页,共80页下面介下面介绍四种四种兴趣度的客趣度的客观度量方法,所度量方法,所谓客客观的是指根据模式的是指根据模式的的结构和构和统计,用一个,用一个阈值来判断某个模式是不是用来判断
17、某个模式是不是用户感感兴趣的。趣的。简洁性性 确定性确定性 实用性用性 新新颖性性 现在学习的是第25页,共80页5.数据挖掘系数据挖掘系统怎怎样利用利用领域知域知识在数据挖掘中,在数据挖掘中,领域知域知识可以指可以指导数据挖掘数据挖掘过程及模式的程及模式的评估。估。最多的最多的领域知域知识是概念分是概念分层,利用它可以,利用它可以进行数据概化和数据行数据概化和数据归约,提高挖掘效率。提高挖掘效率。领域知域知识一般由系一般由系统用用户、领域域专家提供。家提供。现在学习的是第26页,共80页6.数据挖掘系数据挖掘系统怎怎样呈呈现知知识数据挖掘的数据挖掘的结果需要呈果需要呈现给用用户,因此数据挖掘
18、系,因此数据挖掘系统应该提供提供多种直多种直观、易于理解的知、易于理解的知识表示功能。表示功能。通常采用通常采用图、表等可、表等可视化方式将化方式将结果提交果提交给用用户,有,有时还需要提供交互功能,便于用需要提供交互功能,便于用户指指导进一步挖掘。一步挖掘。现在学习的是第27页,共80页由于数据挖掘功能的复由于数据挖掘功能的复杂性和灵活性,数据挖掘系性和灵活性,数据挖掘系统通常采用提供一通常采用提供一种数据挖掘种数据挖掘查询语言来言来满足上述要求。足上述要求。例如,例如,DBMiner系系统就提供了一套就提供了一套较完整的完整的类似于似于SQL的数据的数据挖掘挖掘查询语言言DMQL,使用,使
19、用这个个语言,用言,用户可以定可以定义数据挖掘任数据挖掘任务和和相关数据,又可以与数据挖掘系相关数据,又可以与数据挖掘系统交互交互进行交互式挖掘。行交互式挖掘。use database SDWin relevance to P.型号,P.单价,C.年龄层次,from Locates L,Products P,Sales S,Customers Cwhere S.prod_key=L.prod_key and S.locate_key=L.locate_key and L.cust_key=C.cust_key and L.地区=华北现在学习的是第28页,共80页4.2.3 4.2.3 常用的数
20、据挖掘系统及其发展常用的数据挖掘系统及其发展1.常常见的数据挖掘系的数据挖掘系统(产品)品)一般分析目的数据挖掘系一般分析目的数据挖掘系统 针对特定功能或特定功能或产业的数据挖掘系的数据挖掘系统 整合决策支持整合决策支持/OLAP/数据挖掘的大型分析系数据挖掘的大型分析系统目前市目前市场上有多种上有多种较为成熟的数据挖掘系成熟的数据挖掘系统(产品)供人品)供人们用于数据挖掘任用于数据挖掘任务设计,归纳起来,分起来,分为以下三以下三类:现在学习的是第29页,共80页2.数据挖掘系数据挖掘系统的的发展展代特征数据挖掘算法集成功能分布计算模型数据模型第1代作为一个独立的应用支持一个或多个算法独立的系
21、统单台机器向量数据第2代和数据库及数据仓库集成多个算法数据管理系统,包括数据库和数据仓库同质、局部区域的计算机集群有些系统支持对象、文本和连续的多媒体数据第3代和预测模型系统集成多个算法数据管理系统和预言模型系统Intranet/Extranet网络计算支持半结构化数据和Web数据第4代同移动数据、各种计算数据联合多个算法分布在多个节点数据管理系统、预言模型系统和移动系统移动设备和各种计算设备普遍存在的计算模型现在学习的是第30页,共80页4.3 数据挖掘过程数据挖掘过程4.3.1 4.3.1 数据挖掘步骤数据挖掘步骤数据数据预处理理数据源数据源目目标数据集数据集挖掘算法挖掘算法模式模式评估估
22、模式模式知知识现在学习的是第31页,共80页1.数据数据预处理理数据数据预处理主要包括数据清理、数据集成、数据理主要包括数据清理、数据集成、数据变换和数据和数据归约等,通等,通过数据数据预处理,使数据理,使数据转换为可以直接可以直接应用数据挖掘工具用数据挖掘工具进行行挖掘的高挖掘的高质量数据。量数据。现在学习的是第32页,共80页2.数据挖掘算法数据挖掘算法根据数据挖掘任根据数据挖掘任务和数据性和数据性质选择合适的数据挖掘算法挖掘合适的数据挖掘算法挖掘模式。模式。数据挖掘算法不数据挖掘算法不仅与目与目标数据集有关,也与数据挖掘的任数据集有关,也与数据挖掘的任务相关。相关。现在学习的是第33页,
23、共80页3.模式模式评估与表示估与表示去除无用的或冗余的模式,将有趣的模式以用去除无用的或冗余的模式,将有趣的模式以用户能理解的方能理解的方式表示,并式表示,并储存或提交存或提交给用用户。现在学习的是第34页,共80页4.3.2 4.3.2 数据清理数据清理1.处理空缺理空缺值忽略元忽略元组,当,当类标号缺少号缺少时通常通常这么做(假定挖掘任么做(假定挖掘任务涉及分涉及分类或描述),当每个属性缺少或描述),当每个属性缺少值的百分比的百分比变化很化很大大时,它的效果非常差。,它的效果非常差。人工填写空缺人工填写空缺值,这种方法工作量大,可行性低。种方法工作量大,可行性低。使用一个全局使用一个全局
24、变量填充空缺量填充空缺值,例如使用,例如使用unknown或或-。使用属性的平均使用属性的平均值填充空缺填充空缺值。使用与使用与给定元定元组属同一属同一类的所有的所有样本的平均本的平均值。使用最可能的使用最可能的值填充空缺填充空缺值,使用像,使用像Bayesian公式或判定公式或判定树这样的基于推断的方法。的基于推断的方法。现在学习的是第35页,共80页2.消除噪声数据消除噪声数据噪声是指一个噪声是指一个测量量变量中的随机量中的随机错误或偏差。或偏差。引起噪声数据的原因可能有数据收集工具的引起噪声数据的原因可能有数据收集工具的问题、数据、数据输入入错误、数据、数据传输错误、技、技术限制或命名限
25、制或命名规则的不一致。的不一致。现在学习的是第36页,共80页(1)分箱其基本其基本过程是,首先排序数据,并将它程是,首先排序数据,并将它们分到等深的箱中,分到等深的箱中,然后可以按箱的平均然后可以按箱的平均值平滑、按箱中平滑、按箱中值平滑、按箱的平滑、按箱的边界平滑界平滑等。等。例如,某商品价格的排序后数据是例如,某商品价格的排序后数据是4,8,15,21,21,24,25,28,34。箱箱1:4,8,15箱箱2:21,21,24箱箱3:25,28,34采用采用深度深度为3的等深方法的等深方法划分划分为3个箱:个箱:现在学习的是第37页,共80页箱箱1:该箱平均箱平均值为9,均用,均用9平滑
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概述
限制150内