数据挖掘概述.ppt
数据挖掘概述现在学习的是第1页,共80页从大量数据中挖掘出有用的知从大量数据中挖掘出有用的知识现在学习的是第2页,共80页4.1.2 4.1.2 数据挖掘的知识表示数据挖掘的知识表示1.规则规则知知识由由前提条件前提条件和和结论两部分两部分组成,前提条件由字段成,前提条件由字段(或属性)的取(或属性)的取值的合取(与,的合取(与,AND,)析取(或,)析取(或,OR,)组合而成,合而成,结论为决策字段(或属性)的取决策字段(或属性)的取值或者或者类别组成。成。如:如:if A=a B=b then C=c,或者,或者A(a)AND B(b)C(c)。现在学习的是第3页,共80页2.决策决策树决策决策树采用采用树的形式表示知的形式表示知识,叶子,叶子结点表示点表示结论属性的属性的类别,非叶子,非叶子结点表示条件属性,每个非叶子点表示条件属性,每个非叶子结点引出若干条点引出若干条分支分支线,表示,表示该条件属性的各种取条件属性的各种取值。一棵决策一棵决策树可以可以转换成若干条成若干条规则。现在学习的是第4页,共80页if A=a1 B=b1 then D=d1if A=a1 B=b2 then D=d2if A=a2 then D=d3if A=a3 C=c1 then D=d4if A=a3 C=c2 then D=d5现在学习的是第5页,共80页3.知知识基基通通过数据挖掘原表中的冗余属性和冗余数据挖掘原表中的冗余属性和冗余记录,得到,得到对应的的浓缩数据,数据,称称为知知识基基。它是原表的精。它是原表的精华,很容易,很容易转换成成规则知知识。ABCDa1b1d1a1b2d2a2d3a3c1d4a3c2d5if A=a1 B=b1 then D=d1if A=a1 B=b2 then D=d2if A=a2 then D=d3if A=a3 C=c1 then D=d4if A=a3 C=c2 then D=d5现在学习的是第6页,共80页4.网网络权值神神经网网络方法得到的知方法得到的知识是一个网是一个网络结构和各构和各边的的权值,这组网网络权值表示表示对应的知的知识。现在学习的是第7页,共80页4.1.3 4.1.3 数据挖掘的主要任务数据挖掘的主要任务根据根据发现知知识的不同,可以将数据挖掘的任的不同,可以将数据挖掘的任务归纳为以下以下几几类:关关联分析:分析:关关联是某种事物是某种事物发生生时其他事物会其他事物会发生的生的这样一一种种联系。例如每天系。例如每天购买啤酒的人也有可能啤酒的人也有可能购买香烟,比重有多香烟,比重有多大,可以通大,可以通过关关联的支持度和置信度来描述。关的支持度和置信度来描述。关联分析的目的分析的目的是挖掘是挖掘隐藏在数据藏在数据间的的满足一定条件的关足一定条件的关联关系,如:关系,如:buy(computer)buy(software)关关联规则表示表示顾客客购买计算机和算机和软件之件之间的关的关联关系。关系。时序分析:序分析:与关与关联分析不同,分析不同,时序分析序分析产生的生的时序序列序序列是一种与是一种与时间相关的相关的纵向向联系。例如今天系。例如今天银行行调整利整利率,明天股市的率,明天股市的变化。化。现在学习的是第8页,共80页分分类:按照分析按照分析对象的属性、特征,建立不同的象的属性、特征,建立不同的组类来描述事物。来描述事物。例如例如银行部行部门根据以前的数据将客根据以前的数据将客户分成了不同的分成了不同的类别,现在就在就可以根据可以根据这些来区分新申些来区分新申请贷款的客款的客户,以采取相,以采取相应的的贷款方案。款方案。聚聚类:识别出分析出分析对内在的内在的规则,按照,按照这些些规则把把对象分成若象分成若干干类。例如将申。例如将申请人分人分为高度高度风险申申请者,中度者,中度风险申申请者,低者,低度度风险申申请者。者。预测:把握分析把握分析对象象发展的展的规律,律,对未来的未来的趋势做出做出预见。例如。例如对未未来来经济发展的判断。展的判断。现在学习的是第9页,共80页4.1.4 4.1.4 数据挖掘的发展数据挖掘的发展数据挖掘一数据挖掘一词是在是在1989年年8月于美国底特律市召开的第十一界国月于美国底特律市召开的第十一界国际联合人工智能学合人工智能学术会会议上正式形成的。上正式形成的。1995年开始,每年主年开始,每年主办一次一次KDD(Knowledge Discovery in Database)和)和DM的国的国际学学术会会议,将,将KDD和和DM方面的研究推向方面的研究推向了高潮,从此,了高潮,从此,“数据挖掘数据挖掘”一一词开始流行。在中文文献中,开始流行。在中文文献中,DM有有时还被翻被翻译为数据采掘、数据开采、知数据采掘、数据开采、知识提取、数据考古等。提取、数据考古等。现在学习的是第10页,共80页数据挖掘常常与数据挖掘常常与KDD混用,关于两者的关系,有混用,关于两者的关系,有许多不同的多不同的看法。看法。归纳起来有起来有这样几种几种观点:点:无无论哪种哪种观点都点都认为数据挖掘是数据挖掘是KDD的核心。本的核心。本书也不明也不明确区分确区分KDD和和DM两者。两者。将将KDD看成数据挖掘的一个特例,看成数据挖掘的一个特例,将数据挖掘作将数据挖掘作为KDD过程的一个步程的一个步骤,认为KDD与数据挖掘含与数据挖掘含义相同。相同。现在学习的是第11页,共80页4.1.5 4.1.5 数据挖掘的对象数据挖掘的对象1.关系数据关系数据库2.数据数据仓库3.事事务数据数据库4.高高级数据数据库 现在学习的是第12页,共80页4.1.6 4.1.6 数据挖掘的分类数据挖掘的分类1.按数据按数据库类型分型分类从关系数据从关系数据库中中发现知知识从面向从面向对象数据象数据库中中发现知知识从多媒体数据从多媒体数据库中中发现知知识从空从空间数据数据库中中发现知知识从从历史数据史数据库中中发现知知识从从Web数据数据库中中发现知知识现在学习的是第13页,共80页2.按挖掘的知按挖掘的知识类型分型分类按挖掘的知按挖掘的知识类型分型分类主要有关主要有关联规则、特征、特征规则、分、分类规则、偏差、偏差规则、聚集、聚集规则、判、判别式式规则及及时序序规则等等类型。型。按知按知识的抽象的抽象层次可分次可分为归纳知知识、原始、原始级知知识、多、多层次知次知识。现在学习的是第14页,共80页3.按利用的技按利用的技术类型分型分类按数据挖掘方式分按数据挖掘方式分类主要有自主要有自发知知识挖掘、数据挖掘、数据驱动挖掘、挖掘、查询驱动挖掘和交互式数据挖掘。挖掘和交互式数据挖掘。按数据挖掘途径可分按数据挖掘途径可分为基于基于归纳的挖掘、基于模式的挖掘、的挖掘、基于模式的挖掘、基于基于统计和数学理和数学理论的挖掘及集成挖掘等。的挖掘及集成挖掘等。现在学习的是第15页,共80页4.按挖掘的深度分按挖掘的深度分类在在较浅的浅的层次上,利用次上,利用现有数据有数据库管理系管理系统的的查询及及报表功能,表功能,与多与多维分析、分析、统计分析方法相分析方法相结合,合,进行行OLAP,从而得出可供决,从而得出可供决策参考的策参考的统计分析数据。分析数据。在深在深层次上,从数据次上,从数据库中中发现前所未知的、前所未知的、隐含的知含的知识。现在学习的是第16页,共80页4.1.7 4.1.7 数据挖掘与数据仓库及数据挖掘与数据仓库及OLAPOLAP的关系的关系1.数据挖掘与数据数据挖掘与数据仓库的关系的关系融合和互融合和互补的关系:的关系:数据数据仓库中的数据可以作中的数据可以作为数据挖掘的数据源数据挖掘的数据源 数据挖掘的数据源不一定必数据挖掘的数据源不一定必须是数据是数据仓库 共同之共同之处:都是从数据都是从数据库的基的基础上上发展起来的,它展起来的,它们都是决策支持新技都是决策支持新技术 现在学习的是第17页,共80页2.数据挖掘与数据挖掘与OLAP的关系的关系数据挖掘与数据挖掘与OLAP都是数据分析工具。都是数据分析工具。数据挖掘是挖掘型的,建立在各种数据源的基数据挖掘是挖掘型的,建立在各种数据源的基础上,上,重在重在发现隐藏在数据深藏在数据深层次的次的对人人们有用的模式,并有用的模式,并做出有效的做出有效的预测性分析。性分析。OLAP是是验证型的,型的,OLAP更多地依靠用更多地依靠用户输入入问题和假和假设,建立在多建立在多维数据的基数据的基础之上之上。相同点:相同点:不同点:不同点:现在学习的是第18页,共80页4.1.8 4.1.8 数据挖掘的应用数据挖掘的应用1.科学研究中的数据挖掘科学研究中的数据挖掘2.市市场营销的数据挖掘的数据挖掘3.金融数据分析的数据挖掘金融数据分析的数据挖掘4.电信信业的数据挖掘的数据挖掘5.产品制造中的数据挖掘品制造中的数据挖掘6.Internet应用中的数据挖掘用中的数据挖掘现在学习的是第19页,共80页4.2 数据挖掘系统数据挖掘系统4.2.1 4.2.1 数据挖掘系统的结构数据挖掘系统的结构现在学习的是第20页,共80页4.2.2 4.2.2 数据挖掘系统的设计数据挖掘系统的设计1.数据挖掘系数据挖掘系统怎怎样与数据源系与数据源系统的集成的集成不耦合:是指数据挖掘系不耦合:是指数据挖掘系统不利用数据源系不利用数据源系统的任何功能;的任何功能;松散耦合:是指利用数据源系松散耦合:是指利用数据源系统的某些功能。的某些功能。半半紧密耦合:是指将数据挖掘系密耦合:是指将数据挖掘系统连接到数据源系接到数据源系统,在数据,在数据源系源系统中中实现并存并存储一些基本数据挖掘一些基本数据挖掘计算和中算和中间结果;果;紧密耦合:是指数据挖掘系密耦合:是指数据挖掘系统平滑地集成到数据源系平滑地集成到数据源系统,数,数据挖掘系据挖掘系统作作为数据源系数据源系统的一个功能的一个功能组件,数据挖掘任件,数据挖掘任务根据数据源系根据数据源系统的功能的功能进行行优化与化与实现。现在学习的是第21页,共80页2.数据挖掘系数据挖掘系统怎怎样指定目指定目标数据集数据集指定目指定目标数据集就是数据集就是说明与数据挖掘任明与数据挖掘任务相关的数据、用相关的数据、用户感感兴趣趣的数据或者要的数据或者要进行挖掘的数据。行挖掘的数据。现在学习的是第22页,共80页3.数据挖掘系数据挖掘系统怎怎样指定数据挖掘任指定数据挖掘任务指定数据挖掘任指定数据挖掘任务就是就是说明用明用户感感兴趣的知趣的知识类型或者要挖掘得型或者要挖掘得到的知到的知识类型。型。目前,知目前,知识类型包括特征型包括特征规则、比、比较规则、分、分类规则、关、关联规则、聚、聚类规则和和预测规则等。等。现在学习的是第23页,共80页4.数据挖掘系数据挖掘系统怎怎样解解释与与评价模式价模式一个数据挖掘系一个数据挖掘系统可以挖掘出数以千可以挖掘出数以千计的模式,并非所有的模式,并非所有的模式都是用的模式都是用户感感兴趣的。趣的。因此数据挖掘系因此数据挖掘系统应该提供帮助用提供帮助用户评估模式的功能,目前估模式的功能,目前常用的手段是通常用的手段是通过用用户设置置兴趣度趣度阈值来来选择感感兴趣的模式,没趣的模式,没有有兴趣度度量,挖掘出来的有用模式很可能会淹没在用趣度度量,挖掘出来的有用模式很可能会淹没在用户不感不感兴趣的模式中。趣的模式中。现在学习的是第24页,共80页下面介下面介绍四种四种兴趣度的客趣度的客观度量方法,所度量方法,所谓客客观的是指根据模式的是指根据模式的的结构和构和统计,用一个,用一个阈值来判断某个模式是不是用来判断某个模式是不是用户感感兴趣的。趣的。简洁性性 确定性确定性 实用性用性 新新颖性性 现在学习的是第25页,共80页5.数据挖掘系数据挖掘系统怎怎样利用利用领域知域知识在数据挖掘中,在数据挖掘中,领域知域知识可以指可以指导数据挖掘数据挖掘过程及模式的程及模式的评估。估。最多的最多的领域知域知识是概念分是概念分层,利用它可以,利用它可以进行数据概化和数据行数据概化和数据归约,提高挖掘效率。提高挖掘效率。领域知域知识一般由系一般由系统用用户、领域域专家提供。家提供。现在学习的是第26页,共80页6.数据挖掘系数据挖掘系统怎怎样呈呈现知知识数据挖掘的数据挖掘的结果需要呈果需要呈现给用用户,因此数据挖掘系,因此数据挖掘系统应该提供提供多种直多种直观、易于理解的知、易于理解的知识表示功能。表示功能。通常采用通常采用图、表等可、表等可视化方式将化方式将结果提交果提交给用用户,有,有时还需要提供交互功能,便于用需要提供交互功能,便于用户指指导进一步挖掘。一步挖掘。现在学习的是第27页,共80页由于数据挖掘功能的复由于数据挖掘功能的复杂性和灵活性,数据挖掘系性和灵活性,数据挖掘系统通常采用提供一通常采用提供一种数据挖掘种数据挖掘查询语言来言来满足上述要求。足上述要求。例如,例如,DBMiner系系统就提供了一套就提供了一套较完整的完整的类似于似于SQL的数据的数据挖掘挖掘查询语言言DMQL,使用,使用这个个语言,用言,用户可以定可以定义数据挖掘任数据挖掘任务和和相关数据,又可以与数据挖掘系相关数据,又可以与数据挖掘系统交互交互进行交互式挖掘。行交互式挖掘。use database SDWin relevance to P.型号,P.单价,C.年龄层次,from Locates L,Products P,Sales S,Customers Cwhere S.prod_key=L.prod_key and S.locate_key=L.locate_key and L.cust_key=C.cust_key and L.地区=华北现在学习的是第28页,共80页4.2.3 4.2.3 常用的数据挖掘系统及其发展常用的数据挖掘系统及其发展1.常常见的数据挖掘系的数据挖掘系统(产品)品)一般分析目的数据挖掘系一般分析目的数据挖掘系统 针对特定功能或特定功能或产业的数据挖掘系的数据挖掘系统 整合决策支持整合决策支持/OLAP/数据挖掘的大型分析系数据挖掘的大型分析系统目前市目前市场上有多种上有多种较为成熟的数据挖掘系成熟的数据挖掘系统(产品)供人品)供人们用于数据挖掘任用于数据挖掘任务设计,归纳起来,分起来,分为以下三以下三类:现在学习的是第29页,共80页2.数据挖掘系数据挖掘系统的的发展展代特征数据挖掘算法集成功能分布计算模型数据模型第1代作为一个独立的应用支持一个或多个算法独立的系统单台机器向量数据第2代和数据库及数据仓库集成多个算法数据管理系统,包括数据库和数据仓库同质、局部区域的计算机集群有些系统支持对象、文本和连续的多媒体数据第3代和预测模型系统集成多个算法数据管理系统和预言模型系统Intranet/Extranet网络计算支持半结构化数据和Web数据第4代同移动数据、各种计算数据联合多个算法分布在多个节点数据管理系统、预言模型系统和移动系统移动设备和各种计算设备普遍存在的计算模型现在学习的是第30页,共80页4.3 数据挖掘过程数据挖掘过程4.3.1 4.3.1 数据挖掘步骤数据挖掘步骤数据数据预处理理数据源数据源目目标数据集数据集挖掘算法挖掘算法模式模式评估估模式模式知知识现在学习的是第31页,共80页1.数据数据预处理理数据数据预处理主要包括数据清理、数据集成、数据理主要包括数据清理、数据集成、数据变换和数据和数据归约等,通等,通过数据数据预处理,使数据理,使数据转换为可以直接可以直接应用数据挖掘工具用数据挖掘工具进行行挖掘的高挖掘的高质量数据。量数据。现在学习的是第32页,共80页2.数据挖掘算法数据挖掘算法根据数据挖掘任根据数据挖掘任务和数据性和数据性质选择合适的数据挖掘算法挖掘合适的数据挖掘算法挖掘模式。模式。数据挖掘算法不数据挖掘算法不仅与目与目标数据集有关,也与数据挖掘的任数据集有关,也与数据挖掘的任务相关。相关。现在学习的是第33页,共80页3.模式模式评估与表示估与表示去除无用的或冗余的模式,将有趣的模式以用去除无用的或冗余的模式,将有趣的模式以用户能理解的方能理解的方式表示,并式表示,并储存或提交存或提交给用用户。现在学习的是第34页,共80页4.3.2 4.3.2 数据清理数据清理1.处理空缺理空缺值忽略元忽略元组,当,当类标号缺少号缺少时通常通常这么做(假定挖掘任么做(假定挖掘任务涉及分涉及分类或描述),当每个属性缺少或描述),当每个属性缺少值的百分比的百分比变化很化很大大时,它的效果非常差。,它的效果非常差。人工填写空缺人工填写空缺值,这种方法工作量大,可行性低。种方法工作量大,可行性低。使用一个全局使用一个全局变量填充空缺量填充空缺值,例如使用,例如使用unknown或或-。使用属性的平均使用属性的平均值填充空缺填充空缺值。使用与使用与给定元定元组属同一属同一类的所有的所有样本的平均本的平均值。使用最可能的使用最可能的值填充空缺填充空缺值,使用像,使用像Bayesian公式或判定公式或判定树这样的基于推断的方法。的基于推断的方法。现在学习的是第35页,共80页2.消除噪声数据消除噪声数据噪声是指一个噪声是指一个测量量变量中的随机量中的随机错误或偏差。或偏差。引起噪声数据的原因可能有数据收集工具的引起噪声数据的原因可能有数据收集工具的问题、数据、数据输入入错误、数据、数据传输错误、技、技术限制或命名限制或命名规则的不一致。的不一致。现在学习的是第36页,共80页(1)分箱其基本其基本过程是,首先排序数据,并将它程是,首先排序数据,并将它们分到等深的箱中,分到等深的箱中,然后可以按箱的平均然后可以按箱的平均值平滑、按箱中平滑、按箱中值平滑、按箱的平滑、按箱的边界平滑界平滑等。等。例如,某商品价格的排序后数据是例如,某商品价格的排序后数据是4,8,15,21,21,24,25,28,34。箱箱1:4,8,15箱箱2:21,21,24箱箱3:25,28,34采用采用深度深度为3的等深方法的等深方法划分划分为3个箱:个箱:现在学习的是第37页,共80页箱箱1:该箱平均箱平均值为9,均用,均用9平滑,平滑,4,8,159,9,9箱箱2:该箱平均箱平均值为22,均用,均用22平滑,平滑,21,21,2422,22,22箱箱3:该箱平均箱平均值为29,均用,均用29平滑,平滑,25,28,3429,29,29采用采用箱平均箱平均值平滑平滑的的结果如下:果如下:箱箱1:该箱左箱左边界界4,中,中间值8用用4平滑,平滑,4,8,154,4,15箱箱2:该箱左箱左边界界21,中,中间值21用用21平滑,平滑,21,21,2421,21,24箱箱3:该箱左箱左边界界25,中,中间值28用用25平滑,平滑,25,28,3425,25,34 采用采用箱箱边界平滑界平滑的的结果如下:果如下:现在学习的是第38页,共80页(2)聚类通通过聚聚类分析分析查找孤立点,去除孤立点以消除噪声。聚找孤立点,去除孤立点以消除噪声。聚类算法可以算法可以得到若干数据得到若干数据类(簇),在所有(簇),在所有类外的数据可外的数据可视为孤立点。孤立点。现在学习的是第39页,共80页(3)计算机和人工检查结合通通过计算机算机检测可疑数据,然后可疑数据,然后对它它们进行人工判断。行人工判断。现在学习的是第40页,共80页(4)回归通通过回回归分析得到回分析得到回归函数,函数,让数据适数据适应回回归函数来平函数来平滑数据。滑数据。现在学习的是第41页,共80页3.消除不一致消除不一致通通过描述数据的元数据来消除数据命名的不一致,通描述数据的元数据来消除数据命名的不一致,通过专门的的例程来消除例程来消除编码的不一致等等。的不一致等等。现在学习的是第42页,共80页4.3.3 4.3.3 数据集成数据集成数据集成是将多个数据源中的数据整合到一个一致的数据数据集成是将多个数据源中的数据整合到一个一致的数据存存储(如数据(如数据仓库)中,由于数据源的多)中,由于数据源的多样性,性,这就需要解决就需要解决可能出可能出现的各种集成的各种集成问题。现在学习的是第43页,共80页1.数据模式集成数据模式集成通通过整合不同数据源中的元数据来整合不同数据源中的元数据来实施数据模式的集成。施数据模式的集成。特特别需要解决各数据源中属性等命名不一致的需要解决各数据源中属性等命名不一致的问题。现在学习的是第44页,共80页2.检测并解决数据并解决数据值的冲突的冲突对现实世界中的同一世界中的同一实体,来自不同数据源的属性体,来自不同数据源的属性值可能是不可能是不同的。可能的原因有不同的数据表示、不同的度量等。同的。可能的原因有不同的数据表示、不同的度量等。例如学生成例如学生成绩,有的用,有的用100制,有的用制,有的用5等制,等制,这都需要都需要纠正正并并统一。一。现在学习的是第45页,共80页3.处理数据集成中的冗余数据理数据集成中的冗余数据集成多个数据源集成多个数据源时,经常会出常会出现冗余数据,常冗余数据,常见的有属性冗余,的有属性冗余,如果一个属性可以由另外一个表如果一个属性可以由另外一个表导出,出,则它是冗余属性,例如它是冗余属性,例如“年年薪薪”可以由月薪可以由月薪计算出来。算出来。现在学习的是第46页,共80页有些冗余可以采用相关分析有些冗余可以采用相关分析检测到。例如,到。例如,给定定A、B两个属两个属性,根据性,根据对应的数据可以分析出一个属性能的数据可以分析出一个属性能够多大程度上多大程度上蕴涌另一个属性,涌另一个属性,属性属性A、B之之间的相关性可用下式度量:的相关性可用下式度量:其中,其中,n是元是元组个数,、分个数,、分别是是A和和B的平均的平均值,A、B分分别A、B的的标准差,即准差,即 如果如果rA,B0,则A与与B正相关,意味着正相关,意味着A的的值随着随着B的的值增加而增加而增加,增加,该值越大,一个属性越大,一个属性蕴涵另一个属性的可能性越大。涵另一个属性的可能性越大。当当该rA,B足足够大大时,可以将其中一个属性作,可以将其中一个属性作为冗余属性去掉。冗余属性去掉。如果如果rA,B0,则A与与B负相关,意味着相关,意味着A的的值随着随着B的的值增加增加而减少,即其中一个属性阻止另一个属性出而减少,即其中一个属性阻止另一个属性出现。如果如果rA,B=0,则A与与B独立的,它独立的,它们不相关。不相关。现在学习的是第47页,共80页4.3.4 4.3.4 数据变换数据变换数据数据变换的作用就是将数据的作用就是将数据转换为易于易于进行数据挖掘的数据行数据挖掘的数据存存储形式。形式。最常最常见的数据的数据变换方法是方法是规格化,即将属性数据按比例格化,即将属性数据按比例缩放,使之落入一个小的特定区放,使之落入一个小的特定区间。现在学习的是第48页,共80页1.最小最大最小最大规范化范化对给定的数定的数值属性属性A,minA,maxA为A规格化前的取格化前的取值区区间,new_minA,new_maxA为A规格化后的取格化后的取值区区间,最小,最小-最最大大规格化根据下式将格化根据下式将A的的值v规格化格化为值v:例如,某属性例如,某属性规格化前的取格化前的取值区区间为-100,100,规格化后格化后的取的取值区区间为0,1,采用最小,采用最小-最大最大规格化属性格化属性值66,变换方式方式为:现在学习的是第49页,共80页2.零零-均均值规格化格化对给定的数定的数值属性属性A,、,、A分分别为A的平均的平均值、标准差,零准差,零-均均值规格化根据下式将格化根据下式将A的的值v规格化格化为值v:例如,某属性的平均例如,某属性的平均值、标准差分准差分别为80、25,采用零,采用零-均均值规格化格化66:现在学习的是第50页,共80页3.小数定小数定标规格化格化属性属性A,max|A|为A的最大的最大绝对值,j为满足的最小整数,足的最小整数,小数定小数定标规格化根据下式将格化根据下式将A的的值v规格化格化为值v:例如,属性例如,属性A规格化前的取格化前的取值区区间为-120,110,采用小数,采用小数定定标规格化格化66,A的最大的最大绝对值为120,j为3,66规格化后格化后为:现在学习的是第51页,共80页4.3.5 4.3.5 数据归约数据归约数据数据归约又称数据又称数据约简或数据或数据简化。化。对于大数据集,通于大数据集,通过数据数据归约可以得到其可以得到其归约表示,它小得多,但仍接近于保持原数据的完整性,表示,它小得多,但仍接近于保持原数据的完整性,这样在在归约后的数据集上挖掘将更有效,并后的数据集上挖掘将更有效,并产生相同(或几乎相同)生相同(或几乎相同)的分析的分析结果。果。数据数据归约主要有属性主要有属性归约和和记录归约两两类。现在学习的是第52页,共80页1.属性属性归约属性属性归约又称又称为维归约、属性子集、属性子集选择、特征子集、特征子集选择,它通它通过删除不相关的或冗余的属性减小数据集。除不相关的或冗余的属性减小数据集。目目标是找出最小属性集,使得数据在其上的概率分布尽可能地是找出最小属性集,使得数据在其上的概率分布尽可能地接近在原属性集上的概率分布。接近在原属性集上的概率分布。现在学习的是第53页,共80页(1)粗糙集方法粗糙集方法将属性看作数据集上的等价关系,属性集就是数粗糙集方法将属性看作数据集上的等价关系,属性集就是数据集上的一据集上的一组等价关系,由等价关系可以等价关系,由等价关系可以产生一个等价生一个等价类划分,划分,如果一个属性子集如果一个属性子集C和整个属性集和整个属性集C产生的等价生的等价类划分相同,划分相同,则C看成是看成是C的一个属性的一个属性约简,即,即C是是C的一个属性的一个属性归约。现在学习的是第54页,共80页(2)决策树分类方法决策决策树分分类方法也可用于属性方法也可用于属性归约。在建立好原数据集的决。在建立好原数据集的决策策树后,没有出后,没有出现在决策在决策树中的属性可以中的属性可以视为与数据挖掘任与数据挖掘任务无无关的属性,而所有出关的属性,而所有出现在决策在决策树中的属性形成中的属性形成归约后的属性子集。后的属性子集。现在学习的是第55页,共80页2.记录归约记录归约是指通是指通过用少量用少量记录代表或替代表或替换原有原有记录来减小来减小数据集。数据集。记录归约的基本方法有抽的基本方法有抽样和数据概化。和数据概化。现在学习的是第56页,共80页(1)抽样抽抽样就是用数据的就是用数据的较小随机小随机样本表示大的数据。本表示大的数据。对于含有于含有N个个记录的数据集的数据集D的的样本,抽本,抽样选择的主要方法有:的主要方法有:简单随机随机选择n(nN)个)个样本,不回放:由本,不回放:由D的的N个元个元组中中抽取抽取n个个样本。本。简单随机随机选择n个个样本,回放:本,回放:过程同上,只是元程同上,只是元组被抽取后,被抽取后,将被回放,可能再次被抽取。将被回放,可能再次被抽取。聚聚类选样:D中元中元组被分入被分入m(mM)个互不相交的聚)个互不相交的聚类中,可在其中的中,可在其中的m个聚个聚类上上进行行简单随机随机选择。分分层选样:D被划分被划分为互不相交的互不相交的“层”,则可通可通过对每一每一层的的简单随机随机选样得到得到D的分的分层选样。现在学习的是第57页,共80页(2)数据概化数据概化也称数据概化也称为数据泛化,就是将数据源中的跟任数据泛化,就是将数据源中的跟任务相关的相关的数据集从数据集从较低的概念低的概念层抽象到抽象到较高的概念高的概念层的的过程。程。数据概化的一个基本方法是面向属性的数据概化的一个基本方法是面向属性的归纳,根据属性的概念,根据属性的概念分分层,通,通过阈值控制,将属性的低控制,将属性的低层属性属性值用相用相应高高层概念替概念替换,合并后得到原数据集的合并后得到原数据集的记录归约结果。果。类似于数据立方体在似于数据立方体在记录个个数聚集函数上的上卷操作。数聚集函数上的上卷操作。现在学习的是第58页,共80页这种方法的核心是在概念分种方法的核心是在概念分层树中高中高层的概念个数一般少于低的概念个数一般少于低层的的概念个数,从而通概念个数,从而通过替替换和合并减少了原数据集中和合并减少了原数据集中记录个数。个数。现在学习的是第59页,共80页假假设数据源数据源为关系表,基本的数据概化算法如下:关系表,基本的数据概化算法如下:输入:入:关系表关系表DB,属性列表,属性的概念分,属性列表,属性的概念分层树,属性,属性 的概化的概化阈值。输出:出:主概化关系主概化关系P方法:方法:方法描述如下。方法描述如下。从DB中获取并预处理得到数据挖掘的目标数据集W;扫描W,收集每个属性Ai的不同值。for(每个属性Ai)根据概化阈值确定是否删除;if(如果不删除)计算其在概念分层树中的层次Li,并确定映射对(v,v)/其中v是W中Ai的不同值,v是在层Li对应的概化值。通过使用v代替W中每个v,累计计数并计算所有聚集值,导出P。现在学习的是第60页,共80页主概化关系主概化关系相关数据集合相关数据集合学号性别分数1男852女903男764男965男626女887女93allA90B8089C7079D6069E60分数:概念分分数:概念分层性别分数个数男A1男B1男C1女A2女B1现在学习的是第61页,共80页4.3.6 4.3.6 离散化和概念分层生成离散化和概念分层生成1.离散化技离散化技术对于数于数值属性来属性来说,由于数据的可能取,由于数据的可能取值范范围的多的多样性,性,导致可能包含的致可能包含的值太多使数据挖掘太多使数据挖掘难以得到用以得到用户满意的知意的知识。而知。而知识本身也是基于本身也是基于较高高层次的概念来次的概念来获取的。取的。连续属性的离散化就是在特定的属性的离散化就是在特定的连续属性的属性的值域内域内设定定若干个离散化的划分点,将属性的若干个离散化的划分点,将属性的值域范域范围划分划分为一些离散一些离散化区化区间,最后用不同的符号或整数,最后用不同的符号或整数值(这些离散化区些离散化区间的的标记)表示落在每个子区)表示落在每个子区间中的属性中的属性值。现在学习的是第62页,共80页数据离散化主要方法如下。数据离散化主要方法如下。(1)分箱分箱是一种基于箱的指定个数自分箱是一种基于箱的指定个数自顶向下的分裂技向下的分裂技术,也可以用于也可以用于记录归约和概念分和概念分层产生的离散化方法。生的离散化方法。例如,通例如,通过使用等使用等宽或等或等频分箱,然后用箱均分箱,然后用箱均值或中位或中位数替数替换箱中的每个箱中的每个值,可以将属性,可以将属性值离散化,就像分离散化,就像分别用箱用箱的均的均值或箱的中位数平滑一或箱的中位数平滑一样。它是一种非。它是一种非监督的离散化技督的离散化技术,对用用户指定的箱个数很敏感。指定的箱个数很敏感。现在学习的是第63页,共80页(2)直方图分析像分箱一像分箱一样,直方,直方图分析也是一种非分析也是一种非监督离散化技督离散化技术。直方。直方图将一将一个属性的个属性的值划分成不相交的区划分成不相交的区间,称作桶。,称作桶。例如,在等例如,在等宽直方直方图中,将中,将值分成相等的划分或区分成相等的划分或区间,在等深直方,在等深直方图中,中,值被划分成其中每一部分包含相同个数的被划分成其中每一部分包含相同个数的样本。每个桶有一个本。每个桶有一个标记,用它替代落在,用它替代落在该桶中的属性桶中的属性值,从而达到属性,从而达到属性值离散化的目的。离散化的目的。现在学习的是第64页,共80页(3)聚类分析聚聚类分析是一种流行的数据离散化方法。通分析是一种流行的数据离散化方法。通过聚聚类算法将算法将属性的属性的值划分成簇或划分成簇或组,每个簇或,每个簇或组有一个有一个标记,用它替代,用它替代该簇或簇或组中的属性中的属性值。现在学习的是第65页,共80页2.分分类数据的概念分数据的概念分层方法方法(1)离散属性概念分层的自动生成算法对于离散属性,如果概念分于离散属性,如果概念分层的任何的任何层次上的次上的结点点(或属性(或属性值)个数少于它低的每一)个数少于它低的每一层上的上的结点数,可以利点数,可以利用以下算法自用以下算法自动生成生成隐含在含在该属性上的概念分属性上的概念分层。现在学习的是第66页,共80页输入:入:离散属性集离散属性集S=A1,A2,Am和和对应的数据集的数据集R。输出:出:概念分概念分层B1,B2,Bm。方法:方法:方法描述如下。方法描述如下。k=1,T=S;从T中找一个属性Bk,它在R中不同值的个数是T的所有属性中最少的;while(km)T=T-Bk minnum=;for(T中每个属性Ai)计算R中属性序列B1、B2、,Bk在属性Ai上不同元组个数mynum;if(mynumminnum)minnum=mynum;Bk+1=Ai;k=k+1现在学习的是第67页,共80页省地区国家其他省地区国家其他黑龙江东北中国天津华北中国吉林东北中国山东华北中国辽宁东北中国江苏华东中国北京华北中国江西华东中国内蒙古华北中国浙江华东中国河北华北中国上海华东中国现在学习的是第68页,共80页(2)连续属性概念分层的生成连续属性在数据离散化属性在数据离散化过程会自程会自动构造相构造相应的概念分的概念分层,采用方法与前面介采用方法与前面介绍的离散化技的离散化技术相似,相似,这里不再介里不再介绍。现在学习的是第69页,共80页4.3.7 4.3.7 数据挖掘的算法数据挖掘的算法1.数据挖掘算法的基本特征数据挖掘算法的基本特征数据挖掘算法着重数据挖掘算法着重强调两个基本特征:两个基本特征:有效性有效性和和可伸可伸缩性性。一个有效的数据挖掘算法是指一个有效的数据挖掘算法是指满足挖掘任足挖掘任务的要求,的要求,获得用得用户满意意的知的知识。一个数据挖掘算法具有良好的可伸一个数据挖掘算法具有良好的可伸缩性是指性是指对小数据集和大小数据集和大规模数据有同模数据有同样的效果,也就是的效果,也就是说,如果,如果给定内存和磁定内存和磁盘空空间等等可利用的系可利用的系统资源,其运行源,其运行时间应当随数据的当随数据的规模近似模近似线性地增性地增加。加。现在学习的是第70页,共80页2.数据挖掘算法的分数据挖掘算法的分类(1)基于学习方式的分类有有导师学学习(监督学督学习):):输入数据中有入数据中有导师信号,以概率函数、信号,以概率函数、代数函数或人工神代数函数或人工神经网网络为基函数模型,采用迭代基函数模型,采用迭代计算方法,学算方法,学习结果果为函数。函数。无无导师学学习(非(非监督学督学习):):输入数据中无入数据中无导师信号,采用聚信号,采用聚类方方法,学法,学习结果果为类别。典型的无。典型的无导师学学习有有发现学学习、聚、聚类、竞争争学学习等。等。强化学化学习(增(增强学学习):以):以环境反境反馈(奖/惩信号)作信号)作为输入,入,以以统计和和动态规划技划技术为指指导的一种学的一种学习方法方法现在学习的是第71页,共80页(2)基于数据形式的分类结构化学构化学习:以:以结构化数据构化数据为输入,以数入,以数值计算或符号推演算或符号推演为方方法。典型的法。典型的结构化学构化学习有神有神经网网络学学习、统计学学习、决策、决策树学学习、规则学学习。非非结构化学构化学习:以非:以非结构化数据构化数据为输入,典型的非入,典型的非结构化学构化学习有有类比学比学习、案例学、案例学习、解、解释学学习、文本挖掘、文本挖掘、图像挖掘、像挖掘、Web挖挖掘等。掘等。现在学习的是第72页,共80页(3)基于学习目标的分类概念学概念学习:即学:即学习的目的目标和和结果果为概念,或者概念,或者说是是为了了获得概念得概念的一种学的一种学习。典型的概念学。典型的概念学习有示例学有示例学习。规则学学习:即学:即学习的目的目标和和结果果为规则,或者,或者说是是为了了获得得规则的一种学的一种学习。典型的。典型的规则学学习有决策有决策树学学习。函数学函数学习:即学:即学习的目的目标和和结果果为规则,或者,或者说是是为了了获得函数的得函数的一种学一种学习。典型的函数学。典型的函数学习有神有神经