概念描述特征化与比较课件.ppt
《概念描述特征化与比较课件.ppt》由会员分享,可在线阅读,更多相关《概念描述特征化与比较课件.ppt(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于概念描述特征化与比较第1页,此课件共63页哦两种不同类别的数据挖掘n从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘q描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。q预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。第2页,此课件共63页哦什么是概念描述?n概念描述是一种最简单的描述性挖掘q当所描述的概念所指的是一类对象时,也称为类描类描述述n概念指的是一类数据的集合qe.g.研究生,大客户n概念描述是指为数据的特征化和比较产生描述q特征化:提供给定数据集的简洁汇总。q区分:提供两个或多个数据集的比较描述。第3页,此课件共63页哦概念描
2、述 VS.OLAPn概念描述和数据仓库的联机分析处理(OLAP)都跟数据概化密切相关,即以简洁的形式在更一般的抽象层描述数据,允许数据在抽象层概化,便于考察数据的一般行为。n两者的主要区别:q概念描述n可以处理复杂数据类型的属性及其聚集n一个更加自动化的过程qOLAPn实际使用的OLAP系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型n一个由用户控制的过程第4页,此课件共63页哦数据概化n数据概化q数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程。n主要方法:q数据
3、立方体(OLAP使用的方法)q面向属性的归纳方法12345概念层第5页,此课件共63页哦数据概化:数据立方体方法n执行计算并将结果存储在数据立方体中n优点:q数据概化的一种有效实现q可以计算各种不同的度量值n比如:count(),sum(),average(),max()q概化和特征分析通过一系列的数据立方体操作完成,比如上卷、下钻等n缺点q只能处理非数值类型的维和简单聚集数值类型的度量值(大部分现有商业系统中,只能为非数值类型的维产生概念分层)q缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次第6页,此课件共63页哦面向属性的归纳n一种面向关系数据关系数据查询的、基于汇总汇总
4、的在线在线数据分析技术。n受数据类型和度量类型的约束比较少n面向属性归纳的基本思想:q使用关系数据库查询收集任务相关的数据q通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化q通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作q通过与用户交互,将广义关系以图表或规则等形式,提交给用户第7页,此课件共63页哦面向属性的归纳的基本步骤n数据聚焦,获得初始工作关系n进行面向属性的归纳q基本操作是数据概化,对有大量不同值的属性大量不同值的属性,进行进一步概化n属性删除n属性概化q属性概化控制:控制概化过程,确定有多少不同的值才算是有大量不同值的属性大量不
5、同值的属性n属性概化临界值控制n概化关系临界值控制第8页,此课件共63页哦数据聚焦(1)n目的是获得跟任务相关的数据集,包括属性或维,在DMQL中他们由in relevance to子句表示。n示例:qDMQL:描述Big-University数据库中研究生研究生的一般特征use Big_University_DBmine characteristics as“Science_Students”in relevance to name,gender,major,birth_place,birth_date,residence,phone#,gpafrom studentwhere status
6、 in“graduate”第9页,此课件共63页哦数据聚焦(2)q将数据挖掘查询转换为关系查询Select name,gender,major,birth_place,birth_date,residence,phone#,gpafrom studentwhere status in“Msc”,“MBA”,“PhD”n数据聚焦时的困难q用户在指定相关的数据集方面存在困难,遗漏在描述中可能起作用的属性q用户可能引进太多的属性第10页,此课件共63页哦数据概化n数据概化的两种常用方法:属性删除和属性概化q属性删除的适用规则:对初始工作关系中具有大量不同值的属性,符合以下情况,应使用属性删除:n在此
7、属性上没有概化操作符(比如该属性没有定义相关的概念分层)n该属性的较高层概念用其他属性表示q属性概化的使用规则:如果初始工作关系中的某个属性具有大量不同值,且该属性上存在概化操作符,则使用该概化操作符对该属性进行数据概化操作第11页,此课件共63页哦11-12王王 灿灿数据挖掘数据挖掘0703004第12页,此课件共63页哦属性概化控制n确定什么是“具有大量的不同值”,控制将属性概化到多高的抽象层。n属性概化控制的两种常用方法:q属性概化临界值控制n对所有属性设置一个概化临界值或者是对每个属性都设置一个临界值(一般为2到8)q概化关系临界值控制n为概化关系设置一个临界值,确定概化关系中,不同元
8、组的个数的最大值。(通常为10到30,应该允许在实际应用中进行调整)q两种技术的顺序使用:使用属性概化临界值控制来概化每个属性,然后使用关系临界值控制进一步压缩概化的关系。n相等元组的合并、累计计数和其他聚集值第13页,此课件共63页哦面向属性的归纳示例n挖掘Big-University数据库中研究生的一般特征qname:删除属性qgender:保留该属性,不概化qmajor:根据概念分层向上攀升文,理,工qbirth_place:根据概念分层location向上攀升qbirth_date:概化为age,再概化为age_rangeqresidence:根据概念分层location向上攀升qph
9、one#:删除属性qgpa:根据GPA的分级作为概念分层第14页,此课件共63页哦面向属性的归纳示例主概化关系主概化关系初始工作关系初始工作关系第15页,此课件共63页哦面向属性的归纳算法n输入q1.DB;2.数据挖掘查询DMQuery;3.属性列表;4.属性的概念分层;属性的概化临界值;n输出q主概化关系Pn算法描述:1.W get_task_relevant_data(DMQuery,DB)2.prepare_for_generalization(W)1.扫描W,收集每个属性a的不同值2.对每个属性a,根据临界值确定是否删除,如果不删除,则计算其最小期望层次L,并确定映射对(v,v)3.P
10、 generalization(W)q通过使用v代替W中每个v,累计计数并计算所有聚集值,导出P1.每个概化元组的插入或累积计数2.用数组表示P第16页,此课件共63页哦导出概化的表示(1)n概化关系q一部分或者所有属性得到概化的关系,包含计数或其他度量值的聚集n交叉表q二维交叉表使用每行显示一个属性,使用每列显示另外一个属性将结果集映射到表中q可视化技巧:n条形图、饼图、曲线和数据立方体浏览工具(用单元的大小代表计数,用单元亮度代表另外的度量)第17页,此课件共63页哦导出概化的表示(2)n量化规则q使用t_weight表示主概化关系中每个元组的典型性n量化特征规则q将概化的结果映射到相应的
11、量化特征规则中,比如:量化特征规则中每个条件的析取成为目标类的一个必要条件;亦即,如果X在目标类中,则X满足conditioni的概率是wi第18页,此课件共63页哦特征化过程中的困难n特征化过程中的两大困难q复杂数据类型的处理q缺乏一种自动概化的过程,用户必须告诉系统n哪些属性或维应该包括在类特征化中n每个维应该概化到多高的程度第19页,此课件共63页哦为什么进行属性相关分析?n数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程自动概化过程,这使得这个过程中需要有很多用户干预q用户必须告诉系统哪些维或属性应当包含在类分析中(难)n属性太少,则造成挖掘的描述结果不正确n属性太多,浪费计
12、算、淹没知识q告诉系统每个维应当概化到多高的层次(易)n直接通过概化的临界值,说明给定维应当达到的概化程度n对概化层次不满意,则可以指定需要上卷或下钻的维第20页,此课件共63页哦解析特征化:属性相关分析n属性相关分析q通过识别不相关或者是弱相关的属性,将它们排除在概念描述过程之外,从而确定哪些属性应当包含在类特征化和类比较中。q解析特征化n包含属性相关分析的类特征化q解析比较n包含属性相关分析的类比较第21页,此课件共63页哦属性相关分析(1)n通过属性相关性分析,滤掉统计上不相关或弱相关的属性,保留对手头数据挖掘任务最相关的属性。n对于给定的属性,一个属性或维被认为是高度相关的,如果该属性
13、或维的值可能用于区分该类和其他类。q比如:区分昂贵汽车和便宜汽车(可选择的属性:颜色,型号,品牌.)第22页,此课件共63页哦属性相关分析(2)n在同一个维内,对于区分一个类与其他类不同层的概念可能有很不同的能力q比如:birth_date维,day,month与salary无关,而year(或将其进一步概化为birth_decade)则与salary有关n类特征化中的比较类q除特征化的数据集外,数据库中可比较的数据集都作为对比类n比如:研究生特征化的例子,对比类为不是研究生的学生的集合(e.g.本科生)(可选择的属性:性别、籍贯、专业、平均成绩、年龄段)第23页,此课件共63页哦属性相关分析
14、的方法n属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。q可采用的度量包括:信息增益、Gini索引、不确定性和相关系数。(涉及机器学习、统计、模糊和粗糙集理论等方面的相关知识)q比如:信息增益通过计算一个样本分类的期望信息期望信息和属性的熵属性的熵来获得一个属性的信息增益属性的信息增益,判定该属性与当前的特征化任务的相关性。第24页,此课件共63页哦信息增益(1)nS是一个训练样本训练样本的集合,该样本中每个集合的类编号类编号已知。每个样本为一个元组元组。有个属性用来判定某个训练样本的类编号(类似于学生记录中的status属性)n假设S中有m个类,总共s个训练样本,每
15、个类ci有Si个样本(i1,2,3.m),那么任意一个样本属于类Ci的概率是si/s,那么用来分类一个给定样本的期望信息期望信息是:第25页,此课件共63页哦信息增益(2)n一个有v个值的属性Aa1,a2,.,av可以将S分成v个子集S1,S2,.,Sv,其中Sj包含S中属性A上的值为aj的样本。假设Sj包含类Ci的sij个样本。根据A的这种划分的期望信息称为A的熵熵nA上该划分的获得的信息增益定义为:n具有高信息增益的属性,是给定集合中具有高区分度的属性。所以可以通过计算S中样本的每个属性的信息增益,来得到一个属性的相关性的排序。第26页,此课件共63页哦概念描述的属性相关分析步骤(1)n数
16、据收集q通过查询处理,收集目标类和对比类数据n使用保守的AOI进行预相关分析q识别属性和维的集合,它们是所选择的相关性分析度量的应用对象n因为不同的概念层对某个类描述的相关性可能很不同,因此在这个过程中同时要包含概念分层q对有大量不同值的属性进行删除或概化q在这一级进行概化时,临界值要相应比较高,以便在后续步骤的分析中包含更多属性(保守的)q产生候选关系第27页,此课件共63页哦概念描述的属性相关分析步骤(2)n使用选定的相关分析度量删除不相关和弱相关的属性q使用选定的相关分析度量(e.g.信息增益),评估候选关系中的每个属性q根据所计算的相关性对属性进行排序q低于临界值的不相关和弱相关的属性
17、被删除q产生初始目标类工作关系(或初始对比类工作关系)n使用AOI产生概念描述q使用一组不太保守的属性概化临界值进行AOI第28页,此课件共63页哦解析特征化示例(1)n任务:使用解析特征化挖掘BigUniversity的研究生的一般特征描述n给定q属性name,gender,major,birth_place,birth_date,phone#和gpaqUi=属性分析阀值qTi=属性概化阀值qR=属性相关阀值第29页,此课件共63页哦解析特征化示例(2)n1.数据收集q目标类:研究生q对比类:本科生n2.使用保守的阀值Ui和Ti进行AOIq属性删除nname和phone#q属性概化n概化ma
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概念 描述 特征 比较 课件
限制150内