数据仓库之概念描述35840.pptx
《数据仓库之概念描述35840.pptx》由会员分享,可在线阅读,更多相关《数据仓库之概念描述35840.pptx(83页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章 概念描述7.1 概念描述基本知识7.2 数据概化与基于汇总的特征化7.3 解析特征化属性相关分析7.4 挖掘概念比较区分不同的类第七章 概念描述(续)DB中存放大量细节性数据,而用户通常希望以简洁的描述形式观察汇总的数据集。这种描述可提供某类数据的概貌以及与其他数据类的区别。此外,用户希望方便灵活地以不同的粒度和从不同的角度描述数据集。这种描述性数据挖掘称为概念描述,它是数据挖掘的一个重要部分。7.1 概念描述基本知识概念:通常指数据的汇集。概念描述:是描述式数据挖掘最基本形式,它以简洁汇总的形式描述给定数据集,提供数据的有趣的一般特性。7.1 概念描述基本知识(续)概念描述的组成:特
2、征化:提供了一个有关数据整体的简洁清晰描述。(定性描述)比较:提供了基于多组不同类数据的对比概念描述。(对比定性描述)7.1 概念描述基本知识(续)概念描述与数据概化密切相关。给定存放在DB中的大量数据,能够以简洁的形式在更一般的抽象层描述数据是很有用的。允许数据集在多个抽象层概化,便于考察数据的一般行为。这种多维,多层数据概化类似于DW中的多维数据分析。而概念描述类似于DW的OLAPOLAP。7.1 概念描述基本知识(续)大型数据库的概念描述和数据仓库的OLAPOLAP有何差别?概念描述可处理复杂的数据类型和聚集。概念描述是自动处理数据挖掘过程。7.1 概念描述基本知识(续)概念描述的方法包
3、括多层概化、汇总、特征化和比较。这些方法形成实现数据挖掘的两个主要功能模块的基础:多层特征化和比较。第七章 概念描述7.1 概念描述基本知识7.2 数据概化与基于汇总的特征化7.3 解析特征化属性相关分析7.4 挖掘概念比较区分不同的类7.2 数据概化与基于汇总的特征化 数据概化是一个分析过程,它将DB中与任务相关的大数据集从较低的概念层抽象到较高的概念层。对大量数据进行有效灵活的概化方法主要有两种:数据立方体方法基于属性的归纳方法1.数据立方体方法 利用数据立方体方法进行数据概化,被分析的数据存放在一个多维数据库中,通过对多维数据立方进行上卷或下钻操作,可完成数据概化和数据细化工作。1.数据
4、立方体方法(续)数据立方体提供了一种有效的数据概化方法,且构成了描述性数据挖掘中一个重要功能。但由于OLAP的数据立方实现是将维的类型限制在简单非数值类型,且将处理限制在简单数据汇总方面,因此数据立方体并不能解决概念描述所能解决的一些重要问题。如:描述中应作用哪些维?概化过程应进行到哪个抽象层次上?这些问题均是由用户负责提供答案的。2.基于属性归纳方法基本思想:首先使用RDB查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化。数据概化是通过属性删除或属性概化操作来完成。通过合并相同行并累计它们相应的个数。这自然就减少了概化后数据集的大小,所获结果以图表、规则等多
5、种不同形式提供给用户。2.基于属性归纳方法(续)例1:从一个大学数据库的学生数据中挖掘出研究生的一般特征。给定的属性有:姓名、性别、专业、出生地、出生日期、居住地、电话和GPAGPA(平均等级分)。AOIAOI方法的方法的第一步:利用DB查询语言从大学DB中将学生数据抽取出来,然后指定一组与挖掘任务相关的属性集。2.基于属性归纳方法(续)由于数据挖掘查询通常只涉及DB的一部分,选择相关的数据集不仅使得挖掘更有效,而且与在整个DB挖掘相比,能产生更有意义的规则。对用户而言,指定挖掘的属性可能比较困难。有时,用户只能选择少量他感到可能重要的属性,而遗漏在描述中可能起作用的其他属性。2.基于属性归纳
6、方法(续)如:出生地维由属性城市、省和国家定义。在这些属性中,用户或许只考虑了城市属性。为了对出生地进行概化处理,就必须将出生地概化所涉及到的其它属性包含进来。换句话说,系统自动地包括省和国家作为相关属性,使得城市可以在归纳过程中概化到较高的概念层。2.基于属性归纳方法(续)另一方面,用户可能引进过多的属性,如:指定所有的属性,这样大学DB的所有属性都将包含在分析中,而有些属性对有趣的描述是没有用的。姓名姓名性别性别专业专业出生地出生地出生日出生日居住地居住地电话电话GPAGPA王东海男CSCS合肥市79.07.2679.07.26合肥市金寨路65号0551-0551-366567836656
7、783.673.67李哲男CSCS合肥市80.12.0880.12.08合肥市芜湖路186号0551-0551-365601236560123.703.70汪燕女PHPH上海市80.09.0380.09.03上海市高安路1250号021-021-62381960623819603.833.83初始工作关系:任务相关数据的集合初始工作关系:任务相关数据的集合2.基于属性归纳方法(续)对已经准备好的数据,如何进行基于属性归纳?AOIAOI方法的第二步:进行数据概化操作,可用两种方法之一进行:属性删除,属性概化。2.基于属性归纳方法(续)属性删除基于如下规则:若一个属性有许多不同数值,且(a)该属性
8、无法进行概化操作(如:没有定义相应的概念分层),或(b)它的更高层次概念是用其他属性描述的,则该属性应当从数据集中删除。2.基于属性归纳方法(续)属性概化基于如下规则:若一个属性有许多不同数值,且该属性存在一组概化操作,则可以选择一个概化操作对该属性进行处理。属性删除和属性概化两个规则都表明,如果某属性有大量的不同值,应当进行进一步概化。这就提出一个问题:多大才算“属性具有大量不同值”?2.基于属性归纳方法(续)这取决于属性或应用,有的用户愿意让属性留在较低的抽象层,而另一些用户愿意将它们概化到较高的抽象层。控制将属性概化到多高的抽象层通常是相当主观的。该过程的控制称为属性概化控制。2.基于属
9、性归纳方法(续)若属性概化得“太高”,则导致过分概化,产生的规则可能没有多少信息。若属性概化没有达到“足够高的层次”,则“亚概化”也同样可能使得到的规则变得失去意义。因此在基于属性归纳时,掌握概化平衡非常重要。2.基于属性归纳方法(续)有许多控制概化过程的方法,下面是两种常用的方法:(1)属性概化阈值控制 该技术是对所有属性统一设置一个概化阈值(取值范围一般为2到8)。如果属性的不同值个数大于属性概化阈值,则应当进行进一步的属性删除或属性概化。2.基于属性归纳方法(续)(2)概化关系阈值控制 为概化关系设置一个阈值(通常取值范围为10到30)。如果概化关系中不同元组的个数超过该阈值,则应当进一
10、步概化;否则,不再进一步概化。2.基于属性归纳方法(续)这两种技术可以顺序使用:首先使用属性概化阈值控制技术概化每个属性,然后使用概化关系阈值控制进一步减少概化关系的(规模)大小。无论使用哪种概化控制技术,都应当允许用户调整概化阈值,以便得到有趣的规则。2.基于属性归纳方法(续)例1(续):对前面得到的初始工作关系的每个属性,概化过程如下:1)姓名:由于姓名存在大量不同值,并且其上没有定义概念分层,该属性被删除。2)性别:由于性别只有两个不同值,该属性保留,并不对其进行概化。2.基于属性归纳方法(续)3)专业:假设定义了一个概念分层,从而可以对专业属性进行概化。又假设属性概化阈值置为5,在初始
11、数据集合中有25个不同取值。则通过对属性概化和属性概化控制,专业属性被概化到指定的概念(如:科学,工程,商学)。2.基于属性归纳方法(续)4)出生地:该属性有大量不同值,因此应当概化它。设出生地的概念分层为:城市 省 国家。如果初始关系中,国家取值超过了属性概化阈值,则出生地应当删除,因为尽管可以进行概化操作,概化阈值也不会满足。但如果假定国家的取值个数小于概化阈值,则出生地应当概化到出生国家。2.基于属性归纳方法(续)5)出生日期:假定存在概念分层,可以将出生日期概化到年龄,而年龄概化到年龄分类,并且年龄分类的区间数小于对应的属性概化阈值,则应当对出生日期进行概化。2.基于属性归纳方法(续)
12、6)居住地:假定居住地被属性号码,街道,城市,省,国家定义。号码和街道的不同值一般很多,而且这些概念的层次相当低。因此,号码和街道应当删除,将居住地概化到居住城市。这样可包含较少的不同值。2.基于属性归纳方法(续)7)电话:与属性姓名一样,因包含太多不同值,应当在概化中删除。8)GPAGPA:假定存在GPAGPA的概念分层,将平均成绩分成若干区间,如:3.75-3.75-4.04.0,3.5-3.753.5-3.75,也可相应的描述为:优秀,良好,因此该属性可以被概化。2.基于属性归纳方法(续)概化过程会产生一系列内容相同的数据行,相同内容的数据行被合并成一个,并累计它们的计数值。最终结果如下
13、表:性别性别专业专业出生国出生国年龄区间年龄区间出生城市出生城市GPA累计累计男科学中国2025合肥良好16女工程中国2530上海优秀22对初始关系的数据进行基于属性归纳得到的广义关系:对初始关系的数据进行基于属性归纳得到的广义关系:3.基于属性归纳算法算法:基于属性的归纳输入:(1)关系DB;(2)数据挖掘命令DMQueryDMQuery;(3)属性表a_lista_list;(4)属性a ai i上的概念分层或概化操作符的集合Gen(a)Gen(a);(5)每个属性a ai i概化阈值a_a_gen_thresh(a)gen_thresh(a)3.基于属性归纳算法(续)输出:主概化关系P
14、P(包含基于a_lista_list属性集的一个定性概念描述)方法:(1)Wget_task_relevant_data(DMQueryWget_task_relevant_data(DMQuery,DB)DB);/工作关系W存放任务相关的数据(2)prepare_for_generalization(W)prepare_for_generalization(W)/该步实现如下:3.基于属性归纳算法(续)(a)扫描W W,收集每个a ai i属性取不同值的个数。(b)对每个属性a ai i,根据给定的或缺省的属性阈值,确定a ai i是否应当删除;如果不删除,则计算它的最小期望层次L Li i
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 概念 描述 35840
限制150内