数据仓库 第七章35670.pptx
《数据仓库 第七章35670.pptx》由会员分享,可在线阅读,更多相关《数据仓库 第七章35670.pptx(83页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章 概念描述7.1 概念描述基本知识7.2 数据概化与基于汇总的特征化7.3 解析特征化属性相关分析7.4 挖掘概念比较区分不同的类第七章 概念描述(续)DB中存放大量细节性数据,而用户通常希望以简洁的描述形式观察汇总的数据集。这种描述可提供某类数据的概貌以及与其他数据类的区别。此外,用户希望方便灵活地以不同的粒度和从不同的角度描述数据集。这种描述性数据挖掘称为概念描述,它是数据挖掘的一个重要部分。7.1 概念描述基本知识概念:通常指数据的汇集。概念描述:是描述式数据挖掘最基本形式,它以简洁汇总的形式描述给定数据集,提供数据的有趣的一般特性。7.1 概念描述基本知识(续)概念描述的组成:特
2、征化:提供了一个有关数据整体的简洁清晰描述。(定性描述)比较:提供了基于多组不同类数据的对比概念描述。(对比定性描述)7.1 概念描述基本知识(续)概念描述与数据概化密切相关。给定存放在DB中的大量数据,能够以简洁的形式在更一般的抽象层描述数据是很有用的。允许数据集在多个抽象层概化,便于考察数据的一般行为。这种多维,多层数据概化类似于DW中的多维数据分析。而概念描述类似于DW的OLAP。7.1 概念描述基本知识(续)大型数据库的概念描述和数据仓库的OLAP有何差别?概念描述可处理复杂的数据类型和聚集。概念描述是自动处理数据挖掘过程。7.1 概念描述基本知识(续)概念描述的方法包括多层概化、汇总
3、、特征化和比较。这些方法形成实现数据挖掘的两个主要功能模块的基础:多层特征化和比较。第七章 概念描述7.1 概念描述基本知识7.2 数据概化与基于汇总的特征化7.3 解析特征化属性相关分析7.4 挖掘概念比较区分不同的类7.2 数据概化与基于汇总的特征化 数据概化是一个分析过程,它将DB中与任务相关的大数据集从较低的概念层抽象到较高的概念层。对大量数据进行有效灵活的概化方法主要有两种:数据立方体方法基于属性的归纳方法1.数据立方体方法 利用数据立方体方法进行数据概化,被分析的数据存放在一个多维数据库中,通过对多维数据立方进行上卷或下钻操作,可完成数据概化和数据细化工作。1.数据立方体方法(续)
4、数据立方体提供了一种有效的数据概化方法,且构成了描述性数据挖掘中一个重要功能。但由于OLAP的数据立方实现是将维的类型限制在简单非数值类型,且将处理限制在简单数据汇总方面,因此数据立方体并不能解决概念描述所能解决的一些重要问题。如:描述中应作用哪些维?概化过程应进行到哪个抽象层次上?这些问题均是由用户负责提供答案的。2.基于属性归纳方法基本思想:首先使用RDB查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化。数据概化是通过属性删除或属性概化操作来完成。通过合并相同行并累计它们相应的个数。这自然就减少了概化后数据集的大小,所获结果以图表、规则等多种不同形式提供给
5、用户。2.基于属性归纳方法(续)例1:从一个大学数据库的学生数据中挖掘出研究生的一般特征。给定的属性有:姓名、性别、专业、出生地、出生日期、居住地、电话和GPA(平均等级分)。AOI方法的第一步:利用DB查询语言从大学DB中将学生数据抽取出来,然后指定一组与挖掘任务相关的属性集。2.基于属性归纳方法(续)由于数据挖掘查询通常只涉及DB的一部分,选择相关的数据集不仅使得挖掘更有效,而且与在整个DB挖掘相比,能产生更有意义的规则。对用户而言,指定挖掘的属性可能比较困难。有时,用户只能选择少量他感到可能重要的属性,而遗漏在描述中可能起作用的其他属性。2.基于属性归纳方法(续)如:出生地维由属性城市、
6、省和国家定义。在这些属性中,用户或许只考虑了城市属性。为了对出生地进行概化处理,就必须将出生地概化所涉及到的其它属性包含进来。换句话说,系统自动地包括省和国家作为相关属性,使得城市可以在归纳过程中概化到较高的概念层。2.基于属性归纳方法(续)另一方面,用户可能引进过多的属性,如:指定所有的属性,这样大学DB的所有属性都将包含在分析中,而有些属性对有趣的描述是没有用的。姓名 性别 专业 出生地 出生日 居住地 电话GPA王东海 男 CS 合肥市 79.07.26合肥市金寨路65 号0551-36656783.67李哲 男 CS 合肥市 80.12.08合肥市芜湖路186 号0551-365601
7、23.70汪燕 女 PH 上海市 80.09.03上海市高安路1250 号021-623819603.83初始工作关系:任务相关数据的集合2.基于属性归纳方法(续)对已经准备好的数据,如何进行基于属性归纳?AOI方法的第二步:进行数据概化操作,可用两种方法之一进行:属性删除,属性概化。2.基于属性归纳方法(续)属性删除基于如下规则:若一个属性有许多不同数值,且(a)该属性无法进行概化操作(如:没有定义相应的概念分层),或(b)它的更高层次概念是用其他属性描述的,则该属性应当从数据集中删除。2.基于属性归纳方法(续)属性概化基于如下规则:若一个属性有许多不同数值,且该属性存在一组概化操作,则可以
8、选择一个概化操作对该属性进行处理。属性删除和属性概化两个规则都表明,如果某属性有大量的不同值,应当进行进一步概化。这就提出一个问题:多大才算“属性具有大量不同值”?2.基于属性归纳方法(续)这取决于属性或应用,有的用户愿意让属性留在较低的抽象层,而另一些用户愿意将它们概化到较高的抽象层。控制将属性概化到多高的抽象层通常是相当主观的。该过程的控制称为属性概化控制。2.基于属性归纳方法(续)若属性概化得“太高”,则导致过分概化,产生的规则可能没有多少信息。若属性概化没有达到“足够高的层次”,则“亚概化”也同样可能使得到的规则变得失去意义。因此在基于属性归纳时,掌握概化平衡非常重要。2.基于属性归纳
9、方法(续)有许多控制概化过程的方法,下面是两种常用的方法:(1)属性概化阈值控制 该技术是对所有属性统一设置一个概化阈值(取值范围一般为2到8)。如果属性的不同值个数大于属性概化阈值,则应当进行进一步的属性删除或属性概化。2.基于属性归纳方法(续)(2)概化关系阈值控制 为概化关系设置一个阈值(通常取值范围为10到30)。如果概化关系中不同元组的个数超过该阈值,则应当进一步概化;否则,不再进一步概化。2.基于属性归纳方法(续)这两种技术可以顺序使用:首先使用属性概化阈值控制技术概化每个属性,然后使用概化关系阈值控制进一步减少概化关系的(规模)大小。无论使用哪种概化控制技术,都应当允许用户调整概
10、化阈值,以便得到有趣的规则。2.基于属性归纳方法(续)例1(续):对前面得到的初始工作关系的每个属性,概化过程如下:1)姓名:由于姓名存在大量不同值,并且其上没有定义概念分层,该属性被删除。2)性别:由于性别只有两个不同值,该属性保留,并不对其进行概化。2.基于属性归纳方法(续)3)专业:假设定义了一个概念分层,从而可以对专业属性进行概化。又假设属性概化阈值置为5,在初始数据集合中有25个不同取值。则通过对属性概化和属性概化控制,专业属性被概化到指定的概念(如:科学,工程,商学)。2.基于属性归纳方法(续)4)出生地:该属性有大量不同值,因此应当概化它。设出生地的概念分层为:城市省国家。如果初
11、始关系中,国家取值超过了属性概化阈值,则出生地应当删除,因为尽管可以进行概化操作,概化阈值也不会满足。但如果假定国家的取值个数小于概化阈值,则出生地应当概化到出生国家。2.基于属性归纳方法(续)5)出生日期:假定存在概念分层,可以将出生日期概化到年龄,而年龄概化到年龄分类,并且年龄分类的区间数小于对应的属性概化阈值,则应当对出生日期进行概化。2.基于属性归纳方法(续)6)居住地:假定居住地被属性号码,街道,城市,省,国家定义。号码和街道的不同值一般很多,而且这些概念的层次相当低。因此,号码和街道应当删除,将居住地概化到居住城市。这样可包含较少的不同值。2.基于属性归纳方法(续)7)电话:与属性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 第七章35670 第七 35670
限制150内