粗糙集理论ppt.ppt
《粗糙集理论ppt.ppt》由会员分享,可在线阅读,更多相关《粗糙集理论ppt.ppt(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:1 1数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典 元昌安元昌安 主编主编 邓松李文敬刘海涛编著邓松李文敬刘海涛编著 电子工业出版社电子工业出版社第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:2 2第第11章章 粗糙集理论粗糙集理论 本章包括本章包括:粗糙集的基本概念粗糙集的基本概念 知识表达知识表达 粗糙集在数据预处理中的应用粗糙集在数据预处理中的应用第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:3 3v粗粗糙糙集集理理论论是是由由波波兰兰华华沙沙理理工工大
2、大学学PawlakPawlak教教授授于于2020世世纪纪8080年年代代初初提提出出的的一一种种研研究究不不完完整整、不不确确定定知知识识和和数数据据的的表表达达、学学习习、归归纳纳的的理理论论方方法法,它它是是一一种种刻刻画画不不完完整整性性和和不不确确定定性性的的数数学学工工具具,能能有有效效地地分分析析不不精精确确、不不一一致致(inconslsteni)inconslsteni)、不不完完整整(incomPlete)incomPlete)等等各各种种不不完完备备的的信信息息,还还可可以以对对数数据据进进行行分分析析和和推推理理,从从中中发发现现隐隐含含的的知知识识,揭揭示示潜潜在在的
3、的规规律。律。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:4 4v粗粗糙糙集集在在机机器器学学习习、决决策策支支持持系系统统、机机器器发发现现、归归纳纳推推理理、数数据据库库中中的的知知识识发发现现、模模式式识识别别等等领领域域都都得到了广泛的应用。得到了广泛的应用。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:5 511.1粗糙集基本概念粗糙集基本概念 v粗粗糙糙集集应应用用于于数数据据挖挖掘掘领领域域,能能提提高高对对大大型型数数据据库库中中的的不不完完整整数数据据进进行行分分析析和和学学习习的的能能力力,具具有有广广泛泛的应用前景和实用价值。的应
4、用前景和实用价值。v粗粗糙糙集集方方法法仅仅利利用用数数据据本本身身提提供供的的信信息息,无无须须任任何何先验知识。先验知识。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:6 6v粗粗糙糙集集是是一一个个强强大大的的数数据据分分析析工工具具,它它能能表表达达和和处处理理不不完完备备信信息息;能能在在保保留留关关键键信信息息的的前前提提下下对对数数据据进进行行化化简简并并求求得得知知识识的的最最小小表表达达式式;能能识识别别并并评评估估数数据据之之间间的的依依赖赖关关系系,揭揭示示出出概概念念的的简简单单模模式式;能能从经验数据中获取易于证实的规则知识。从经验数据中获取易于证
5、实的规则知识。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:7 7v粗粗糙糙集集的的研研究究对对象象是是由由一一个个多多值值属属性性(特特征征、症症状状、特特性性等等)集集合合描描述述的的一一个个对对象象(观观察察、病病历历等等)集集合合,对对于于每每个个对对象象及及其其属属性性都都有有一一个个值值作作为为其其描描述述符符号号,对象、属性和描述符是表达决策问题的对象、属性和描述符是表达决策问题的3 3个基本要素。个基本要素。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:8 8v粗粗糙糙集集理理论论逐逐渐渐应应用用于于数数据据挖挖掘掘领领域域中中,并并在在
6、对对大大型型数数据据库库中中不不完完整整数数据据进进行行分分析析和和学学习习方方面面取取得得了了显显著著的的成成果果,使使得得粗粗糙糙集集理理论论及及数数据据挖挖掘掘的的研研究究成成为为热热点点领领域域。最最近近几几年年,粗粗糙糙集集理理论论越越来来越越受受到到众众多多研研究究人人员员的的重重视视,它它的的应应用用研研究究得得到到了了很很大大的的发发展。展。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:9 911.1.1 知识和知识库知识和知识库 v 知识是人类通过实践对客观世界的运动规律的认知识是人类通过实践对客观世界的运动规律的认识,是人类实践经验的总结和提炼,具有抽象
7、和普识,是人类实践经验的总结和提炼,具有抽象和普遍的特性。遍的特性。v 从认知科学的观点来看,知识来源于人类对客从认知科学的观点来看,知识来源于人类对客观事物的分类能力,概念是事物类别的描述或者符观事物的分类能力,概念是事物类别的描述或者符号,知识则是概念之间的关系和联系。任何一个物号,知识则是概念之间的关系和联系。任何一个物种都是由一些知识来描述与分类的,利用物种的不种都是由一些知识来描述与分类的,利用物种的不同属性知识描述来产生对物种的不同分类。同属性知识描述来产生对物种的不同分类。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:1010v集合上的等价关系和集合上的划分是
8、一一对应,相集合上的等价关系和集合上的划分是一一对应,相互唯一决定的。从数学意义上讲,集合上的等价关互唯一决定的。从数学意义上讲,集合上的等价关系和集合的划分是等价的概念,即划分就是分类。系和集合的划分是等价的概念,即划分就是分类。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:1111v定义定义11-1 11-1 设讨论的对象组成的有限集合,称为论设讨论的对象组成的有限集合,称为论域域(Universe)Universe),对于论域中由等价关系划分出来的对于论域中由等价关系划分出来的任意子集,都可以称为论域任意子集,都可以称为论域U U中的一个概念中的一个概念(concep
9、t)concept)或范畴或范畴(category)category)。为规范起见,认为空为规范起见,认为空集必也是一个概念。论域集必也是一个概念。论域U U中的任意概念族称为关于中的任意概念族称为关于论域的抽象知识,它代表了对论域中个体的分类,论域的抽象知识,它代表了对论域中个体的分类,简称为知识。简称为知识。v定义定义11-2 11-2 K=(U,R)K=(U,R)其中其中K K为知识库,为知识库,U U为全体对象的为全体对象的集合称为论域,集合称为论域,R R为论域为论域U U上的等价关系上的等价关系(等价关系与等价关系与分类的概念等同分类的概念等同),它是一种属性或多种属性的集合。,它
10、是一种属性或多种属性的集合。可以根据不同的可以根据不同的R R对对U U进行不同形式的分类。知识库进行不同形式的分类。知识库也被称作近似空间。也被称作近似空间。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:1212v定义定义11-3 11-3 K=(U,P)K=(U,P)和和M=(U,Q)M=(U,Q)是两个知识库,若是两个知识库,若IND(P)=IND(Q)IND(P)=IND(Q),则称则称K K和和M(M(或或Q Q和和P)P)是等价的,是等价的,记作记作 (或者或者)。因此,当。因此,当K K和和M M是同样的基本范是同样的基本范畴集时,知识库畴集时,知识库K K和
11、和M M中的知识都能使我们确切地表中的知识都能使我们确切地表达关于论域的完全相同的事实。这个概念意味着可达关于论域的完全相同的事实。这个概念意味着可以用不同的属性集对对象进行描述,以表达关于论以用不同的属性集对对象进行描述,以表达关于论域的完全相同的事实。域的完全相同的事实。v对于两个知识库对于两个知识库K=(U,P)K=(U,P)和和M=(U,Q)M=(U,Q),当当 时,称知识库时,称知识库P P比知识库比知识库Q Q更精细,或者说更精细,或者说Q Q比比P P更粗更粗糙。当糙。当P P比比Q Q更精细时,我们称更精细时,我们称P P为为Q Q的特化,的特化,Q Q为为P P的的推广。由以
12、上可知,推广是将某些范畴组合在一起,推广。由以上可知,推广是将某些范畴组合在一起,而特化则是将范畴分割成更小的单元。而特化则是将范畴分割成更小的单元。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:131311.1.2 不可分辨关系不可分辨关系 v在粗糙集理论中,在粗糙集理论中,“知识知识”被认为是一种分类的能被认为是一种分类的能力。不可分辨关系的概念是粗糙集理论的基石,它力。不可分辨关系的概念是粗糙集理论的基石,它揭示出论域知识的颗粒状结构。假定关于论域的某揭示出论域知识的颗粒状结构。假定关于论域的某种知识,并使用属性和属性值来描述论域中的对象,种知识,并使用属性和属性值来
13、描述论域中的对象,如果两个对象如果两个对象(或对象集合或对象集合)具有相同的属性和属性具有相同的属性和属性值,则它们之间具有不可分辨关系。值,则它们之间具有不可分辨关系。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:1414v定义定义11-411-4设R是非空集合U上的二元系,如果它是自反的、对称的和可传递的,则称R为U上的等价关系。若,则称x与y有关系,记为 ;若 ,则称x与y没有关系,记为 。等价关系的一个重要特点是用它可以构成U的一个划分。划分即是分类,将研究对象分成不同的类,这些类之间互不相交,且每一对象均包含在某一类中。第第第第1111章章章章粗糙集理论粗糙集理论
14、粗糙集理论粗糙集理论:1515v定义定义11-511-5设U是一个论域,R是U上的等价关系,U/R表示U上由R导出的所有等价类。v 表示包含元素xU的R等价类。一个知识库就是一个关系系统K=U,P,其中U是论域,P是U上的一个等价类簇。如果 且 ,则 (Q的所有等价类的交也是一个等价关系),称Q为不可分辨关系,记作IND(Q)。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:161611.1.3 上、下近似集上、下近似集 v给定论域给定论域U U,一族等价关系一族等价关系R R将将U U划分为互不相交的基划分为互不相交的基本等价类本等价类U/RU/R。令令 XgUXgU为为R
15、 R上的一个等价关系。上的一个等价关系。v当能表达成某些基本等价类的并集时,称为可定义当能表达成某些基本等价类的并集时,称为可定义的;否则称为不可定义的。的;否则称为不可定义的。R R可定义集能在这个知识可定义集能在这个知识库中被精确地定义,所以又称为库中被精确地定义,所以又称为R R精确集。精确集。vR R不可定义集不能在这个知识库中被精确定义,只能不可定义集不能在这个知识库中被精确定义,只能通过集合逼近的方式来刻画,因此也称为通过集合逼近的方式来刻画,因此也称为R R粗糙集粗糙集 (Roughset)Roughset)。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:17
16、17v两个精确集,两个精确集,v即粗糙集的上近似集即粗糙集的上近似集(UpperApproximation)UpperApproximation)和下近和下近似集似集(LowerApproximation)LowerApproximation)来近似地定义粗糙集。来近似地定义粗糙集。v粗糙集理论引入上近似和下近似等概念来刻画知识粗糙集理论引入上近似和下近似等概念来刻画知识的不确定性和模糊性。的不确定性和模糊性。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:1818v定义11-6设集合 ,R是一个等价关系,称 v 为集合X的R下近似集;v称 为集合X的R上近似集;v称集合 为
17、X的R边界域;v称 为X的R正域;v称 为X的R负域。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:1919v例例11-1 11-1 设论域 ,U上的一族等价关系R=R1,R2,R1和R2是两个等价关系。根据这两个等价关系可以将论域U进行划分:v 和 。U/R1中的 ,代表 的等价类。v论域U被R划分的基本等价类为:v集合 是U上的一个子集。则X无法用基本等价类U/R的并集精确表示,所以X是U上的一个粗糙集合。故有:vX的下近似集为:;vX的上近似集为:;vX的负区域:。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:202011.2知识表达知识表达 v知
18、识表达在智能数据处理中占有十分重要的地位。知识表达在智能数据处理中占有十分重要的地位。在智能系统中,经常会碰到要处理的对象可能是用在智能系统中,经常会碰到要处理的对象可能是用语言方式表达,也可能使用数据表达;可能是精确语言方式表达,也可能使用数据表达;可能是精确的数据,可能会有一些缺省的信息或者相互矛盾的的数据,可能会有一些缺省的信息或者相互矛盾的信息。信息。v为了处理这些数据,我们需要进行知识的表达,即为了处理这些数据,我们需要进行知识的表达,即知识表达系统。决策表是特殊的知识表达系统。知识表达系统。决策表是特殊的知识表达系统。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论
19、:212111.2.1 知识表达系统知识表达系统 v定义定义11-711-7一个知识表达系统一个知识表达系统S S可以定义为,其中可以定义为,其中U U为对象的集合,称为论域;为对象的集合,称为论域;=R R为属性集合;子集为属性集合;子集C C和和D D分别称为条件属性和决策属性;分别称为条件属性和决策属性;为属性值的集合;为属性值的集合;表示了属性的属性值范围;是一个信息函数,它指表示了属性的属性值范围;是一个信息函数,它指定了定了U U中每一对象中每一对象x x的属性值。的属性值。v知识表达系统的数据以知识表达系统的数据以关系表关系表的形式表示,关系表的形式表示,关系表的行对应要研究的对
20、象,列对应对象的属性,对象的行对应要研究的对象,列对应对象的属性,对象的信息是通过指定对象的各属性值来表达的信息是通过指定对象的各属性值来表达。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:2222v例例11-211-2:表11.1是一个轿车信息决策表,条件属性集为e1,e2,e3,e4分别代表价格、油耗、速度和安全性,决策属性为d,表示质量。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:2323 表表11.1 轿车信息决策表轿车信息决策表车型车型U Ue1e1e2e2e3e3e4e4d d1 1高低快好高2 2低高中差低3 3中中慢一般低4 4中高慢一
21、般中5 5低高中差低6高低快好高第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:242411.2.2 决策表决策表 v决决策策表表包包含含了了某某一一领领域域的的大大量量数数据据,是是领领域域的的样样本本数数据据库库。它它记记录录了了大大量量样样本本的的属属性性值值和和决决策策情情况况,是领域知识的载体。是领域知识的载体。v知知识识获获取取的的目目的的就就是是要要通通过过分分析析这这个个实实例例库库来来得得到到该该领领域域中中有有用用的的、规规律律性性知知识识。决决策策表表在在决决策策应应用用中中有有十十分分重重要要的的地地位位,可可用用于于表表达达绝绝大大多多数数决决策策问
22、问题。对于决策表,最重要的是决策规则的生成。题。对于决策表,最重要的是决策规则的生成。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:2525v定义定义11-811-8 设U=U1,U2,U3,Un 是一个论域,U(i=1,2,,n)是研究对象。P是属性集,P=C+D,C 为条件属性集,D 为决策属性集,T=(U,P,C,D)是决策表。决策表中每一行就是一条决策规则:dx|C-dx|D,dx|B 表示个体x关于属性集B 的值。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:2626v定义定义11-911-9 若决策表T 中任意的dxdy,由dx|C=dy|C
23、,可得dx|D=dy|D,则称决策规则dx 是一致的,否则,称决策规则dx 是不一致的。如果T 中每条决策规则都是一致的,则称决策表T 是一致的,否则称决策表T是不一致的。v定义定义11-1011-10 设T=(U,P,C,D)是决策表,如果去掉条件属性Pi,得到的表T1=(U,P-Pi,C-Pi,D)与表T 相比,有PosC(D)=Pos(D),则称属性Pi是关于D可省的,否则称属性Pi 是关于D 不可省的,是D 关于B 的正区域,其中 。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:2727v定义定义11-1111-11 如果决策表中每个条件属性都是关于D 不可省的,则
24、称条件属性集C 是关于D独立的,否则称C 是关于D 依赖的。v定义定义11-1211-12 决策表T=(U,P,C,D)中条件属性集C 的一个子集B 是关于D 独立的,并且PosB(D)=PosC(D),则称B 是C 的一个D约简。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:282811.2.3 属性约简、核集的求取属性约简、核集的求取 v所谓属性约简,就是在保持知识库分类能力不变的条件下,删除其中不相关或不重要的属性。v一个属性集合可能有多个约简。v属性约简的目标就是要从条件属性集合中发现部分必要的条件属性,使得根据这部分条件属性形成的相对于决策属性的分类和所有条件属性
25、所形成的相对于决策属性的分类一致,即和所有条件属性相对于决策属性D有相同的分类能力。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:2929v属性集合P的所有约简的交集定义为P的核(Core),记作core(P),核是表达知识必不可少的重要属性集。第第第第1111章章章章粗糙集理论粗糙集理论粗糙集理论粗糙集理论:3030v核的概念具有两方面的意义:v(l)因为核包含于所有约简之中,所以核可以作为所有约简的计算基础。v(2)核在知识约简中是不能消去的特征集合。v直接由分辨矩阵来求取系统的核集Pc。不失一般性,假定系统T 对于属性集P 是可分辨的。则系统的核集由以下定理1确定。第
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 粗糙 理论 ppt
限制150内