粗糙集理论及其应用.pptx
《粗糙集理论及其应用.pptx》由会员分享,可在线阅读,更多相关《粗糙集理论及其应用.pptx(70页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、OutlineRough sets理论的快速入门方法Rough sets理论的发展概述Rough setsRough sets理论的基本原理理论的基本原理计算举例计算举例课后研读论文第1页/共70页9.1Roughsets的快速入门方法的快速入门方法认真研读认真研读Rough Sets TheoryRough Sets Theory的创始人、波兰数学家的创始人、波兰数学家Z.Z.PawlakPawlak于于19821982年发表的第一篇论文年发表的第一篇论文“Rough SetsRough Sets”。【注】:最好直接阅读英文论文原文。研读王珏等人研读王珏等人19961996年在年在模式识别与
2、人工智能模式识别与人工智能上发表上发表的关于的关于Rough SetsRough Sets理论及其应用的综述性文章。理论及其应用的综述性文章。参考史忠植编著的参考史忠植编著的高级人工智能高级人工智能、知识发现知识发现等等教材中讨论粗糙集的有关章节。教材中讨论粗糙集的有关章节。【注】:国内王国胤、刘清、张文修、曾黄麟等人先后出版了关于Rough Sets的教材,也可适当参考。第2页/共70页Roughset快速入门方法(续)快速入门方法(续)认真研读如下认真研读如下3 3篇典型的论文:篇典型的论文:1 Pawlak,Z.,et al.Rough set approach to multi-att
3、ribute decisionanalysis.European Journal of Operational Research,72:443-459,19942Grzymala-Busse,D.M.,et al.Theusefulnessofamachinelearningapproach to knowledge acquisition.Computational Intelligence.11(2):268-279,19953Jelonek,J.,et al.Roughsetreductionofattributesandtheirdomainsfor neural networks.C
4、omputational Intelligence,11(2):339-347,1995第3页/共70页 9.2 9.2 粗糙集理论的发展概述粗糙集理论的发展概述粗糙集理论的提出粗糙集理论的提出自然界中大部分事物所呈现的信息都是:不完整的、不确定的、模糊的和含糊含糊的 经典逻辑无法准确、圆满地描述和解决粗糙集理论主要是为了描述并处理粗糙集理论主要是为了描述并处理“含糊含糊”信息。信息。“Blessedarethemerciful,fortheywillbeshownmercy.Blessedarethepureinheart,fortheywillseeGod.”From MATTHEW 5:
5、7-8 NIV 第4页/共70页粗糙集理论的提出(续粗糙集理论的提出(续1)“含糊含糊”(Vague)1904年谓词逻辑创始人G.Frege(弗雷格)首次提出将含糊性归结到“边界线区域边界线区域”(Boundaryregion)在全域上存在一些个体,它既不能被分类到某一个子集上,也不能被分类到该子集的补集上“模糊集模糊集”(FuzzySets)1965年美国数学家L.A.Zadeh首次提出无法解决G.Frege提出的“含糊”问题未给出计算含糊元素数目的数学公式第5页/共70页粗糙集理论的提出(续粗糙集理论的提出(续2)“粗糙集粗糙集”(RoughSets)1982年波兰数学家Z.Pawlak首
6、次提出将边界线区域定义为“上近似集”与“下近似集”的差集指出在“真”、“假”二值之间的“含糊度”是可计算的给出计算含糊元素数目的计算公式借鉴了集合论中的“等价关系”(不可区分关系)求取大量数据中的最小不变集合(称为“核核”)求解最小规则集(称为“约简约简”)第6页/共70页粗糙集理论的提出(续粗糙集理论的提出(续3)粗糙集理论中的一些基本观点基本观点“概念”就是对象的集合“知识”就是将对象进行分类的能力(“各从其类各从其类”)“知识”是关于对象的属性、特征或描述的刻划不可区分关系表明两个对象具有相同的信息提出上近似集、下近似集、分类质量等概念“Godmadethewildanimalsacco
7、rdingtotheirkinds,thelivestockaccordingtotheirkinds,andallthecreaturesthatmovealongthegroundaccordingtotheirkinds.AndGodsawthatitwasgood.”From GENESIS 1:25 NIV 第7页/共70页粗糙集理论的发展历程粗糙集理论的发展历程1970s,Pawlak和波兰科学院、华沙大学的一些逻辑学家,在研究信息系统逻辑特性的基础上,提出了粗糙集理论的思想。在最初的几年里,由于大多数研究论文是用波兰文发表的,所以未引起国际计算机界的重视,研究地域仅限于东欧各国。
8、1982年,Pawlak发表经典论文Roughsets,标志着该理论正式诞生。第8页/共70页粗糙集理论的发展历程(续粗糙集理论的发展历程(续1)1991年,Pawlak的第一本关于粗糙集理论的专著Rough sets:theoretical aspects of reasoning about data;1992年,Slowinski主编的Intelligence decision support:handbook of applications and advances of rough sets theory的出版,奠定了粗糙集理论的基础,有力地推动了国际粗糙集理论与应用的深入研究。19
9、92年,在波兰召开了第一届国际粗糙集理论研讨会,有15篇论文发表在1993年第18卷的Foundationofcomputinganddecisionsciences上。第9页/共70页粗糙集理论的发展历程(续粗糙集理论的发展历程(续2)1993和1994年,分别在加拿大、美国召开第二、三届国际粗糙集与知识发现(或软计算)研讨会。1995年,年,Pawlak等人在等人在ACMCommunications上上发表发表“Roughsets”,极大地扩大了该理论的国际影响。,极大地扩大了该理论的国际影响。19961999年,分别在日本、美国、美国、日本召开了第4-7届粗糙集理论国际研讨会。2000年
10、,在加拿大召开了第二届粗糙集与计算趋势国际会议。第10页/共70页粗糙集理论的发展历程(续粗糙集理论的发展历程(续3)20012002,中国分别在重庆、苏州召开第一、二届粗糙集与软计算学术会议。2003年,在重庆召开粗糙集与软计算国际研讨会。2004年,在瑞典召开RSCTC国际会议(年会)。2005年,在加拿大召开RSFDGrC国际会议(年会)。第11页/共70页粗糙集理论的优点及局限性粗糙集理论的优点及局限性主要优点主要优点除数据集之外,无需任何先验知识(或信息)对不确定性的描述与处理相对客观【说明】:Bayes理论、模糊集理论、证据理论等都需要先验知识,具有很大的主观性。“Nowfaith
11、isbeingsureofwhatwehopeforandcertainofwhatwedonotsee.”“AndwithoutfaithitisimpossibletopleaseGod,becauseanyonewhocomestohimmustbelievethatheexistsandthatherewardsthosewhoearnestlyseekhim.”From HEBREWS 11:1,6 NIV第12页/共70页粗糙集理论的优点及局限性(续)粗糙集理论的优点及局限性(续)局限性局限性缺乏处理不精确或不确定原始数据的机制对含糊概念的刻划过于简单无法解决所有含糊的、模糊的不确
12、定性问题需要其它方法的补充解决办法解决办法与模糊集理论相结合与Dempster-Shafer证据理论相结合第13页/共70页粗糙集理论在知识发现中的作用粗糙集理论在知识发现中的作用在数据预处理过程中,粗糙集理论可以用于对遗粗糙集理论可以用于对遗失数据的填补。失数据的填补。在数据准备过程中,利用粗糙集理论的数据约简特性,对数据集进行降维操作。对数据集进行降维操作。在数据挖掘阶段,可将粗糙集理论用于分类规则用于分类规则的发现。的发现。第14页/共70页粗糙集理论在知识发现中的作用(续)粗糙集理论在知识发现中的作用(续)在数据挖掘阶段的主要作用在数据挖掘阶段的主要作用通过布尔推理挖掘出约简的规则来解
13、释决策通过熵理论将规则的复杂性和预测的误差分析溶入到无条件的度量中与模糊集理论、证据理论构成复合分析方法搜寻隐含在数据中的确定性或非确定性的规则在解释与评估过程中,粗糙集理论可用于对所对所得到的结果进行统计评估。得到的结果进行统计评估。第15页/共70页粗糙集理论的研究现状粗糙集理论的研究现状在理论研究方面数学性质数学性质:研究其代数与拓扑结构、收敛性等粗糙集拓广粗糙集拓广:广义粗糙集模型、连续属性离散化与其它不确定性处理方法的关系和互补与其它不确定性处理方法的关系和互补:与模糊集理论、Dempster-Shafer证据理论的关系和互补粒度计算粒度计算:粗糙集理论是其重要组成之一高效算法高效算
14、法:导出规则的增量式算法、简约的启发式算法、并行算法、现有算法的改进第16页/共70页粗糙集理论的研究现状(续)粗糙集理论的研究现状(续)在数据挖掘领域的应用发现数据之间(精确或近似)的依赖关系评价某一分类(属性)的重要性剔除冗余属性数据集的降维发现数据模式挖掘决策规则在其它领域的应用金融商业第17页/共70页9.3粗糙集理论的基本原理粗糙集理论的基本原理“知识知识”的定义使用等价关系集R对离散表示的空间U进行划分,知识就是R对U划分的结果。“知识库知识库”的形式化定义等价关系集R中所有可能的关系对U的划分表示为:K=(U,R)基本概念基本概念第18页/共70页基本概念(续基本概念(续1)“信
15、息系统信息系统”的形式化定义的形式化定义S=U,Q,V,f,U:对象的有限集Q:属性的有限集,Q=CD,C是条件属性子集,D是决策属性子集V:,Vp是属性P的域f:U A V是总函数,使得 对每个xi U,q A,有f(xi,q)Vq一个关系数据库可看作一个信息系统,其一个关系数据库可看作一个信息系统,其“列列”为为“属性属性”,“行行”为为“对象对象”。第19页/共70页基本概念(续基本概念(续2)基本集合基本集合(Elementaryset)/原子原子(Atom)关系R的等价类(Equivalenceclasses)U/R表示近似空间A上所有的基本集合(原子)不可区分(等价、不分明)关系不
16、可区分(等价、不分明)关系U为论域,R是UU上的等价(Equivalence)关系(即满足自反、对称、传递性质)A=U,R称为近似空间,R为不分明关系(indiscernibility,或不可区分关系、等价关系)若x,yU,(x,y)R,则x,y在A中是不分明的(不可区分的)第20页/共70页基本概念(续基本概念(续3)不可区分(等价、不分明)关系(续)不可区分(等价、不分明)关系(续)设PQ,xi,xj U,定义二元关系INDP称为不分不分明关系明关系为:称xi,xj在S中关于属性集P是不分明的,当且仅当p(xi)=p(xj)对所有的pP成立,即xi,xj不能用P中的属性加以区别。若x,yU
17、,(x,y)R,则x,y在A中是不分明的(不可区分的)对所有的pP,INDP是U上一种的等价关系第21页/共70页factweatherroadtimeaccident1mistyicydayyes2foggyicynightyes3mistynot icynightyes4sunnyicydayno5foggynot icyduskyes6mistynot icynightno不可区分关系(等价关系)示例不可区分关系(等价关系)示例第22页/共70页可知,U=1,2,3,4,5,6R=2 weather,road,time,accident 若P=weather,road,则xIND(p)=
18、xINDweatherxINProad =1,3,6,2,5,4 1,2,4,3,5,6 =1,2,4,3,6,5 不可区分关系(等价关系)示例(续)不可区分关系(等价关系)示例(续)第23页/共70页集合的上近似集合的上近似&下近似下近似在信息系统S=U,Q,V,f中,设XU是个体全域上的子集,PQ则X的下和上近似集及边界区域分别为:PX是XU上必然被分类的那些元素的集合,即包含在X内的最大可定义集;X是U上可能被分类的那些元素的集合,即包含X的最小可定义集。Bnd(X)是既不能在XU上被分类,又不能在U-X上被分类的那些元素的集合。第24页/共70页图9.1 集合的上、下近似概念示意X第2
19、5页/共70页上、下近似关系举例:上、下近似关系举例:X1=u|Flu(u)=yes=u2,u3,u6,u7RX1=u2,u3=u2,u3,u6,u7,u5,u8X2=u|Flu(u)=no=u1,u4,u5,u8RX2=u1,u4 =u1,u4,u5,u8,u6,u7TheindiscernibilityclassesdefinedbyR=Headache,Temp.are:u1,u2,u3,u4,u5,u7,u6,u8.第26页/共70页上、下近似集的图示:上、下近似集的图示:R=Headache,Temp.U/R=u1,u2,u3,u4,u5,u7,u6,X1=u|Flu(u)=yes=
20、u2,u3,u6,u7X2=u|Flu(u)=no=u1,u4,u5,u8RX1=u2,u3=u2,u3,u6,u7,u5,u8RX2=u1,u4 =u1,u4,u5,u8,u6,u7u1u4u3X1X2u5u7u2u6u8第27页/共70页近似精度近似精度&分类质量分类质量设S=U,Q,V,f为一信息系统,且XU,PQ,则S上X的近似精度近似精度为:设S为一信息系统,PQ,且令=X1,X2,Xn是U的一个分类(子集族),其中XiU,则的P-下近似和P-上近似分别表示为:第28页/共70页分类分类 的的近似精度近似精度为:为:由属性子集PQ确定的分类的分类质量分类质量为:分类质量分类质量表示通
21、过属性子集P正确分类的对象数与信息系统中所有对象数的比值。这是评价属性子集P的重要性的关键指标之一。第29页/共70页 一个申请信用卡的训练集:一个申请信用卡的训练集:申请人申请人编号编号条件属性条件属性决策决策属性属性d dc1c1账号账号c2c2余额余额c3c3职业职业c4c4月消费月消费1 1银行银行中中(700)(700)有有低低接受接受2 2银行银行低低(300)(300)有有高高拒绝拒绝3 3无无低低(0)(0)有有中中拒绝拒绝4 4其它机构其它机构高高(1200)(1200)有有高高接受接受5 5其它机构其它机构中中(800)(800)有有高高拒绝拒绝6 6其它机构其它机构高高(
22、1600)(1600)有有低低接受接受7 7银行银行高高(3000)(3000)无无中中接受接受8 8无无低低(0)(0)无无低低拒绝拒绝第30页/共70页原始属性集A=c1,c2,c3,c4的分类质量:令R=c2,c4,重新计算分类质量,得第31页/共70页属性约简属性约简&“核核”属属性性约约简简(AttributeReduction):在一个信息系统S中,设是S上的一个分类,经约简后的最小属性子集具有同原始属性集相同的分类质量,即存在RPQ,使得R()=P(),称 之 为 属属 性性 集集 P P的的 -约约 简简,记 作REDU(P)。所 有-约 简 的 交 集 称 为 -核核,即 C
23、ORE(P)=REDU(P),核是信息系统中一系列最重要的属性。【说说明明】:在大多数情况下,分类是由几个甚至一个属性来决定的,而不是由关系数据库中的所有属性的微小差异来决定。属属性性约约简简及及核核的的概概念念为为提提取取系系统统中中重重要要属属性性及及其其值值提提供供了了有有力力的的数数学学工工具具,而且这种约简是本着不破坏原始数据集的分类质量的,通俗地说,它是完全“保真”的。第32页/共70页关于核的计算,有人提出了差别矩阵(discernibilitymatrix,也译作可辨识矩阵)。在信息系统S=(U,CD,V,f)中,C为条件属性,D为决策属性,设为对象全集U按决策属性D被分成不相
24、交的类族,即=X1,X2,Xm,则S中C的差别矩阵M(C)=mi,jnxn定义为其中,1ijn。差别矩阵与信息系统的核有如下关系:对所有的cC,cCORE(C,D)的充要条件是,存在i,j(1ijn),使得mi,j=c。“含糊”是指分别属于两个不同类的对象具有完全相同的条件属性,在差别矩阵中,xi,xj是含糊的充要条件是存在i,j(1 i j n),使得mi,j=-1。第33页/共70页申请申请人人编号编号条件属性条件属性决策决策属性属性d dc1c1账号账号c2c2余额余额c3c3职业职业c4c4月消费月消费1 1银行银行中中(700)(700)有有低低接受接受2 2银行银行低低(300)(
25、300)有有高高拒绝拒绝3 3无无低低(0)(0)有有中中拒绝拒绝4 4其它机构其它机构高高(1200)(1200)有有高高接受接受5 5其它机构其它机构中中(800)(800)有有高高拒绝拒绝6 6其它机构其它机构高高(1600)(1600)有有低低接受接受7 7银行银行高高(3000)(3000)无无中中接受接受8 8无无低低(0)(0)无无低低拒绝拒绝第34页/共70页 因决策d=接受,拒绝,故上表按决策属性d可分为两个等价类:x1,x4,x6,x7和x2,x3,x5,x8。根据差别矩阵的计算公式可得:差别矩阵与“核”有如下关系:属性c是条件属性C和决策属性D的“核”的充要条件是,存在i
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 粗糙 理论 及其 应用
限制150内