AI_05_16粗糙集理论人工智能课程浙江大学研究生2453.pptx
《AI_05_16粗糙集理论人工智能课程浙江大学研究生2453.pptx》由会员分享,可在线阅读,更多相关《AI_05_16粗糙集理论人工智能课程浙江大学研究生2453.pptx(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、粗糙集理论及其应用RoughSetTheoryanditsApplications徐从富徐从富浙江大学人工智能研究所浙江大学人工智能研究所20022002年年1111月月8 8日第一稿日第一稿20052005年年9 9月修改补充月修改补充研究生人工智能课件研究生人工智能课件目录:目录:Roughset快速入门方法快速入门方法Roughset发展概述发展概述Roughset理论理论课后习题课后习题课后研读论文课后研读论文Roughset快速入门方法快速入门方法认真研读认真研读RoughSetTheory的创始人、波兰数的创始人、波兰数学家学家Z.Pawlak于于1982年发表的第一篇论文年发表的
2、第一篇论文“RoughSets”。最好是直接阅读英文论文原最好是直接阅读英文论文原文。文。研读中科院自动化所的王珏等人于研读中科院自动化所的王珏等人于1996年在年在模式识别与人工智能上发表介绍粗糙集模式识别与人工智能上发表介绍粗糙集理论及其应用的综述性文章。理论及其应用的综述性文章。结合中科院计算所史忠植教授编著的高级结合中科院计算所史忠植教授编著的高级人工智能、知识发现等教材中的讨论人工智能、知识发现等教材中的讨论粗糙集的章节。粗糙集的章节。Roughset快速入门方法(续)快速入门方法(续)认真研读如下认真研读如下3篇典型的论文:篇典型的论文:1Pawlak,Z.,et al.Rough
3、setapproachtomulti-attributedecision analysis.European Journal of Operational Research,72:443-459,19942Grzymala-Busse,D.M.,et al.TheUsefulnessofamachine learning approach to knowledge acquisition.Computational Intelligence.11(2):268-279,19953Jelonek,J.,et al.Roughsetreductionofattributesand their do
4、mains for neural networks.Computational Intelligence,11(2):339-347,1995结合本课件作者于结合本课件作者于20002000年整理的举例说明年整理的举例说明粗糙集理论的有关概念及公式粗糙集理论的有关概念及公式 一、粗糙集理论的发展概述一、粗糙集理论的发展概述1.1粗糙集理论概况粗糙集理论概况自然界中大部分事物所呈现的信息都是:自然界中大部分事物所呈现的信息都是:不完整的、不确定的、模糊的和含糊的不完整的、不确定的、模糊的和含糊的经典逻辑无法准确、圆满地描述和解决经典逻辑无法准确、圆满地描述和解决1904年,谓词逻辑创始人年,谓词
5、逻辑创始人G.Frege提出:提出:“含糊含糊”(Vague)将含糊性归结到将含糊性归结到“边边界线区域界线区域”(Boundary region)上,即在全域上存上,即在全域上存在一些个体,它既不能被分类到某一个子集上,在一些个体,它既不能被分类到某一个子集上,也不能被分类到该子集的补集上。也不能被分类到该子集的补集上。1965年,美国数学家年,美国数学家L.A.Zadeh提出了提出了“模模糊集糊集”(Fuzzysets),),许多计算机科学家和逻辑许多计算机科学家和逻辑学家试图通过这一理论解决学家试图通过这一理论解决G.Frege提出的提出的“含糊含糊”问题,但模糊集没有给出数学公式描述这
6、一含问题,但模糊集没有给出数学公式描述这一含糊概念,无法计算出它的具体的含糊元素数目。糊概念,无法计算出它的具体的含糊元素数目。1982年,波兰数学家年,波兰数学家Z.Pawlak针对针对G.Frege的的“边界线区域边界线区域”思想,提出了思想,提出了“粗糙集粗糙集”(Rough Sets)。Pawlak把那些无法确认的个把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定体都归属于边界线区域,而这种边界线区域被定义为:义为:“上近似集上近似集”与与“下近似集下近似集”的差集的差集。由。由于它有确定的数学公式描述,故含糊元素的数目于它有确定的数学公式描述,故含糊元素的数目是可以计算的
7、,即是可以计算的,即在在“真真”、“假假”二值之间的二值之间的“含糊度含糊度”是可以计算的是可以计算的。粗糙集理论自诞生以来,经过许多数学家和计粗糙集理论自诞生以来,经过许多数学家和计算机科学家的努力,其理论上日趋成熟,特别是算机科学家的努力,其理论上日趋成熟,特别是在在20世纪世纪80年代末和年代末和90年代初,由于粗糙集理论年代初,由于粗糙集理论在数据挖掘、知识发现等领域得到了成功的应用,在数据挖掘、知识发现等领域得到了成功的应用,它受到了国际上的广泛关注。它受到了国际上的广泛关注。相对于其它处理不确定和模糊性的理论工具相对于其它处理不确定和模糊性的理论工具(如模糊集理论、(如模糊集理论、
8、Dempster-Shafer证据理论等)证据理论等)而言,而言,粗糙集理论有许多不可替代的优越性粗糙集理论有许多不可替代的优越性。目。目前,它在信息科学、医药科学、工程技术、金融前,它在信息科学、医药科学、工程技术、金融商业、环境科学、社会科学等领域中得到了广泛商业、环境科学、社会科学等领域中得到了广泛的、较为成功的应用,并且越来越受到其它更多的、较为成功的应用,并且越来越受到其它更多领域的重视。领域的重视。在计算机科学(特别是人工智能)领域,粗在计算机科学(特别是人工智能)领域,粗糙集理论在专家系统、决策支持系统、机器学习、糙集理论在专家系统、决策支持系统、机器学习、机器发现、归纳推理、模
9、式识别、决策表等方面机器发现、归纳推理、模式识别、决策表等方面都有非常成功的应用实例。其中,在都有非常成功的应用实例。其中,在AI中的应用中的应用可分为两大类:可分为两大类:有决策的分析有决策的分析和和无决策的分析无决策的分析。(1)有决策的分析,主要包括:)有决策的分析,主要包括:监督学习监督学习与与决策决策分析分析;(;(2)对无决策的分析,主要是)对无决策的分析,主要是数据压缩、数据压缩、化简、聚类、模式发现、机器发现化简、聚类、模式发现、机器发现等。等。Jelonek等人成功地应用粗糙集理论对神经网等人成功地应用粗糙集理论对神经网络的输入属性及属性域进行约简络的输入属性及属性域进行约简
10、。用粗糙集理论用粗糙集理论获取知识和进行机器学习的有代表性的应用实例获取知识和进行机器学习的有代表性的应用实例是,是,Kansas大学开发的大学开发的“基于粗糙集方法的学习基于粗糙集方法的学习系统系统”(LERS)。)。这个系统的规则发现能力能帮这个系统的规则发现能力能帮助那些用不完全知识进行工作的专家系统建立知助那些用不完全知识进行工作的专家系统建立知识库识库。粗糙集理论认为,粗糙集理论认为,“概念概念”就是对象的集合,就是对象的集合,“知识知识”就是将对象进行分类的能力就是将对象进行分类的能力。将概念看将概念看成是成是“对象的集合对象的集合”的思想,实质上是一种强调的思想,实质上是一种强调
11、概念的概念的“外延外延”的表达方式。假设我们对全域中的表达方式。假设我们对全域中的对象具有必要的的对象具有必要的“信息信息”或或“知识知识”,这些,这些“知识知识”可以被认为是关于对象的内涵(如属性、可以被认为是关于对象的内涵(如属性、特征或描述)的某种刻划特征或描述)的某种刻划。通过这些知识就能够。通过这些知识就能够将全域中的所有对象划分到不同的类别中。将全域中的所有对象划分到不同的类别中。如果存在两个对象具有相同的信息,即下面如果存在两个对象具有相同的信息,即下面将要论述的将要论述的“不可区分关系不可区分关系”,则根据这些已知,则根据这些已知的信息无法将它们区分开来,显然这是一种等价的信息
12、无法将它们区分开来,显然这是一种等价关系。这样的等价关系可以认为是对概念的内涵关系。这样的等价关系可以认为是对概念的内涵的描述。不可区分关系是粗糙集理论中最基本的的描述。不可区分关系是粗糙集理论中最基本的概念之一,在此基础上引入成员关系、上近似、概念之一,在此基础上引入成员关系、上近似、下近似、分类质量等来刻划知识的处理方法。下近似、分类质量等来刻划知识的处理方法。粗糙集理论在知识发现中的粗糙集理论在知识发现中的主要应用主要应用:数据之间(精确或近似)依赖关系发现数据之间(精确或近似)依赖关系发现评价某一分类(属性)的重要性。评价某一分类(属性)的重要性。数据模式发现。数据模式发现。决策规则发
13、现。决策规则发现。剔除冗余属性。剔除冗余属性。数据集的降维数据集的降维.粗糙集理论的粗糙集理论的局限性局限性主要有:主要有:(1)缺乏处理不精确或不确定原始数据的机)缺乏处理不精确或不确定原始数据的机制。制。(2)对含糊概念的刻划过于简单。)对含糊概念的刻划过于简单。(3)粗糙集理论不是万能的,它不可能解决)粗糙集理论不是万能的,它不可能解决一切含糊的、模糊的不确定性问题。一切含糊的、模糊的不确定性问题。(4)需要其它方法的补充。需要其它方法的补充。一般地,将粗糙集理论与模糊集理论、一般地,将粗糙集理论与模糊集理论、Dempster-Shafer证据理论等其它相关的不确定性证据理论等其它相关的
14、不确定性处理方法构成互补,是一种非常自然而又可行的处理方法构成互补,是一种非常自然而又可行的方法。方法。1.2粗糙集理论的发展简况粗糙集理论的发展简况(1)20世纪世纪70年代,年代,Pawlak和一些波兰科学院、华和一些波兰科学院、华沙大学的逻辑学家,在研究信息系统逻辑特性的基础上,沙大学的逻辑学家,在研究信息系统逻辑特性的基础上,提出了粗糙集理论的思想。提出了粗糙集理论的思想。(2)1982年,年,Pawlak发表了经典论文发表了经典论文“Rough sets”,标志着粗糙集理论的正式诞生。标志着粗糙集理论的正式诞生。(3)在最初的几年里,由于大多数研究论文是用波)在最初的几年里,由于大多
15、数研究论文是用波兰文发表的,所以未引起国际计算机界的重视,研究地域兰文发表的,所以未引起国际计算机界的重视,研究地域仅限于东欧各国。仅限于东欧各国。(4)1991年年Pawlak的第一本关于粗糙集理论的专著的第一本关于粗糙集理论的专著“Rough sets:theoretical aspects of reasoning about data”和和1992年年Slowinski主编的主编的“Intelligence decision support:handbook of applications and advances of rough sets theory”的出版,奠定了粗糙集理论的基
16、础,有力地推动了国际粗的出版,奠定了粗糙集理论的基础,有力地推动了国际粗糙集理论与应用的深入研究。糙集理论与应用的深入研究。(5)1992年,在波兰召开了第一届国际粗糙集理论年,在波兰召开了第一届国际粗糙集理论研讨会,有研讨会,有15篇论文发表在篇论文发表在1993年第年第18卷的卷的“Foundationofcomputinganddecisionsciences”上。上。(6)1993和和1994年,分别在加拿大、美国召开第二、年,分别在加拿大、美国召开第二、三届国际粗糙集与知识发现(或软计算)研讨会。三届国际粗糙集与知识发现(或软计算)研讨会。(7)1995年,年,Pawlak等人在美国
17、等人在美国ACM通讯上发表通讯上发表“Rough sets”,极大地扩大了该理论的国际影响极大地扩大了该理论的国际影响。(8)19961999年,分别在日本、美国、美国、日年,分别在日本、美国、美国、日本召开了第四七届粗糙集理论国际研讨会。本召开了第四七届粗糙集理论国际研讨会。(9)2000年,在加拿大召开了第二届粗糙集与计算年,在加拿大召开了第二届粗糙集与计算趋势国际会议。趋势国际会议。(10)20012002,中国分别在重庆、苏州召开第一、,中国分别在重庆、苏州召开第一、二届粗糙集与软件学术会议。二届粗糙集与软件学术会议。(11)2003年将在重庆召开粗糙集与软计算国际研讨年将在重庆召开粗
18、糙集与软计算国际研讨会。会。(12)2004年,在瑞典召开年,在瑞典召开RSCTC国际会议(年会)国际会议(年会)(13)2005年,在加拿大召开年,在加拿大召开RSFDGrC国际会议(年会)国际会议(年会)1.3粗糙集理论的研究现状粗糙集理论的研究现状对粗糙集理论的研究主要分为对粗糙集理论的研究主要分为理论理论和和应用应用两个两个部分。部分。(1)在理论研究方面)在理论研究方面,主要集中在如下方面:,主要集中在如下方面:数学性质数学性质:研究其代数与拓扑结构、收敛:研究其代数与拓扑结构、收敛性等。性等。粗糙集拓广粗糙集拓广:广义粗糙集模型、连续属性:广义粗糙集模型、连续属性离散化。离散化。与
19、其它不确定方法的关系和互补与其它不确定方法的关系和互补:与模糊:与模糊集理论、集理论、Dempster-Shafer证据理论的关系和互补。证据理论的关系和互补。多多Agent系统系统(MAS)中的粗糙集中的粗糙集:MAS中基中基于粗糙集理论的推理和规则合成策略。于粗糙集理论的推理和规则合成策略。粒度(粒度(Granules)计算计算:这是一种新的研:这是一种新的研究方向。究方向。有效算法有效算法:导出规则的增量式算法、简约:导出规则的增量式算法、简约的启发式算法、并行算法、现有算法的改进。的启发式算法、并行算法、现有算法的改进。(2)在应用研究方面)在应用研究方面,主要集中研究,主要集中研究粗
20、糙集粗糙集理论在数据挖掘或知识发现过程中的使用方法和理论在数据挖掘或知识发现过程中的使用方法和应用效果。应用效果。1.4粗糙集理论在知识发现中的作用粗糙集理论在知识发现中的作用(1)在数据准备过程中,在数据进行进一步)在数据准备过程中,在数据进行进一步的分析之前,必须的分析之前,必须对数据进行预处理,粗糙集分对数据进行预处理,粗糙集分析方法可以用于对遗失数据的填补析方法可以用于对遗失数据的填补。(2)在数据准备过程中,利用粗糙集理论的)在数据准备过程中,利用粗糙集理论的数据约简特性,数据约简特性,对数据集进行降维操作对数据集进行降维操作。(3)在数据挖掘阶段,可将粗糙集分析方法)在数据挖掘阶段
21、,可将粗糙集分析方法用于分类规则的发现用于分类规则的发现。(4)在数据挖掘阶段,选择数据挖掘算法时,)在数据挖掘阶段,选择数据挖掘算法时,粗糙集分析方法主要有三个方面:粗糙集分析方法主要有三个方面:通过布尔推理通过布尔推理挖掘出约简和简洁的规则来解挖掘出约简和简洁的规则来解释决策释决策通过熵理论通过熵理论将规则的复杂性和预测的误差分将规则的复杂性和预测的误差分析溶入到无条件的度量中析溶入到无条件的度量中与模糊集理论、证据理论与模糊集理论、证据理论构成复合分析方法构成复合分析方法(5)在数据挖掘阶段,粗糙集分析方法可以)在数据挖掘阶段,粗糙集分析方法可以搜寻隐含在数据中的确定的或非确定的规则搜寻
22、隐含在数据中的确定的或非确定的规则。(6)在解释与评估过程中,粗糙集分析方法)在解释与评估过程中,粗糙集分析方法用于用于对所得到的结果进行统计评估对所得到的结果进行统计评估。二、粗糙集理论二、粗糙集理论2.1概概述述Roughset(以下简称以下简称RS)理论的理论的要点要点是将是将“分类分类”与与“知识知识”联系在一起,而作为一种数学理论,它使用联系在一起,而作为一种数学理论,它使用“等等价关系价关系”来形式化地表示分类,这样,来形式化地表示分类,这样,“知识知识”就可以理就可以理解为:解为:使用等价关系集使用等价关系集R对离散表示的空间对离散表示的空间U进行划分,进行划分,知识就是知识就是
23、R对对U划分的结果划分的结果。由此,在。由此,在U与与R的意义下,的意义下,“知识库知识库”可以定义为:属于可以定义为:属于R中的所有可能的关系对中的所有可能的关系对U的的划分,记为划分,记为K=(U,R)为了描述知识的为了描述知识的“确定程度确定程度”,RS理论引入理论引入“上近似上近似”与与“下近似下近似”的概念,并以这些概念来定义的概念,并以这些概念来定义U中的一个中的一个子集合子集合B与被关系与被关系R划分之后的划分之后的U的相合程度,称为的相合程度,称为“粗糙粗糙度度”。“粗糙集粗糙集”之名由此而来。之名由此而来。RS理论还包含了求取大量数据中最小不变集合(称为理论还包含了求取大量数
24、据中最小不变集合(称为“核核”)与求解最小规则集(称为)与求解最小规则集(称为“约简约简”)的理论,事)的理论,事实上,这就是实上,这就是KDD中所需完成的主要任务。中所需完成的主要任务。RS理论的理论的特点特点是,是,除问题所需的数据集之外,无需任除问题所需的数据集之外,无需任何先验知识(或信息)何先验知识(或信息)。这是。这是RS理论与模糊理论、证据理理论与模糊理论、证据理论的论的最主要的区别最主要的区别,也是其,也是其最重要的优点最重要的优点。证据理论证据理论需要预先设定需要预先设定先验概率分配(先验概率分配(mass函数)函数)模糊集理论模糊集理论需要预先设定需要预先设定隶属度、隶属度
25、函数隶属度、隶属度函数RS理论理论则无需任何先验知识则无需任何先验知识RS理论的理论的基本思想基本思想是:是:利用定义在数据集合利用定义在数据集合U上的等价关系对上的等价关系对U的划分作为的划分作为知识,而对知识不确定程度的测量,则是对被分析数据整知识,而对知识不确定程度的测量,则是对被分析数据整体的处理之后自然获得,这样,体的处理之后自然获得,这样,RS理论无需对知识或数据理论无需对知识或数据的局部给予主观评价,也就是说,的局部给予主观评价,也就是说,RS理论对不确定性的描理论对不确定性的描述相对客观述相对客观。2.2基本概念基本概念2.2.1不分明关系不分明关系设设U为为论论域域,R是是U
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AI_05_16 粗糙 理论 人工智能 课程 浙江大学 研究生 2453
限制150内