2022年2022年空间数据挖掘 .pdf
《2022年2022年空间数据挖掘 .pdf》由会员分享,可在线阅读,更多相关《2022年2022年空间数据挖掘 .pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、空间数据挖掘:变数据为知识 中国科学院计算技术研究所刘毅勇何雄 李金山廖浩均孟亮邓柱中空间数据挖掘( spatial data mining )是在数据挖掘的基础之上,结合地理信息系统(GIS)、遥感图像处理、全球定位系统( GPS)、模式识别、可视化等相关的研究领域而形成的一个分支学科,也称为空间数据挖掘和知识发现(spatial data mining and knowledge discovery 简称为 SDMKD )。自 20世纪 60 年代数据库系统诞生以来, 数据库技术已经得到了飞速的发展,并且己经深入到社会生活的各个方面。现在,数据无处不在,可以存放在不同类型的数据库中,数据仓
2、库技术可以将异构的数据库集成起来进行综合管理,从而提供更好的服务。但是,随着科学技术的进步,新的数据采集和获取技术不断发展,使得数据库中所存储的数据量也随之急剧增长。另一方面,数据处理技术的发展却相对落后,数据库技术仍然停留在相对简单的录入、查询、统计、检索阶段,对数据库中的数据之间存在的关系和规则、数据的群体特征、数据集内部蕴涵的规律和趋势等,却缺少有效的技术手段将其提取出来,从而出现所谓的 “ 被数据淹没,却饥渴于知识” (John Naisbett,1997)的现象。在空间信息方面我们的处境甚至更加严峻。随着人类科学技术的飞速发展,雷达、红外、光电、卫星、电视摄像、电子显微成像等各种技术
3、和手段被广泛应用于空间信息的生成和采集,加上先进的空间信息制作技术和发布技术的应用,导致了空间信息数据的爆炸性增长。而另一方面,人类处理这些海量信息并从中挖掘有用的知识的技术和手段相对而言却非常贫乏和软弱,使我们迷失在空间信息和数据的汪洋大海之中饱受空间知识匮乏之苦。为了解决这种 “ 被数据淹没,却饥渴于知识” 的现象,科学家们于20 世纪 80 年代末期创立了一个新的研究领域,即数据挖掘( Data Mining),或称数据挖掘和知识发现(Data Mining and Knowledge Discovery, 简称为 DMKD) 。这是在数据库技术、机器学习、人工智能、统计分析等基础上发展
4、起来的一个交叉性的学科。区别于简单地从数据库管理系统检索和查询信息, 数据挖掘是指 “ 从数据中发现隐含的、 先前不知道的、 潜在有用的信息的非平凡过程” (Frawley, 1991) ,其目的是把大量的原始数据转换成有价值的、便于利用的知识。自从数据挖掘和知识发现的概念于1989年 8 月首次出现在第 11 届国际联合人工智能学术会议以来,数据挖掘和知识发现领域的研究和应用均得到了长足的发展,形成了一些行之有效的理论和方法,并逐渐成为计算机信息处理领域的研究热点。随着空间信息的爆炸性增长与空间知识贫乏的矛盾日益突出,以及数据挖掘研究领域如火如荼的发展,使得空间数据挖掘这一门新兴学科应运而生
5、。空间数据挖掘和知识发现这一学科起源于国际GIS会议。 1994年,我国学者李德仁院士在加拿大渥太华举行的GIS国际学术会议上提出了从GIS数据库中发现知识的概念,并系统分析了空间知识发现的特点和方法。目前空间数据挖掘己成为国际研究的一个热点,渗透到数据挖掘和知识发现、地球空间信息学和一些综合性的学术活动中,成为众多著名国际学术会议的重要研究专题。由于有了数据挖掘的研究成果作为其坚实的基础,空间数据挖掘这一学科的发展更加迅猛,同样由于空间信息独特的复杂性,也使得空间数据挖掘的研究更加艰难,因而更加富有挑战性。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - -
6、- - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 5 页 - - - - - - - - - 空间数据挖掘是指从空间数据库中抽取没有清楚表现出来的隐含的知识和空间关系,并发现其中有用的特征和模式的理论、方法和技术。严格地说,这一学科采用空间数据挖掘和知识发现(SDMKD )这一名称更为确切。事实上,空间数据挖掘和知识发现的过程大致可分为以下多个步骤:数据准备、 数据选择、数据预处理、数据缩减或者数据变换、确定数据挖掘目标、确定知识发现算法、数据挖掘、模式解释、知识评价等,而数据挖掘只是其中的一个关键步骤。但是为了简便,人们常常用空间数据挖掘来代替空间数据挖掘
7、和知识发现。空间数据的特点空间数据挖掘是数据挖掘学科的一个重要分支,但它与普遍意义上的数据挖掘又有很大的差别,这是由空间数据固有的特点及其复杂性所决定的。空间数据与其他类型数据的本质区别是其空间属性。空间属性包括空间位置、距离、几何形状、大小等内容,并且可引伸为空间个体之间的相互关系,如拓扑关系、方位关系、度量关系等,从而使得空间数据比其他类型的数据要更为复杂,主要表现在:空间属性之间的非线性关系;空间数据的多尺度特征,即空间数据在不同观察层次上所遵循的规律以及所体现出的特征不尽相同;空间信息的不确定性,空间位置、空间相关性及其他属性均可能存在不确定性;空间数据属性空间的高维数,与空间数据相关
8、联的可能很多(如遥感传感器波段的数目可能多达上百个),从而使属性空间的维数非常之高;空间数据的不完备性,在数据获取和加工过程中,都有可能发生数据丢失或者无法获取的现象,导致空间数据缺失的现象非常严重;海量数据,空间数据库或数据仓库中存储着各种类型的栅格数据、矢量数据、空间个体的属性数据等,其数据量异常巨大。空间数据的这些特点使其中隐含着更多、更为复杂的知识,因而也使空间数据挖掘的研究更加困难和更具挑战性。空间数据挖掘的任务空间数据挖掘的任务可以概括如下:在空间数据库和数据仓库的基础上,综合利用统计学、模式识别、人工智能、粗集、模糊数学、机器学习、专家系统、可视化等领域的相关技术和方法,以及其他
9、相关的信息技术手段,从大量的空间数据、管理数据、经营数据或遥感数据中析取出可信的、新颖的、感兴趣的、隐藏的、事先未知的、潜在有用的和最终可理解的知识,从而揭示出蕴含在空间数据背后客观世界的本质规律、内在联系和发展趋势,实现知识的自动或半自动获取,为管理和经营决策提供依据(李德仁,2001 年)。简言之,空间数据挖掘的任务就是要从空间数据库和数据仓库发现知识,并提供相关的决策支持。那么,我们究竟希望从中发现哪些类型的知识呢?一般而言,从空间数据库和数据仓库中可能发现的知识类型包括以下几种类型:普遍的几何知识,即某类目标的数量、大小、形态特征等普遍的几何特征;规则型知识,即包括空间关联规则、空间特
10、征规则、空间区分规则和演变规则等在内的知识,可用产生式规则、语义网络、模拟表示及其他可能的方法来加以表示;空间聚类与分类知识, 是指将特征相近的空间对象进行聚类或者分类处理,进而对空间对象进行概括和综合的知识,例如,将具有嵌套关系的一组等高线聚合成一座山或者一个山脉等;空间分布规律,即关于空间对象在地理空间的分布规律方面的知识,包括各种维度的分布规律:如垂直方向、水平方向、以及整个空间的联合分布规律等,甚至还可包括属性空间的任何一个维度上的分布规律,如军事基地、防御工事的分布规律、电子战中电磁频谱的分布规律等;名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - -
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年2022年空间数据挖掘 2022 空间 数据 挖掘
限制150内