《空间数据挖掘与GIS的集成课件.pptx》由会员分享,可在线阅读,更多相关《空间数据挖掘与GIS的集成课件.pptx(32页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2022年4月18日星期一1第六章第六章 空间知识与空间知识与GISGIS的集成的集成 nSK与GIS集成的意义 n空间数据挖掘基础n空间数据泛化在GIS中的应用n空间规则与GIS的集成n空间分类、聚类方法n空间挖掘的其他问题n空间数据挖掘原型系统介绍n其他日益发展的空间数据基础设施为空间数据的自动化处理提出了新的课题。空间数据库,不同于关系数据库,它一般具有空间拓扑或距离信息,通常需要以复杂的多维空间索引结构组织。空间挖掘(Spatial Mining)或被称作空间数据挖掘/空间数据库的知识发现,是数据挖掘技术在空间数据方面的应用。简言之,空间数据挖掘,就是从空间数据库中抽取隐含的知识、空间
2、关系或非显式地存储在空间数据库中的其他模式,用于理解空间数据、发现数据间(空间或非空间)的关系。由于空间数据的复杂性及其应用的专业性,在一般的数据挖掘的基本概念的基础上,需要研究空间数据挖掘特有的理论、方法和应用。2022年4月18日星期一22022年4月18日星期一3第八章第八章 空间知识与空间知识与GISGIS的集成的集成 内容提要内容提要nSK与GIS集成的意义 n空间数据挖掘基础n空间数据泛化在GIS中的应用n空间规则与GIS的集成n空间分类、聚类方法n空间挖掘的其他问题n空间数据挖掘原型系统介绍n其他两个空间实体之间存在若干拓扑关系。这些关系基于两个实体的位置:分离(Disjoint
3、) :A与B分离,表示B中任何点都不在A中,反之亦然。重叠/相交: A与B重叠或相交表示至少有一个点既在A里也在B里。等价: A与B这两个实体的所有点都是共有的。包含于: A包含于B,表示A的所有点都在B里。反之不一定。覆盖/包含: A覆盖或包含B,当且仅当B包含于A。根据实体在空间中的位置,可以定义方向,通常采用的是传统的地图方向:像东、南、西、北等等。空间谓词有三种形式:表示拓扑关系的谓词,如相交、覆盖等;表示空间方向的谓词,如东、西、左、右等;表示距离的谓词,如接近、远离等。2022年4月18日星期一4常用的两个空间实体之间的距离有:最小值方法:最小值方法:定义实体A和B的距离为A中的所
4、有点与和B中的所有点之间的欧氏或曼哈顿距离中最小的,即最大值方法:最大值方法:定义实体A和B的距离为A中的所有点与和B中的所有点之间的欧氏或曼哈顿距离中最大的,即平均值方法:平均值方法:定义实体A和B的距离为A中的所有点与和B中的所有点之间的欧氏或曼哈顿距离的平均值,即中心方法:中心方法:定义实体A和B的距离为A中的中心点与和B中的中心点之间的欧氏或曼哈顿距离的平均值,即),(),(min),(),( ,),(bbaaByxAyxyxyxdisBAdisbbaa),(),(max),(),( ,),(bbaaByxAyxyxyxdisBAdisbbaa2022年4月18日星期一5),(),()
5、,(),( ,),(bbaaByxAyxyxyxdisaverageBAdisbbaa),(),(),(cbcbcacayxyxdisBAdis空间统计学(Spatial Statistics)是依靠有序的模型来描述无序事件,根据不确定性和有限的信息来分析、评价和预测空间数据。空间统计学是基本的数据挖掘技术,特别是多元统计分析(如判别分析、主成分分析、因子分析、相关分析、多元回归分析等)。在空间数据库中许多空间数据通常是相关的,即空间对象受其邻近对象的影响,它是空间统计学向着实用的挖掘技术发展的一个重要研究课题。数理统计方法对非线性规划不能很好建模,难以处理不完全或不确定性数据,而且运算的代价
6、较高。它是空间统计学向着实用的挖掘技术发展的另一个研究课题。2022年4月18日星期一62022年4月18日星期一7第八章第八章 空间知识与空间知识与GISGIS的集成的集成 内容提要内容提要nSK与GIS集成的意义 n空间数据挖掘基础n空间数据泛化在GIS中的应用n空间规则与GIS的集成n空间分类、聚类方法n空间挖掘的其他问题n空间数据挖掘原型系统介绍n其他概念层次的使用显示了数据间关系的层次。应用空间数据特性,概念层次承认了层级中不同层次规则和关系的发展。从空间数据中挖掘所蕴含的概念是空间挖掘的重要任务之一。泛化与特化是概念归纳的主要手段,它对空间数据挖掘也是如此。2022年4月18日星期
7、一8逐步求精(Progressive Refinement)的分层是基于空间关系的,因此空间关系可以应用在一个更粗糙或者更精细的层次上。由于空间应用的数据量十分庞大,在寻求更多精确响应之前要先做出一些近似响应。MBR就是一个近似物体形状的办法。四叉树、R-树和其他大多数空间索引技术都采用了一种逐步求精的方式。逐步求精可以看作是对处理问题无用的数据所做的过滤。2022年4月18日星期一9数据库中的数据和对象在原始的概念层次包含有详细的信息,经常需要将大量数据的集合进行概括并以较高的概念层次展示,即对数据进行泛化。基于泛化的数据挖掘方法假定背景知识以概念层次的形式存在。概念层次可由专家提供,或借助
8、数据分析自动生成。空间数据库中可以定义两种类型的概念层次:空间概念层:地理区域之间空间关系的概念层次。非空间概念层:非空间属性所联系的非空间数据对应的概念层次。2022年4月18日星期一10首先对非空间属性作面向属性的归纳,将其泛化至更高的概念层次。对空间数据进行归纳:归纳进行至区域的数量达到阈值为止。然后对相关的非空间属性做相应地更改。将具有相同的泛化属性值的相邻区域合并在一起,可用邻近方法忽略具有不同非空间描述的小区域。例如,要知道我国西北部地区的平均降雨量,可以在空间层次中寻找西北部所有省,再对非空间属性(降雨量)进行比较,或者归纳(平均降雨量多、中等、少量等)。2022年4月18日星期
9、一11统计学信息网格方法(STatistical INformation Grid-based methodSTING),使用了一种类似四叉树的分层技术,把空间区域分成矩形单元。对空间数据库扫描一次,可以找到每个单元的统计参数(平均数,变化性,分布类型)。网格结构中的每个结点概括了该网格中所含内部属性的信息。STING方法可以看作是一种层次聚类技术。层级的顶层的组成就是整体空间。最低层是代表每个最小单元的叶子结点。如果使用一个单元在下一层中拥有四个子单元(网格)的话,单元的分割与四叉树中是一样的。2022年4月18日星期一122022年4月18日星期一13第八章第八章 空间知识与空间知识与GI
10、SGIS的集成的集成 内容提要内容提要nSK与GIS集成的意义 n空间数据挖掘基础n空间数据泛化在GIS中的应用n空间规则与GIS的集成n空间分类、聚类方法n空间挖掘的其他问题n空间数据挖掘原型系统介绍n其他空间规则可以概括对空间实体的结构及其之间关系的描述。在空间数据挖掘中有三种类型的规则:空间特性规则:描述数据,如:中国东部人均年收入约5万元。空间判别规则:描述不同种类数据间的差异,依靠它们能够区分不同种类的特点。如:中国东部人均收入高于中国西部。空间关联规则:是两个数据集合之间的关联。如越靠近市中心区的房价越高。所有这些规则都可以被看作是对空间类型的描述,而描述是一种为数据库或者其中一些
11、子集找到一个表示的方法。特性规则是一种最简化的形式。2022年4月18日星期一14空间关联规则挖掘是传统关联规则挖掘的延伸,常用最小支持度和最小可信度来作为基本的统计参数,由于空间数据的特点,往往是在多层概念上进行归纳。空间关联规则是空间数据实体之间的关联,有:非空间的先决条件和空间性的结果:如所有的重点学校都是位于老住宅区附近。空间性先决条件和非空间的结果:如在市中心的房价就比较贵。空间性先决条件和空间性结果:如在化工厂都分布市郊。挖掘空间关联规则的有效方法是自上而下、逐步加深的搜索技术,在空间数据库的概念中搜索频繁模式。2022年4月18日星期一152022年4月18日星期一16第八章第八
12、章 空间知识与空间知识与GISGIS的集成的集成 内容提要内容提要nSK与GIS集成的意义 n空间数据挖掘基础n空间数据泛化在GIS中的应用n空间规则与GIS的集成n空间分类、聚类方法n空间挖掘的其他问题n空间数据挖掘原型系统介绍n其他空间分类方法用来对空间实体的集合进行分类。给空间实体分类,可以通过非空间属性或空间属性或二者结合,并可利用概念层次来进行取样。对于样本数据的训练可以通过改造传统的分类算法来完成,例如,对ID3算法扩展。2022年4月18日星期一17空间聚类算法必须在大型多维数据库上有效工作,而且应该能够探测到不同形状的聚类。空间聚类找到的聚类不应该依赖于检验空间中的点的顺序,而
13、且聚类也不应该受不相干的点影响。传统的聚类算法可以通过改造来实现空间数据聚类。DBSCANK-MeansSTINGWaveCluster2022年4月18日星期一18一旦找到了空间聚类,可以使用近似值来确定这些聚类的特性:通过确定聚类附近的特征实现的。例如,一个聚类“靠近学校”。通常更多地用复杂的近似多边形表示,而非指用简单的MBR。聚合邻近定义为衡量一个聚类(或者元素群)与一个特征(或者空间中某个实体)接近的程度。聚合邻近距离可以由聚类中所有点的距离总和来度量。2022年4月18日星期一19CRH算法是典型的确定聚合邻近关系方法。它使用三种几何形状来界定一个聚类: 内接矩形R:包含了一系列点
14、的MBR。矩形边缘与坐标轴平行。 外接圆C:包围一系列点的圆周;以内接矩形的对角线为直径。 凸多边形H:包含点的集合的最小边界。CRH首先使用一个外接圆来接近给定的类;其次使用内接矩形来表示特征,并根据特征与聚类的接近程度来进行排序;最后使用凸多边形来评估前面所有最接近的特征。2022年4月18日星期一20第八章第八章 空间知识与空间知识与GISGIS的集成的集成 内容提要内容提要nSK与GIS集成的意义 n空间数据挖掘基础n空间数据泛化在GIS中的应用n空间规则与GIS的集成n空间分类、聚类方法n空间挖掘的其他问题n空间数据挖掘原型系统介绍n其他1 1空间在线分析挖掘空间在线分析挖掘空间在线
15、分析挖掘(SOLAM:Spatial Online Analytical Mining)建立在多维视图基础之上,是基于网络的验证型空间数据挖掘和分析工具。 空间在线分析挖掘通过数据分析与报表模块的查询和分析工具(OLAP、决策分析、数据挖掘)完成对信息和知识的提取,以满足决策的需要。美国BusinessObjects公司的BusinessObjects(BO)就是采用Dataarehouse+OLAP+DataMining方案推出的第一个集多数据源查询、任意报表生成和OLAP及数据挖掘技术为一体的决策支持工具软件包。2022年4月18日星期一212 2挖掘图像数据库的方法挖掘图像数据库的方法图
16、像数据库是一类特殊的空间数据库,其数据几乎全部是图像或图片。图像数据库用于遥感、医学图像等应用,通常以栅格形式表示,栅格代表一个或多个光谱范围的图像密度。图像数据库的挖掘可以看成是空间数据挖掘的一部分,其主要问题在于如何区分图像。2022年4月18日星期一223 3基于基于RoughRough集方法集方法Rough集理论被广泛研究并应用于不精确、不确定、不完全的信息的分类分析和知识获取中。Rough集理论为空间数据的属性分析和知识发现开辟了一条新途径,可用于空间数据库属性表的一致性分析、属性的重要性、属性依赖、属性表简化、最小决策和分类算法生成等。Rough集方法与其他知识发现方法相结合,可以
17、在数据库中数据不确定情况下获取多种知识。4 4基于云理论挖掘方法基于云理论挖掘方法云理论是由李德毅等提出的一种用于处理不确定性的新理论,由云模型、不确定性推理和云变换三大支柱构成。云理论将模糊性和随机性结合起来,解决了作为模糊集理论基石的隶属函数概念的固有缺陷,为KDD中定量与定性相结合的处理方法奠定了基础,可以用于处理GIS中融随机性和模糊性为一体的属性不确定性。 2022年4月18日星期一235 5探测性的数据分析(探测性的数据分析(EDAEDA)探测性的数据分析,简称EDA,采用动态统计图形和动态链接窗口技术将数据及其统计特征显示出来,可发现数据中非直观的数据特征及异常数据。EDA技术在
18、知识发现中用于选取感兴趣的数据子集,即数据聚焦,并可初步发现隐含在数据中的某些特征和规律。6 6可视化可视化现代的数据可视化(Data Visualization)技术是指运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。数据可视化概念首先来自科学计算可视化。2022年4月18日星期一242022年4月18日星期一25第八章第八章 空间知识与空间知识与GISGIS的集成的集成 内容提要内容提要nSK与GIS集成的意义 n空间数据挖掘基础n空间数据泛化在GIS
19、中的应用n空间规则与GIS的集成n空间分类、聚类方法n空间挖掘的其他问题n空间数据挖掘原型系统介绍n其他加拿大Simon Fraser大学开发的GeoMiner很有代表性,包含有三大模块:空间数据立方体构建模块空间联机分析处理(OLAP)模块和空间数据挖掘模块-空间数据挖掘语言是GMQL目前已能挖掘三种类型的规则:特征规则、判别规则关联规则2022年4月18日星期一26Han等人为了挖掘地理空间数据库设计了一种地理数据挖掘查询语言GMQL(Geo-Mining Query Language),它是对空间SQL的扩展,并成功地应用于空间数据挖掘系统原型GeoMiner中。GMQL为SDM与GIS
20、的集成提供了重要途径。SDMQL的设计指导原则主要有:在空间数据挖掘请求中应说明用于挖掘的相关数据集。在空间数据挖掘请求中应说明想要挖掘的知识的种类。挖掘过程中应尽可能运用相关的背景知识。挖掘结果应该能用较概括的或多层次概念的术语来表述。应能够说明各种各样的阈值,使得可以灵活地过滤掉那些不是很令人感兴趣的知识。应采用类似SQL的语法以适应在高级语言的水平上进行数据挖掘并与关系查询语言SQL保持自然的融合。挖掘结果能直接显示在GIS系统中。2022年4月18日星期一27空间数据挖掘的研究比一般的关系型数据库和事务数据库的研究要晚加拿大西蒙弗雷泽大学、德国慕尼黑大学、芬兰赫尔辛基大学以及美国、澳大
21、利亚等国家的许多大学和研究所,都有空间数据挖掘的成果报道。 目前,在空间数据挖掘系统的开发方面,国际上有代表性的通用SDM系统有:GeoMiner,Descartes和ArcView GIS的S-PLUS接口。 在国内,目前已经开展空间数据挖掘的单位主要有:北京大学、武汉大学、中科院软件所、中科院地理所资源与环境信息系统国家重点实验室、中科院遥感所、中国测绘科学研究院等。 2022年4月18日星期一281 1在面向对象的空间数据库中进行数据挖掘在面向对象的空间数据库中进行数据挖掘2 2进行不确定性挖掘进行不确定性挖掘3 3多边形聚类技术多边形聚类技术4 4模糊空间关联规则的挖掘模糊空间关联规则
22、的挖掘5 5挖掘空间数据的偏离和演变规则挖掘空间数据的偏离和演变规则6 6多维规则可视化多维规则可视化7 7多多技术集成技术集成8 8高效的分类算法高效的分类算法9 9空间数据挖掘查询语言空间数据挖掘查询语言1010遥感遥感影像的挖掘影像的挖掘1313智能智能GISGIS方法方法1414并行数据并行数据挖掘挖掘2022年4月18日星期一292022年4月18日星期一30第八章第八章 空间知识与空间知识与GISGIS的集成的集成 内容提要内容提要nSK与GIS集成的意义 n空间数据挖掘基础n空间数据泛化在GIS中的应用n空间规则与GIS的集成n空间分类、聚类方法n空间挖掘的其他问题n空间数据挖掘
23、原型系统介绍n其他空间数据挖掘与空间数据库 空间数据库存储了大量与空间有关的数据,例如数字地图、预处理后的遥感或医学图像数据等等,空间数据库有许多与关系型数据库所不同的显著特征。 空间数据挖掘与空间数据仓库 空间数据仓库(Spatial Data Warehouse,SDW)是近几年在数据仓库基础上提出的一个新的概念和新的技术,空间数据仓库是一个面向主题的、集成的、随时间变化的并且非易失性的空间和非空间数据的集合,用于支持空间数据挖掘和与空间数据有关的决策过程。 空间数据挖掘与空间联机分析处理 空间联机分析处理(Spatial Online Analytical Processing,SOLAP)是针对特定问题的联机空间数据访问和分析,适合以空间数据仓库为基础的数据分析处理。 空间数据挖掘与地理信息系统空间数据挖掘与地理信息系统数字地球 2022年4月18日星期一312022年4月18日星期一32小小 结结nSK与GIS集成的意义 n空间数据挖掘基础n空间数据泛化在GIS中的应用n空间规则与GIS的集成n空间分类、聚类方法n空间挖掘的其他问题n空间数据挖掘原型系统介绍n其他
限制150内