《GIS空间分析原理与方法演示教学.doc》由会员分享,可在线阅读,更多相关《GIS空间分析原理与方法演示教学.doc(251页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第1章地理空间数据分析与GIS地理信息系统技术的日益革新为众多应用领域创造了丰富的地理空间信息财富,使地理空间数据的存储、检索、制图和显示功能越来越完善,但同时越来越多的复杂应用问题也对GIS产生了更多新的要求。各种类型的GIS中存贮了海量的地理空间数据,且数据还在以指数级方式不断增长,迫切需要高效、精确、科学地分析这些数据,以找出数据所蕴涵的寓意,进而了解事物的性质与规律,为科学决策提供必需的信息。所以,开发一些工具来进行一般性地理空间数据分析和复杂的地理空间对象模拟,以将数据“点石成金”是一项艰巨而又紧迫的任务。因此,GIS领域由原来重点关注数据库创建和系统开发建设,逐渐转向重点关注空间
2、分析和空间建模。事实上,GIS本身就是空间数据分析技术的重要组成部分和有效依赖平台。GIS的奠基人之一M.F.Goodchild曾指出:“地理信息系统真正的功能在于它利用空间分析技术,对空间数据的分析”。空间分析使GIS超越一般空间数据库、信息系统和地图制图系统,成为不仅能进行海量空间数据管理、信息查询检索与量测,更可通过图形操作与数学模拟运算分析出地理空间数据中隐藏的模式、关系和趋势,挖掘出对科学决策具有指导意义的信息,从而解决复杂的地学应用问题,进行地学综合研究的技术系统。然而,目前多数地理信息系统的应用还局限于数据库型GIS层面上,没有充分利用和开发GIS的空间分析功能,不能真正满足全球
3、变化和区域可持续发展研究对空间分析、预测预报、决策支持等多方面的应用要求,GIS空间分析功能偏弱已经严重地阻碍了其作为空间数据分析工具和决策支持系统的使用。因此,建立完善的空间数据分析理论和方法体系,集成先进的空间数据分析工具,增强GIS的空间分析能力,使数据库型GIS上升为分析型GIS,是GIS技术与应用的发展目标和趋势。本章首先对20世纪50年代以来地理空间数据处理与建模领域重要的技术方法如数量地理学、地理信息系统和地理计算等进行简要的回顾,然后论述数据分析领域中迅速发展的新技术数据挖掘,在此基础上,讨论GIS环境下空间分析的基本框架。1.1 地理空间数据处理与建模地理空间数据分析是地理学
4、和地理信息科学领域的重要研究内容,它通过研究地理空间数据及其相应分析理论、方法和技术,探索、证明地理要素之间的关系,揭示地理特征和过程的内在规律和机理,实现对地理空间信息的认知、解释、预测和调控。长久以来,人们一直不懈地致力于研究和探索高效的、适合于地理空间数据处理与分析的方法,从对地理现象及其空间关系的文字记载,到利用数学概念和方法进行解释性描述;从传统统计学方法和数学模型对地理现象和过程的模拟,到基于地理信息系统的多维地理空间数据表达、管理、地理过程的动态模拟、可视化分析和决策支持;从空间数据挖掘技术到高性能计算技术支撑下的地理计算方法,随着人们对信息需求水平的不断提高和科学技术的日益进步
5、,地理空间数据分析的技术和方法得到不断完善和丰富。1.1.1 数量地理学 数量化方法在感知、认识和解释现实世界的各种自然、人文、社会现象过程中的相互关系中起着定性方法不能替代的作用。对于决策者而言,数量化方法是获取更为合乎理性、可信、有效决策信息的重要手段。它能够以多种方式,从多重侧面,详尽、准确地解释事物的状态特征和演变过程,合理推测未来发展规律,提供可供选择的多重决策。马克思早就指出:“一种科学只有在成功地运用数学时,才算达到了真正完善的程度”。数量地理学(Quantitative Geography)又称计量地理学或地理数量方法,是应用数学思想方法和计算机技术进行地理学研究的科学。它试图
6、以定量的精确判断来弥补定性文字描述的不足;以抽象的、反映本质的数学模型去刻画具体的、庞杂的各种地理现象;以对过程的模拟和预测来代替对现状的分析和说明;以合理的趋势推导和反馈机制分析来代替简单的因果关系分析。数量地理学提供了理性的复杂方法以传递有关诸如行为、决策的确定性程度、综合研究精度等有用的信息,与定性研究方法结合共同构筑了地理学研究方法的科学体系。数量地理学是对地理学传统研究方法的发展和变革,反映了地理学向定量化、科学化发展的趋势,使地理学由一门对地表事物进行解释性描述的学科,转变为一门进行确定性解释的科学。数量地理学是地理学领域中最先采用数学原理方法来探讨地理数据分析处理与建模的学科。1
7、. 数量地理学的产生与发展地理学是一门研究地球表层自然要素与人文要素相互作用关系及其时空规律的科学。作为一门古老的空间科学,地理学与数学有着不解之缘。在古代,地理学与数学之源泉科学几何学,几乎都是研究地表的科学,如运用几何学原理和方法测算河流长度、山体高度、土地面积等。古希腊学者、西方“地理学之父”艾拉托塞尼(Eratcsthenes)最早运用几何学原理和方法测算了地球的周长。在近代地理学时期,经济学中的区位论被移植到地理学中,开辟了地理学运用分析数学之先河。20世纪20-30年代,地理学研究中统计方法开始萌芽,主要是一般的数理统计,进行地理要素的统计概括和相关关系探讨。前苏联地理学家马尔科夫
8、指出:“更多的地理学家应当使主要的研究方向现代化,应当偏重于以基础科学、首先是精确性科学为基础的道路。” 现代地理学中的数量方法与理论模式的产生与形成,可以追溯到20世纪50年代末期开始的计量运动。计量运动主要由美国地理学家发起,早期集中在衣阿华、威斯康星、普林斯顿和华盛顿等几所大学。不同学者所持观点不同,研究方向各异,由此形成了所谓的经济、统计、社会等学派。从世界范围看,计量运动的兴起首先要归功于加里森(William L.Garrison)及其领导的华盛顿小组。加里森是第一个把地理学的理论和方法建立在定量基础上的倡导者和实践者,也是第一本计量地理学教材的作者。作为地理科学的方法论之一,数量
9、地理学尽管历史不长,但发展速度很快,且时时充满着变革和创新。20世纪50年代末开始,数量地理学先后经历了三个发展时期,各自呈现不同特征(如图1.1)。数量地理学发展初期阶段数量地理学发展中期阶段数量地理学日趋成熟阶段20世纪50年代末-60年代末20世纪60年代末-70年代代末20世纪70年代末至今把统计学方法引入地理学研究在地理学研究中应用多元统计方法和计算机技术 地理学与运筹学、模糊数学、系统科学、GIS技术等结合图1.1 数量地理学的发展阶段2. 传统地理学与数量地理学数学方法是人们进行数字运算和求解的工具,能以严密的逻辑和简洁的形式描述复杂的问题,表达极为丰富的实质性思想。对于现代地理
10、学而言,数学方法不仅是应用地理学研究中进行预测、决策、规划及优化设计的工具,也是理论地理学研究中进行逻辑推理和理论演绎的手段。世界上的任何事物都可以用数值来描述和度量,地理要素如区域范围、城市位置、道路长短、气温高低、雨量多少、山高水深、人口增减、物产丰欠等都可用数量来表示。各种地理要素的分布形态及其相互关系特征,亦可以用数学方法进行定量分析与研究。与地理学传统的思维模式相比,地理数量方法有着明显的优势(如图1.2)。传统地理学分析方法所采用的推理方式以经验归纳型综合为主,以观察材料和事实为基础,由直接的类推得出现实世界的结论,这一方法难以回避特殊情况或解释者的主观好恶问题。而数量地理学以理论
11、演绎为主,把感知到的地理事物通过假设予以条理化,继而经过模式化得出数据进行检验,在成功的情况下建立法则和理论,否则反馈回去重新制定假设。整个研究过程经历了提出假设、建立模式、检验假设和建立理论四个步骤,符合感性理性实践这一认识的过程规律。图1.2 数量地理学与传统地理学研究方法比较传统地理学方法 数量地理学方法实地考察收集资料归纳、概括地理解释建立理论与法则比 较根据已有的概念体系条理化观察实践先期模式资料筛选提出假设建立模型建立理论与法则反复检验成功失败3. 数量地理学中地理数据分析模拟方法数量地理学本质上是一门关于地理数据分析处理与建模的科学,其主要研究内容涉及地理要素的描述统计和数量分析
12、技术,地理系统的分析方法,数学模型的构建和应用,数学模拟(仿真)技术,地理预测和决策的方法、程序、模型以及地理学理论表述的数学形式等。其研究方法归纳如下: (1)地理系统分析 地理系统分析是指扬弃地理事物繁琐的枝节,抽象出地理事物在结构与功能上的主线,揭示地理事物动态演变的方向与强度,预测其状态变化和稳定性程度,将复杂、高级的地理系统简化为次一级简单的系统,进而探讨地理要素之间的数量关系。一般是首先列出所研究等级系统的要素清单,根据地理系统的实际绘出各要素的联系框图,再以定量方法研究系统要素之间的关系。 (2)随机数学方法地理系统输入与输出之间一般具有随机性,数量地理学研究方法中随机数学占很大
13、比重。地理系统是多级、多元系统,在进行系统分析时,分析一组或几组地理要素之间的关系经常应用多元统计分析方法,如多元线性回归、逐步回归、主成分分析、因子分析等;地理系统是具有空间范围和地域界线的系统,确定界线、进行地理区域的划分等经常应用二级判别分析、多级判别、逐步判别等数学分类技术;在探讨地理系统结构、类型组合、空间关系时,常运用系统聚类分析方法;分析地理系统的空间特性时,常用趋势面分析方法;地理系统研究中十分重视系统目标、系统结构的研究,以使地理系统达到符合一定目标的最佳状态。此外,模拟地理系统状态的转移规律时还包括马尔柯夫链、多元线性方程组、微分方程的应用等。 (3)地理系统模拟建立地理系
14、统数学模型的过程称为地理系统的数学模拟(简称地理模型)。地理模型成为表达地理现象的状态,描述地理现象的过程,揭示地理现象的结构,说明地理现象的分级,认识该现象与其他地理现象之间联系的概念性和本质性的表征方式。地理系统数学模拟的一般过程是:从实际的地理系统或其要素出发,对空间状态、空间成分、空间相互作用进行分析,建立地理系统或要素的数学模型;经验检查,若与实际情况不符,则要重新分析,修改模型;若大致相符,则选择计算方法,进行程序设计、程序调试和上机运算,从而输出模型解;分析模型解,若模型解出错,则修改模型;若模型解正确,则对成果进行地理解释,提出切实可行的方案。可见,地理系统数学模拟过程是反复修
15、改数学模型、调试和修改程序的过程。1.1.2 地理信息系统英国著名地理学家R.J. Johnston在1995 年曾指出“计量革命的直接成果是导致了GIS革命的到来”。GIS起源于20世纪60年代,是对地理空间数据进行采集、存储、表达、更新、检索、管理、综合分析与输出的计算机应用技术系统。GIS 是以应用为导向的空间信息技术,强调空间实体及其关系,注重空间分析与模拟,是重要的地理空间数据管理和分析工具。1. GIS是客观现实世界抽象化的数字模型客观现实世界极其复杂,运用各种数据采集手段和量测工具,如野外调查、遥感技术等,获取有关客观世界的数据,把各种来源和类型的地理空间数据数字化,输入计算机,
16、按一定的规则组织管理,构建客观现实世界的抽象化数字模型,即GIS(如图1.3)。GIS空间数据获取空间数据输入空间数据管理基于数学法则客观世界数据库数据图1.3 客观世界的抽象化过程存贮于GIS中的地理空间数据不是客观世界的完全再现,而是在地理认知的基础上对真实世界进行抽象和概括而形成的数字模型,在一定比例尺下表达客观事物的分类、分级、空间过程和空间格局。GIS应用成功与否不仅在于空间信息技术的发达程度,更多地依赖于人类定义客观世界认知模型的恰当程度。在GIS中,对现实世界的理解是从数据、信息、知识到智慧逐渐深入的。2. GIS是地理空间数据管理、显示与制图的集成工具地理信息系统不仅是客观世界
17、抽象化的数字模型,同时还是一种对空间数据进行采集、存储、管理、显示与制图的计算机系统和集成工具,这是地理信息系统最主要的功能之一。GIS处理的数据可以归纳为两大类:一类描述地理实体的空间位置和空间拓扑关系的图形图像信息;另一类描述地理实体的属性文字、数字信息等。通过数据的获取、管理、显示、分析与制图输出,保证了地理信息系统数据库中数据在内容与空间上的完整性、数值逻辑上的一致性与正确性。地理信息系统拥有所有大型数据库管理系统所具有的功能,如地学空间数据的采集、监测、编辑、存储与管理等,能够高效地组织海量数据,为解决空间复杂问题奠定基础。地理信息系统还为用户提供了许多用于显示地理空间数据的工具,其
18、表达形式既可以是计算机屏幕显示,也可以是诸如报告、表格、地图等硬拷贝图件。GIS除了具有计算机辅助设计(CAD)、计算机辅助制图(CAC)等一般显示功能外,还具有多幅图层叠加、阴影透视、网状透视、用户格网、地图动画等高级显示功能。一个完备的地理信息系统应能提供种良好的、交互式的制图环境,使地理信息系统的使用者能设计和印制出具有高品质的地图。3. GIS是地理空间数据分析模拟与可视化的技术平台地理信息系统支持多种数学模型综合运用,可以建立一系列具有分析、模拟、仿真、预测、规划、决策、调控等多功能的模型系统。这种模型系统的运行既需要海量地理数据构成的地理数据库支持,也依赖强有力的计算方法与计算机程
19、序,最终的研究结论则以可视化的地图、统计图或者三维图等形式输出。GIS用户可以完成对空间数据的一系列处理、分析与建模任务,实现空间数据的可视化。 (1)空间数据分析与建模现实世界中,越来越多的地理现象都以数字形式表达,形成地理空间数据库。对数据库中的空间数据进行分析与建模以挖掘出有用的空间信息是GIS最具生命力的核心功能,也是GIS区别于其他计算机系统的主要标志之一。目前常用的GIS空间分析方法有缓冲区分析、叠加分析、网络分析、拓扑结构分析、三维分析等。对于复杂的地理空间问题可以为其建立空间分析模型,如数字地形模型(DTM)、空间统计分析模型、人工神经网络模型、粗集模型等。借助GIS进行地理模
20、型分析是研究地球系统的重要途径,如综合评价模型、预测模型、规划模型、决策分析模型等应用分析模型在分析地理空间信息、探究地学研究对象的本质特征及其动态变化方面具有重要价值。 (2)空间信息可视化科学可视化技术贯穿GIS空间分析的始终,将分析结果以易于理解的方式直观地表达出来,最大限度地利用信息,实现信息共享。从某种角度讲,GIS可以称为“动态的地图”,它提供了比普通地图更为丰富和灵活的空间数据表现方式,如动态信息表达、虚拟现实等。地学专家对可视化在地学中的地位和作用已进行了深入探讨,提出了与可视化密切相关的地图可视化、地理可视化、GIS可视化、探析地图学(Exploratory Cartogra
21、phy)、地学多维图解、虚拟地理环境等概念,但不同的专家有不同的理解,对其相互关系认识仍不明确。1.1.3 地理计算随着计算机技术、数学方法的不断进步,空间数据分析处理方法论也随之革新,20世纪90年代,一门融合了计算机科学、地理学、地球信息科学(Geomatics)、信息科学、数学和统计学理论与方法的地理计算学(GeoComputation)开始形成并逐渐发展起来,数量地理学进入全新的计算地理学(Geocomputational Geography)时代,地理空间数据分析与建模有了一个新的技术平台。1. 地理计算的概念与内涵20世纪90年代中期,英国著名地理学家,里兹大学计算地理研究中心(T
22、he Center of Computational Geography)Stan Openshaw教授认为空间数据挖掘已成为数量地理学中一个重要分支,并以GeoComputation命名这个新的学科,Stan Openshaw因此被称为“地理计算之父”。此后,许多学者纷纷从不同角度对地理计算的定义与内容框架进行设计,并论证其作为一个学科的必要性和合理性。Openshaw(1999)认为地理计算本质上是继地理信息科学之后的革命。他在2000年又进一步深化对于地理计算的理解,认为地理计算是一种高性能计算,用以解决目前不能解决的、甚至未知的空间问题的科学。地理计算具有三方面特点:一是强调地理主题;
23、二是对现存问题承认有新的或更好的解决办法,且可以解决以前不能解决的问题;三是地理计算需要独特的思考方式,由于基于海量计算代替残缺的知识或理论的过程,故能够增强机器的智能。英国里兹大学著名地理学家Rees等提议将地理计算定义为:应用计算技术求解地理问题的理论、方法和过程。从构词来看,GeoComputation 由前缀“Geo”和主词“Computation”组合而成,前者指地理计算要做什么,后者则是如何去做。Gahegan在1999年发表的论文中细致地谈到“地理计算关注利用一系列方法的工具箱丰富地理模拟和分析大量高度复杂的、非确定性的问题这是人类有意识的努力去探索地理学与计算机科学之间的关联。
24、这是一个真正的对于数量地理学家的技术,也是计算机科学家进行计算性应用的丰富源泉。”Conclelis(1998)采用相对简洁的定义:地理计算是应用数学计算方法与技术来描述空间特征、解释地理现象、解决地理问题。Openshaw和Abrahart(2000)认为:地理计算是一门新兴的交叉学科,它是在科学方法的整体范围内利用各种不同类型的地理数据发展相关的地理工具和模型。2003年8月,我国亚运村地理学术沙龙谈到“虚拟地理实验室”建设,认为地理计算既不是数量地理学,也不是GIS,而是智能计算在地理学中的精确应用,是强大的高性能计算,其理论驱动是科学。地理计算能够有效地用于非线性复杂地理问题的模拟、计
25、算与求解。地理计算是利用不同类型的地理与环境数据,在计算科学方法的整个体系中发展相关的计算工具。它依赖于新计算技术、算法和范例,并且利用高性能计算(High-Performance Computing,HPC)和高效率计算机(HTC),包括空间数据分析、自动建模、模拟、时空动力学、可视化和虚拟现实。地理计算试图回归计量革命时代的地理分析和建模,吸收了新的计算机科学成果,如高性能计算,模式识别、分类、预测与模型技术,知识挖掘,可视化等一系列计算方法和工具,建立地理模型并分析复杂的、具有不确定性的地理问题,从而丰富了地理学的研究。GeoComputation不仅仅是计算机在地理信息领域中的应用,关
26、键是可以辅助进行地理研究,从而获得基于数据驱动的地理信息管理和地理信息分析。综上所述,地理计算这一学科的统一视角就是“计算”,它被认为是一系列有效的程序或算法(如神经网络、模糊逻辑、遗传算法等),当应用到地理问题时必然产生结果,不同算法之间由于基本假设的不同而产生结果的差异。地理计算本质上可认为是对地理学时间与空间问题所进行的基于计算机的定量化分析。2. 地理计算模型与方法地理计算的目标是将地理学领域的知识引入计算机工具,设计合适的地理数据挖掘和知识发现操作,研发时空尺度上的集群算法,获得超越目前软件、硬件能力的地理数据分析方法,用可视化和虚拟现实的手段实现地理问题的理解与交流。地理计算学是数
27、量地理学向深层次的拓展,强调数学模型与模拟实验并重的理念,凭借计算机工具对地理学问题进行定量或非定量分析的抽象概括和综合研究,解决海量、复杂数据集或数据库分析的复杂空间问题。GeoComputation 包含丰富的模型和方法体系,不仅采纳了传统的数量地理学理论与模型,还涉及一系列新的理论技术方法:GIS为之创建数据库;人工智能技术(Artificial Intelligence,AI)和智能计算技术(Computational Intelligence,CI)为之提供计算原理和计算工具;高性能计算服务系统为之提供动力。智能计算技术中的神经网络模型(Neural Network,NN)、模糊逻辑
28、模型(Fuzzy Logic)、遗传算法模型(Genetic Algorithm,GA)、元胞自动机模型(Cellular Automata,CA)以及分形分析(Fractal Analysis)等不断被引入并成为地理计算的核心。高性能计算(High-Performance Computing)是利用超级计算机对大容量资料、需要进行实时分析与控制的系统以及那些复杂而又不能用其他手段来处理的现实世界所实施的计算。地理研究的实践,更多的是充分利用GIS技术,结合GPS和RS技术,以向量或并行处理器为基础的超级计算机为工具,对海量数据资料所表征的地理学问题实施高性能计算,探索并构筑新的地理学理论与应
29、用模型。在目前GIS技术下,计算机表达地理空间基本上是静止的。地理计算研究的重要内容之一是如何建立一种模型将空间(地理目标)的结构元素与改变这种空间结构(人类活动及其影响)的过程相结合。这种模型将改变对于空间的静止描述观点,强调作为地理空间基本部分的动态组成,如使用元细胞自动机技术模拟城市和区域增长等。1.2 地理空间数据挖掘人类在空间科学技术、遥感(RS)、地理信息系统(GIS)、全球定位系统(GPS)等领域取得了巨大成就,对地球系统的不同层面、不同现象的综合观测能力达到了空前的水平,获得了大量对地观测数据。同时,随着数据库技术的成熟和信息应用的普及,人类累积的数据量正在呈指数级增长,全世界
30、每天存入数据数量超过万兆字符。未来学家John Naisbitt惊呼:“人类正被数据淹没,却饥渴于信息”。面临浩如烟海的数据,人们呼唤从数据的汪洋大海中去芜存精、去伪存真,因此,“从数据库中发现知识”(KDD)及其核心技术数据挖掘(Data Mining)应运而生。1.2.1 地理空间数据挖掘概述数据挖掘是一个由数据库、人工智能、数理统计和可视化等多学科与技术交叉、渗透、融合形成的交叉学科(邸凯昌,2000)。它试图综合应用上述领域技术,在庞大的数据库中探索事先并不知道,但潜在有用的、新的结构形态或者关系特征,即关于数据的高层次信息结构和知识。地理空间数据挖掘(Geospatial Data
31、Mining)是数据挖掘的一个研究分支,其实质是从地理空间数据库中挖掘时空系统中潜在的、有价值的信息、规律和知识的过程,包括空间模式与特征、空间与非空间数据之间的概要关系等。由于空间数据具有海量、多维和自相关性等特征,使得地理空间数据挖掘更为复杂。地理空间数据挖掘技术可以有效地解决一些地学问题。例如,地球系统的基本驱动力是什么?整个地球系统是如何变化的?如何能更好地预测地球系统未来的变化?某一种流行病的分布模式?流行病发展变化范围、趋势及速率等?其中许多分析都是基于空间位置关系的,因此地理空间数据挖掘技术最根本的是基于事物的空间特性(如拓扑、距离、方位等)。图1.4 GeoMiner系统结构图
32、形用户接口空间数据库服务器和数据立方体空间数据库各种数据挖掘模块空间数据库空间数据库近些年来,国内外开展了许多有关地理空间数据分析与挖掘方面的研究。加拿大Simon Fraser大学计算机科学系Han Jiawei教授领导的小组进行了基于关系数据库挖掘系统的研究,在MapInfo平台上开发了空间数据挖掘原型系统GeoMiner,并设计了专门用于空间数据挖掘的语言GMQL,实现了空间数据特征描述、空间比较、空间关联、空间聚类和空间分类等空间数据分析方法的集成。该系统具有空间数据库模型、空间数据立方体、空间OLAP等模块(如图1.4)。武汉大学李德仁院士等提出从GIS数据库可以挖掘出包括几何信息、
33、空间关系、几何性质与属性关系以及面向对象知识等多种知识,认为空间数据分析与挖掘使GIS的有限数据变成无限的知识。图1.5为数据挖掘与知识发现的进化历程(陈述彭等,1996)。图1.5 数据挖掘与知识发现的进化历程进 化 阶 段技 术 手 段数据搜集(20世纪60年代)数据访问(20世纪80年代)数据仓库(20世纪90年代)数据挖掘(目前) 计算机、磁带和磁盘关系数据库、结构化查询语言、ODBC 联机分析处理、多维数据库、数据仓库 高级算法、多处理器 计算机、海量数据库地理空间数据挖掘包含旨在从地理空间数据库中发现有用却尚未发现的模式的一系列技术。传统观点认为数据挖掘技术植根于计算科学和数学,不
34、需要也不得益于数据立方体。这种观点今天看来并不正确,数据挖掘成功的关键之一就是先通过访问正确、完整和集成的数据库,才能进行深层次的分析,寻求有意义的信息。而这些正是数据立方体所能提供的,数据立方体不仅是集成数据的一种方式,其联机分析功能OLAP还为数据挖掘提供了一个极佳的操作平台。实现空间数据挖掘与数据立方体有效的联结,将给空间数据挖掘带来各种便利操作和新的功能。按照不同的挖掘任务,地理空间数据挖掘可以分为预测模型发现、聚类、关联规则发现、序列模式发现、依赖关系发现、异常值分析和趋势发现等。由于空间数据库包含了大量的拓扑/距离信息,需要按照复杂的多维空间索引结构组织数据。在访问这些数据时,需要
35、采用空间推理、地理计算和空间知识的表示技术。地理空间数据挖掘系统包括三大支柱模块:地理空间数据立方体、联机分析处理(OLAP)模块和空间数据挖掘模块。图形用户界面空间聚类规则发现空间关联规则发现空间序列模式发现空间依赖关系发现空间预测模型发现空间异常值发现空间趋势模型发现未来空间发现模块挖掘模块集合空间数据库服务器空间数据立方体空间数据库非空间数据库相关概念图1.6 地理空间数据挖掘体系结构地理空间数据挖掘的体系结构如图1.6所示,由以下四部分组成: (1)图形用户界面(交互式挖掘); (2)挖掘模块集合; (3)数据库和知识库(空间、非空间数据库和相关概念); (4)空间数据库服务器(如ES
36、RI/Oracle SDE,ArcGIS以及其他空间数据库引擎)。1.2.2 地理空间数据立方体地理空间数据立方体(Geospatial Data Cube)是一个面向对象的、集成的、以时间为变量的、持续采集空间与非空间数据的多维数据集合,组织和汇总成一个由一组维度和度量值定义的多维结构,用以支持地理空间数据挖掘技术和决策支持过程。地理空间数据立方体绝非仅在数据库上加一层空间外衣,而是真正地以空间数据库为基础,进行复杂的空间分析,反映不同时空尺度下的动态变化趋势,为决策者提供及时、准确的信息。地理空间数据立方体中的数据是经过选择、整理、集成等处理的,为空间数据挖掘提供了良好的数据基础,因而在地
37、理空间数据立方体中进行数据挖掘比在原始数据库中更加有效。数据立方体法的基本思想是把那些经常被查询到的求和、求平均值、求最大最小值等成本较高的计算进行具体化,并将这些具体化的视图存储到数据立方体中,便于知识发现。东北地区天气事实数据表地区名称时 间温 度风 力降 雨区域地图地区维度表所属省份区域名称城 市查询位置温度维度表温 度变化范围具体描述时间维度表 时 间日 期月 份季 节图1.7 东北地区天气数据立方体星形构架所谓“立方体”并非指数据包含3个维度,事实上一个数据立方体可以包含128个维度。数据立方体在处理时预先计算好一些汇总数据,称为聚合。聚合提供了一种便于使用、快捷且响应时间一致的数据
38、查询机制。数据立方体在逻辑上一般由一个事实数据表和多个维度表构成一种星形构架(如图1.7),其核心是事实数据表。事实数据表是数据立方体中度量值的源,维度表是数据立方体中维度的源。地理空间数据立方体涉及的概念包括:1. 维度是数据立方体的一种结构特性,是描述事实数据表中数据级别的有组织的层次结构。这些级别通常描述相似成员的集合,用户要根据它们进行分析。例如,某个地理维度可能包括国家、省以及城市等级别。在地理空间数据立方体中有三种维度类型: (1)非空间维度:包含非空间信息,如城市名称、城市人口数、气温、湿度等。 (2)空间非空间维度:该维度的初始数据是空间维度,其解释数据变为非空间维度。例如,作
39、为空间维度的城市分布是中国地图的一部分,假设该城市分布被表达为“长江以北”,尽管“长江以北”是一个空间概念,但它从表达上是一个字符型,属于非空间维度。 (3)空间空间维度:初始数据和解释数据均为空间维度。例如,等温区维度包含空间数据,其解释数据为05、510区域的空间维度数据。2. 度量值是在数据立方体内基于该数据立方体的事实数据表中某列的一组值,它们通常是数字。度量值是进行聚合和分析的主要数值。空间数据立方体的度量值有两种类型: (1)数值度量:仅包含数字数据。例如,已知一个区域的人均月收入,便能计算总体收入(年、国家等)。 (2)空间度量:包含空间目标的指示性聚集信息。例如,相同的温度和风
40、力范围的区域可以被合成为一单元。3. 成员属性是维度表的一个可选特性,为最终用户提供成员的其他信息,仅从属于级别。成员属性在级别中创建,该级别应包含应用该成员属性的那些成员。1.2.3 联机分析处理技术1. OLAP概念联机分析处理(On-Line Analytical Processing,OLAP)的概念最初是由关系数据库之父E.F.Codd于1993年提出的。Codd认为联机事务处理(On-Line Transaction Processing,OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库的简单查询也无法满足用户分析的需求,因此提出了多维数据库和多维分析的概念,
41、即OLAP。OLAP是共享多维信息的、针对特定问题的联机数据访问和分析的软件技术,具有汇总、合并、聚集以及从不同角度观察消息的能力。它可以跨越空间数据库模式的多个版本,处理来自不同组织的信息和由多个数据存储集成的信息。联机分析处理对空间数据立方体进行的多维数据分析主要有切块、切片、旋转、钻取等分析动作,目的是进行跨维、跨层次的计算与建模。在多维空间数据结构中,按二维进行切片,按某一维进行切块,对片、块或整个多维数据库在维数不变的前提下通过改变维的层次或位置,进行数据钻取和旋转。利用OLAP对空间数据立方体进行多维分析的一般过程是:先按某一维切块得到关注的内容,然后钻取空间数据到达适当的综合层次
42、,再通过旋转动作更换空间数据观察角度,选取重要的空间数据进行切片分析。每个环节可能有一定的重复,但是经过如此切片、切块、旋转、钻取可以形成对空间数据新的观察角度和综合层次,可能提取出有价值的空间信息,得到潜在知识。2. OLAP与地理空间数据立方体OLAP和地理空间数据立方体密不可分,但两者概念内涵不同。如前所述,地理空间数据立方体中的数据不能用于联机事物处理系统(OLTP),而OLAP技术则可利用数据立方体中的数据进行联机分析,将复杂的分析查询结果快速地返回用户。OLAP利用多维数据集和数据聚集技术对数据仓库中的数据进行组织和汇总,用联机分析和可视化工具对这些数据迅速进行评价。从图1.8中可
43、以发现,OLAP用多维结构表示空间数据立方体中的数据,有效地满足用户复杂查询的要求。因此,空间数据立方体的结构将直接影响立方体的设计和构造,进而影响OLAP的工作效率。 业 务处理系统数据提取数据准备区OLAP服务器多维化处 理客 户 端可视化处理图1.8 地理空间数据立方体与OLAP的关系地理空间数据立方体数据加载1.2.4 地理空间数据挖掘典型方法1. 地理空间统计方法地理空间统计是指分析地理空间数据的统计方法,主要是基于空间中邻近的要素通常比相离较远的要素具有较高的相似性这一原理。它是通过空间位置建立数据间的统计关系,其应用范围极广,包括地质、大气、水文、生态、天文、遥测、地震、环境监测
44、、流行病及影像处理等。事实上,除极少数情况外,真实世界的空间数据大多无法仅基于物理化学机制用简单的公式来描述。为解决数据中所隐含的空间不确定因素,地理空间统计模型尝试从凌乱的地理空间数据中,用统计方法发掘地理空间变化规律。地理空间统计分析与传统分析主要有两大差异:(1)空间数据间并非独立,而是在D维空间中具有某种空间相关性,且在不同的空间分辨率下呈现不同的相关程度;(2)大多数空间问题仅有一组(不规则分布空间中)观测值,而无重复观测的资料。因此,真正地了解与描述空间现象是极为复杂的任务。传统的统计分析技术,特别是基于独立样本的统计方法,并不适于分析处理空间数据。而地理空间统计分析与时间序列分析
45、最大的差异在于空间中并无过去、未来的次序,因而不易透过某种因果关系的描述来建构空间模型。目前地理空间统计模型大致可分为三类:地统计(Geostatistics)、格网空间模型(Spatial Lattice Model)和空间点分布形态(Spatial Point Pattern)(如表1.1)。地统计是以区域化变量理论为基础,以变差函数为主要工具,研究空间分布上既具有随机性又具有结构性的自然现象的科学。它可以根据离散数据生成连续表面,通过空间自相关进行空间预测。格网空间模型用以描述分布于有限(或无穷离散)空间点(或区域)上数据的空间关系。例如,在流行病学中通过地理区域(如县市、乡镇)的发病人
46、数数据研究疾病发生率与地理位置的关系,在影像处理中利用扭曲或带有噪声的数字影像(如医学或卫星影像)数据,重建背后的真实影像等。在自然科学研究中,许多资料是由点(或小区域)所构成的集合,比如,地震发生地点分布、树木在森林中的分布、某种鸟类鸟巢的分布、生物组织中细胞核的分布,太空中星球的分布等,称之为空间点分布形态,其中点的位置为事件。由于形成机制不同,空间点分布形态具有随机、丛聚或规则等不同类型。基于空间点分布形态的研究,可以找寻丛聚所在,并了解其形成的原因及其可能的影响。空间点分布形态通常由一个D维的空间点过程描述。此类模型的随机机制在于位置本身,其中最基本的空间点过程为均匀泊松点过程,通常用
47、于定义所谓完全空间随机的点分布形态,并与丛聚或规则的分布区别开来。表1.1 数据类型与统计模型点线栅格矢量面图表点处理基于格网的统计地统计空间数据统计分析是分析空间数据广泛使用的一种方法,能够很好地处理数字数据,提出空间现象的现实模型。然而,需要指出的是统计分析方法往往假设在空间中分布的数据具有统计独立性,而在现实中,空间物体相关性很大。此外,绝大多数统计模型需要在有丰富领域知识和统计专门技术的专家的协助下才能实现。而且,统计模型不能很好地处理字符值、不完整或非确定性数据。2. 地理空间聚类方法地理空间数据聚类是按照某种距离度量准则,在大型、多维数据集中标识出聚类或稠密分布的区域(如图1.9),从而发现数据集的整体空间分布模式。该方法把空间数据库中的对象分为有意义的子类,使同一子类内部的成员有尽可能多的相同属性,而不同的子类之间差异较大。比如,空间聚类方法可以将距离很近的、散布的居民点聚类成居民区,也可将精准农业中的作物产量图聚类成高、中、低产区。事实上,聚类分析技术把大型数据库分为多个较小的部分,采用“分而治之”的策略使用户可以更好地分析空间数据
限制150内