空间数据分析(共6页).docx
精选优质文档-倾情为你奉上间数据分析 1. 空间分析:(spatial analysis,SA)是基于地理对性的位置和形态特征的空间数据分析技术,其目的在于提取和传输空间信息,是地理信息系统的主要特征,同时也是评价一个地理信息系统功能的主要指标之一,是各类综合性地学分析模型的基础,为人们建立复杂的空间应用模型提供了基本方法.2. 空间分析研究对象:空间目标。空间目标基本特征:空间位置、分布、形态、空间关系(度量、方位、拓扑)等。3. 空间分析根本目标:建立有效地空间数据模型来表达地理实体的时空特性,发展面向应用的时空分析模拟方法,以数字化方式动态的、全局的描述的地理实体和地理现象的空间分布关系,从而反映地理实体的内在规律和变化趋势。GIS空间分析实际是一种对GIS海量地球空间数据的增值操作。4. ArcGIS9中主要的三种数据组织方式:shapefile,coverage和geodatabase。Shapefile由存储空间数据的dBase表和存储属性数据和存储空间数据与属性数据关系的.shx文件组成。Coverage的空间数据存储在INFO表中,目标合并了二进制文件和INFO表,成为Coverage要素类。5. Geodatabase是面向对象的数据模型,能够表示要素的自然行为和要素之间的关系。6. GIS空间分析的基本原理与方法:根据空间对象的不同特征可以运用不同的空间分析方法,其核心是根据描述空间对象的空间数据分析其位置、属性、运动变化规律以及周围其他对象的相关制约,相互影响关系。方法主要有矢量数据的空间分析,栅格数据的空间分析,空间数据的量算与空间内插,三维空间分析,空间统计分析。7. 栅格数据在数据处理与分析中通常使用线性代数的二维数字矩阵分析法作为数据分析的数学基础。栅格数据的处理方法有:栅格数据的聚类、聚合分析,复合分析,追踪分析,窗口分析。8. 栅格数据的聚类与聚合分析区别:聚类是根据设定的聚类条件对原有的数据系统进行有选择的信息提取儿建立的新的栅格数据系统的方法;聚合分析是根据空间分辨率和分类表进行数据类型的合并或转换以实现空间地域的兼并。e.g.:从遥感图像信息中提取某一地物的方法是栅格数据的聚类,而由数字高程模型转换为数字高程分级模型便是空间数据的聚合。9. ArcGIS9的空间分析功能主要包括:空间分析模块、3D分析模块、地统计分析模块、网络分析模块、跟踪分析模块等。10.GIS的四种模型:要素模型(矢量类型),场模型(栅格类型),时态模型,网络模型。11.矢量数据的空间分析方法:空间关系查询;叠置分析;缓冲区分析;泰森多边形分析;网络分析。12.空间关系查询中要素间的关系有:相邻关系(proximity);包容关系(containment);叠加关系(overlap)。空间关系查询涉及到的:目标层从其中查询满足条件的要素。选择层比较此图层中要素与目标层中的关系。选择层是从目标层中得来的。13.空间关系连接(spatial join)有:根据图层间的关系连接属性表;根据空间位置连接图层属性表。14.叠置分析:是将代表不同主题的各个数据层面进行叠置产生一个新的数据层面,叠置的结果综合了原来来年各个或多个层面要素所具有的属性,不仅生成了新的空间关系,还将输入的多个数据层的属性联系起来产生了新的属性关系。叠置分析前提条件:要素层面必须基于相同坐标系统、同一地带,还必须查验叠加层面之间的基准面是否相同。15.根据操作要素的不同,叠置分析可以分为:点与多边形叠加;线与多边形叠加;多边形与多边形叠加。16.根据操作形式的不同,叠置分析可以分为:图层擦除(erase);识别叠加(identity);交集操作(intersect);均匀差值(symmetrical difference);图层合并(union);修正更新(update)。17.从数学的空间运算角度来说,图层擦除:A-AB(即XA且X ?B,A为输入图层,B为擦除层)。识别叠加:A or(AB)。交集操作:XAB(A、B分别是进行交集的图层)。均匀差值:X(ABAB)。图层合并:XAB。修正更新:B or(AB)。18.缓冲区分析基本思想:给定一个空间对象或几何,确定它们的邻域,邻域的大小由邻域半径R决定。19.缓冲区的建立方法:角平分线法,凸角圆弧法。缓冲区的建立包括:点状要素的缓冲区,线状要素的缓冲区,面状要素的缓冲区(面状要素缓冲区建立的四种方式:1. inside and outside内外缓冲区之和 2.only outside 只有外缓冲区 3.only inside 只有内缓冲区 4.inside and include outside 外缓冲区和原有图形之和)。20.泰森多边形:也称为Voronoi图或者Dirichlet图。泰森多边形可用于定性分析、统计分析、临近分析等,是某些空间分析一个有用的工具。泰森多边形的特性:每个泰森多边形内仅含有一个离散点数据;泰森多边形内的点到相应离散点的距离最近;位于泰森多边形边上的点到其两边的离散点的距离相等。可用于现有设施的负荷状况分析、设施选址等问题的分析。21.狄洛尼三角网:Delaunay Triangulation(D-TIN),是将泰森多边形中各一直点相连形成的一个三角形网,该三角网是泰森多边形的对偶图,是模拟自然面或人工构成面的理想方法。狄洛尼三角网特性:1其Delaunay三角网是唯一的;2三角网的外边界构成了点集P的凸多边形外壳;3没有任何点在三角形的外接圆内部;4如果将三角网中的每个三角形最小角进行升序排列,则Delaunay三角网的排列得到的数值最大,即Delaunay三角网是“最接近于规则化”的三角网(等边三角形)。22.狄洛尼三角网构建方法:三角网生长法。首先找出离散点集中相距最短的两点,连线成为D-TIN的初始基线,然后在这附近找第三点,一般取第三点到前两点的距离平方和最小的参考点作为候选点,以这三点作一外接圆,判断是否有落入该外接圆的点,一直找到没有其他参考点落入外接圆内,该三角形就是Delaunay三角形,然后以该三角形的任意一条边作为基边,用同样的方法形成其他三角形,一直到所有参考点都参与构造了Delaunay三角网为止。23.用Delaunay三角网构建泰森多边形方法:1构建离散平面点集的D-TIN;2求取各三角形的外接圆心;3对每个离散点,按顺时针或逆时针方向连接与其关联的三角形的外接圆心,得到该离散点的泰森多边形;4将各离散点的泰森多边形形成集合,得到平面点集的泰森多边形。24.构成网络的基本要素:链(link);结点(node)(包括:障碍-barrier,拐点-turn,中心-center,站点-stop)。以上网络要素分别有各自的特殊属性项,归纳为:阻力值(impedance),资源需求(demand),资源容量(capacity)三种。25.网络分析应用:路径分析;连通分析;定位-配置分析;地址匹配。26.路径分析的核心是对最佳路径和最短路径的求解。最佳路径的求解时在指定的网络中两节点间找一条阻碍强度最小的路径,最佳路径的产生基于网线和结点转角的阻碍强度。另一种路径分析功能是求解最佳游历方案,分为:结点最佳游历方案求解(推销员问题);弧段最佳游历方案求解(邮递员问题)。27.最短路径分析核心算法:Dijkstra算法。28.连通分析两类问题:1连通分量求解;2最少费用连通方案的求解。29.连通图:在一个图中。任意两个结点之间都存在一条路。30.最小生成树:若一个连通图中不存在任何回路,称为树,生成树是极小连通子图(权数最小)称为最小生成树。应用:类似在n个城市间建立通信线路的连通分析问题。构造最小生成树的依据:1在网中选择n-1条边连接网的n个顶点;2尽可能选取权值为最小的边。算法:Kruskal,克罗斯科尔算法(避圈法)。31.定位-配置分析(举例分析):1定位问题:已知需求点分布,确定哪里布设供给点。如消防站点分布、学校选址、垃圾收集站点分布;2配置问题:已知供给点分布,确定供给点服务于哪些需求点。如确定一消防站负责哪些区域的消防工作;3同时确定供给点和需求点。算法:Teitz-Bart算法(泰茨-巴特算法)。32.e.g:选址问题就选择5个城市中一个作为中心邮局地时选择标准有中心点法和中位点法。中心点法是中心局到其它城市最短距离的最大值最小;中位点法是中心局到其它城市距离总和最小。33.地址匹配:是基于空间定位技术,是地理编码的核心技术,提供了一种把描述成地址的地理位置信息转换成可以被用于GIS的地理坐标的方式。 34.利用地址匹配技术可以在地理空间参考范围中确定数据资源的位置,建立空间信息与非空间信息之间的联系,实现各种地址空间范围内的信息整合。它的过程中涉及两种数据:一种是只包含地理实体位置信息没有相关地图定位信息的地址数据(如街道地址、邮政编码、行政区划等),另一种是已经包含了相关地图定位信息的地理参考数据,这些数据集合或者数据库在地址匹配过程中起到空间参考作用。35.栅格数据的空间分析方法:距离制图、密度制图、表面分析、统计分析、重分类、栅格计算。36.距离制图中基本概念:1源:距离分析中的目标或目的地;2成本:到达目标、目的地的花费,成本数据的制作一般是基于重分类功能完成的;3成本距离加权数据:也程成本累计数据,几率每个栅格到距离最近、成本最低的源的最少累加成本;4距离方向数据:表示了从每一个单元出发,沿着最低累计成本路径到达最近源的路线方向;5分配数据:记录每一个单元点隶属的最近源信息,单元值就是其最近源的值;6距离制图函数:主要包括成本加权函数(cost-weighted distance),成本方向加权数据(cost-weighted direction),成本分配加权函数(cost-weighted allocation),直线距离函数(straight-line distance),直线方向函数(straight-line direction),直线分配函数(straight-line allocation),最小成本路径函数(shortest path),分配函数(allocation)。其中:1、2为原始数据,36为结果数据。37.密度制图:基于点数据生成的,以每个待计算网格点为中心,进行圆形区域的搜索,今儿来计算每个格网点的密度值。本质上讲,密度制图是一个通过离散采样点进行表面内插的过程,根据内插原理不同,分为核函数密度制图(Kernal)和简单密度制图(Simple)。38.简单密度制图:以样本为圆心,考搜索半径产生圆,组成圆的栅格总面积为分母,样本点的属性值为分子,两折相除得到密度值,搜索圆内每个栅格单元的密度值相同。39.核函数密度制图:以样本点为圆心,考搜索半径产生圆,圆心处的栅格单元密度值最高,离开圆心越远,密度越低,逐步递减,到边界处密度值为0。圆心处密度值大小由搜索半径决定。40.表面分析:主要通过栅格差值生成栅格表面产生新的数据集。如等值线、坡度、坡向、山体阴影等派生数据。41.统计分析包括:单元统计(n对1);领域统计(1对1);分类区统计(2对1)。42.单元统计常用于同一地区多时相数据的统计,通过单元统计分析得出所需数据。例如:同一地区不同年份的人口分析,同一地区不同年份土地利用类型等。单元统计输入数据集必须来源于同一个地理区域,并且采用相同的坐标系统。43.领域统计:是以待计算栅格为中心,向其周围扩展一定范围,基于这些扩展栅格数据进行函数运算,从而得到此栅格的值。即在单元对应的领域范围指定的单元上进行统计分析,然后将结果值输出到该单元位置。ArcGIS中提供四种领域分析窗口:Rectangle(矩形);Annulus(环形);Circle(圆形);Wedge(楔形)。44.分类区统计:即以一个数据集的分类区为基础,对另一个数据集进行述职统计分析,包括计算述职范围、最大值、最小值、标准差等。利用分类区统计可以计算具有某一相同属性的数据所包含的另一属性数据的统计信息。e.g:计算每个污染区的平均人口密度;计算同一高程处植被类型的种类;计算同一种植被类型下高程的平均值。45.重分类:基于原有数值,对原有数值重新进行分类整理,从而得到一组新值并输出。重分类一般的四种分类形式:新值替代;旧值合并;重新分类;空值设置。46.栅格计算包括:数学运算;函数运算(数学函数,栅格数据空间分析函数)。47.空间查询与量算是进行空间分析的定量化基础,主要的量算:几何量算、质心量算、形状量算。48空间内插:a在现有离散曲面分辨率、象元大小或方向与要求不符(栅格数据重采样);b现有数据不能完覆盖所要求的区域范围(如将离散采样点数据内插为连续数据表面)。49.径向基函数插值:必须通过实测点,表面总曲率最小。50.Kriging插值:基于统计学的插值方法,是根据相邻变量的值,利用变异函数解释的区域化变量的内在联系来估计空间变量数值。51.栅格数据的重采样:处理栅格分辨率匹配问题。主要的三种方法:最邻近法采样;双线性采样;三次卷积采样。52.三维空间分析:创建表面;表面分析;三维可视化;水文分析。53.创建表面:TIN表面的创建;栅格表面的创建(通过栅格点位的空间内插来实现)。54.栅格表面的创建(由点数据插值生成栅格面)方法:1反距离加权插值法(适用于变量影响随距离增加而减小的情况)、2样条函数法(适用于渐变的表面属性)、3克里格法(适用于已知数据含距离和方向上偏差的情况)等。调整参数方法:1可变半径的饭距离加权插值;2固定半径的饭距离加权插值;3张力样条插值;4规则样条插值。55.表面分析:计算表面积与体积;地形因子提取(其中坡度、坡向、平面曲率、剖面曲率在ArcGIS中可直接提取)。56.两种表面模型:栅格表面,TIN表面。57.Slope:指通过该店的切平面与水平面的夹角,表示了地表在该点的倾斜程度。坡度两种表示方法:坡度(degree of slope,水平面与地形面之间夹角),坡度百分比(percent slope,高程增量与水平增量之比的百分数)1栅格表面shope提取与TIN表面坡度的提取:(TIN表面构成三角网的每个三角形构成一个平面,表面上某点必处在某一三角形,则该点的坡度指其所处平面与水平之间的夹角)。2栅格表面坡向(指地表面上一点的切平面的法线矢量在水平面的投影与过该店的正北方向的夹角,表征了该点高程值改变量的最大变化方向);TIN表面坡向(指该店所处三角面的坡向,即该三角面法线方向在平面上的投影所知的方向)。58.可视性分析:a视线瞄准线;b视场;c可视性分析;d提取断面;e山体阴影;f表面长度的计算;g等值线绘制。59.水文分析:无洼地DEM生成;汇流量积累;水流长度;河网的提取。60.无洼地DEM生成:1)水流方向提取(通过计算栅格与邻域栅格的最大距离权落差来确定;距离权落差指中心栅格与邻域栅格高程差/两栅格间的距离);2)洼地计算(洼地区域是水流方向不合理的地方);3)洼地填充。61.汇流累积量:是基于水流方向数据计算而来的。每个栅格的汇流累积量大小代表其上游有多少栅格的水流方向最终汇流经过该栅格,数值越大,越易形成地表径流。62.水流长度:地面上一点盐水流方向到其流向终点间的最大地面距离在水平面上的投影。提取方式:顺流计算(计算地面上没一点沿水流方向到该店所在流域出水口最大地面距离的水平投影);溯流计算(计算地面上每点沿水流方向到其流向起点最大地面距离的水平投影)。63.河网的提取过程:1先是无洼地DEM的生成:利用水流方向数据计算出DEM数据中的洼地数据,并计算洼地深度,依据这些洼地深度设定填充阈值进行洼地填充;2在无洼地DEM上利用最大坡降法计算出每个栅格水流方向;3利用水流方向栅格数据计算出每个栅格数据在水流方向上累计栅格数,即汇流累计量(代表在一个栅格位置上有多少个栅格的水流方向流经该栅格),当汇流量达到一定值时会产生地表水流;4设定临界数值,当所有汇流量大于那个临界数值的栅格就是潜在的水流路径,这些水流路径构成的网络,就是河网。64.空间统计分析:空间数据的统计分析,核心是认识与地理位置相关的数据间的空间依赖、空间关联或空间自相关,通过空间位置建立数据间的统计关系。是以区域化变量理论为基础,以变异函数为基本工具来研究分布于空间并呈现出一定随机性和结构性的自然现象的科学。65.空间统计:将空间信息与属性信息进行统一的考虑,研究特定属性或属性之间与空间位置的关系。(几乎所有的空间数据都具有空间依赖或空间自相关特征。66.空间统计分析与GIS: 1相同点:二者均能处理具有空间坐标的信息;2不同点:GIS侧重于图形显示,即描述空间现象及其属性特征的相互关系;而空间统计分析侧重于数值计算,即应用空间分析模型进行有关空间自相关、空间结构、空间插值、空间模拟等方面的计算。67.空间相关性:检测空间上两种现象(统计量)的变化是否存在相关性。e.g:水稻产量往往与所处土壤肥沃程度有关。68.空间自相关:研究空间中,某个空间单元与周围的单元之间,就某种特征,通过统计方法,进行空间相关性的计算,以分析这些空间单元在空间上分布现象的特性。研究的是不同对象的统一属性在空间上的相互关系。69.探索性空间数据分析(ESDA):利用统计学原理和图形图表相结合对空间信息的性质进行分析、鉴别,用以引导确定模型的结构和解法。内容:1)检查数据是否有误;2)获得数据的分布特征;3)对数据规律的初步考察。70.ESDA数学方法:1直方图;2Q-Q概率图;3趋势分析;4半变异/协方差函数云图;5正交协方差函数云图。71.直方图:适用于对大量样点数据进行整理加工,找出其统计规律,即数据分布形态,以便对其总体特征进行推断的方法。它的两个重要参数:概率分布(显示观测值落在一定空间中的频率的一种柱状图),概括性统计指标(可用位置指标、分布指标、形状指标加以表达)。72.Q-Q概率图:主要用来评估具有N个值的单变量样本数据是否服从正态分布。是用来检验样点数据分布的统计图,如果被检验样点数据符合所指定分布,代表样点的点簇在一条直线上。分为:正态概率图和反趋势正态概率图。73.趋势图:样点的位置在X、Y平面上表示,对于感兴趣的属性值,通过垂直方向上的Z轴表示,构成三维视图,趋势分析时,将Z轴数据值投影到X、Y平面作散点图,然后用多项式拟合。74.ESDA应用:1)检验数据分布(可用直方图和Q-Q概率图直观地检验数据分布形状);2)寻找离群值(常用直方图和半变异函数查找现象的真实异常值,即离群点);3)全局趋势分析。75.地统计分析基础:1)前提假设(随机过程,正态分布);2)区域化变量;3)变异分析(协方差函数,变异函数);4)空间插值。76.区域化变量两个重要特征:随机性和结构性。区域化随机变量之间的差异,可用空间协方差来表示。77.Kriging插值:根据变异函数模型发展起来的一系列地统计的空间插值方法;包括:普通克里格法,泛克里格法,指示克里格法,析取克里格法,协同克里格法等。38.克里格插值法(Kriging)是用协方差函数和变异函数来确定高程变量随空间距离而变化的规律,以距离为自变量的变异函数,计算相邻高程值关系权值,在有限区域内对区域化变量进行无偏最优估计的一种方法,是地统计学的主要方法之一。ArcGIS9.3中的克里格插值方法主要有以下几种类型:普通克里格(Ordinary Kriging)、简单克里格(Simple Kriging)、泛克里格(Universal Kriging)、指示克里格(Indicator Kriging)、概率克里格(Probability Kriging)、析取克里格(Disjunctive Kriging)和协同克里格(Co-Kriging)。不同的插值方法的适用的条件不同,普通克里格法、简单克里格法和泛克里格法前提条件是样本数据符合正态分布。当假设高程值的期望值是未知时,选用普通克里格;当假设高程值的期望值为某一已知常数时,选用简单克里格;当只需了解属性值是否超过某一阈值时,选用指示克里格;当数据存在主导趋势时,选用泛克里格;若不服从正态分布时,选用析取克里格;当同一事物的两种属性存在相关关系,且一种属性不易获取时,可选用协同克里格方法,借助另一属性实现该属性的空间内插。使用克里格首先要进行数据分析的,看它是否满足条件,如果不满足要进行数据变换。克里格插值法很复杂的,计算时间也慢,一般情况下用反距离权重和自然邻近差值(voronoi)专心-专注-专业