ArcGIS 9 教程_第10章 地统计分析.pdf
《ArcGIS 9 教程_第10章 地统计分析.pdf》由会员分享,可在线阅读,更多相关《ArcGIS 9 教程_第10章 地统计分析.pdf(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十章第十章 地统计分析地统计分析 地统计分析方法被广泛应用许多领域,已成为空间统计学的一个重要分支。很长时间以来,地统计分析一直没能很好的和 GIS 分析模型紧密结合在一起,这成为 GIS 软件一大遗憾。ArcGIS 地统计分析模块在地统计学与 GIS 之间架起了一座桥梁,使得复杂的地统计方法可以在软件中轻易实现,体现了以人为本、可视化发展的趋势。这种结合具有重要的开创性意义,通过测定预测表面的统计误差,GIS 应用人员首次能够对预测表面的模型质量进行量化。本章主要通过对地统计分析的概念介绍,逐步引导读者在 ARCGIS 中如何应用地统计分析解决实际问题。10.1 地统计基础 10.1.1
2、基本原理 地统计(Geostatistics)又称地质统计,是在法国著名统计学家 G.Matheron 大量理论研究的基础上逐渐形成的一门新的统计学分支。它是以区域化变量为基础,借助变异函数,研究既具有随机性又具有结构性,或空间相关性和依赖性的自然现象的一门科学。凡是与空间数据的结构性和随机性,或空间相关性和依赖性,或空间格局与变异有关的研究,并对这些数据进行最优无偏内插估计,或模拟这些数据的离散性、波动性时,皆可应用地统计学的理论与方法。地统计学与经典统计学的共同之处在于:它们都是在大量采样的基础上,通过对样本属性值的频率分布或均值、方差关系及其相应规则的分析,确定其空间分布格局与相关关系。
3、但地统计学区别于经典统计学的最大特点即是:地统计学既考虑到样本值的大小,又重视样本空间位置及样本间的距离,弥补了经典统计学忽略空间方位的缺陷。地统计分析理论基础包括前提假设、区域化变量、变异分析和空间估值。1.前提假设(1)随机过程 与经典统计学相同的是,地统计学也是在大量样本的基础上,通过分析样本间的规律,探索其分布规律,并进行预测。地统计学认为研究区域中的所有样本值都是随机过程的结果,即所有样本值都不是相互独立的,它们是遵循一定的内在规律的。因此地统计学就是要揭示这种内在规律,并进行预测。(2)正态分布 在统计学分析中,假设大量样本是服从正态分布的,地统计学也不例外。在获得数据后首先应对数
4、据进行分析,若不符合正态分布的假设,应对数据进行变换,转为符合正态 1分布的形式,并尽量选取可逆的变换形式。(3)平稳性 对于统计学而言,重复的观点是其理论基础。统计学认为,从大量重复的观察中可以进行预测和估计,并可以了解估计的变化性和不确定性。对于大部分的空间数据而言,平稳性的假设是合理的。这其中包括两种平稳性:一是均值平稳,即假设均值是不变的并且与位置无关;另一类是与协方差函数有关的二阶平稳和与半变异函数有关的内蕴平稳。二阶平稳是假设具有相同的距离和方向的任意两点的协方差是相同的,协方差只与这两点的值相关而与它们的位置无关。内蕴平稳假设是指具有相同距离和方向的任意两点的方差(即变异函数)是
5、相同的。二阶平稳和内蕴平稳都是为了获得基本重复规律而作的基本假设,通过协方差函数和变异函数可以进行预测和估计预测结果的不确定性。2.区域化变量 当一个变量呈现一定的空间分布时,称之为区域化变量,它反映了区域内的某种特征或现象。区域化变量与一般的随机变量不同之处在于,一般的随机变量取值符合一定的概率分布,而区域化变量根据区域内位置的不同而取不同的值。而当区域化变量在区域内确定位置取值时,表现为一般的随机变量,也就是说,它是与位置有关的随机变量。在实际分析中,常采用抽样的方式获得区域化变量在某个区域内的值,即此时区域化变量表现为空间点函数:),()(wvuxxxZxZ=(10.1)根据其定义,区域
6、化变量具有两个显著特征:即随机性和结构性。首先,区域化变量是一个随机变量,它具有局部的、随机的、异常的特征;其次,区域化变量具有一定的结构特点,即变量在点 x 与偏离空间距离为 h 的点 x+h 处的值 Z(x)和 Z(x+h)具有某种程度的相似性,即自相关性,这种自相关性的程度依赖于两点间的距离 h 及变量特征。除此之外,区域化变量还具有空间局限性(即这种结构性表现为一定范围内)、不同程度的连续性和不同程度的各向异性(即各个方向表现出的自相关性有所区别)等特征。3.变异分析(1)协方差函数 协方差又称半方差,表示两随机变量之间的差异。在概率论中,随机变量 X 与 Y 的协方差定义为:)Y()
7、(X(),(EYEXEYXCov=(10.2)借鉴上式,地统计学中的协方差函数可表示为:=+=)(1)()()()()(1)(hNiiiiihxZhxZxZxZhNhC (10.3)其中,Z(x)为区域化随机变量,并满足二阶平稳假设,即随机变量 Z(x)的空间分布规律不因位移而改变;h 为两样本点空间分隔距离;为 Z(x)在空间点处的样本值;)(ixZix 2)(hxZi+是 Z(x)在处距离偏离 h 的样本值i=1,2,N(h);N(h)是分隔距离为 h 时的样本点对总数;ix)(ixZ和)(hxZi+分别为和)(ixZ)(hxZi+的样本平均数,即:=niiixZnxZ1)(1)((10.
8、4)=+=+niiihxZnhxZ1)(1)((10.5)上式中,n 为样本单元数。一般情况下,)()(hxZxZii+(特殊情况下可以认为近似相等)。(2)半变异函数 半变异函数又称半变差函数、半变异矩,是地统计分析的特有函数。区域化变量 Z(x)在点x和x+h处的值Z(x)与 Z(x+h)差的方差的一半称为区域化变量 Z(x)的半变异函数,记为 r(h),2r(h)称为变异函数。根据定义有:)()(21),(hxZxZVarhxr+=(10.6)即 22)()(21)()(21),(hxZExZEhxZxZEhxr+=(10.7)区域化变量 Z(x)满足二阶平稳假设,因此对于任意的 h 有
9、:)()(xZEhxZE=+(10.8)因此,半变异函数可改写为:2)()(21),(hxZxZEhxr+=(10.9)由上式可知,半变异函数依赖于自变量 x 和 h,当半变异函数r(x,h)仅仅依赖于距离h 而与位置 x 无关时,r(x,h)可改写为r(x),即:2)()(21)(hxZxZEhr+=(10.10)具体表示为:=+=)(12)()()(21)(hNiiihxZxZhNhr (10.11)3各变量的含义同前。也有将 r(h)称为变异函数,两者使用上不引起本质上的差别。(3)变异分析 半变异函数和协方差函数把统计相关系数的大小作为一个距离的函数,是地理学相近图 10.1 和图 1
10、0.2 显示,半变异值的变化随着距离的加大而增加,协方差随着距离的相似定理定量量化。图 10.1 和图 10.2 为一典型的半变异函数图和其对应的协方差函数图。加大而减小。这主要是由于半变异函数和协方差函数都是事物空间相关系数的表现,当两事物彼此距离较小时,它们是相似的,因此协方差值较大,而半变异值较小;反之,协方差值较小,而半变异值较大。此外,协方差函数和半变异函数随着距离的加大基本呈反向变化特征,它们之间的近似关系表达式为:hr)()(hCsillc(h)图 10.2 协方差函数图 r(h)图 10.1 半变异函数图 偏基台值(Partial Sill)块金(Nugget)基台值(Sill
11、)变程(Range)距离(h)距离(h)偏基台值(Partial Sill)块金(Nugget)变程(Range)基台值(Partial Sill)=(10.12)半变异函数曲线图和协方差函数曲线反映了一个采样点与其相邻采样点的空间关系。此外值(Nugget):理论上,当采样点间的距离为 0 时,半变异函数值应为 0,但由于存在变异函数 r(h)从初始的块金值达到一个。基台值时,采样点的间隔距离称,它们对异常采样点具有很好的探测作用,在 ArcGIS 地统计分析模块中可以使用两者的任意一个,一般采用半变异函数。在半变异曲线图中有两个非常重要的点:间隔为 0时的点和半变异函数趋近平稳时的拐点,由
12、这两个点产生四个相应的参数:块金值(Nugget)、变程(Range)、基台值(Sill)、偏基台值(Partial Sill)它们的含义表示如下:块金测量误差和空间变异,使得两采样点非常接近时,它们的半变异函数值不为 0,即存在块金值。测量误差是仪器内在误差引起的,空间变异是自然现象在一定空间范围内的变化。它们任意一方或两者共同作用产生了块金值。基台值(Sill):当采样点间的距离 h 增大时,半相对稳定的常数时,该常数值称为基台值。当半变异函数值超过基台值时,即函数值不随采样点间隔距离而改变时,空间相关性不存在。偏基台值(Partial Sill):基台值与块金值的差值变程(Range):
13、当半变异函数的取值由初始的块金值达到为变程。变程表示了在某种观测尺度下,空间相关性的作用范围,其大小受观测尺度 4的限定。在变程范围内,样点间的距离越小,其相似性,即空间相关性越大。当 hR 时,区域化变量 Z(x)的空间相关性不存在,即当某点与已知点的距离大于变程时,该点数据不能用于内插或外推。当限定的样本点间隔过小时,可能出现曲线图上所有 r(h)Nugget,即曲线为一近似平越强。相应地地统计分析过程,或者说空间估值过程,一般为:首先是获取原始数据,检查数据视图窗口中添加并显示待分析的统计属性,对数据进行深入了解。的认识,初步选择一个认为合适的模输出(表面),了解所选模型对未知同参数或者
14、选择多个可选模型创建表面,通过对比分析可以确定哪个模型对未行于横坐标的直线,此时半变异函数表现为纯块金效应。这是由于所限定的样本间隔内,点与点的变化很大,即各个样点是随机的,不具备空间相关性,区域内样点的平均值即是最佳估计值。此时只有增大样本间隔,才能反映出样本间的空间相关性。空间相关性的强弱可由 Partial_Sill/Sill 来反映,该值越大,空间相关性,Nugget/Sill 称为基底效应,表示样本间的变异特征,该值越大,表示样本间的变异更多得是由随机因素引起的。4.空间估值 一个完整的、分析数据,找寻数据暗含的特点和规律,比如是否为正态分布、有没有趋势效应、各向异性等等;然后选择合
15、适的模型进行表面预测,这其中包括半变异模型的选择和预测模型的选择;最后检验模型是否合理或几种模型进行对比。尽管在 ArcGIS 中利用地统计分析模块完成上述过程非常简单,但是遵循一个结构化处理过程仍很重要,如图 10.3 所示。(1)数据显示 在 ArcMap的数据图层。(2)数据检查 数据显示 数据检查 模型拟合 模型诊断 模型比较 1 3 2 4 5 图 10.3 空间估值流程图 分析数据集数据检查内容包括检验数据分布、寻找数据离群值、全局趋势分析、探测空间自相关及方向变异,以及多数据集协变分析。(3)模型拟合 基于对数据型创建表面。全面的数据检查有助于选择出合适的模型。(4)模型诊断 评
16、估模型的值的预测效果。诊断的主要内容包括:预测的准确性。模型的有效性。(5)模型比较 通过设置不知值的预测更好。510.1.2 克里格插值 克里格插值(Kriging)又称空间局部插值法,是以变异函数理论和结构分析为基础,在有限区域内对区域化变量进行无偏最优估计的一种方法,是地统计学的主要内容之一。南非矿产工程师 D.R.Krige(1951 年)在寻找金矿时首次运用这种方法,法国著名统计学家 G.Matheron 随后将该方法理论化、系统化,并命名为 Kriging,即克里格方法。克里格方法的适用范围为区域化变量存在空间相关性,即如果变异函数和结构分析的结果表明区域化变量存在空间相关性,则可
17、以利用克里格方法进行内插或外推;否则反之。其实质是利用区域化变量的原始数据和变异函数的结构特点,对未知样点进行线性无偏、最优估计。无偏是指偏差的数学期望为 0,最优是指估计值与实际值之差的平方和最小。也就是说,克里格方法是根据未知样点有限邻域内的若干已知样本点数据,在考虑了样本点的形状、大小和空间方位,与未知样点的相互空间位置关系,以及变异函数提供的结构信息之后,对未知样点进行的一种线性无偏最优估计。地统计分析的核心就是通过对采样数据的分析、对采样区地理特征的认识选择合适的空间内插方法创建表面。插值方法按其实现的数学原理可以分为两类:一是确定性插值方法,另一类是地统计插值,也就是克里格插值,如
18、图 10.4 所示。空间插值 确定性插值 全局性插值:全局多项式插值 局部性插值 径向基插值 地统计插值 反距离权插值 局部多项式插值 普通克里格插值 概率克里格插值 简单克里格插值 泛克里格插值 析取克里格插值 协同克里格插值 图10.4 空间插值分类示意图一确定性插值方法以研究区域内部的相似性(如反距离加权插值法)、或者以平滑度为基础(如径向基函数插值法)由已知样点来创建表面。地统计插值方法(例如克里格法)利用的则是已知样点的统计特性。地统计插值方法不但能够量化已知点之间的空间自相关 6性,而且能够解释说明采样点在预测区域范围内的空间分布情况。确定性插值方法有可以分为两种:即全局性插值方法
19、和局部性插值方法,如图 10.4所示。全局性插值方法以整个研究区的样点数据集为基础来计算预测值,局部性插值方法则使用一个大研究区域内较小的空间区域内的已知样点来计算预测值。克里格方法与反距离权插值方法有些类似,两者都通过对已知样本点赋权重来求得未知样点的值,可统一表示为:=niiixZxZ10)()((10.13)式中,Z(x0)为未知样点的值,Z(xi)为未知样点周围的已知样本点的值,i为第i个已知样本点对未知样点的权重,n为已知样本点的个数。不同的是,在赋权重时,反距离权插值方法只考虑已知样本点与未知样点的距离远近,而克里格方法不仅考虑距离,而且通过变异函数和结构分析,考虑了已知样本点的空
20、间分布及与未知样点的空间方位关系。空间插值方法根据是否能保证创建的表面经过所有的采样点,又可以分为精确性插值和非精确性插值(图 10.5)。精确性插值法预测值在样点处的值与实测值相等,非精确性插值法预测值在样点处的值与实测值一般不会相等。使用非精确性插值法可以避免在输出表面上出现明显的波峰或波谷。反距离权插值和径向基插值属于精确性插值方法,而全局多项式插值、局部多项式插值,以及克里格插值都属于非精确性插值方法。空间插值精确性插值 非精确性插值 反距离权插值全局多项式插值 局部多项式插值 克里格插值 径向基插值 普通克里格插值 概率克里格插值 简单克里格插值 泛克里格插值 析取克里格插值 协同克
21、里格插值 图 10.5 空间插值分类示意图二 710.1.3 ArcGIS 地统计分析 1.功能模块介绍 图 10.6 地统计模块菜单 ArcGIS 地统计分析模块主要由三个功能模块组成,探索性数据分析(Explore Data)、地统计分析向导(Geostatistical Wizard),以及生成数据子集(Create Subsets)。利用这些基本功能模块,可以方便的完成多种地统计分析,创建完善的专题地图(表面预测)。(1)探索性数据分析(Explore Data)解所使用的数据,以便于选取合适的参数及方法。从不同的 进行内插生成研究对象表面图的内插技术。地统计分析向导通过完善的图形用户
22、界面,引导用户逐步了解数据、选择内插模型、插方法与数据集界面(如图 10.7)数据分析工具可以让用户更全面地了如,数据是否服从正态分布,是否存在某种趋势等;在 ArcGIS 地统计分析模块中,内嵌了多种探索性空间数据分析工具,包括Histogram(直方图)、Voronoi Map(Voronoi地图)、Normal QQPlot(正态 QQPlot 分布图)、General QQPlot(普通 QQPlot 分布图)、Trend Analysis(趋势分析)、Semivariogram/Covariance Cloud(半变异/协方差函数云)、Crosscovariance Cloud(正交
23、协方差函数云)。这些探索性空间数据分析工具对数据视图,提供用户用多种方式检测空间数据。(2)地统计分析向导(Geostatistical Wizard)地统计分析模块提供了一系列利用已知样点评估内插精度,完成表面预测(模拟)和误差建模。地统计分析向导能提供用户的主要图形界面包括:1)选择内 8图 10.7 数据及方法选择界面 通过此界面可选择所用数据、实验方法以及检验数据等,在 DataSet1 中,选择输入数据及其属性;在 Validation 中,选择检验数据及其属性;在 Methods 中,选择相应的内插方法。2)参数设置界面(图 10.8)图 10.8 参数设置图 通过此界面设置模型所
24、用的各项参数,如模型所用的幂指数(Power)、最少包含的样点数(Include at Least)等,参数设置应根据实例而定。3)精度评定界面(图 10.9)主要包括误差分布图、误差标准化值分布图等,通过这些界面可以了解模型的精确度,为模型的改进也提供了必要的信息。对于不同的内插方法,上述界面提供的信息一般是不一样的,弹出的对话框的个数、参数设置界面或精度评定界面有时不止一个,应根据具体内容具体对待。9图 10.9 精度评定图 4)生成数据子集(Create Subsets)对输出表面质量评价的最严格方法就是将观测值的观测值与预测值进行比较。通常情况下,这种作法无需到研究区采集独立的验证数据
25、集。一个办法就是将原始数据分割成两部分,一部分用来空间结构建模及生成表面,另一部分用来比较和验证预测的质量。Create Subsets 对话框(图 10.10)可以让用户生成测试和训练数据集。图 10.10 生成数据子集图 2.Geostatistical Analyst 的启动(1)右击工具栏,启动地理统计模块 Geostatistical Analyst。(2)单击 Geostatistical Analyst 下的 Explore Data 菜单。10.2 探索性数据分析 探索性数据分析是利用 ArcGIS 提供的一系列图形工具和适用于数据的插值方法。可以确定统计数据属性,探测数据分布
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ArcGIS 教程_第10章 地统计分析 教程 10 统计分析
限制150内