第二章 GIS数字化.pptx
第二章 地理信息的数字化章节目录2.1 数字化和地理信息2.2 属性信息的表示2.3 离散对象和矢量数据模型2.4 连续场和栅格数据模型2.5 栅格数据的压缩2.6 矢量和栅格模型的比较2.7 不规则三角网模型2.8 三维空间的表示2.9 时间的表示2.1 数字化和地理信息(补充)1)信息定义:信息是现实世界在人们头脑中的反映。它以文字、数据、符号、声音、图象等形式记录下来,进行传递和处理,为人们的生产,建设,管理等提供依据。2)信息的特性:A、客观性:任何信息都是与客观事实相联系的,这是信息的正确性和精确度的保证。B、实用性:问题不同,影响因素不同,需要的信息种类是不同的。信息系统将地理空间的巨大数据流收集,组织和管理起来,经过处理、转换和分析变为对生产、管理和决策具有重要意义的有用信息,这是由建立信息系统的明确目的性所决定的。C、传输性:信息可在信息发送者和接受者之间进行传输,这个传输网络被形象地称为“信息高速公路”。D、共享性:信息与实物不同,信息可传输给多个用户,为用户共享,而其本身并无损失,这为信息的并发应用提供可能性。2.1 数字化和地理信息(补充)3)数据定义:数据指输入到计算机并能被计算机进行处理的数字、文字、符号、声音、图象等符号。数据是对客观现象的表示,数据本身并没有意义。数据的格式往往和具体的计算机系统有关,随载荷它的物理设备的形式而改变。4)信息与数据的关系u数据是信息的表达、载体,信息是数据的内涵,是形与质的关系。只有数据对实体行为产生影响才成为信息,数据只有经过解释才有意义,成为信息。例如“1、”“0”独立的1、0均无意义。当它表示某实体在某个地域内存在与否,它就提供了“有”“无”信息,当用它来标识某种实体的类别时,它就提供了特征码信息。2.1 数字化和地理信息(补充)5)地理数据定义 指表征地理圈或地理环境固有要素或物质的数量、质量、分布特征、联系和规律的数字、文字、图像和图形等的总称。6)地理信息定义 地理信息是有关地理实体的性质、特征和运动状态的表征和一切有用的知识,它是对地理数据的解释。地理信息具有区域性、多维结构特性和动态变化的特性:区域性是通过经纬网等建立的地理坐标来实现空间位置的标识;多维结构特性即在二维空间的基础上实现多专题的第三维结构;地理信息的时序性特征,按时间尺度将地理信息划分为超短期(台风、地震)、短期(江河洪水、秋季低温)、中期(土地利用、作物估产)、长期的(城市化、水土流失),超长期(地壳变动、气候变化)等。2.1 数字化和地理信息(补充)地理数据是各种地理特征和现象间关系的符号化表示,包括空间位置,属性特征及时态特征三部分。1.空间位置数据描述地物所在位置,这种位置既可以根据大地参照系定义,如大地经纬度坐标,也可以定义为地物间的相对位置关系,如空间上的距离、邻接、重叠、包含等;2.属性数据又称为非空间数据,是属于一定地物、描述其特征的定性或定量指标,即描述了信息的非空间组成部分,包括语义与统计数据等;3.时态特征是指地理数据采集或地理现象发生的时刻或时段,时态数据对环境模拟分析非常重要,越来越受到地理信息系统学界的重视。2.2 属性信息的表示用计算机表示事物的属性信息,一般用如下方式:(1)定名 也称命名,定类,用字符型的名称或整数型的编号,进行分类、定 义,如地名、土地使用类型、邮政编码。对定名型的属性不能进行算术运算,大小的比较也没有算术上的意义。(2)顺序 也称定序,可用字符型、整数型表示。例如,优、良、中、及格、不及格表示学生的成绩;用高速公路、国道、省道乡道表示公路的相对重要程度;城市规划中往往用一类工业、二类工业、三类工业表示工业对周围环境的影像程度;城市街道门牌号,一般也是按顺序编排。顺序型属性可以相互比较大小、排序,一般不能作算术运算、如求平均值就没有意义。(3)间隔 也称定距,可用整数型、浮点型表示。温度是典型的间隔型属性,可以进行高低比较。例如,气温高对应天气热,气温低对应天气冷。温度也可以进行计算,如某地区某季节的常年平均气温,经过多年观察后,取平均值得到。用百分数表示学生的学习成绩也是一种间隔,可以计算某个班级某门功课的平均成绩。但是适用范围有限,有些计算没有实际意义。例如,学习成绩100分比50分高出1倍,成绩好1倍;30气温和6相比,为5:1。2.2 属性信息的表示(4)比率 也称定比,可用浮点型,整数型表示,如城市人口(常用长整数型)、土地面积(一般用浮点型)是常用的比率型属性数据。甲城市的人口是乙城市的多少倍,土地面积在甲类和乙类之间是几比几,多种算术运算均有实际意义。(5)周期 也称循环,应用相对偶然,有特殊的判断、计算规则,需特别对待,如方向、时间、经度、纬度。上述类型中的定名、顺序、间隔、比率四种属性信息类型,在一定的条件下,后一种可以转换成前一种。例如,百分制学习成绩为间隔型,可以转换成五级制顺序型,城市人口规模可以从比率型(人口数)转换成顺序型(小、中、大、特大城市),一般情况下,前一种不能转换成后一种。2.2 属性信息的表示 相同的事物往往有的多重属性。例如,中学,可能有5个属性,名称(定名型),地址(定名型),办学性质(重点、一般,顺序型),在校学生数(比率型),校舍面积(比率型)。城市道路,可能有4个属性,路名(定名型),道路等级(顺序型),路段长度(比率型),道路宽度(比率型)。在计算机软件中,往往将一个属性对应一个数据项,不能再分割,常称为字段(field),多重属性也就是多个字段,聚集在一起,常称为一条记录(record)。同类事物中往往有多个实体,它们的属性项往往是相同的,也就是构成记录的字段相同,这时可以用表(table)来表示。标识号号学校学校编号号学校名称学校名称班班级数数性性质301P101城中小学24普通小学405M214上群中学14初中279P135中心小学22普通小学125H038实验中学28高中2.3 离散对象和矢量数据模型事物的地理位置信息有两种表示方法:离散对象和连续场离散对象:在城市中,车辆、房屋、绿地、道路、排水管道、商店、学校、村庄,他们有明确的边界,容易区别,适合用离散对象来表示。离散对象中的三种要素模型:点对象(point):如公共汽车站、环境监测站,可用点来表示,点没有大小,几何上常定义为零维,具体位置由一对坐标表示(x,y)。u 点实体:用来代表一个实体;u 注记点:用于定位注记;u 内点:用于记录多边形的属性,存在于多边形内;u 结点(节点)(Node):表示线的终点和起点;u 角点(Vertex):表示线段和弧段的内部点。2.3 离散对象和矢量数据模型线对象(line):如道路走向、市政管线、可用线表示,线没有宽度,几何上常定义为一维,具体位置由一串有序的点组成,分起点,终点,若干中间拐点,很多情况下也称折线(polyline)。有如下特征:l实体长度:从起点到终点的总长;l弯曲度:用于表示像道路拐弯时弯曲的程度;l方向性:水流方向是从上游到下游,公路则有单向与双向之分。线状实体包括线段、边界、链、弧段、网络等。2.3 离散对象和矢量数据模型面对象(area,也称多边形,polygon)。如地块、行政管线范围可用多边形表示,几何上常定义为二维,形状往往不规则,边界由线围合而成。作为多边形边界的线应封闭,呈环状,不能自身交叉。多边形内部可以有孔或岛,允许层层嵌套。面状实体有如下空间特性:l面积范围;l周长l独立性或与其他的地物相邻,如中国及周边国家;l内岛或锯齿状外形,如岛屿的海岸线封闭所围成的区域等;l重叠性与非重叠性,如报纸的销售领域、学校的分区、菜市场的服务范围等都有可能出现交叉重叠的现象,一个城市的各个城区一般说来相邻但不会出现重叠。2.3 离散对象和矢量数据模型 下图对离散对象的数字化表示方法从计算机软件的角度称矢量数据模型(vector data model),矢量也常称图形,坐标点是最基本的数据,一般用浮点型,也可用整数型。2.3 离散对象和矢量数据模型 一个对象也就是一个地理实体,在矢量数据模型中常称为一个要素(feature),一个要素可以有多个属性,多重属性聚合为记录,一个要素就可以和一条记录相对应。相同类型的地理实体聚集在一起,称为要素类(feature class),对应的属性记录也聚集在一起,构成表(table),也称属性表(attribute table)。数字化的位置信息常称为空间数据(spatial data)或几何数据。数字化的属性信息常称属性数据(attribute data)或非几何数据。2.3 离散对象和矢量数据模型 一个要素和属性表中一行有逻辑对应关系,一般靠标识号(identifier,identification,ID)相同来实现,也称标识符、标识码。在同一个要素类内部、同一个属性表中,标识号的取值具有唯一性。一个地理实体若要对应多重属性,可在属性表中定义不同的列。2.4 连续场和栅格数据模型 连续场是观察、定义事物的另一种常用方法,适合边界不太明确、比较模糊的事物,如地形高程。山峰、沟谷、平地、河流往往都是渐变的,土壤的分类也是这样的,相互之间可能没有确切的分界线。场经常被视为由一系列等值线组成的,一个等值线就是地面上所有具有相同属性值的点的有序集合。场的观点是模拟具有一定空间内连续分布特点的现象。2.4 连续场和栅格数据模型 在计算机软件中,连续场的数字化一般采用栅格数据模型(raster data model),将需要表示的空间范围划分成格网,格网的基本单元一般是正方形,大小固定,有时俗称栅格点。在电视、视频、计算机图像处理领域,栅格单元称像素(pixel)、像元(cell),栅格数据称图像(image),遥感领域也称影像。每个单元只有一个取值,可以是字符型,如土壤类型,也可以是整数型、浮点型,如地形高程。事物按其格网中的哪一行、哪一列确定空间位置,单元值就是属性,在单元内部,属性不再变化,每个单元只有一个属性。单元的大小决定了栅格数据的空间分辨率。2.4 连续场和栅格数据模型 同一空间范围内有多重属性,一般的表示方法是用多重相互独立的栅格数据集,如地形高程,植被状态,土壤类型,这很灵活,也带来了数据量的增加,以及不同属性之间相互联系的不方便。2.4 连续场和栅格数据模型 属性形似的栅格在形态上和矢量多边形近似,可以将栅格成组分类,使栅格数据具有多重属性。靠成组分类实现多重属性的条件是相同类型的栅格聚集在一起,单元取值应是字符型或整数型。2.5 栅格数据的压缩 为了提高栅格的空间分辨率,必须缩小基本单元,但同时会使数据增加。10m*10m的栅格单元,必须缩小到5m*5m,单元的大小是原来的1/2,分辨率提高1倍,单元数是原来的4倍。如果基本单元缩小到1m*1m,分辨率是原来的10倍,单元数是原来的100倍。分辨率的提高和单元数量的增加呈平方指数关系,信息系统所需承受的存储量、计算量、传输量也因此而增加。为此,产生了针对栅格数据模型的压缩方法:游程长度编码四叉树编码小波变换金字塔索引2.5 栅格数据的压缩游程长度编码 游程长度编码是栅格数据压缩的重要编码方法,它的基本思路是:对于一副栅格图像,常常有行(或列)方向上相邻的若干点具有相同的属性代码,因而可采用某种方法压缩那些重复的记录内容。先记下第一行第一列的单元属性值,从左向右逐行扫描,判断单元值有无变化,如果有变化,就记下相同单元的个数,相当于一个游程长度。继续向右扫描,不断记录单元值和游程长度(相同单元的个数),直到该行结束。向下换一行,继续上述步骤,直到把整个格网处理完毕。2.5 栅格数据的压缩游程长度编码原始栅格有64个单元,采用第一种编码方法,可以压缩成45个数据项,采用第二种编码方法,进一步压缩成26个数据项。栅格单元取值在空间上不是成团成簇地聚集,压缩效果就不明显,甚至还不如压缩之前。2.5 栅格数据的压缩四叉树编码 四叉树(也称四分数)方法将需要压缩的栅格一分为四,呈大小相同的四个象限,对于每个象限,判断内部的栅格单元取值有无变化,如果有变化,再划分成四个大小相同的子象限,继续上诉的判断,如果某象限内栅格单元取值相同,就记下属性值,不再划分。如果依然有变化,继续下一层次的划分,最多划分到基本单元位置,或者人为设定较大的单元。本例保存22个取值单元,7组指针,三个层次。2.5 栅格数据的压缩四叉树编码四叉树编码法优点:数据结构为树枝状,呈金字塔形,空间分辨率从低到高,分层次。计算机查询、显示效率高。在大数据量、高分辨率情况下,可比游程长度编码获得更明显的压缩效果。容易产生多边形,可以计算面积、周长等,某些空间计算、图像处理功能可借助四叉树实现。2.5 栅格数据的压缩四叉树编码四叉树编码的局限性:被压缩的单元数应该是2n*2n ,如果不满足,要在外侧用无效值得单元替补。产生四叉树的计算过程较长,保存的数据结构复杂。压缩之前无法确定内部多边形的形态。2.5 栅格数据的压缩 四叉树编码和游程长度编码一样,两者都是无损压缩,可以还原压缩之前状态。做某些空间分析,解开压缩,还原后再计算是必须的(特别对四叉树)。格网内部单元取值是否成团成簇,会影响到两种编码的压缩效果。通常情况下,高分辨率栅格,压缩效果好,低分辨率栅格,压缩效果差,甚至还可能出现压缩效果后的数据量比压缩之前还大的现象。这一特征,游程长度编码也可能出现,但是不如四叉树编码明显。四叉树式的数据结构,还可用于矢量数据的索引、检索。2.5 栅格数据的压缩小波变换 小波变换主要针对图像,特别适合处理遥感影像,去除不重要的信息,比四叉树编码获得更明显的压缩效果。小波变换也属金字塔数据结构,可以迅速地变换显示的分辨率,需要显示图像的较大范围时,自动降低分辨率,显示较小范围时,自动提高分辨率,数据量和显示能自动平衡,实现快速浏览,这对网络条件下大范围遥感影像的显示有特殊优势。小波变换是有损压缩,压缩后的图像再解压缩,可能和原始数据有局部差异,只能大致还原。2.5 栅格数据的压缩金字塔索引 针对栅格数据还有其他金字塔式的索引,和原始栅格数据并存,这种金字塔的数据结构为不同分辨率的快速显示起到索引作用,空间分析依然用原始的栅格。2.6 矢量和栅格模型的比较 矢量模型和栅格模型是GIS的基本空间数据模型,他们有各自的优缺点和适用性。在城市规划、管理领域,矢量和栅格经常混合使用,前者占主导、后者为辅助。2.6 矢量和栅格模型的比较项目项目矢量模型矢量模型栅格模型栅格模型数据量小大分辨率高低数据结构复杂简单空间关系较丰富相邻为主多重属性方便一般:每个单元只有一个属性值;特殊:成组分类,连接多重属性原始数据来源实地测量、观测遥感、影像、扫描数据输入坐标几何、台式数字化仪、鼠标、扫描后处理、栅格转换扫描、矢量转换、空间插值数据更新局部成片典型分析功能点线面相互关系、网络、叠合边界模糊的连续表面分析、多层叠合绘图输出精细、符号丰富连续变化、渐变颜色适用对象离散对象、几何明确。社会、经济领域用得较多连续场所,几何形态不明确,边界模糊。自然资源、环境领域用得较多。2.6 矢量和栅格模型的比较(补充)数据数据优点优点缺点缺点矢量模型数据结构紧凑、冗余度低数据结构复杂有利于网络和检索分析多边形叠加分析比较困难图形显示质量好、精度高栅格模型数据结构简单数据量大便于空间分析和地表模拟投影转换比较复杂现势性较强2.7 不规则三角网模型 连续场还有一种矢量表示方法:不规则三角网络(triangle irregular network,TIN)。以地形为例,在山峰、山脊、沟谷、山坡、平地上测量,采集有代表性的高程点,即样本点,这些点的分布是不规则的,靠软件(如Delaunay三角网产生算法)将这些样本点连接起来,形成三角形网络,每个三角形在空间上代表一个斜面,相互之间没有缝隙,由此表示地表高程。2.7 不规则三角网模型 在地形比较平坦的地方,样本点稀疏,高程变化比较剧烈的地方,样本点密集,因此,TIN模型的数据紧凑,但是相邻三角形之间没有平滑转折。TIN 除了用于地形,也可用于资源、环境、社会、经济等其他领域,可以看成是连续场的矢量方法。2.7 不规则三角网模型 不规则三角网模型中的样本点允许有多个属性,但在实际使用中意义不大。因为,获得样本前往往大致知道事物的空间分布特征,按经验抽取所获得的是有代表意义的特征点(如地表高程),如果换一种属性(如土壤类型),特征点的分布位置会明显不一致,属性的获取方式也不同,产生的TIN模型也会有明显差异,因此,样本点的多重属性在一般情况下意义不大。靠软件自动产生TIN,有各种计算方法,达十几种之多,有的方法是为了适合某些特定的空间形态,有的方法计算效率较高。不同计算方法产生的网络会有差异。目前,以产生Delaunay三角网的计算方法用得最普遍。Delaunay三角网有基本规则:网络中所有三角形的最小内角之和达到最大。从另一个角度,也可定义为:点和点之间尽可能相近,所有三角形尽可能接近等边三角形。2.8 三维空间的表示简单表示:(1)点。二维的点再加一个高程坐标,用于查询、显示、分析。(2)线。二维折线的拐点坐标增加一个高程坐标,道路、铁路、市政管线的选线设计、管理是典型用途。(3)面。矢量多边形可以有两个高程属性,分别表示底部、顶部的高程,或者一个表示底部高程,另一个表示纵向拉伸距离,这种方式常用于建筑物的简略表示,而且可进一步扩大,用于房产分层登记、管理。(4)TIN是常用的表面模型,将高程坐标作为单元值的栅格是另一种。用这两种方式表达地形高程,常称为数字高程模型(digital elevation model,DEM)或数字地面模型(digital terrain model,DTM)。2.8 三维空间的表示(补充)数字地面模型DTM和数字高程模型DEM的关系:数字地面模型是地形表面形态属性信息的数字表达,是带有空间位置特征和地形属性特征的数字描述。数字地形模型中地形属性为高程时称为数字高程模型。高程时地理空间中的第三维坐标,由于传统的地理信息系统的数据结构都是二维,数字高程模型的建立是一个必要的补充。DEM通常用地表规则格网单元构成的高程矩阵表示,广义的DEM还包括等高线、三角网等所有表达地面高程的数字表示。在地理信息系统中,DEM是建立DTM的基础数据,其他的地形要素可由DEM直接或间接导出,称为“派生数据”,如坡度、坡向。2.8 三维空间的表示复杂表示(1)线框模型。用三维的线表示事物的边界,靠消隐算法,可以暂时隐蔽看不到的部分线段。线框模型常用于建筑物、道路、桥梁线框图的绘制,因不表示三维的面,查询、分析功能有限,显示的结果也比较简单。线框模型不适于表示地理信息。(2)表面模型。用三角形相互并接,表示三维物体,属TIN模型的延伸,较常见的是比较复杂的建筑物外部空间,这种表面模型可模拟显示物体的质感、纹理,包括光线的投射、折射、反射、漫射等。(3)简单几何实体模型。用函数、参数预先定义,可实现切割、钻孔、组合等计算,可以判断实体空间的内部、外部,适合形体规则、简单的事物,再经组合达到复杂化(如分子结构、机械零件),在地理信息领域应用尚不广泛。2.8 三维空间的表示(4)规则体元模型。二维栅格纵向拉伸、用简单的三维矩形相互组合,这些方式可表示实体空间。用于地质、水体领域,目前已初步达到实用。(5)不规则体元模型。不规则四面体、金字塔、TIN纵向拉伸、三维棱柱等均被用于三维建模,它们还可以相互组合,目前有多种技术路线,地质,采矿是典型应用领域,目前的应用尚不普及。2.8 三维空间的表示 复杂三维空间表示方法中,体模型适合地质、水体、采矿、地下建筑领域,表面模型适合地面建筑、市政工程领域,该领域,CAD技术处于主导地位,数据的输入、修改可以和建筑、工程的设计合为一体,GIS也开始将三维表面数据模型用于城市规划、管理。三维表面模型的显示功能较强,查询、分析功能较弱,三维体模型可以计算体积,模拟地下空间的钻探、挖掘。2.9 时间的表示事物的时间表示比较复杂,以下介绍几种常用的方法:(1)将收集、定义的空间位置、属性数据作为一个集合,对应一个时间。以城市规划中现状土地使用为例,一般仅注明调查的时间,如2000年。当事物随时间发生变化时,进行局部调整或整体更新后,再定义时间。例如,到2005年调整规划时,重新调查土地使用,将修改或更新后的数据整体保存,注明调查的时间是2005年。这种方式常称为“快照”式,方法简单,但有两个主要的局限:一是未发生变化的数据大量重复存储,冗余度很大;二是事物变化前后之间没有特定联系,需专门处理。(2)针对矢量数据模型,在属性表中用专门的字段表示时间信息。例如,某段道路的高峰小时平均交通量,上一年和下一年不同,可以在同一条记录中用两个独立的字段表示,也可以用两条独立的记录分别表示。对于后者,如果道路的空间位置不发生变化,可以按需要,选择一条记录和要素的空间位置对应起来。因此,本方法仅适合属性变化,空间位置不变。2.9 时间的表示(3)快照式的表示可以改进,针对栅格数据模型,仅保存发生变化的单元,以及单元所在的位置,若有应用需要,在发生变化的位置上做前后对比。这种方法容易做到,但是不适合矢量,当然,栅格数据局部输入有不方便之处,多重属性使用也有限制。(4)针对矢量要素空间位置的变化(如道路改变走向,行政区划调整),对应要素的坐标、属性(包括时间属性)可单独保存,这种方式常称为时间标记。如果要知道某一历史时期的空间、属性变化,按需要提取要素、属性,再做进一步处理,得到分析结果并显示。2.9 时间的表示(5)借助特殊的数学模型,从整体的角度模拟事物的变化。实现动态跟踪、预测按需要输出某个时刻事物的空间分布状态,输出的数据可以是动态过程中的某个瞬间,也可一个阶段。如何表示变化的过程、事物之间的联系,由特定的数学模型决定。这类方法,可模拟台风、暴雨、车辆、城市扩张、房地产价格、人口迁移等。显然,因模拟的对象不同,采用的数学模型也有区别,通用性不强,主要优点是反映整体趋势。特殊的数学模型往往和普通的矢量、栅格数据模型相结合,在动态模拟领域,栅格模型或点状矢量模型较多。动态模拟式近似的,数学模型、相关参数受观察问题的视角、用户经验的影像,还要观测的样本检验模拟的可信度。时间在计算机中还有两类表示:一类是外界事物发生变化的时间,需要专门采集、人工记录或模拟,另一类是计算机处理数据的时间,靠软件自动产生(如电子邮件的发送、传递时间、数据文件生成、修改时间),这类时间也可转换成要素属性、栅格单元的取值。两类表示方法各自发挥不同的作用,有不同的应用价值。章节回顾2.1 数字化和地理信息(数据、信息、地理数据、地理信息)2.2 属性信息的表示(类型:定名、定序、定距、定比、循环)2.3 离散对象和矢量数据模型(点、线、面)2.4 连续场和栅格数据模型2.5 栅格数据的压缩(游程长度编码、四叉树、小波变化、金字塔索引)2.6 矢量和栅格模型的比较(及优缺点)2.7 不规则三角网模型(TIN)2.8 三维空间的表示2.9 时间的表示本章小结 数据模型是用计算机表示现实世界的基础,矢量和栅格是两种最常用的空间数据模型,它们各有相对的优缺点,矢量模型适合表示离散对象,栅格模型适合表示连续场,基于矢量的不规则三角网也是表示连续场的另一种常用模型。记录和表是表示属性数据的基本方法。一个栅格数据集、矢量要素类用计算机显示时,感觉像“层”一样,在很多情况下,层或图层往往成为栅格数据集、矢量要素类的代名词。但在实际应用中,两者有区别。实际应用中,往往把各种栅格、矢量、不规则三角网数据组成不同的层,显示在同一个屏幕内或打印成同一张地图。本章小结 目前已得到推广的GIS主要表示二维空间,用二维半方式表示三维空间也已达到实用,全三维空间的表示尚未达到普遍推广,在城市规划与管理领域,地面室外建筑空间、地下建筑空间已经有局部应用。在该领域,以计算机图形学为基础,CAD和GIS技术往往融合在一起。表示时间的地理信息系统常称时态GIS,对应的数据模型常称时空数据模型,该领域的理论、技术问题也在探索之中,部分成果已能应用。