《遥感图像几种分类方法的比较(共44页).doc》由会员分享,可在线阅读,更多相关《遥感图像几种分类方法的比较(共44页).doc(44页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上摘要遥感图像分类一直是遥感研究领域的重要内容,如何解决多类别的图像的分类识别并满足一定的精度,是遥感图像研究中的一个关键问题,具有十分重要的意义。遥感图像的计算机分类是通过计算机对遥感图像像素进行数值处理,达到自动分类识别地物的目的。遥感图像分类主要有两类分类方法:一种是非监督分类方法,另一种是监督分类方法。非监督分类方法是一个聚类过程,而监督分类则是一个学习和训练的过程,需要一定的先验知识。非监督分类由十不能确定类别属性,因此直接利用的价值很小,研究应用也越来越少。而且监督分类随着新技术新方法的不断发展,分类方法也是层出不穷。从传统的基十贝叶斯的最大似然分类方法到现
2、在普遍研究使用的决策树分类和人工神经网络分类方法,虽然这些方法很大程度改善了分类效果,提高了分类精度,增加了遥感的应用能力。但是不同的方法有其不同优缺点,分类效果也受很多因素的影响。本文在对国内外遥感图像分类方法研究的进展进行充分分析的基础上,应用最大似然分类法、决策树分类法对TM影像遥感图像进行了分类处理。在对分类实现中,首先对分类过程中必不可少的并影响分类效果的步骤也进行了详细地研究,分别是分类样本和分类特征;然后详细介绍两种方法的分类实验;最后分别分析分类结果图,采用混淆矩阵和kappa系数对两种方法的分类结果进行精度评价。关键词:TM遥感影像,图像分类,最大似然法,决策树第一章 绪论土
3、地利用研究是全球环境变化研究的重要组成部分,土地利用变化驱动因子的研究也是目前研究的热点之一。以往由于一个地区缺乏现在和过去土地利用的最新地图以及缺乏处理大量资料的分析方法,土地利用和覆盖变化的研究工作工期长、误差大、费用高,使土地利用规划受到严重影响。遥感技术则以其快速、准确、准时、周期短等优点在大中尺度的土地利用动态监测中具有明显的优势,在国内外已经得到了广泛应用。利用遥感手段获得土地利用信息的一个重要的中间环节就是分类。最先出现的分类技术是图像目视解译分类,它可充分利用判读人员的知识,灵活性好,擅长提取空间相关信息,但定位不准确,时效性差,可重复性差,并存在个人差异。目视解译现在仍然被广
4、泛地应用于对精度要求较高的应用中,特别是在对米级高分辨率遥感图像分类时,目视解译精度一般高于计算机分类精度。计算机遥感图像分类是计算机模式识别技术在遥感领域中的具体应用,其核心任务就是确定不同地物类别间的判别接口和判别准则,可重复性好,定位准确,处理时间短,时效性好。然而与其它的计算机模式识别不同的是,遥感影像数据类别多,含混度大,维数高,高精度的多类别分类识别具有较大难度。传统的计算机分类方法是基于像元光谱统计特性的硬分类,不善于提取空间信息,不容易解决同物异谱、异物同谱、混合像元等问题,常常出现错分、漏分,分类精度不高,且分出的图斑比较零乱,针对传统的计算机分类方法已出现了很多改进。目前遥
5、感图像分类方法繁多而且种类杂乱,每种方法都有其自身的特点,但也不可避免的有一些缺陷,鉴于这种现状,本文将对土地利用遥感分类技术进行综述,详细阐述了不同类型遥感数据的性质及应用范围,并在综合比较分析研究当前主要的遥感图像分类方法基础上,对一般的统计分类方法、针对实际情况的分类方法及其它较新的分类方法进行了论述。1.1遥感图像分类的实际应用及其意义随着空间科技的发展,各种资源环境监测卫星的发射与运行为地表动态变化研究提供了多平台、多光谱、多时相、大范围的实时信息,遥感技术已成为当前人类研究地球资源环境的一种有力技术手段。 在遥感技术的研究中,分类是遥感图像应用的一个重要方面,同时也是学者们研究的重
6、点和热点。随着成像技术及相应数据产品不断的发展,遥感图像分类得到了越来越广泛的应用,由单波段的遥感图像到多光谱图像再到高光谱图像,其应用研究得到不断的扩展和深入。图像分类是由图像生成专题图的过程。卫星遥感图像简称卫星图像。关于卫星图像在探测地球资源和环境中的作用,研究者将遥感的地学应用划分为制图、监测和估算。在这三方面的应用中,制图特别是专题制图是最常用的,并目_可能是其他两种应用的一个前提条件。事实上,许多应用卫星图像进行监测和估算的工作,也常常是与卫星图像的分类和制图联系起来的。而且有时卫星图像分类还可以仅仅作为提取某些特种信息的手段。 卫星图像分类的方法是对传统方法的重大改进,是从定性到
7、定量的一次飞跃6。由于分类的卫星图像都是数字图像,而数字图像的分类又必须通过计算机来进行。这种分类能充分利用卫星数据提供的丰富信息,其结果必定是高度定量化的结果,容易进行面积统计,并从理论上来说可以精确到图像和地面上的像元。当然,如何作好分类以及分类后的应用,并辅助以较少的人工解译,可以大规模节省人力,节省时间,多数情况下还可以节省经费,并完全可以达到与人工解译、勾绘、转绘、量算和传统统计方法结合相同或更高的精度。1.2我国遥感图像分类技术现状从20世纪70年代起,随着第一颗陆地卫星发射成功,人们就开始利用计算机进行卫星遥感图像的解译研究。最初是利用数字图像处理软件对卫星数字图像进行几何纠正与
8、位置配准,在此基础上采用人机交互方式从遥感图像中获取有关地学信息。这种方法的实质仍然是遥感图像目视判读,它依赖于图像解译人员的解译经验与水平,在遥感图像分类方法上并没有新的突破。20世纪80年代,主要是利用统计模式识别方法进行遥感图像的计算机分类,例如Strahier(1980)使用最大似然法对遥感影像数据进行分类,Goldberg(1983)运用光谱特征对多波段卫星影像进行分类,从中获取森林资源信息。这种方法的特点是根据图像中地物的光谱特征对影像中的地物进行分类。这些方法对遥感图像计算机分类的发展起到了推动作用。20世纪90年代期间至今,涌现出了大量的遥感图像分类方法,例如神经网络,支撑向量
9、机等方法都取得较好的效果。在改进波段信息方面wilkinsonGG(1996)通过增加空间结构信息来辅助分类)采用波段比值。神经网络算法用于遥感图像分类始于1988年。因其具有对信息的分布式存储,并行处理、自组织、自学习等特点,在遥感图像分类领域中有较为广泛的应用。如MuralH(1997)提出了基于神经网络和知识发现的分类方法,贾永红等提出了基于BP神经网络的多源遥感影像分类。支撑向量机是由Vapnik提出的。其基本思想是由事先定义的非线性变换函数集,把向量映射到高维特征空间中,按照支撑向量与决策曲面的空隙极大化的原则来产生最优超平面,然后再把高维特征空间的线性决策边界映射到输入空间的非线决
10、策边界。刘志刚探讨了一种基于支撑向量机的遥感影像不完全监督分类新方、法,骆剑承则提出了基于支撑向量机(SVM)的遥感影像空间特征提取的新方法,并以SPOT全色波段影像上城市特征信息的提取为应用实例,并与人工神经网络(ANN)等特征提取方法进行综合比较,认为SVM方法不但能够获得比较高的分类精度,而且在学习速度、自适应能力、特征空间高维不限制、可表达性等方面具有优势。自从1965年扎德教授提出模糊集理论以来,有关模糊信息处理的理论和应用均取得了重大的进展,并由此产生了模糊模式识别方法。后来陆续应用于文字识别、图像分割和语音识别中,并取得了很好的效果。由于地球表层信息的复杂性和开放性,地表信息是多
11、维的、无限的,遥感信息传递过程中的局限性以及遥感信息之间的复杂相关性,决定了感信息的分析具有不确定性、多解性和模糊性,实际上遥感图像所包含的不一定是单纯的地物信息,特别是空间分辨率低的或者是地表复杂度高的影像单元中,往往是多种地物的综合反映(即模糊性)。这一特点使得基于模糊模式识别分类成为遥感影像分类研究中的一个重要趋势。此外,还有像莫源富等专门针对山区遥感图象,提出分区分类法,结合GIS多因子辅助分类及人工屏幕修改,有效地改善了山区遥感图象的识别分类。1.3遥感图像应用于测量中的优势及存在的问题和传统的对地观测手段相比,遥感技术的优势在于:扩大了人们的视野,从可见光发展到红外、微波等波普范围
12、;在遥感与地理信息系统基础上建立的数学模型未定量化研究奠定基础。在一些地学研究领域,促进了定性描述为主导以定量分析为主的过度;同时,还实现了空间和时间的转移:空间上野外部分工作转移导师实验室;时间上从过去、现在的研究发展到三维空间上的地预测未来。1.3.1遥感影像在信息更新方面的优越性使用遥感数据修测地形图,比常规方法大大缩短了时间;在测图和更新修测地图的作业中使用卫星像片要比使用航片的数量大大减少,从而大量地避免了繁琐重复的相片处理工作,同时降低了成本:卫星遥感制图使用的图像资料标准一致,规格统一,是短时间在相同的条件下获得的,能保障的土产品内容上的协调和作业过程的一致。1.3.2遥感影像在
13、提取信息精度方面存在的问题1.几何校正方法的研究国外一些用户由于没有充分考虑卫星影像的几何模型特征,往往根据航空摄影测量的方法和经验,再加上研究区往往缺乏高精度的控制资料,高分辨率卫星影像的校正结果只满足了搞空间分辨率,不能达到高精度。2.信息提取方法的研究随着遥感技术和计算机技术的发展,针对土地覆被专题信息的提取方法不断涌现,因此,信息提取方法体系逐步得到完善诚然如此,不同信息提取方法各有优劣,单纯利用其中某种方法已经不能满足高精度提取要求,如何综合运用多种方法的优点,扬长避短,将是今后研究的重点之一;地学专家知识在土地覆被专题信息提取中具有重要作用如何综合运用各种地学专家知识,包括地物的光
14、谱特征知识、空间结构与形态知识、地物之间的空间关系知识等,建立基于相应知识的遥感信息提取模型是遥感信息提取的发展趋势之所在人工智能、非线性理论的引入,使遥感信息计算机提取技术具有了自学习和智能化的特点,更为复杂的图像理解模型也正在研究之中,它们在信息提取领域将发挥越来越重大的作用,有着广泛的应用前景;“面向地块”的土地覆被信息提取充分发挥了遥感的优势,它不仅仅依据地物的光谱特征,而是综合考虑了地物本身的几何和结构信息,不再把单个像素作为图像的最小处理单元,而是把图像先分成“地块”,以“地块”为研究对象,之后的图像分析和处理也都基于对象进行,因此它将显示出其独特的发展潜力。3.精度评估存在的问题
15、遥感影像分类精度检验是遥感分类技术中一个必不可少的环节,进行精度检验,一方面可以有效地对分类器进行评价从而改造分类器,另一方面也是对遥感分类成果的最终评价 。没有精度说明的数据对用户是没有意义的 ,一般认为,进行遥感影像精度评价,必须用分类数据和检验数据相比较。早期的遥感分类精度检验没有考虑空间位置因素的影响,而且采用训练区数据对分类结果进行检验,导致对分类精度的极大高估。考虑到这两个因素后,一般采用混淆矩阵(Confusion matrix)对分类结果进行精度检验。混淆矩阵既可计算出总精度(Overall accuracy) 、Kappa指数等表示分类总的精度情况的指标, 又可计算出生产者精
16、度( Producers accuracy) 、用户精度(Users accuracy)等表示单个类别分类情况的指标 ,并且混淆矩阵又可作为许多高级统计技术的输入 ,因此被建议作为遥感分类精度检验的标准方法。混淆矩阵的获取是通过分类结果与检验数据相比较而进行的,所采用的流程一般为:通过更为准确的资料,如土地利用图 、航空图像和野外调查数据等,或通过对影像判读的方式,获取检验数据,然后将检验数据与分类结果叠加后获得混淆矩阵。这一过程工作量极大,而且最后的结果很大程度上取决于检验数据的质量。通过野外调查获取的检验数据,由于图像处理和成像有一定的时间间隔,导致地面类型在此期间可能发生了变化,所以难以
17、保证检验数据的100%的正确性,而且遥感影像分类的结果一般是土地覆盖类别,因此直接采用土地利用图作为检验数据源,一般不会产生有效的结果,航空像片的判读结果也不会100%正确,因此用混淆矩阵进行精度检验的方法检验数据的正确性很难保证。除了检验数据的正确性外,要获得有效的检验结果,还必须使检验数据的采样有良好的代表性,因此必须设计出有效的采样方案,包括样本大小和采样方法等。但实际上由于各种因素(包括财力和采样点的通达性等)的影响,很难获取充足的检验数据,致使影像处理人员倾向于用小样本进行精度检验;各种采样方法也都有其优缺点,难以找到一个通用的普适性方案。1.4研究内容及研究方法1.4.1研究内容本
18、研究使用ENVI自带的大小为像素的影像美国陆地卫星Landsat-5 TM多光谱遥感图像作为主要数据源(所得图像已经经过辐射校正、几何校正和一些增强处理,可以直接使用)进行处理计算。研究应用决策树方法、最大似然法、最小距离法、支撑向量机和人工神经网络对该地区主要地物的遥感图像的分类,并与传统的监督分类方法进行分析和精度比较。研究过程中,传统的监督分类方法是采用分类精度较高的最大似然分类法和最小距离法;决策树分类方法采用地物样本的不同特征差异建立决策规则作为判别函数建立决策树,然后利用决策树进行分类,神经网络分类方法采用遥感图像的不同特征(原始光谱特征、主成分分析和缨帽变换特征)。本次研究还对分
19、类结果进行精度比较分析。1.4.2 研究方法(1)在广泛查阅国内外有关遥感影像分类的文献资料后,进一步了解遥感分类的研究进展和发展趋势,重点是最大似然法和决策树在遥感分类中的应用与研究现状。(2)掌握遥感图像各种不同分类特征的分析理论和计算方法;(3)熟练掌握基本的遥感图像分类方法和理论、以及最大似然和决策树的理论知识,确定研究中采用的最大似然和决策树的模型及其算法;(4)熟练掌握混淆矩阵和kappa分析技术对分类结果进行精度计算方法。(5)通过野外的实地考察,收集各方面的数据资料(包括影像图和实地采样数据),为提高分类精度提供基础。(6)熟练掌握遥感图像的处理软件ENVI4.0中图像预处理、
20、分析及分类等基本的操作功能。1.5 论文结构本文分为五部分。第一章为绪论,主要介绍本次研究的目的、意义以及遥感图像分类识别技术发展现状和存在的问题,并提出本研究的主要内容和研究方法;第二章为遥感图像分类技术的基本理论,介绍遥感图像分类的整个过程的基本原理,传统的监督、非监督分类的基本算法,分类精度评价方法,为本研究提供理论基础;第三章介绍本次分类研究区典型地物类型样本的确定原则和方法,并提出本次分类实验样本的选取方案;第四章为本次分类实验的具体方法和结果,展示了遥感图像分类的全过程,并评价不同分类方法的分类效果;第五章为总结和展望,总结本次的研究工作和不足,对未来的研究展开思路打下铺垫。第二章
21、 遥感图像的分类2.1 监督分类监督分类就是先用某些己知训练样本让分类识别系统进行学习,待其掌握了各个类别的特征后,按照分类的决策规则进行分类下去的过程。目前比较成熟的分类方法,一般是概率统计分类方法。除此之外,尚有模拟自然语言的句法结构分类方法和模糊数学分类方法等。就统计分类方法而论,其为通过计算各类别的均值、方差、协方差、标准偏差和离散度等统计量,作为进行比较不同类别的相似程度的依据和标准,也即在这些统计量的基础上建立各个组的类别识别特征来进行分类。自然,监督分类的精度要比非监督分类的方法高些,准确性要好一些,但是监督分类的工作量也要比非监督分类方法大得多。首先,监督分类有一事先训练样本的
22、工作,训练样本要选好,要有一定的代表性,而且要有足够的数量。另外,对于遥感图像分类来说,由于各种地物波谱辐射的复杂性以及干扰因素的多样性,有时仅仅考虑在某特定时间和空间内选取训练样本还是不够的,为了提高分类的精度,这时还必须多选取一些样本组和研究一些新的分类算法。2.1.1 监督分类的步骤一般地,分类后不同的图像区域之间性质差异应尽可能地大,而区域内部性质应保证平稳特性。遥感图像分类大致按图2.1的顺序进行:数据获取和预处理特征提取和选择分类器设计图像分类图2.1 遥感分类流程遥感图像计算机分类处理的基本过程27,包括原始图像的预处理、训练样本的选择、特征的选择和特征提取、分类器设计、图像分类
23、、结果输出以及结果检验等。监督分类的主要步骤如下:(1)确定感兴趣的类别数。首先确定对哪些地物进行分类,这样就可以建立这些地物的先验知识。(2)特征变换和特征选择。特征变换就是原图像通过一定的数字变换生成一组新的特征图像,这一组新的特征影像信息集中在少数几个特征图像上,这样数据量有所减少。遥感图像自动分类中主要的特征变换有主分类变换、哈达玛变换、生物量指标变换、比值变换以及穗帽变换等。最常用的特征变换是主分量变换,K-L变换的主要特点是:(1)变换前后方差总和不变,而是把原来方差等量的再分配到新的组分图像中;(2)第一组分取得方差的绝大部分,一般占80%以上,也就是说K-L变换的结果使得第一主
24、成分几乎包含了原来多个波段信息的绝大部分内容,其他组分图像的方差依次减少,包含的信息量也剧减;(3)各组分之间相关系数为0或接近0,也就是说各组分图像所包含的信息内容在很大程度上是不同的;(4)第一主成分相当于原来各波段的加权和,而权值又与该波段的方差大小成正比(方差大,则图像包含的信息量大),反映了地物总的反射强度。其余组分相当于不同组分的加权差值图像;(5)对第一组分进行高通滤波,有利于细部特征的增强和分析;(6)多数情况下,第一主成分主要包含的是地形和植被方面的信息。采用K-L变换选取能量较大的M个分量代替原来的D个分量。通过K-L变换,消除了原有向量的各分量之间的相关性,从而有可能去掉
25、那些带有较少信息的坐标轴以达到降低特征空间维数的目的。根据感兴趣地物的特征进行有针对的特征变换,变换之后的特征影像和原始影像共同进行特征选择,以选出既能满足分类分类需要,又尽可能少参与分类的特征影像,加快分类速度,提高分类精度。(3)选择训练样本。训练样本的选择是非常重要的一步,在监督分类中由于训练样本的不同,分类结果就会出现极大的差异。因此,遥感分类结果的好坏很大程度上取决于训练样本的正确选择。训练样本的选取包括两个方面,一是确定要分类的地物类型;二是确定训练样本的数量。然而对训练样本的如何选取并没有十分明确的方法,不同的分类方法及其不同的应用采用不同的选取方法。但是对训练样本的选取要求是一
26、致的,其要求是:类别,选择的训练场地所包含的类别在种类上应与研究地域所要区分的类别一致。不连续性,训练场地各样本在物理空间上可以是不连续的。代表性,训练场地样本应该在各类地物面积较大的中心部分进行选取,而不应在各类地物的混交地区和类别的边缘选取,以保证数据的单纯性(均一物质的亮度值)。分布,各类训练场地样本还必须与采用的分类方法所要求的分布一致,如最大似然法假设各变量是正态分布,训练样本应尽量满足这一要求。数量,要使各类训练样本能够提供各类的足够信息和克服各种偶然因素的影响,各类训练样本应该有足够样本数。训练样本的个数与所采用的分类方法、特征空间的维数、各类的大小和分布等有关。当采用最大似然法
27、对样本数目至少要n+l个(n为特征空间的维数),因为少于这个数目协方差矩阵将是奇异的,行列式为0,也无逆阵。当采用建立在统计意义上的各种方法(如最大似然法)时,更要对样本数目有所要求。因为从统计学的观点来看只有在一定数量上的统计才有意义。但对样本个数的要求也不是越大越好。因为大的数量除了增加计算量外也带来寻找的困难。对于大的类别、分布规律性差的类别有时要多选些训练样本,反之少选些。(4)确定判别函数和判别规则。一旦训练样区被选定后,相应的地物类别的光谱特征便可以利用训练样区中的样本进行统计。图像分类运算就是根据判别函数和判别准则对非训练样本区进行分类,对特征向量集进行划分、完成分类识别工作。(
28、5)精度评估。根据分类结果产生的混淆矩阵中的总精度和Kappa系数对分类结果进行评价。2.1.2 最大似然法最大似然法因有严密的理论基础,对于呈正态分布的类别判别函数易于建立,综合应用了每个类别在各波段中的均值,方差以及各波段之间的协方差,有较好的统计特性,一直被认为是最先进的分类方法。1.基本原理最大似然比判决分类方法是建立在贝叶斯准则基础上的,其分类错误概率最小,是风险最小的判决分析,是典型的和应用最广的监督分类方法,偏重于集群分布的统计特性,并假定训练样本数据在光谱空间服从高斯正态分布。用最大似然法分类,具体分为三步:首先确定各类的训练样本,再根据训练样本计算各类的统计特征值,建立分类判
29、别函数,最后逐点扫描影像各像元,将像元特征向量代入判别函数求出其属于各类的概率,将待判断像元归属于判别函数概率最大的一组。该分类法错误最小精度高,是较好的一种分类方法。不足的是传统的人工采样方法工作量大,效率低,加上人为误差的干扰,使得分类结果的精度较差。利用GIS 数据来辅助最大似然法分类,可以提高分类精度,通过建立知识库指导分类的进行,可以减少分类的错误,这是提高最大似然法分类的精度的有效途。最大似然法分类公式: (2.1)其中:D:加权距离(可能性); c:某一特征类型; X:像素的测量矢量;:类型C的样本平均矢量;:任一像素属于类型c的百分概率(缺省为1.0,或根据先验知识输入);:类
30、型C的样本中的象素的协方差矩阵;:的行列式;:Covc的逆矩阵; ln:自然对数函数; T:转置函数分类步骤:1)确定需要分类的地区、使用的波段和特征分类数,检查所用各波段或特征分量的位置是否已经相互配准;2)根据已掌握典型地区的地面情况,在图像上选择训练区;3)根据选出的各类训练区的图像数据,计算和,确定先验概率;4)分类,将训练区以外的图像像元逐个逐类地代入公式2.2,对于每个像元,分几类就计算几次,最后比较大小,选择最大值得出类别;5)产生分类图,给每一类规定一个值,如分10类,就为1,2,10,分类后的像元值用类别值替代,最后得到分类专题图像,因最大灰阶值等于类别数,在监视器上显示时需
31、要给各类加上不同彩色;6)检验结果,如分类中错误较多,需重新选择训练区再走以上各步,直到结果满意为止。2.1.3 平行多面体分类方法平行多面体分类法是根据设定在各轴上的值域,在多维数据特征空间中划分出若干个互不重叠的平行多面体块段(特征子空间)。应用这种方法进行分类需要由训练组数据学习产生基本的统计量信息,包括每个类别的均值向量和标准向量。若有n个波段,m个类别,用代表第i类第j波段的均值,为对应的标准差,为像元x在j波段的像元值。对于某一个类别i(i=1,2,m)当像元x满足: (2.2)即该像元在所有波段的灰度值都符合上述条件,就把像元x归入第i列,即Class(x)=i;否则不能归入已知
32、类别,即Class(x)=0。式中T为人为规定的一个阈值,相当于有概率分布触发,采用几个标准差作为可信的分类边界,T越大则一个类的范围越大。这种方法比较简单,计算速度比较快。主要问题是按照各个波段的均值为标准差划分的平行多面体与实际地物类别数据点分布的点群形态不一致,也就造成俩类的互相重叠,混淆不清的情况。2.1.4 最小距离分类方法最小距离分类法是以特征空间中的距离作为像素分类的依据。首先有训练样本数据得出每一类别的均值向量和协防差矩阵,然后以各类的均值向量作为该类在多维空间中的中心位置。计算输入图像中的每个像元到各类的距离,到那一类中心的距离最小,则该像元就归入哪一类别。因此,在这类分类方
33、法中距离就是一个判别函数。最小距离分类原理简单,分类精度不高,但计算速度快,它可以在快速浏览分类概况中使用。通常使用马氏距离、欧氏距离、计程距离这三种判别函数。2.1.5监督分类的特点主要优点:可充分利用分类地区的先验知识,预先确定分类的类别;可控制训练样本的选择,并可通过反复检验训练样本,以提高分类精度(避免分类中的严重错误);可避免非监督分类中对光谱集群组的重新归类。主要缺点:人为主观因素较强;训练样本的选取和评估需花费较多的人力、时间;只能识别训练样本中所定义的类别,对于因训练者不知或因数量太少未被定义的类别,监督分类不能识别,从而影响分结果(对土地覆盖类型复杂的地区需特别注意)。2.2
34、 非监督分类依据是否使用类别的先验知识,可分为监督分类(Supervised Classification)和非监督分类(Unsupervised Classification)。非监督分类是指人们事先对分类过程不施加任何的先验知识,仅凭遥感图像地物的光谱特征的分布规律,随其自然地进行自目的分类。其分类的结果只是使不同类别达到了区分,并不确定类别的属性,其属性是通过事后对各类的光谱响应曲线进行分析,以及与实地调查相比较后确定的。遥感图像上的同类地物在相同的地表结构特征、植被覆盖、光照等条件下,一般具有相同的或相近的光谱特征,从而表现出某种内在的相似性,归属于同一光谱空间区域;不同的地物,光谱信
35、息特征不同,归属于不同的光谱空间区域。这就是非监督分类的理论依据。由于在一幅复杂的图像中,训练区有时不能包括所有的地物光谱样式,这样就造成一部分像元找不到归属。在实际工作中为了进行监督分类而确定类别和训练区的选取也是不易的,因而在开始分析图像时,用非监督分类方法来研究数据的本来结构及其自然点群的分布情况是很有价值的。非监督分类主要采用聚类分析的方法,聚类是把一组像素按照相似性归属为若干类别。目的是使得属于同一类别的像素之间的距离尽可能地小,而不同类别的像素之间的距离尽可能地大。非监督分类算法的核心问题是初始类别参数的选定,以及它的迭代调整问题。非监督分类最常用的方法有ISODATA, K-Me
36、an方法。2.2.1 K-means算法K-均值分类法也称为k-means算法,是一种较典型的逐点修改迭代的动态运算的聚类算法,也是一种普遍采用的一种算法。K-means聚类的准则是使每一聚类中多模式点到该类别的中心距离的平方和最小。一般先按某些原则选择一些代表点作为聚类的核心,然后把其余的待分点按某种方法分到各类中去,完成初始分类。初始分类完成后,重新计算各聚类中心,完成第一次迭代。然后修改聚类中心,以便进行下一次迭代。这种修改有两种方案,即逐点修改和逐批修改。逐点修改聚类中心就是一个像元样本按照某种原则属于某一组类后,重新计算这个组类的均值,并且以新的均值作为聚类中心点进行下一次像元的聚类
37、。逐批修改类中心就是在全部像元样本按某一组的类中心分类之后,再计算修改各类的均值,作为下一次分类的聚类中心点。算法流程框如图2.2所示。开始选择m个中心Z1,Z2,Zn所有象元分到m个集群中心子计算新的集群中心聚类中心不变结束图2.2 K-means分类算法流程框K-means分类方法简便易行,其基本思想就是:通过迭代,逐次移动各类的中心,直至得到最好的聚类结果为止。这种方法的结果受到所选聚类中心的数目和其初始位置以及模式分布的几何性质和读入次序等因素的影响,并且在迭代的过程中又没有调整类别数的措施,因此不同的初始分类可能会得到不同的分类结果,这种分类方法的缺点。可以通过其它的简单的聚类中心试
38、探方法来找出初始中心,提高分类结果。2.2.2 ISODATA分类方法ISODATA 算法是利用合并和分开的一种著名的聚类方法。它从样本平均迭代来确定聚类的中心,在每一次迭代时,首先在不改变类别数目的前提下改变分类。然后将样本平均矢量之差小于某一指定阈值的类别对合并起来,或根据样本协方差矩阵来决定其分裂与否。主要环节是聚类、集群分裂和集群合并等处理。它与K-means算法有点不同:第一,它不是每调整一个样本的类别计算一次各样本的均值,而是在每次把所有样本的类别类别都调整完毕之后才重新计算一次各样本的均值,前者称为逐个样本修正法,后者称为成批样本修正法;第二,ISODATA算法不仅可以通过调整样
39、本所属类别完成样本的聚类分析,而且可以自动的进行类别的“合并”和“分裂”,从而得到类数比较合理的聚类效果。ISODATA 算法是个循环过程,算法过程框如图2.3所示。输入参数改变输入参数最后一次迭代计算聚类中心及均值等近邻聚类 最后一次迭代Nck/2完成分裂运算.置c=0符合合并条件见条件合并运算符合合并条件结束 YYNYYNYNYNN图2.3 ISODATA算法流程图其初始的集群组是随机地在整幅图像的特征空间选择Cmax,基本的步骤为:初始随机的选择Cmax 中心;计算其他像元离这些中心的距离,按照最小距离规则划分到其对应的集群中;重新计算每个集群的均值,按照前面定义的参数合并或分开集群组;
40、重复和,直到达到最大不变像元百分比,或者最长运转时间。2.2.3非监督分类的特点主要优点:无需对分类区域有广泛地了解,仅需一定的知识来解释分类出的集群组;人为误差的机会减少,需输入的初始参数较少(往往仅需给出所要分出的集群数量、计算迭代次数、分类误差的阈值等);可以形成范围很小但具有独特光谱特征的集群,所分的类别比监督分类的类别更均质;独特的、覆盖量小的类别均能够被识别。 主要缺点:对其结果需进行大量分析及后处理,才能得到可靠分类结果;分类出的集群与地类间,或对应、或不对应,加上普遍存在的“同物异谱”及“异物同谱”现象,使集群组与类别的匹配难度大;因各类别光谱特征随时间、地形等变化,则不同图像
41、间的光谱集群组无法保持其连续性,难以对比。2.4遥感图像分类新方法2.4.1基于决策树的分类方法决策树分类作为一种基于空间数据挖掘和知识发现(Spatial Data Mining and Knowledge Discovery,SDMKD)的监督分类方法,突破了以往分类树或分类规则的构建要利用分类者的生态学和遥感知识先验确定、其结果往往与其经验和专业知识水平密切相关的问题,而是通过决策树学习过程得到分类规则并进行分类,分类样本属于严格“非参”,不需要满足正态分布,可以充分利用GIS数据库中的地学知识辅助分类,大大提高了分类精度。(1)决策树分类算法决策树算法:决策树(Decision tre
42、e)是通过对训练样本进行归纳学习生成决策树或决策规则,然后使用决策树或决策规则对新数据进行分类的一种数学方法。决策树是一个树型结构,它由一个根结点(Rootnode)、一系列内部结点(Internal nodes)及叶结点(Leaf nodes)组成每一结点只有一个父结点和两个或多个子结点,结点间通过分支相连。决策树的每个内部结点对应一个非类别属性或属性的集合(也称为测试属性),每条边对应该属性的每个可能值。决策树的叶结点对应一个类别属性值,不同的叶结点可以对应相同的类别属性值。决策树除了以树的形式表示外,还可以表示为一组IFTHEN形式的产生式规则。决策树中每条由根到叶的路径对应着一条规则,
43、规则的条件是这条路径上所有结点属性值的舍取,规则的结论是这条路径上叶结点的类别属性。与其它分类方法相比,规则更简洁、更便于人们理解、使用和修改,可以构成专家系统的基础。因此在实际应用中更多的是使用规则。构造决策树的方法是采用自上而下的递归构造,其思路是:以代表训练样本的单个结点开始建树(步骤1)。如果样本都在同一类,则该结点成为树叶,并用该类标记(步骤2和3)。否则,算法使用称为信息增益的机遇熵的度量为启发信息,选择能最好地将样本分类的属性(步骤6)。该属性成为该结点的“测试”或“判定”属性(步骤7)。值得注意的是,在这类算法中,所有的属性都是分类的,即取离散值的。连续值的属性必须离散化。对测
44、试属性的每个已知的值,创建一个分支,并据此划分样本(步骤810)。算法使用同样的过程,递归地形成每个划分上的样本决策树。一旦一个属性出现在一个结点上,就不必考虑该结点的任何后代(步骤13)。递归划分步骤,当下列条件之一成立时停止:(a)给定结点的所有样本属于同一类(步骤2和3)。(b)没有剩余属性可以用来进一步划分样本(步骤4)。在此情况下,采用多数表决(步骤5)。这涉及将给定的结点转换成树叶,并用samples中的多数所在类别标记它。换一种方式,可以存放结点样本的类分布。(c)分支test_attribute=ai 没有样本。在这种情况下,以samples中的多数类创建一个树叶(步骤12)。
45、算法Decision_Tree(samples,attribute_list)输入由离散值属性描述的训练样本集samples;候选属性集合attribute_list。输出一棵决策树。(1) 创建节点N;(2) If samples 都在同一类C中then (3) 返回N作为叶节点,以类C标记;(4) If attribute_list为空then (5) 返回N作为叶节点,以samples 中最普遍的类标记;/多数表决(6) 选择attribute_list 中具有最高信息增益的属性test_attribute;(7) 以test_attribute 标记节点N;(8) For each t
46、est_attribute 的已知值v /划分 samples(9) 由节点N分出一个对应test_attribute=v的分支;(10)令Sv为 samples中 test_attribute=v 的样本集合;/一个划分块(11) If Sv为空 then (12) 加上一个叶节点,以samples中最普遍的类标记;(13) Else 加入一个由Decision_Tree(Sv,attribute_list-test_attribute返回节点值。决策树方法主要是决策树学习和决策树分类两个过程。决策树学习过程是通过对训练样本进行归纳学习(Inductive 1earning),生成以决策树形
47、式表示的分类规则的机器学习(Machine learning)过程。决策树学习的实质是从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。决策树学习算法的输入是由属性和属性值表示的训练样本集,输出是一棵决策树(也可以扩展为其它的表示形式,如规则集等)。决策树的生成通常采用自顶向下的递归方式,通过某种方法选择最优的属性作为树的结点。在结点上进行属性值的比较并根据各训练样本对应的不同属性值判断从该结点向下的分支,在每个分支子集中重复建立下层结点和分支,并在一定条件下停止树的生长,在决策树的叶结点得到结论,形成决策树。通过对训练样本进行决策树学习生成决策树,决策树可以根据属性的取值对一个未知样本集进行分类,图2.3表示了决策树学习和分类的基本过程与框架。训练样本集属性分类生成决策树修剪决策树评估决策树决策树决策树规则集分类结果待分数剧集分类 图2.3决策树学习和分类流程(2)决策树技术应用于遥感影像的土地利分类过程中的优点决策械方法不需要假设先验概率分布,这种非参数化的特点使其具有更好的灵活性和鲁棒性,因此,当遥感影像数据特征的空间分布很复杂,或者多源数据各维具有不同的统计分布和尺度时,用决策树分类法能获得理想的
限制150内