《计量地理学第八章主成份精选文档.ppt》由会员分享,可在线阅读,更多相关《计量地理学第八章主成份精选文档.ppt(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计量地理学第八章主成份本讲稿第一页,共二十页第八章第八章 地理系统要素关系的主成分分析地理系统要素关系的主成分分析本讲稿第二页,共二十页第八章第八章 地理系统要素关系的主成分分析地理系统要素关系的主成分分析问题的提出本讲稿第三页,共二十页第八章第八章 地理系统要素关系的主成分分析地理系统要素关系的主成分分析问题的提出本讲稿第四页,共二十页第八章第八章第八章第八章 地理系统要素关系的主成分分析地理系统要素关系的主成分分析地理系统要素关系的主成分分析地理系统要素关系的主成分分析在地理系统的区域构成分析中,常常用多个指标来分析、比较各个地理区域在地理系统的区域构成分析中,常常用多个指标来分析、比较各
2、个地理区域的特征和的特征和“职能职能”,为地理区域类型的划分和制定区域发展战略提供依据。但,为地理区域类型的划分和制定区域发展战略提供依据。但由于指标多会增加分析问题的复杂性,由于指标多会增加分析问题的复杂性,以少数几个指标或以少数几个指标或“成分成分”来代表多数指来代表多数指标标就成为分析这类问题的关键。就成为分析这类问题的关键。例如:在土地资源研究中,需要对土壤样品进行多指标的分析化验,而这些要素之间很可例如:在土地资源研究中,需要对土壤样品进行多指标的分析化验,而这些要素之间很可能存在密切关系,要考察全部要素或指标,需要做大量重复的工作。而以少数指标代替全能存在密切关系,要考察全部要素或
3、指标,需要做大量重复的工作。而以少数指标代替全部指标,则可以使研究问题简化。部指标,则可以使研究问题简化。本章介绍解决上述问题的数学方法本章介绍解决上述问题的数学方法主成分分析主成分分析,它,它是原始变量的线性组合是原始变量的线性组合,但但较原始变量更集中、更典型地表明了研究对象的特征较原始变量更集中、更典型地表明了研究对象的特征。本讲稿第五页,共二十页第八章第八章 地理系统要素关系的主成分分析地理系统要素关系的主成分分析1主成分分析方法的原理主成分分析方法的原理主成分分析是把原来多个指标化为少数几个综合指标的一种统计方法主成分分析是把原来多个指标化为少数几个综合指标的一种统计方法。设有。设有
4、n个个地理区域,每个地理区域测得地理区域,每个地理区域测得p个指标,总共有个指标,总共有np个观测数据。若个观测数据。若n=100,p=10,则,则有有1000个地理数据。如何从这么多指标的数据中抓住地理事物的内在规律性呢?个地理数据。如何从这么多指标的数据中抓住地理事物的内在规律性呢?如前所述,多数情况下,指标之间存在着相关关系,这时要弄清楚它们的规如前所述,多数情况下,指标之间存在着相关关系,这时要弄清楚它们的规律须在律须在p维空间中加以考察,这是比较麻烦的。为了克服这个困难,一个自维空间中加以考察,这是比较麻烦的。为了克服这个困难,一个自然的想法是然的想法是找较少的综合指标来代表原来较多
5、的指标,而这些综合指标既能找较少的综合指标来代表原来较多的指标,而这些综合指标既能尽量多地反映原来的信息,彼此之间又是独立的尽量多地反映原来的信息,彼此之间又是独立的。综合指标如何选取呢?通常是取原指标的线性组合,适当调整它们的系数,使综合综合指标如何选取呢?通常是取原指标的线性组合,适当调整它们的系数,使综合指标之间相互独立且代表性最好。指标之间相互独立且代表性最好。本讲稿第六页,共二十页第八章第八章 地理系统要素关系的主成分分析地理系统要素关系的主成分分析如果原来的单项指标记为如果原来的单项指标记为x1,x2,.xp;它们的综合指标记为;它们的综合指标记为z1,z2,.zm(mp)。特)。
6、特别当别当p=2时,原指标是时,原指标是x1,x2。设设n个散布点大致为一个椭圆形。如图个散布点大致为一个椭圆形。如图81,若在椭圆长轴方向取坐标,若在椭圆长轴方向取坐标z1,短轴短轴方向取坐标方向取坐标z2,这相当于在平面上作一个坐标变换,变换后的坐标具有下述性质:,这相当于在平面上作一个坐标变换,变换后的坐标具有下述性质:(1)n个点的坐标个点的坐标z1和和z2的相关性几乎为零;的相关性几乎为零;(2)二维平面上)二维平面上n个点的波动大部分可以归结为个点的波动大部分可以归结为z1轴上的波动。轴上的波动。本讲稿第七页,共二十页第八章第八章 地理系统要素关系的主成分分析地理系统要素关系的主成
7、分分析于是称于是称z1和和z2是原指标是原指标x1和和x2的主成分。如果图的主成分。如果图81的椭圆是相当扁平的,则可以考虑的椭圆是相当扁平的,则可以考虑z1方向上的波动,忽视方向上的波动,忽视z2方向的波动,不会犯很大错误。方向的波动,不会犯很大错误。z1就是就是x1和和x2的综合的综合指标。显然有指标。显然有z1=l11x1+l12x2。反映反映n个点波动情况的整体离差平方和满足如下关系:个点波动情况的整体离差平方和满足如下关系:所谓所谓z1反映的信息就是其相关部分在整个离差平方和中的比例,这个比例越大越好。主成反映的信息就是其相关部分在整个离差平方和中的比例,这个比例越大越好。主成分分析
8、就是找出原指标的一系列综合指标,并计算各个综合指标的离差平方和,选取数分分析就是找出原指标的一系列综合指标,并计算各个综合指标的离差平方和,选取数值较大的几个作为主成分,以作为后面分析的基础。值较大的几个作为主成分,以作为后面分析的基础。本讲稿第八页,共二十页基本原理 问题的提出:有n个地理样本,每个样本共有p个变量,构成一个np阶的地理数据矩阵 当p较大时,在p维空间中考察问题比较麻烦。定义:(记x1,x2,xP为原变量指标,z1,z2,zm(mp)为新变量指标)(1)(2)本讲稿第九页,共二十页z1,z2,zm分别称为原变量指标x1,x2,xP的第一,第二,第m主成分。主成分分析的主要任务
9、就是确定每一个主成分主成分分析的主要任务就是确定每一个主成分Z Zi在原变量在原变量x xj上的载荷上的载荷l lij系数lij的确定原则:zi与zj(ij;i,j=1,2,m)相互无关;z1是x1,x2,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,xP的所有线性组合中方差最大者;zm是与z1,z2,zm1都不相关 的x1,x2,xP的所有线性组合中方差最大者。本讲稿第十页,共二十页计算步骤 计算相关系数矩阵 rij(i,j=1,2,p)为原变量xi与xj的相关系数。计算步骤:解特征方程,求出特征值,并使其按大小顺序排列,即 分别求出对应于特征值的特征向量 要求=1,即,其
10、中表示向量的第j个分量。计算主成分贡献率及累计贡献率(3)本讲稿第十一页,共二十页(5)(6)各主成分的得分:计算主成分载荷累计贡献率:贡献率:本讲稿第十二页,共二十页第八章第八章 地理系统要素关系的主成分分析地理系统要素关系的主成分分析2主成分分析的解法主成分分析的解法下面用一个简单的例子来说明主成分分析的解法。下面用一个简单的例子来说明主成分分析的解法。设有一组古生物腕足动物贝壳标本的两个变量:长度和宽度。所测量的数据设有一组古生物腕足动物贝壳标本的两个变量:长度和宽度。所测量的数据列于表列于表81。图。图82是数据的散布图。是数据的散布图。本讲稿第十三页,共二十页第八章第八章 地理系统要
11、素关系的主成分分析地理系统要素关系的主成分分析表表81中中x1为贝壳长度,其方差为贝壳长度,其方差2 2x x1 1=20.3=20.3;x x2 2为贝壳宽度,其方差为贝壳宽度,其方差2 2x x2 2=24.1=24.1;x x1 1与与x x2 2的协方差的协方差COVCOV(x x1 1,x,x2 2)=COV=COV(x x2 2,x,x1 1)=15.6=15.6。可用方差协方差矩阵表示。可用方差协方差矩阵表示。我们可以在同一坐标系统中,用向量来表示方差和协方差,如图我们可以在同一坐标系统中,用向量来表示方差和协方差,如图8 83 3。主成分分析的主成分分析的实质实质就是要就是要求
12、出方差协方差矩阵的特征向量及其对应的特征求出方差协方差矩阵的特征向量及其对应的特征值值,即要,即要找出方差协方差矩阵所确定的椭球的主轴,并确定其长度。找出方差协方差矩阵所确定的椭球的主轴,并确定其长度。图图8 84 4表示表示方差和协方差所确定的椭圆,其长轴方差和协方差所确定的椭圆,其长轴为第一主成分,短轴为第一主成分,短轴为第二主成分。这可为第二主成分。这可由方差协方差矩阵计算得到。由方差协方差矩阵计算得到。根据计算的结果可知,第一主成分为根据计算的结果可知,第一主成分为Z1=0.66x1+0.75x2,其方差为,其方差为37.9;第二主成分;第二主成分Z2的方差为的方差为6.5。二者之和与
13、。二者之和与x1和和x2的总方差相等。可见,两个主成分所代表的信息分别为的总方差相等。可见,两个主成分所代表的信息分别为86%和和14%。本讲稿第十四页,共二十页第八章第八章 地理系统要素关系的主成分分析地理系统要素关系的主成分分析将表将表81的原始数据代入两个主成分的表达式,可得出一组新的数据,称为主成分得分,的原始数据代入两个主成分的表达式,可得出一组新的数据,称为主成分得分,见表见表82。由于提取主成分的主要原则是使方差最大,为了排除数量级、量纲的影响,在由于提取主成分的主要原则是使方差最大,为了排除数量级、量纲的影响,在具体应用这一方法时,一般先对原始数据进行标准化处理。这时数据的方差
14、具体应用这一方法时,一般先对原始数据进行标准化处理。这时数据的方差协方差矩阵即为原始数据的相关矩阵。协方差矩阵即为原始数据的相关矩阵。由此,可以把主成分分析的步骤归纳如下:由此,可以把主成分分析的步骤归纳如下:1.将原始数据标准化(消除量纲的影响)2.建立变量的协差阵(标准化后即相关系数阵)3.计算相关系数阵的特征根及相应的单位特征向量4.计算主成分贡献率和累积贡献率5.计算主成分载荷6.确定主成分得分本讲稿第十五页,共二十页第八章第八章 地理系统要素关系的主成分分析地理系统要素关系的主成分分析4.4.计算贡献率计算贡献率k k/i i和相应的累积贡献率,一般取累积贡献率达和相应的累积贡献率,
15、一般取累积贡献率达85%85%95%95%的特征值所对应的特征值所对应的主成分即可。的主成分即可。5.5.计算主成分载荷计算主成分载荷P=(Zk,xi)=sqrtP=(Zk,xi)=sqrt(k k)l lkiki6.6.根据主成分的公式计算各个观测点的主成分得分,为后续的地理问题的分析提供可根据主成分的公式计算各个观测点的主成分得分,为后续的地理问题的分析提供可用的数据。用的数据。3特征值与特征向量的计算方法(略)特征值与特征向量的计算方法(略)本讲稿第十六页,共二十页第八章第八章 地理系统要素关系的主成分分析地理系统要素关系的主成分分析4主成分分析应用实例主成分分析应用实例例例1 1主成分
16、分析在农业区划中的应用主成分分析在农业区划中的应用在对安徽省歙县进行农业区划的过程中,对歙县的自然条件、自然资源和农业在对安徽省歙县进行农业区划的过程中,对歙县的自然条件、自然资源和农业生产现状等方面分析研究的基础上,选择了生产现状等方面分析研究的基础上,选择了9 9个能反映该县自然、社会、经济等个能反映该县自然、社会、经济等条件,以及由这些条件影响侠额农业生产特点的变量,它们分别是山地面积比条件,以及由这些条件影响侠额农业生产特点的变量,它们分别是山地面积比重重(x1)(x1)、耕地面积比重、耕地面积比重(x2)(x2)、水田占耕地的比重、水田占耕地的比重(x3)(x3)、菜园面积比重、菜园
17、面积比重(x4)(x4)、果、果桑园面积比重桑园面积比重(x5)(x5)、茶叶收入比重、茶叶收入比重(x6)(x6)、林业收入比重、林业收入比重(x7)(x7)、副业收入比重、副业收入比重(x8)(x8)以及粮食自给率以及粮食自给率(x9)(x9)。对这些原始数据必须用数理统计的方法,使其变成一些相互独立,为数较少的综合指标,对这些原始数据必须用数理统计的方法,使其变成一些相互独立,为数较少的综合指标,以这些指标作为农业区划的新的数值依据。主成分分析就是一种有效的方法。以这些指标作为农业区划的新的数值依据。主成分分析就是一种有效的方法。本讲稿第十七页,共二十页第八章第八章 地理系统要素关系的主
18、成分分析地理系统要素关系的主成分分析根据分析的结果,前根据分析的结果,前5 5个主成分的累积贡献率已达个主成分的累积贡献率已达93.241%93.241%,所以作者用它们代替原始因,所以作者用它们代替原始因子所代表的全部信息。子所代表的全部信息。并计算出每个样本的各个主成分得分,组成一个新的数据集,作为进一步应用系统并计算出每个样本的各个主成分得分,组成一个新的数据集,作为进一步应用系统聚类方法进行县级农业区划的新出发点。聚类方法进行县级农业区划的新出发点。例例2.2.地形水文系统要素的主成分分析地形水文系统要素的主成分分析为了研究某一地区气候、地表特征和地貌之间的关系,选取了为了研究某一地区
19、气候、地表特征和地貌之间的关系,选取了5757个流域盆地,并测量了个流域盆地,并测量了九个要素,它们是:九个要素,它们是:x1x1流域盆地总高差(流域盆地总高差(m m)x2x2流域盆地山口的海拔高度(流域盆地山口的海拔高度(m m)x3x3流域盆地周长(流域盆地周长(kmkm)x4x4河道总长度(河道总长度(kmkm)x5x5河道总数河道总数x6x6平均分叉率平均分叉率本讲稿第十八页,共二十页第八章第八章 地理系统要素关系的主成分分析地理系统要素关系的主成分分析x7x7河谷最大坡度(度)河谷最大坡度(度)x8x8河源数河源数x9x9流域盆地面积流域盆地面积其原始数据,列于表其原始数据,列于表
20、8 87 7。这些资料由于取的单位不同,不能直接进行比较,必须进行标准化。计算相关这些资料由于取的单位不同,不能直接进行比较,必须进行标准化。计算相关系数矩阵,列于表系数矩阵,列于表8 88 8。可知,有些要素之间有密切的相关关系,有些要素的。可知,有些要素之间有密切的相关关系,有些要素的相关系数几乎为零。相关系数几乎为零。计算相关系数矩阵特征值、特征值百分比和累积百分比,列于表计算相关系数矩阵特征值、特征值百分比和累积百分比,列于表8 89 9。累积百分比说明主成分所包含地形水文系统要素全部信息的百分数。第一、第二、第累积百分比说明主成分所包含地形水文系统要素全部信息的百分数。第一、第二、第
21、三主成分的累计百分数已达三主成分的累计百分数已达86.5%86.5%。表表8 89 9中,第一、第二、第三主成分的特征值接近中,第一、第二、第三主成分的特征值接近1 1或大于或大于1 1,在一般分析中,在一般分析中,选取特征大于选取特征大于1 1的主成分以做后用。的主成分以做后用。本讲稿第十九页,共二十页第八章第八章 地理系统要素关系的主成分分析地理系统要素关系的主成分分析主成分载荷是主成分与变量之间的相关系数。从理系统分析的意义上,可以明确地判断主成分载荷是主成分与变量之间的相关系数。从理系统分析的意义上,可以明确地判断出主成分出主成分是流域规模主成分,与它密切相关的是流域规模主成分,与它密切相关的6个因素都与流域规模有关。个因素都与流域规模有关。主成分主成分与流域切割程度有关,是流域侵蚀状况主成分。与流域切割程度有关,是流域侵蚀状况主成分。主成分主成分为河系形态主成分。为河系形态主成分。主成分得分可以用来分析地域类型,表主成分得分可以用来分析地域类型,表811和和812分别列出了第一主成分得分别列出了第一主成分得分最高和最低四个流域。分最高和最低四个流域。通过分析,利用主成分得分进行地形水文系统类型的划分,可以发现其共同特征,利通过分析,利用主成分得分进行地形水文系统类型的划分,可以发现其共同特征,利于盆地类型的划分。于盆地类型的划分。本讲稿第二十页,共二十页
限制150内