《第二章地理数据的类型..优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第二章地理数据的类型..优秀PPT.ppt(75页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、其次章其次章 地理数据及其采集与预处理地理数据及其采集与预处理 本章内容提要:本章内容提要:地理数据的类型地理数据的类型地理数据的基本特征地理数据的基本特征地理数据的采集与处理地理数据的采集与处理地理数据的统计处理地理数据的统计处理地理数据分布的集中化与均衡度指数地理数据分布的集中化与均衡度指数 2.1 2.1 地理数据的类型地理数据的类型空间数据:用于描述地理实体、地理要素、地理现空间数据:用于描述地理实体、地理要素、地理现象、地理事务及地理过程产生、存在和发展的地理象、地理事务及地理过程产生、存在和发展的地理位置、区域范围及空间联系。位置、区域范围及空间联系。属性数据:用于描述地理实体、地
2、理要素、地理现属性数据:用于描述地理实体、地理要素、地理现象、地理事务、地理过程的有关属性特征。象、地理事务、地理过程的有关属性特征。1 1、点、点由一个独立的坐标点(由一个独立的坐标点(x x,y y)定位,是空)定位,是空间上不行再分的几何实体间上不行再分的几何实体 4)角点、节点)角点、节点Vertex:表示线段和弧段上的连接表示线段和弧段上的连接点。点。1)实体点:用来代表一个实体。)实体点:用来代表一个实体。2)注记点:用于定位注记。)注记点:用于定位注记。3)内点:用于负载多边)内点:用于负载多边形的属性,存在于多边形的属性,存在于多边形内。形内。空间数据的表达:空间数据的表达:2
3、 2、线、线由若干个(至少两个,理论上是无穷个)坐由若干个(至少两个,理论上是无穷个)坐标点(标点(xixi,yiyi)()(i=1i=1,2 2,)定义,有确定的长度)定义,有确定的长度和走向,表示线状地物或点实体之间的联系和走向,表示线状地物或点实体之间的联系 1)实体长度:)实体长度:从起点到终点的总长从起点到终点的总长2)弯曲度:)弯曲度:用于表示像道路拐弯时弯曲的程度。用于表示像道路拐弯时弯曲的程度。3)方向性:)方向性:如:水流方向,上游如:水流方向,上游下游,下游,马路,单、双向之分。马路,单、双向之分。线状实体包括:线状实体包括:线段,边界、链、弧段、网络等。线段,边界、链、弧
4、段、网络等。3 3、面面表示在空间上连续分布的地理景观或区域表示在空间上连续分布的地理景观或区域1)面积范围)面积范围 2)周长)周长3)独立性或与其它地物相邻)独立性或与其它地物相邻如中国及其周边国家如中国及其周边国家4)内岛屿或锯齿状外形:)内岛屿或锯齿状外形:如岛屿的海岸线封闭所围成的区域。如岛屿的海岸线封闭所围成的区域。5)重叠性与非重叠性:)重叠性与非重叠性:如学校的分区,菜市场的服务范围等如学校的分区,菜市场的服务范围等都有可能出现交叉重叠现象,而一个都有可能出现交叉重叠现象,而一个城市的各个城区一般说来不会出现重城市的各个城区一般说来不会出现重叠。叠。是对湖泊、岛屿、地块等一类现
5、象的描述。由是对湖泊、岛屿、地块等一类现象的描述。由一封闭曲线加内点一封闭曲线加内点来表示。来表示。4、点、线、面之间的拓扑关系、点、线、面之间的拓扑关系 点点线线面面地域类型地域类型网络网络地带地带区域区域属性数据的类型:属性数据的类型:(一)数量标记数据(一)数量标记数据 间隔尺度数据间隔尺度数据:以有量纲的数据形式表示以有量纲的数据形式表示测度对象在某种单位测度对象在某种单位(量纲量纲)下的确定量。下的确定量。年平均气温年平均气温(CC)年降水量年降水量(mmmm)土地面积土地面积(haha)人口人口(人)(人)国内生产总值国内生产总值(万元)(万元)区域区域1 1 8.0 8.0 50
6、0.2 500.2 245.6 245.6 1210 1210 2678.28 2678.28 区域区域2 2 7.67.6498.6498.61064.1064.102310232015.472015.47区域区域3 36.56.5550.9550.9894.3894.38488481754.561754.56区域区域4 48.58.5586.4586.4668.7668.76546541365.461365.46年年 份份19961997199819992000耕地复种指数耕地复种指数120.40113.56126.54132.76121.43农业发展指数农业发展指数100115.6812
7、4.50135.69129.56 比例尺度数据比例尺度数据:以无量纲的数据形式表示测度对象的相对量。以无量纲的数据形式表示测度对象的相对量。(二)品质标记数据(二)品质标记数据 有序数据有序数据:当测度标准不是连续的量,只是表示其依次关系当测度标准不是连续的量,只是表示其依次关系的数据。的数据。城市城市A城市城市B城市城市C城市城市D城市城市E城市城市F规模等级规模等级123443人口位次人口位次12465 3表表2.1.3 城市等规模等级与人口数量的排位次城市等规模等级与人口数量的排位次 二元数据:用0、1两个数据表示地理事物、地理现象或地理事务的是非推断问题。城市城市A城市城市B城市城市C
8、城市城市D城市城市E城市城市A1101城市城市B1110城市城市C1110城市城市D0111城市城市E1001表表2.1.4 二元数二元数据据其中其中:1 1表示两城市之间通航表示两城市之间通航0 0表示两城市之间不通航表示两城市之间不通航名义尺度数据名义尺度数据:用数字表示地理实体、地理要素、地用数字表示地理实体、地理要素、地理现象或地理事务的状态类型理现象或地理事务的状态类型地块序列号地块序列号12345 6土地利用类型土地利用类型1315211414 31表表2.1.5 土地利用类型土地利用类型2.2 2.2 地理数据的基本特征地理数据的基本特征 数量化、形式化与逻辑化数量化、形式化与逻
9、辑化不确定性不确定性 多种时空尺度多种时空尺度 多维性多维性 数量化、形式化与逻辑化的几个方面数量化、形式化与逻辑化的几个方面:定量化的地理数据是建立地理数学模型的基础,作用:定量化的地理数据是建立地理数学模型的基础,作用:确定模型的参数、给定模型运行的初值条件;确定模型的参数、给定模型运行的初值条件;检验模型的有效性。检验模型的有效性。形式化、逻辑化与数量化,是全部地理数据的共同特征。形式化、逻辑化与数量化,是全部地理数据的共同特征。地理计算学,对于地理数据的形式化、逻辑化提出了更高地理计算学,对于地理数据的形式化、逻辑化提出了更高的要求,要求的要求,要求“整体整体”和和“大容量大容量”的地
10、理数据具有统一的地理数据具有统一的数据形式和交换标准。的数据形式和交换标准。地理数据不确定性的来源:地理数据不确定性的来源:地理系统本身的困难性从本质上确定着地理地理系统本身的困难性从本质上确定着地理数据的不确定性。数据的不确定性。各种缘由所导致的数据误差。各种缘由所导致的数据误差。地理数据的多时空尺度:地理数据的多时空尺度:从空间尺度上来看,描述地理区域的各种地理数据,具有从空间尺度上来看,描述地理区域的各种地理数据,具有多种空间尺度多种空间尺度既有全球尺度的、洲际尺度的、国家尺度既有全球尺度的、洲际尺度的、国家尺度的,也有流域尺度的、地区尺度的、城市尺度的、社区尺的,也有流域尺度的、地区尺
11、度的、城市尺度的、社区尺度的。度的。从时间尺度上来看,描述地理过程的各种地理数据具有多从时间尺度上来看,描述地理过程的各种地理数据具有多种时间尺度,如历史年头、天、月、季度、年等。种时间尺度,如历史年头、天、月、季度、年等。多维性多维性 空间方面,描述该地理对象所处的地理位置和空间范围,空间方面,描述该地理对象所处的地理位置和空间范围,一般须要一般须要23个变量个变量;属性方面,描述该地理对象的具体内容,至少须要属性方面,描述该地理对象的具体内容,至少须要1个个以上,多则须要十几个、甚至几十个变量以上,多则须要十几个、甚至几十个变量;时间方面,描述该地理对象产生、发展和存在的时间范时间方面,描
12、述该地理对象产生、发展和存在的时间范围围,须要,须要1个变量个变量;地理数据的这种多维性,被人们描述为地理数据立方体地理数据的这种多维性,被人们描述为地理数据立方体(The Geographical Data Cube)。)。地理数据立方体地理数据立方体2.3 2.3 地理数据的采集与处理地理数据的采集与处理地理数据的采集地理数据的采集 地理数据处理地理数据处理 现实世界现实世界文字报告、文字报告、遥感图象遥感图象等等数据源数据源?一、地理数据的采集一、地理数据的采集 地理数据的渠道来源地理数据的渠道来源:来自于来自于观测、测量部门观测、测量部门的有关专业数据。的有关专业数据。来自于来自于统计
13、年鉴、统计公报统计年鉴、统计公报中的有关自然资源及中的有关自然资源及社会经济发展数据。社会经济发展数据。来自于有关单位或个人的不定期的来自于有关单位或个人的不定期的典型调查数据、典型调查数据、抽样调查数据抽样调查数据。来自于来自于政府公报、政府文件政府公报、政府文件中的有关数据。中的有关数据。来自于来自于档案、图书档案、图书等文献资料中的有关数据。等文献资料中的有关数据。来自于来自于互联网互联网(Internet)的有关共享数据。)的有关共享数据。地图图件地图图件。主要包括各种比例尺的地形图、影像。主要包括各种比例尺的地形图、影像地图、专题地图等。地图、专题地图等。遥感数据遥感数据。主要包括各
14、种航空遥感数据和卫星遥。主要包括各种航空遥感数据和卫星遥感数据。感数据。其它来源的有关数据。其它来源的有关数据。采集地理数据的过程中须要留意的问题:采集地理数据的过程中须要留意的问题:数据的完备性和牢靠性。数据的完备性和牢靠性。在数据采集过程中,最大限度地减小数据在数据采集过程中,最大限度地减小数据的误差。的误差。在数据采集完毕后,进行检验,进行比较、在数据采集完毕后,进行检验,进行比较、辨别真伪,通过数据筛选,去粗存精、去伪辨别真伪,通过数据筛选,去粗存精、去伪存真。存真。二、地理数据处理二、地理数据处理 地理数据处理,是全部地理问题探讨的核心环节,须地理数据处理,是全部地理问题探讨的核心环
15、节,须要运用数学方法。要运用数学方法。地理数据处理是地理信息系统的核心功能。地理数据处理是地理信息系统的核心功能。地理计算学(地理计算学(Geocomputation)的实质是借助于现代)的实质是借助于现代化的计算理论、计算方法和计算技术,通过对化的计算理论、计算方法和计算技术,通过对“整体整体”和和“大容量大容量”的地理数据进行处理,揭示困难地理的地理数据进行处理,揭示困难地理系统的运行机制,探究和寻求新的地理系统理论。系统的运行机制,探究和寻求新的地理系统理论。地理数据的采集、处理及其与数学方法、地地理数据的采集、处理及其与数学方法、地理信息系统、地理计算学之间的相互关系图理信息系统、地理
16、计算学之间的相互关系图:地地理理数数据据的的数数据据源源地地理理数数据据采采集集数学方法数学方法GISGeocomputation地理地理处理处理数据数据2.4 2.4 地理数据的统计处理地理数据的统计处理统计整理统计整理几种常用的统计指标与参数几种常用的统计指标与参数变异系数的一个应用实例:变异系数的一个应用实例:中国经济发展水平的省际差异分析中国经济发展水平的省际差异分析 1.1.统计整理的基本步骤统计整理的基本步骤:统计分组统计分组计计算算各各组组数数据据的的频频数数、频频率率,编编制统计分组表制统计分组表作分布图作分布图 例例:对于黄土高原西部地区某山区县的人工造林地调查数据对于黄土高
17、原西部地区某山区县的人工造林地调查数据,步骤如下步骤如下:以地块面积作为统计分组标记进行分组以地块面积作为统计分组标记进行分组;计算各组数据的频数、频率,编制成如下的统计分组表(表计算各组数据的频数、频率,编制成如下的统计分组表(表2.4.12.4.1)分组序号分组序号1234567891011分组标志分组标志(0,1(1,2(2,3(3,4(4,5(5,6(6,7(7,8(8,9(9,10(10,11)组组 中中 值值 0.51.52.53.54.55.56.57.58.59.510.5频频 数数 25961362142532862602031548524频频 率率1.445.537.831
18、2.314.5716.4714.9811.698.874.901.38向上累计频向上累计频 数数25121257471724101012701473162717121736向下累计频向下累计频 数数 17361711161514791265101272646626310924做出频数分布的直方图做出频数分布的直方图 :将上图各组的频数分布从组中值位置用折线连接起来,得将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布的曲线图到频数分布的曲线图:2.2.几种常用的统计指标与参数几种常用的统计指标与参数描述地理数据一般水平的指标描述地理数据一般水平的指标描描述述地地理理数数据据分分布布的
19、的离离散散程程度度的的指指标标描述地理数据分布特征的参数描述地理数据分布特征的参数描述地理数据一般水平的指标描述地理数据一般水平的指标平均值平均值,反映了地理数据一般水平。计算方法:反映了地理数据一般水平。计算方法:未分组的地理数据未分组的地理数据 分组的地理数据分组的地理数据 (2.4.1)(2.4.2)第第i组的频数组的频数第第i组的组中值组的组中值第第i组的频数组的频数样本的个数样本的个数组数组数描述地理数据描述地理数据一般水平一般水平的指标的指标中位数中位数 对于未分组的地理数据,样本数对于未分组的地理数据,样本数n为为奇数奇数时,中位数是时,中位数是位置排在第位置排在第(n+1)/2
20、位的数据位的数据;样本数;样本数n为为偶数偶数时,时,中位数是排在中位数是排在中间位置的两个数据平均值中间位置的两个数据平均值。分组的地理数据,中位数的计算步骤分组的地理数据,中位数的计算步骤 :A A、确定中位数所在的组位置(以总频数、确定中位数所在的组位置(以总频数/2/2判定)判定)B B、按下述公式按下述公式计算中位数计算中位数:或(2.4.3)(2.4.4)中位数组中位数组的的下限下限中位数组的中位数组的上限上限总频数的一半总频数的一半中位数所在组以中位数所在组以下下的累积频数的累积频数中位数组的频数中位数组的频数中位数所在组以中位数所在组以上上的累积频数的累积频数众数众数:众数就是
21、出现频数最多的那个数众数就是出现频数最多的那个数 未分组的地理数据:依据每一个数据出现的频数未分组的地理数据:依据每一个数据出现的频数大小干脆确定众数。大小干脆确定众数。对于已经分组的地理数据对于已经分组的地理数据:a.a.频数最多的组为众数所在组。频数最多的组为众数所在组。b.b.按以下公式计算众数按以下公式计算众数:或(2.4.5)(2.4.6)众数组频数与众数组频数与下下一组频数之差一组频数之差众数组频数与众数组频数与上上一组频数之差一组频数之差众数组的下限众数组的下限众数组的上限众数组的上限例例1 1:下表给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。:下表给出了某农场各
22、农田地块的面积,试计算其平均值、中位数和众数。应依据未分组数据计算其平均值、中位数和众数,计应依据未分组数据计算其平均值、中位数和众数,计算结果见上表最终三列。算结果见上表最终三列。地块编地块编号号 123456789101112平均平均值值中位中位数数众数众数面积面积(ha)128350355550724085296575 54.25 52.550例例2:下表给出了中国西部地区某城市下表给出了中国西部地区某城市2000年家庭月收入的年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。抽样调查结果,试计算其平均值、中位数和众数。家庭月收入分组家庭月收入分组(元)(元)户数户数向上累计频数
23、向上累计频数向下累计频数向下累计频数20003000300300 21303000400013001600183040005000200180053050006000150195033060007000100205018070008000502100808000900030213030合合 计计2130解题步骤解题步骤:(1 1)用公式()用公式(2.4.22.4.2)计算平均数)计算平均数:(2 2)计算中位数。先确定中位数所在组的位置,)计算中位数。先确定中位数所在组的位置,落在其次组落在其次组 家庭月收入分组家庭月收入分组(元)(元)户数户数向上累计频数向上累计频数向下累计频数向下累计频
24、数20003000300300 21303000400013001600183040005000200180053050006000150195033060007000100205018070008000502100808000900030213030合合 计计2130家庭月收入分组家庭月收入分组(元)(元)户数户数向上累计频数向上累计频数向下累计频数向下累计频数20003000300300 213030004000130016001830400050002001800530500060001501950330600070001002050180700080005021008080009000
25、30213030合合 计计2130下下上上解题步骤解题步骤:(2 2)计算中位数。先确定中位数所在组的位置,)计算中位数。先确定中位数所在组的位置,落在其次组落在其次组 再依据(再依据(2.4.32.4.3)计算中位数)计算中位数 或者按(或者按(2.4.42.4.4)计算中位数。)计算中位数。(3)计计算算众众数数。首首先先确确定定众众数数所所在在组组。明明显显,众众数数所所在在组组应当在其次组。应当在其次组。家庭月收入分组(元)家庭月收入分组(元)户数户数向上累向上累计频数计频数向下累计频数向下累计频数20003000300300 21303000400013001600183040005
26、000200180053050006000150195033060007000100205018070008000502100808000900030213030合合 计计2130下下上上(3)计计算算众众数数。首首先先确确定定众众数数所所在在组组。明明显显,众众数数所所在组应当在其次组。在组应当在其次组。再依据公式(再依据公式(2.4.5)计算众数)计算众数或者依据公式(或者依据公式(2.4.6)计算众数。)计算众数。描述地理数据分布的离散程度的指标描述地理数据分布的离散程度的指标:极差,指全部数据中最大值与最小值之差极差,指全部数据中最大值与最小值之差:离差,指每一个地理数据与平均值的差,
27、计算公式为:离差,指每一个地理数据与平均值的差,计算公式为:离差平方和。它从总体上衡量一组地理数据与平均值离差平方和。它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为的离散程度,其计算公式为:()()()方差与标准差,从平均概况衡量一组地理数据与平均方差与标准差,从平均概况衡量一组地理数据与平均值的离散程度。方差计算公式为值的离散程度。方差计算公式为:标准差为方差的平方根,计算公式为标准差为方差的平方根,计算公式为:假如以样本方差对标准差进行无偏估计,则计算公式假如以样本方差对标准差进行无偏估计,则计算公式为为:(2.4.10)(2.4.11)(2.4.12)自然资源条件的好坏,还有
28、一个空间组合问题。自然资源条件的好坏,还有一个空间组合问题。一个地区各类自然资源的组合状况,可以用一个地区各类自然资源的组合状况,可以用“组合组合指数指数”表示,用表示,用“标准差标准差”计算。假定计算。假定y1、y2、y3、y4、y5分别表示五类自然资源量占全国分别表示五类自然资源量占全国的比例,则平均值为:的比例,则平均值为:标准差值大,说明地区各类自然资源占全省比标准差值大,说明地区各类自然资源占全省比例畸大或畸小,组合状况较差,配套实力弱;相例畸大或畸小,组合状况较差,配套实力弱;相反,标准差小,说明组合状况好,有利于地区综反,标准差小,说明组合状况好,有利于地区综合发展。合发展。实例
29、实例:假定自然资源分解为矿产资源、能源资源、水资源、假定自然资源分解为矿产资源、能源资源、水资源、光热资源、耕地资源五大类,光热资源、耕地资源五大类,变异系数,表示了地理数据的相对变更(波动)程度,其计算公式变异系数,表示了地理数据的相对变更(波动)程度,其计算公式:()例如:例如:对于下表中的数据,分别计算极差、离差、离差平方对于下表中的数据,分别计算极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。和、方差、标准差、标准差的无偏估计,以及变异系数。序序号号123456789101112128350355550724085296575-42.25 28.75-4.25-1
30、9.25 0.75-4.25 17.75-14.25 30.75-25.25 10.7520.75 步骤步骤:依据公式(依据公式(2.4.7)计算极差:)计算极差:依据公式(依据公式(2.4.8)计算离差,结果见下)计算离差,结果见下表。表。地块地块编号编号 123456789101112平均平均值值中位中位数数众众数数面积面积(ha)12835035555072408529657554.2552.550依据公式(依据公式(2.4.92.4.9)计算离差平方和)计算离差平方和:依据公式(依据公式(2.4.102.4.10)计算方差:)计算方差:依据公式(依据公式(2.4.112.4.11)计算
31、标准差:)计算标准差:依据公式(依据公式(2.4.122.4.12)计算标准差的无偏估计:)计算标准差的无偏估计:依据公式(依据公式(2.4.132.4.13)计算变异系数:)计算变异系数:描述地理数据分布特征的参数描述地理数据分布特征的参数 偏偏度度系系数数,测测度度地地理理数数据据分分布布的的不不对对称称性性状状况况,刻刻画画以以平平均均值值为为中心的偏向状况,计算公式为:中心的偏向状况,计算公式为:g10,表表示示正正偏偏,即即均值在峰值的右边;均值在峰值的右边;g1=0,表示对称分布。,表示对称分布。图图2.4.3 2.4.3 偏度系数的三种情形偏度系数的三种情形()峰度系数。它测度了
32、地理数据在均值旁边的集中程度,其计算公式峰度系数。它测度了地理数据在均值旁边的集中程度,其计算公式为为 标准正态分布的峰度系数标准正态分布的峰度系数g2=0;g20,表示地理数据分布的集中程,表示地理数据分布的集中程度高于正态分布;度高于正态分布;g20,表示地理数据分布的集中程度低于正态,表示地理数据分布的集中程度低于正态分布(见下图)。分布(见下图)。图图2.4.4 标准峰度系数的三种情形标准峰度系数的三种情形()3.3.实例:实例:中国大陆省份人均中国大陆省份人均GDP的变异系数的变异系数 为为了了分分析析中中国国大大陆陆省省际际经经济济发发展展的的相相对对差差异异及及其其演演化化过过程
33、程,我我们们首首先先把把1978197820022002年年各各省省(直直辖辖市市、自自治治区区)的的GDPGDP数数,依依据据可可比比价价格格进进行行折折算算,再再除除以以人人口口数数,计计算算出出依依据据可可比比价价衡衡量量的的人人均均GDPGDP数据,然后再用公式(数据,然后再用公式(2.4.132.4.13)式计算变异系数,结果如下图。)式计算变异系数,结果如下图。从从图图中中可可以以看看出出,在在19782002年年期期间间,人人均均GDP的的变变异异系系数数,以以1990年年为为转转折折点点,呈呈现现出出一一个个U形形曲曲线线。即即:人人均均GDP的的变变异异系系数数,在在1978
34、1990年年期期间间基基本本上上呈呈现现下下降降趋趋势势,而而在在19902002年年期期间间则则基基本本上上呈呈现现上上升升趋趋势势。这这说说明明,在在19781990年年期期间间,中中国国大大陆陆省省际际经经济济发发展展水水平平的的相相对对差差异异,基基本本上上呈呈缩缩小小趋趋势势,而而19902001年年期期间间则则基基本本上上呈呈扩扩大大趋趋势势。这这一一变变更更与与国国家家宏宏观观经经济济政政策变动的时间、趋势大体一样。策变动的时间、趋势大体一样。2.5 2.5 地理数据分布的集中化地理数据分布的集中化与均衡度指数与均衡度指数 一、洛伦兹曲线与集中化指数一、洛伦兹曲线与集中化指数 二
35、、基尼系数二、基尼系数 三、锡尔系数三、锡尔系数(1)洛伦兹曲线洛伦兹曲线 20 20世纪初,意大利统计学家洛伦兹(世纪初,意大利统计学家洛伦兹(M.LorenzM.Lorenz),),首先运用累计频率曲线探讨工业化的集中化程度。后首先运用累计频率曲线探讨工业化的集中化程度。后来,这种曲线就被称之为洛伦兹曲线。来,这种曲线就被称之为洛伦兹曲线。一、洛伦兹曲线与集中化指数1种植业种植业2735.9342.821645.5356.732林业林业143.572.2579.662.753畜牧业畜牧业660.6110.34390.2413.454渔业渔业220.673.4574.122.565工业工业4
36、41.576.91167.385.776建筑业建筑业163.952.5744.551.547运输业运输业516.878.09150.885.208商饮服务商饮服务业业1112.7217.42211.627.309其它其它393.166.15136.74.71部部门门代代码码产业部门产业部门20041999收入收入(元)(元)占总收入的占总收入的比重比重(%)收入收入(元)(元)占总收入的比占总收入的比重重(%)合合计计家庭经营家庭经营纯收入纯收入6389.051002900.68100表表2.5.1 某地区农户家庭经营性纯收入水平及其构成某地区农户家庭经营性纯收入水平及其构成 部门代码收入(元
37、)占总收入比重(%)12735.9342.82 2143.572.25 3660.6110.34 4220.673.45 5441.576.91 6163.952.57 7516.878.09 81112.7217.42 9393.166.15 合计6389.05(1 1)从)从20042004年数据为例,依据占总收入比重(百分年数据为例,依据占总收入比重(百分比)将各产业部门从大到小重新排序;比)将各产业部门从大到小重新排序;部门代码收入(元)占总收入比重(%)12735.9342.82 81112.7217.42 3660.6110.34 7516.878.09 5441.576.91 9
38、393.166.15 4220.673.45 6163.952.57 2143.572.25 合计6389.05(2 2)从大到小,逐次计算累计百分比;部门代码收入(元)占总收入比重(%)累积比重(%)12735.9342.82 42.82 81112.7217.42 60.24 3660.6110.34 70.58 7516.878.09 78.67 5441.576.91 85.58 9393.166.15 91.73 4220.673.45 95.19 6163.952.57 97.75 2143.572.25 100.00 合计6389.05部门代码均匀分布各部门比重(%)累积比重(%
39、)集中分布各部门比重(%)累积比重(%)111.11 11.11 100.00 100.00 811.11 22.22 0.00 100.00 311.11 33.33 0.00 100.00 711.11 44.44 0.00 100.00 511.11 55.56 0.00 100.00 911.11 66.67 0.00 100.00 411.11 77.78 0.00 100.00 611.11 88.89 0.00 100.00 211.11 100.00 0.00 100.00 合计图2.5.1 1999年农户家庭经营性纯收入构成的洛伦兹曲线图2.5.2 2004年农户家庭经营性纯
40、收入构成的洛伦兹曲线(3 3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线结果分析:结果分析:洛洛伦伦兹兹曲曲线线的的上上凸凸程程度度,就就表表示示农农户户家家庭庭经经营营性性纯纯收收入入的的部部门门集集中中化化程程度度。上上凸凸程程度度越越大大,就就表表示示农农户户家家庭庭经经营营性性纯收入越是集中于某些产业部门。纯收入越是集中于某些产业部门。假假如如各各个个产产业业部部门门的的收收入入是是均均等等的的,则则洛洛伦伦兹兹曲曲线线正正好好就就变成了正方形的对角线。变成了正方形的对角线。比比较较图图2.5.12.5.1和和图图2.5.
41、22.5.2,可可以以看看出出该该地地区区19991999年年农农户户家家庭庭经营性纯收入的部门集中化程度高于经营性纯收入的部门集中化程度高于20042004年。年。(2)集中化指数集中化指数集中化指数,是一个描述地理数据分布的集中化程度集中化指数,是一个描述地理数据分布的集中化程度的指数。的指数。n假如洛伦兹曲线的解析式为:假如洛伦兹曲线的解析式为:n明显,该曲线下方区域的面积为:明显,该曲线下方区域的面积为:n当数据匀整分布时,当数据匀整分布时,A A就变成了对角线以下三角形的面积就变成了对角线以下三角形的面积(R R);当数据集中于一点时,);当数据集中于一点时,A A就变成了整个正方形
42、的面积就变成了整个正方形的面积(M M)(2.5.3)MRAA-RM-R明显,明显,I I越大,就说明数据分布的集中化程度越高;反之,越大,就说明数据分布的集中化程度越高;反之,I I越小,就说明数据分布的集中化程度越低(越均衡)。越小,就说明数据分布的集中化程度越低(越均衡)。常接受如下近似取值方法:常接受如下近似取值方法:AA实际数据的累计百分比总和实际数据的累计百分比总和RR匀整分布时的累计百分比总和匀整分布时的累计百分比总和MM集中分布时的累计百分比总和集中分布时的累计百分比总和 集中化指数在集中化指数在00,11区间上取值。区间上取值。只有数据的个数相同而且横坐标划分一样时,才有可比
43、性。只有数据的个数相同而且横坐标划分一样时,才有可比性。二、基尼系数二、基尼系数 基尼系数(基尼系数(Gini coefficientGini coefficient),就是通过两组数据的对),就是通过两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出洛伦兹曲比分析,纵、横坐标均以累计百分比表示,从而做出洛伦兹曲线,然后再计算得出的集中化指数。它是通过对人口和收入两线,然后再计算得出的集中化指数。它是通过对人口和收入两组数据进行比较分析,然后将纵、横坐标均以累计百分比表示,组数据进行比较分析,然后将纵、横坐标均以累计百分比表示,作出洛伦兹曲线,再计算集中化指数而得到的一个推断收入安作出
44、洛伦兹曲线,再计算集中化指数而得到的一个推断收入安排不同等程度的指标。排不同等程度的指标。原理方法如下:原理方法如下:列列出出每每一一个个区区域域(部部门门)的的人人口口与与收收入入占占全全区区(各各部部门门总总计)的比重计)的比重p p与与w w;计算每一区域(部门)的比率计算每一区域(部门)的比率w/pw/p;依据依据w/pw/p值,由小到大将每一地区(部门)排序;值,由小到大将每一地区(部门)排序;依据上述依次分别计算依据上述依次分别计算p p和和w w的累计值的累计值X X和和Y Y;以以X X为为横横坐坐标标,以以Y Y为为纵纵坐坐标标,在在直直角角坐坐标标系系中中依依次次连连接接各
45、各点,得到一条下凸的洛伦兹曲线。点,得到一条下凸的洛伦兹曲线。基尼系数(基尼系数(G G)就可以依据如下公式计算:)就可以依据如下公式计算:n假如洛伦兹曲线的解析式为:n明显,该曲线下方区域的面积为:n对应于确定均衡分布,其洛伦兹曲线就是正方形的对角线,其下方区域的面积为R=1/2。()假如用幂函数拟合,则基尼系数的近似计算公式为:假如用幂函数拟合,则基尼系数的近似计算公式为:n式中:可以通过最小二乘法(详见第3章)拟合,即:()对于分组数据,基尼系数也可以依据如下方法近似地计对于分组数据,基尼系数也可以依据如下方法近似地计算:算:按人均收入由低到高进行排序,分成若干组(假如不按人均收入由低到
46、高进行排序,分成若干组(假如不分组,则每一户或每一人为一组),每组收入占总收入分组,则每一户或每一人为一组),每组收入占总收入比重为比重为wiwi,每一组人口比重为,每一组人口比重为pipi,则基尼系数可以依据,则基尼系数可以依据下式近似地计算:下式近似地计算:n式中:为从第1组到第i组的累积收入比重。()依据中国大陆依据中国大陆1978197820022002年各省(直辖市、自治区)的年各省(直辖市、自治区)的人口数和依据可比价格折算的人口数和依据可比价格折算的GDPGDP数据,计算基尼系数,数据,计算基尼系数,结果如下图。可以看出,在结果如下图。可以看出,在1978197819901990
47、年期间,基尼系年期间,基尼系数虽然出现过几次上升和下降的微小波动,但基本趋势数虽然出现过几次上升和下降的微小波动,但基本趋势是缓慢地下降的;而在是缓慢地下降的;而在1991199120022002年期间,基本上呈现年期间,基本上呈现上升趋势。这一结论,与上节计算的加权变异系数是相上升趋势。这一结论,与上节计算的加权变异系数是相互印证的。互印证的。19782002年中国大陆省际收入差异的基尼系数年中国大陆省际收入差异的基尼系数三、锡尔系数三、锡尔系数 锡尔系数也可用于对经济发展、收入安排等均衡锡尔系数也可用于对经济发展、收入安排等均衡(不均衡)状况,进行定量化的描述。(不均衡)状况,进行定量化的
48、描述。锡尔系数又称锡尔熵,有两个锡尔系数指标,即锡尔系数又称锡尔熵,有两个锡尔系数指标,即锡尔系数锡尔系数T和锡尔系数和锡尔系数L。两者的不同之处在于锡尔系数两者的不同之处在于锡尔系数T以收入比重加权以收入比重加权计算,而锡尔系数计算,而锡尔系数L则以人口比重加权计算。则以人口比重加权计算。假如以人口比重加权,锡尔系数假如以人口比重加权,锡尔系数L L的计算公式为:的计算公式为:n式中:式中:nn n为区域(部门)个数;为区域(部门)个数;n 为为地地区区(部部门门)收收入入占占全全区区(各各部部门门总总计计)的份额;的份额;n 为为i i地地区区(部部门门)的的人人口口占占全全区区(各各部部
49、门门总总计计)的份的份额额。()假如以收入比重加权,则锡尔系数假如以收入比重加权,则锡尔系数 T T的计算公式为:的计算公式为:n锡尔系数越大,就表示收入安排差异越大;反之,锡尔系数越大,就表示收入安排差异越大;反之,锡尔系数越小,就表示收入安排越均衡。锡尔系数越小,就表示收入安排越均衡。()依依据据各各省省(直直辖辖市市、自自治治区区)的的人人口口和和依依据据可可比比价价格格折折算算的的GDPGDP数数据据,计计算算1978200219782002年年中中国国大大陆陆省省际际差差异异的的锡锡尔尔系系数数T T值值,结结果果如如下下图图所所示示。可可以以看看出出,在在1978199019781990年年期期间间,锡锡尔尔系系数数虽虽然然有有微微小小波波动动,但但基基本本上上呈呈下下降降趋趋势势;而而在在1991200219912002年年期期间间,基基本本上上呈呈显显出出上上升升趋趋势势。这这一一结结论论,与前面计算出的基尼系数也是相互印证的。与前面计算出的基尼系数也是相互印证的。19782002年中国大陆省际收入差异的锡尔系数年中国大陆省际收入差异的锡尔系数
限制150内