《空间统计分析》PPT课件.ppt
《《空间统计分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《空间统计分析》PPT课件.ppt(83页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第9章章 DEM地形统计分析地形统计分析 概述概述 基本概念基本概念地形统计分析地形统计分析是指应用统计方法对描述地形特征的各种可量化的因子或参数进行相关、回归、趋势面、聚类等统计分析,找出各因子或参数的变化规律和内在联系,并选择合适的因子或参数建立地学模型,从更深层次探讨地形演化及其空间变异规律。主要分析内容主要分析内容 n n1.1.原始原始DEMDEM数据及派生地形因子基本统计特征的分析数据及派生地形因子基本统计特征的分析地形因子的最大值、最小值、极差、中值、总和、平均地形因子的最大值、最小值、极差、中值、总和、平均值、离差、方差、标准差、频数等基本统计量值、离差、方差、标准差、频数等
2、基本统计量n n2.2.地形因子关联特征及空间分布规律的研究地形因子关联特征及空间分布规律的研究对地形因子分析的主要内容之一就是查明因子之间的相对地形因子分析的主要内容之一就是查明因子之间的相互关系和内在联系,并选定合适的因子建立地学模型,互关系和内在联系,并选定合适的因子建立地学模型,利用这种模型对地形的发展与动态做出数值预测。利用这种模型对地形的发展与动态做出数值预测。9.2 基本统计量基本统计量 常用的基本统计量主要包括:最大值、最小值、极差、均值、中值、总和、众数、种类、离差、方差、标准差、变差系数、峰度和偏度等。这些统计量反映了数据集的范围、集中情况、离散程度、空间分布等特征,对进一
3、步的数据分析起着铺垫作用 平均数平均数中位数中位数众数众数分位数分位数偏度偏度峰度峰度总和总和比率比率比例比例种类种类集中趋势集中趋势描述数据特征的统计量描述数据特征的统计量离散程度离散程度基本统计量基本统计量其他统计量其他统计量分布形状分布形状极值极值极差极差离差离差平均离差平均离差离差平方和离差平方和方差方差标准差标准差变差系数变差系数图10.1 基本统计量9.2.1 代表数据集中趋势的统计量(1 1)频数和频率)频数和频率 将变量将变量xi xi(i i1 1,n n)按照大小顺序排列,并)按照大小顺序排列,并按一定的间距分组,变量在各组出现或发生的次按一定的间距分组,变量在各组出现或发
4、生的次数称为数称为频数频数(absoluter frequency(absoluter frequency );各组频数与;各组频数与总频数之比叫做总频数之比叫做频率频率(frequency)(frequency)。如有一组如有一组测量数据测量数据,数据数据的总个数的总个数N=148N=148最小的最小的测量值测量值xminxmin,最大的测量值,最大的测量值xmaxxmax,按组距为,按组距为将将148148个数据分为个数据分为1111组,其中组,其中分布分布在在范围范围内的数内的数据有据有2626个,则称该数据组的个,则称该数据组的频数频数频数频数为为2626。再如在中,再如在中,99出现
5、的频数是出现的频数是3 3,出现的频率是,出现的频率是3/18=16.7%3/18=16.7%n n计算出各组的频率后,可以作出频率分布图,若以纵轴表示频率,横轴表示分组,就可以作出频率直方图,用以表示事件发生的频率和分布状况。分组编号分组编号 数值数值 频数频数 频率频率 1(13)2(46)3(79)4(1012)5(1315)13,13,14,14,15,15频率分布表频率直方图9.2.1 代表数据集中趋势的统计量(2 2)平均数)平均数(mean)(mean)平均数反映了数据取值的集中位置。对于数据平均数反映了数据取值的集中位置。对于数据XiXi(i i1 1,2 2,n n),通常有
6、),通常有简单算术平均数、加简单算术平均数、加简单算术平均数、加简单算术平均数、加权算术平均数、调和平均数和集合平均数权算术平均数、调和平均数和集合平均数权算术平均数、调和平均数和集合平均数权算术平均数、调和平均数和集合平均数。n n简单算术平均数简单算术平均数:将所有数据的数值相加,再除:将所有数据的数值相加,再除以数据的总数目,公式为以数据的总数目,公式为n n加权算术平均数加权算术平均数(Weighted means(Weighted means ):当数据对数:当数据对数据总体的影响的权重值不同时,计算该平均数,据总体的影响的权重值不同时,计算该平均数,将每个数据乘以权值后再相加,所得
7、到的和除以将每个数据乘以权值后再相加,所得到的和除以数据的总体权重数,计算公式为数据的总体权重数,计算公式为 例例例例:你的小测成绩是你的小测成绩是8080分,期末考成绩是分,期末考成绩是9090分,分,老师要计算总的平均成绩,就按照小测老师要计算总的平均成绩,就按照小测40%40%、期、期末成绩末成绩60%60%的比例来算,所以你的平均成绩是:的比例来算,所以你的平均成绩是:8040%+9060%=868040%+9060%=86n n调和平均数调和平均数(harmonic mean(harmonic mean ):各个数据的倒数:各个数据的倒数的算术平均数的倒数,又称为倒数平均数,调和的算
8、术平均数的倒数,又称为倒数平均数,调和平均数也分简单调和平均数和加权调和平均数,平均数也分简单调和平均数和加权调和平均数,其公式分别为其公式分别为n n几何平均数几何平均数(geometric mean(geometric mean ):是:是n n个数据连乘的个数据连乘的积开积开n n次方根,计算公式为次方根,计算公式为(3)中位数(Median)一组数据按从小到大(或从大到小)的顺序依次排列,处在中间位置的一个数(或最中间两个数据的平均数,注意:和众数不同,中位数不一定在这组数据中)。中位数的定义可知,所研究的数据中有一半小于中位数,一半大于中位数 n n实例:实例:第第1 1组数:组数:
9、1 1、2 2、3 3、6 6、7 7的中位数是的中位数是3 3。原理:原理:如果总数个数是奇数的话如果总数个数是奇数的话,按从小到大的顺序按从小到大的顺序,取取中间的那个数中间的那个数 第第2 2组数:组数:1 1、2 2、3 3、5 5的中位数是。的中位数是。原理:如果原理:如果总数个数是偶数的话总数个数是偶数的话,按从小到大的顺序按从小到大的顺序,取中间取中间那两个数的平均数那两个数的平均数.(2+3)2=2.5.(2+3)2=2.5 第第3 3组数:组数:1 1、100100、101101、1000010000的中位数是的中位数是100.5 100.5 注意:中位数注意:中位数 和数值
10、的大小没有绝对的关系和数值的大小没有绝对的关系 (4)(4)众数众数(Mode)(Mode)众数是数据集中出现频数(次数)最多的某个众数是数据集中出现频数(次数)最多的某个(或某几个)数。(或某几个)数。(众数可以不存在或多于一个)(众数可以不存在或多于一个)例如:例如:1 1,2 2,3 3,3 3,4 4的众数是的众数是3 3。但是,如果有两个或两个以上个数出现次数都但是,如果有两个或两个以上个数出现次数都是最多的,那么这几个数都是这组数据的众数。是最多的,那么这几个数都是这组数据的众数。例如:例如:1 1,2 2,2 2,3 3,3 3,4 4的众数是的众数是2 2和和3 3。还有,如果
11、所有数据出现的次数都一样,那么还有,如果所有数据出现的次数都一样,那么这组数据没有众数。这组数据没有众数。例如:例如:1 1,2 2,3 3,4 4,5 5没有众数。没有众数。9.2.2 代表数据离散程度的统计量n n有时虽然两个数据集的平均数相等,但各数据分有时虽然两个数据集的平均数相等,但各数据分布在平均数左右的疏密程度却不相同,也就是它布在平均数左右的疏密程度却不相同,也就是它们的离散程度不一样,为了把一个数据集的离散们的离散程度不一样,为了把一个数据集的离散程度表现出来,就需要研究离散度。程度表现出来,就需要研究离散度。n n离散程度越大,数据波动性越大,以小样本数据离散程度越大,数据
12、波动性越大,以小样本数据代表数据总体的可靠性越低;离散程度越小,则代表数据总体的可靠性越低;离散程度越小,则数据波动性小,以小样本数据代表数据总体的可数据波动性小,以小样本数据代表数据总体的可靠性越高。靠性越高。(1)最大值最大值(max)与最小值与最小值(min)把数据从小到大排列,最前端的值就是最小值,最后一个就是最大值(2)极差极差(range)一个数据集的最大值与最小值的差值称为极差,它表示这个数据集的取值范围 极差计算公式:x=xmax-xmin(xmax为最大值,xmin为最小值)如:12,12,13,14,16,21 这组数的极差就是 2112=9(3)分位数(quantile)
13、将数列按大小排列,把数列划分为相等个数的分段,处于分段点上的值就是分位数。(4)离差(deviation)表示各数值与其平均值的离散程度,其值等于某个数值与该数据集的平均值之差(5)平均离差(mean deviation)是把离差取决对值,然后求和,再除以变量个数 根据定义,一个数据集的离差和恒等于0。若将离差取绝对值后求和,再取平均值,得到平均离差:(6)离差平方和离差平方和是把离差求平方,然后求和平均离差和和离差平方和是表示各数值相对于平均数得离散程度的重要统计量。(7)(7)方差方差(variance)(variance)和标准差和标准差(standard deviation(stand
14、ard deviation)方差是均方差的简称,是以离差平方和除以变量方差是均方差的简称,是以离差平方和除以变量个数求得的,记为个数求得的,记为s2s2,即:,即:标准差是方差的平方根,记为标准差是方差的平方根,记为(8)变差系数(coefficient of variation)变差系数也称为离差系数或变异系数,是标准差与均值的比值,以 表示 n n变差系数用来衡量数据相对变化的程度9.2.3 代表数据分布形态的统计量代表数据分布形态的统计量n n分布形态可以从两个角度考虑,一是数据分布对称程度,另一个是数据分布集中程度。n n前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。偏度和峰
15、度是衡量数据分布特征的重要指标。(1)偏度(skewness)偏度是刻画数据在均值两侧的对称程度的参数,用偏度系数来衡量。标准偏度系数(g1):n n当g10时,数据的分布情况如下图:f(x)f(x)f(x)f(x)f(x)f(x)(2)峰度(kurtosis)峰度是刻画数据在均值两侧的集中程度的参数,用峰度系数来衡量。n n标准峰度系数 g2按下式计算:n n偏度和峰度主要用于分析数据的频率统计图以及评价正态分布性,当g1=0且g2=0时,数据是标准正态分布。g2 0g2 0g2=0 f(x)9.2.4 其它统计量其它统计量(1)总和(sum)数据集中所有数据相加得到的值.总和一般用于求取总
16、值及各种比值。通过求取一定流域内的沟壑总长度与总面积,可以获得该流域的沟壑密度。(2)比率(ratio)两类物体或现象的数值之比(3)比例(proportion)某类物体或现象的数值与其总数之比(4)种类(class)根据事物本身的性质或特点而分成的门类。基本分析工具基本分析工具1.直方图指对采样数据按一定的分级方案(等间隔分级、标准差分等)进行分级,统计采样点落入各个级别中的个数或占总采样数的百分比,并通过条带图或柱状图表现出来。直方图可以直观的反映采样数据分布特征、总体规律,可以用来检验数据分布和寻找数据离群值。图10.2 直方图示意图图图(1)(1)正态正态QQPlotQQPlot分布图
17、分布图正态正态QQPlotQQPlot(Normal QQPlotNormal QQPlot)分布图主要)分布图主要用来评估具用来评估具有有n n个值的单变量样本数据是否服从正态分布个值的单变量样本数据是否服从正态分布。构建正。构建正态态QQPlotQQPlot分布图的通用过程为:分布图的通用过程为:n n首先对采样值进行排序;首先对采样值进行排序;n n计算出每个排序后的数据的累积值(低于该值的数据的百分计算出每个排序后的数据的累积值(低于该值的数据的百分比);比);n n绘制累积值分布图;绘制累积值分布图;n n在累积值之间使用线性内插技术,构建一个与其具有相同累在累积值之间使用线性内插技
18、术,构建一个与其具有相同累积分布的理论正态分布图,求出对应的正态分布值;积分布的理论正态分布图,求出对应的正态分布值;n n以横轴为理论正态分布值,竖轴为采样点值,绘制样本数据以横轴为理论正态分布值,竖轴为采样点值,绘制样本数据相对于其标准正态分布值的散点图。相对于其标准正态分布值的散点图。图图10.3 正态正态QQPlot示意图示意图n n如果采样数据服从正态分布,其正态QQPlot分布图中采样点分布应该是一条直线。如果有个别采样点偏离直线太多,那么这些采样点可能是一些异常点,应对其进行检验。此外,如果在正态QQ图中数据没有显示出正态分布,那么就有必要在应用某种克里格插值法之前将数据进行转换
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 空间统计分析 空间 统计分析 PPT 课件
限制150内