精简观测站的模型.doc
《精简观测站的模型.doc》由会员分享,可在线阅读,更多相关《精简观测站的模型.doc(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流精简观测站的模型.精品文档.精简观测站的模型第3队 张文颖 李彦霖 王婷婷摘要 本文在保留足够信息量的前提下以尽量精简观测站为目标,把每年的降水量作为指标,利用SAS软件首先对观测站进行聚类,然后在所得分类的基础上得到24种不同的组合,利用matlab通过对该地区降水量的期望进行估计,将精简前和精简后所得到的期望值进行比较,得出精简后的信息量,其中最大信息量对应的组合为最优组合,即要保留的观测站。本文分为模型一和模型二,模型一是用平均值来表示降水量的期望,得到最优组合为1,2,3,5,6,8,12,对应的信息量为97.5%;模型二是用区间估计
2、降水量期望,得到最优组合为1,2,3,7,8,10,11 ,对应的信息量为88.27%。关键词 聚类 区间估计 t分布 置信区间 置信度问题提出某个地区有12个气象观测站,已知这些观测站的地理位置和它们10年来所测得的年降水量。现在为了能够节省开支,想要适当减少气象观测站,应该减少哪些观测站可以使得所得到的降水量的信息量仍然足够大。问题分析 在本题中,如果在该地区保留的观测站越多,则所测得的降水量的信息量就会越大,但是开支也会相应较高;如果在该地区保留的观测站的个数较少,则可以节省开支,但这样所测得的降水量的信息量又会较小。于是我们需要在信息量与开支之间寻求一个平衡。由于在地理环境相似的区域,
3、降水量的梯度变化较小,这些区域的观测站所提供的降水量信息会有很大重叠,因此可以缩减这些区域观测站的数量;而在降水量梯度变化较大的区域,观测站所提供的信息会有显著差异,因此这些观测站不可撤除。于是,我们考虑根据观测站10年来观测所得的数据,将观测站进行聚类,分在同一类的观测站处于降水量梯度变化较小的区域,这一类区域可以仅保留一个观测站。模型假设 1此地区的降水量服从正态分布,即降水量为x的概率为P(x)=。 2建立一个观测站会花费很大的费用。3减少一个观测站可以节省很大的费用。 4不考虑地理位置对分类的影响。符号表示xi 表示第i个区域的观测站。i = 1,2, 12 精简观测站前该地区每年降水
4、量的期望 精简观测站后该地区每年降水量的期望 区间估计的置信度, 置信度为时的置信区间模型建立与求解 模型一 通过分析,我们知道:在降水量梯度变化较小的区域,观测站所提供的信息会有很大重叠,这时需要适当减少观测站;而在降水量梯度变化较大的区域,观测站所提供的信息会有显著差异,这些观测站不可撤除。因此我们需要对观测站进行分类。 基于以上的问题分析和模型假设,我们建立了以下模型 现在,我们以19811990这10年所得到的观测数据为指标,对这12个观测站所在的地区进行聚类。利用SAS软件,得到以下结果: 伪F统计量(图2) 其中,F = 。它用于评价聚为G类的效果。F越大 ,类间离差平方和与类内离
5、差平方和的比值越大,说明聚为一类的样本越相似,而类间的差异越大,所以应该取伪F统计量较大而类数较小的聚类水平。 图2中我们可以看出,当聚为8类时,F 的值达到最大,这说明聚为8类可以使得类间差异与类内差异的比值达到最大;当聚为7类时,虽然F 的值有所减小,但减小的幅度不大,也就是说聚为7类可以多减少一个观测站,并且可以使类间差异与类内差异的比值仍然保持较大;而当聚为6类时,F 的值将有很大幅度的减小,这说明分6类会使类间的差异大幅度减小,故分6类是不合理的。 伪T 统计量(图3) 其中, T = 它是用来评价聚类后的效果。 图3中我们可以看出,当聚为7类时,T 的值较小,这说明由8类聚到7类时
6、,类内样本差异的增量较小;当再由7类聚为6类时,T值突然有较大幅度的增加,这说明若聚为6类,类内样本差异的增量会大幅度增加,故聚6类是不合理的,应该选择分为7类。 根据假设4减少一个观测站会节省很大的费用,再结合以上的分析我们可以得出,将观测站所在的区域分为7类既能够最大的节省开支,又可以使所得到的降水量的信息量仍然足够大。 结合图1,我们可以得出分类情况如下: 类别1234567观测站1234 7 125 106 118 9 现在,我们已经将观测站分成了7类,而一类中只需要一个观测站,由假设3建立一个观测站会花费很大的费用,为节省开支,我们不考虑新建观测站,即只需要在原来的12个观测站中剔除
7、5个。于是,现在的问题就转化为:在同类中究竟应该保留哪个观测站,才能使最终所得到的降水量的信息量仍然足够大?我们的思路是:通过对12个观测站的测量值求期望,可以得出每年该地区的年降水量i0,再通过对7个观测站的测量值求期望,也可得出每年该地区的年降水量。然后用差值率|(- i0)/i0|表示第i年降水量的误差率,亦即信息损失率。求出10年的平均信息损失率 后,利用公式1- 即可求得信息量。信息量越大,则组合最优,此时的组合即为最终要保留的观测站。 第一步:通过对12个观测站的测量值求期望,得出每年该地区的年降水量i0。 第二步:前面我们已经将12 个观测站分成了7类,其中,6,11归为一类;8
8、,9归为一类;5,10归为一类;4,7,12归为一类。每一类保留一个观测站,一共可以得到24个不同的组合(附录表1_73)。然后利用matlab得出不同组合下该地区的年降水量期望值.(附录表1_72) 第三步:求不同组合下的信息量。信息量 = 1- 利用matlab我们得到24个组合的信息量,其中最大的为97.5%,对应的组合为1,2,3,5,6,8,12 . 模型二 在模型一中,我们是用平均值来表示降水量的期望。而在实际中,如果我们仅仅用降水量的平均值来简单的代表该地区降水量, 必然会产生很大误差。但如果估计该地区降水量的范围,则是比较合理的。于是我们考虑用区间估计,得出在一定置信度下,降水
9、量期望的置信区间。而这个置信度则可以视为观测站所提供的信息量。首先根据12个观测站的测量值估计此地区每年降水量的期望,得到置信度为95% 的置信区间,然后根据7个观测站的测量值,求出同样置信区间,对应的置信度i,(i/95%)即为减少观测站后所得到的降水量的信息量。从而,每个组合这10年的年平均信息量就可表示为 。年平均信息量最大的那个组合即为最优组合,亦即最终保留的观测站。 第一步:根据12个观测站的测量值估计此地区每年降水量的期望。 根据假设2,这个地区的降水量服从正态分布。由于总体方差未知,对期望进行区间估计,所以用t 估计函数 T = 其中,表示样本均值, s表示样本标准差,n表示样本
10、容量,表示待估计的期望值。 在这里, =95% ,n=12 。 利用matlab,我们可以得出10组置信度为95% 的置信区间,它们表示此地区每年的降水量的可能范围。 第二步:根据7个观测站的测量值,求出不同组合下,同样置信区间,对应的置信度i。(具体过程见附录3) 第三步:求出不同组合下的年平均信息量。 年平均信息量 = 利用matlab,我们得到24个组合的年平均信息量,其中最大的为1,2,3,7,8,10,11,对应的组合为88.27% . 结果分析与检验 模型一中,我们得到最优组合为 1,2,3,5,6,8,12 ,信息量占原来的97.5% 。模型二中,我们得到最优组合为1,2,3,7
11、,8,10,11 , 信息量占原来的88.27% .比较两个模型的结果,我们可以看出,模型一中在5,10中选择了5,在6,11中选择了6,在4,7,12中选择了12;而模型二则分别选择了10,11,7 。两个模型在8,9中都选择了8。 模型二所得到的信息量比模型一小,但这并不意味着模型二的组合次于模型一的组合,只是因为两个模型在对降水量期望的处理上有所不同而造成的差别。 在模型一伪F统计量的分析中,我们得知分8类时F 的值达到最大,但是我们并没有选择分8类,而是选择了聚为7类,原因在于我们的整体目标并不单单是分类最优,还要尽量使得开支节省最大,即观测站数目尽量少。 最后我们按照模型一和模型二的
12、处理方法,算出了分8类时的信息量分别为98.27% 和90.95% ,其对应的组合分别为1,2,3,4,9,10,11,12 和1,2,3,7,8,10,11,12 。由此可见分8类的信息量仅比分7类时的信息量多出1% -3%,但根据假设减少一个观测站可以减少很大费用,我们可以很容易的得知只有在分7类时,才能保证既能够最大的节省开支,又可以使所得到的降水量的信息量仍然足够大。模型评价与改进 本文首先应用系统聚类对观测站进行分类,然后通过对该地区降水量的期望进行估计,将精简观测站前后所得到的期望值进行比较,得出精简后的信息量,从而得到最优组合,即要保留的观测站,最终在保留足够信息量的前提下将观测
13、站的数量减到最少,成功地解决了精简观测站的问题,还求出了最终保留的观测站所能够提供的信息量。此模型具有广泛的应用性,不仅可以用于精简观测站,而且可以用于解决其他问题。 但是,本模型也还存在着一些缺陷,在模型一和模型二中我们都没有考虑地理因素对观测站选择的影响,只是把降水情况相似的观测站去掉,也就是说有可能造成某一片区域内没有自己的观测站。还有,我们的目标是在尽量节省开支与尽量完整的信息之间寻求一个平衡点,但是在模型中我们没有把可以节省的费用量化,只是在保证一定信息量的情况下剔除尽可能多的站点。关于信息完整性的评价我们分别采用了误差率与置信度两中标准,这只是一种粗略的评判。另外模型中降水量服从正
14、态分布这一假设也有待检验。参考文献 1概率论与数理统计 叶中行等 北京:科学出版社 2001. 9 2 精通MATLAB 6 丁春丽等 北京:清华大学出版社 2002.6附录一表1_71类别1234567观测站1234 7 125 106 118 9表1_72:行表示24种组合,列表示年份(共十年)。其中数据表示每种组合每年的降水量的平均值289.4571331.0429315.3000289.8000313.7143309.1143339.2429344.1571282.0000296.7143287.9857333.3429319.0143281.5286311.5429298.94293
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 精简 观测站 模型
限制150内