欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    精简观测站的模型.doc

    • 资源ID:17682430       资源大小:450KB        全文页数:9页
    • 资源格式: DOC        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    精简观测站的模型.doc

    【精品文档】如有侵权,请联系网站删除,仅供学习与交流精简观测站的模型.精品文档.精简观测站的模型第3队 张文颖 李彦霖 王婷婷摘要 本文在保留足够信息量的前提下以尽量精简观测站为目标,把每年的降水量作为指标,利用SAS软件首先对观测站进行聚类,然后在所得分类的基础上得到24种不同的组合,利用matlab通过对该地区降水量的期望进行估计,将精简前和精简后所得到的期望值进行比较,得出精简后的信息量,其中最大信息量对应的组合为最优组合,即要保留的观测站。本文分为模型一和模型二,模型一是用平均值来表示降水量的期望,得到最优组合为1,2,3,5,6,8,12,对应的信息量为97.5%;模型二是用区间估计降水量期望,得到最优组合为1,2,3,7,8,10,11 ,对应的信息量为88.27%。关键词 聚类 区间估计 t分布 置信区间 置信度问题提出某个地区有12个气象观测站,已知这些观测站的地理位置和它们10年来所测得的年降水量。现在为了能够节省开支,想要适当减少气象观测站,应该减少哪些观测站可以使得所得到的降水量的信息量仍然足够大。问题分析 在本题中,如果在该地区保留的观测站越多,则所测得的降水量的信息量就会越大,但是开支也会相应较高;如果在该地区保留的观测站的个数较少,则可以节省开支,但这样所测得的降水量的信息量又会较小。于是我们需要在信息量与开支之间寻求一个平衡。由于在地理环境相似的区域,降水量的梯度变化较小,这些区域的观测站所提供的降水量信息会有很大重叠,因此可以缩减这些区域观测站的数量;而在降水量梯度变化较大的区域,观测站所提供的信息会有显著差异,因此这些观测站不可撤除。于是,我们考虑根据观测站10年来观测所得的数据,将观测站进行聚类,分在同一类的观测站处于降水量梯度变化较小的区域,这一类区域可以仅保留一个观测站。模型假设 1此地区的降水量服从正态分布,即降水量为x的概率为P(x)=。 2建立一个观测站会花费很大的费用。3减少一个观测站可以节省很大的费用。 4不考虑地理位置对分类的影响。符号表示xi 表示第i个区域的观测站。i = 1,2, 12 精简观测站前该地区每年降水量的期望 精简观测站后该地区每年降水量的期望 区间估计的置信度, 置信度为时的置信区间模型建立与求解 模型一 通过分析,我们知道:在降水量梯度变化较小的区域,观测站所提供的信息会有很大重叠,这时需要适当减少观测站;而在降水量梯度变化较大的区域,观测站所提供的信息会有显著差异,这些观测站不可撤除。因此我们需要对观测站进行分类。 基于以上的问题分析和模型假设,我们建立了以下模型 现在,我们以19811990这10年所得到的观测数据为指标,对这12个观测站所在的地区进行聚类。利用SAS软件,得到以下结果: 伪F统计量(图2) 其中,F = 。它用于评价聚为G类的效果。F越大 ,类间离差平方和与类内离差平方和的比值越大,说明聚为一类的样本越相似,而类间的差异越大,所以应该取伪F统计量较大而类数较小的聚类水平。 图2中我们可以看出,当聚为8类时,F 的值达到最大,这说明聚为8类可以使得类间差异与类内差异的比值达到最大;当聚为7类时,虽然F 的值有所减小,但减小的幅度不大,也就是说聚为7类可以多减少一个观测站,并且可以使类间差异与类内差异的比值仍然保持较大;而当聚为6类时,F 的值将有很大幅度的减小,这说明分6类会使类间的差异大幅度减小,故分6类是不合理的。 伪T 统计量(图3) 其中, T = 它是用来评价聚类后的效果。 图3中我们可以看出,当聚为7类时,T 的值较小,这说明由8类聚到7类时,类内样本差异的增量较小;当再由7类聚为6类时,T值突然有较大幅度的增加,这说明若聚为6类,类内样本差异的增量会大幅度增加,故聚6类是不合理的,应该选择分为7类。 根据假设4减少一个观测站会节省很大的费用,再结合以上的分析我们可以得出,将观测站所在的区域分为7类既能够最大的节省开支,又可以使所得到的降水量的信息量仍然足够大。 结合图1,我们可以得出分类情况如下: 类别1234567观测站1234 7 125 106 118 9 现在,我们已经将观测站分成了7类,而一类中只需要一个观测站,由假设3建立一个观测站会花费很大的费用,为节省开支,我们不考虑新建观测站,即只需要在原来的12个观测站中剔除5个。于是,现在的问题就转化为:在同类中究竟应该保留哪个观测站,才能使最终所得到的降水量的信息量仍然足够大?我们的思路是:通过对12个观测站的测量值求期望,可以得出每年该地区的年降水量i0,再通过对7个观测站的测量值求期望,也可得出每年该地区的年降水量。然后用差值率|(- i0)/i0|表示第i年降水量的误差率,亦即信息损失率。求出10年的平均信息损失率 后,利用公式1- 即可求得信息量。信息量越大,则组合最优,此时的组合即为最终要保留的观测站。 第一步:通过对12个观测站的测量值求期望,得出每年该地区的年降水量i0。 第二步:前面我们已经将12 个观测站分成了7类,其中,6,11归为一类;8,9归为一类;5,10归为一类;4,7,12归为一类。每一类保留一个观测站,一共可以得到24个不同的组合(附录表1_73)。然后利用matlab得出不同组合下该地区的年降水量期望值.(附录表1_72) 第三步:求不同组合下的信息量。信息量 = 1- 利用matlab我们得到24个组合的信息量,其中最大的为97.5%,对应的组合为1,2,3,5,6,8,12 . 模型二 在模型一中,我们是用平均值来表示降水量的期望。而在实际中,如果我们仅仅用降水量的平均值来简单的代表该地区降水量, 必然会产生很大误差。但如果估计该地区降水量的范围,则是比较合理的。于是我们考虑用区间估计,得出在一定置信度下,降水量期望的置信区间。而这个置信度则可以视为观测站所提供的信息量。首先根据12个观测站的测量值估计此地区每年降水量的期望,得到置信度为95% 的置信区间,然后根据7个观测站的测量值,求出同样置信区间,对应的置信度i,(i/95%)即为减少观测站后所得到的降水量的信息量。从而,每个组合这10年的年平均信息量就可表示为 。年平均信息量最大的那个组合即为最优组合,亦即最终保留的观测站。 第一步:根据12个观测站的测量值估计此地区每年降水量的期望。 根据假设2,这个地区的降水量服从正态分布。由于总体方差未知,对期望进行区间估计,所以用t 估计函数 T = 其中,表示样本均值, s表示样本标准差,n表示样本容量,表示待估计的期望值。 在这里, =95% ,n=12 。 利用matlab,我们可以得出10组置信度为95% 的置信区间,它们表示此地区每年的降水量的可能范围。 第二步:根据7个观测站的测量值,求出不同组合下,同样置信区间,对应的置信度i。(具体过程见附录3) 第三步:求出不同组合下的年平均信息量。 年平均信息量 = 利用matlab,我们得到24个组合的年平均信息量,其中最大的为1,2,3,7,8,10,11,对应的组合为88.27% . 结果分析与检验 模型一中,我们得到最优组合为 1,2,3,5,6,8,12 ,信息量占原来的97.5% 。模型二中,我们得到最优组合为1,2,3,7,8,10,11 , 信息量占原来的88.27% .比较两个模型的结果,我们可以看出,模型一中在5,10中选择了5,在6,11中选择了6,在4,7,12中选择了12;而模型二则分别选择了10,11,7 。两个模型在8,9中都选择了8。 模型二所得到的信息量比模型一小,但这并不意味着模型二的组合次于模型一的组合,只是因为两个模型在对降水量期望的处理上有所不同而造成的差别。 在模型一伪F统计量的分析中,我们得知分8类时F 的值达到最大,但是我们并没有选择分8类,而是选择了聚为7类,原因在于我们的整体目标并不单单是分类最优,还要尽量使得开支节省最大,即观测站数目尽量少。 最后我们按照模型一和模型二的处理方法,算出了分8类时的信息量分别为98.27% 和90.95% ,其对应的组合分别为1,2,3,4,9,10,11,12 和1,2,3,7,8,10,11,12 。由此可见分8类的信息量仅比分7类时的信息量多出1% -3%,但根据假设减少一个观测站可以减少很大费用,我们可以很容易的得知只有在分7类时,才能保证既能够最大的节省开支,又可以使所得到的降水量的信息量仍然足够大。模型评价与改进 本文首先应用系统聚类对观测站进行分类,然后通过对该地区降水量的期望进行估计,将精简观测站前后所得到的期望值进行比较,得出精简后的信息量,从而得到最优组合,即要保留的观测站,最终在保留足够信息量的前提下将观测站的数量减到最少,成功地解决了精简观测站的问题,还求出了最终保留的观测站所能够提供的信息量。此模型具有广泛的应用性,不仅可以用于精简观测站,而且可以用于解决其他问题。 但是,本模型也还存在着一些缺陷,在模型一和模型二中我们都没有考虑地理因素对观测站选择的影响,只是把降水情况相似的观测站去掉,也就是说有可能造成某一片区域内没有自己的观测站。还有,我们的目标是在尽量节省开支与尽量完整的信息之间寻求一个平衡点,但是在模型中我们没有把可以节省的费用量化,只是在保证一定信息量的情况下剔除尽可能多的站点。关于信息完整性的评价我们分别采用了误差率与置信度两中标准,这只是一种粗略的评判。另外模型中降水量服从正态分布这一假设也有待检验。参考文献 1概率论与数理统计 叶中行等 北京:科学出版社 2001. 9 2 精通MATLAB 6 丁春丽等 北京:清华大学出版社 2002.6附录一表1_71类别1234567观测站1234 7 125 106 118 9表1_72:行表示24种组合,列表示年份(共十年)。其中数据表示每种组合每年的降水量的平均值289.4571331.0429315.3000289.8000313.7143309.1143339.2429344.1571282.0000296.7143287.9857333.3429319.0143281.5286311.5429298.9429346.8571376.3143279.1143288.1000275.3571326.4000332.1429309.4571303.8000306.7143339.1286342.6000277.7857290.8286273.8857328.7000335.8571301.1857301.6286296.5429346.7429374.7571274.9000282.2143282.3714342.4286307.4286270.7429320.0429312.8429331.0571349.4143295.2000309.3714280.9000344.7286311.1429262.4714317.8714302.6714338.6714381.5714292.3143300.7571268.2714337.7857324.2714290.4000310.1286310.4429330.9429347.8571290.9857303.4857266.8000340.0857327.9857282.1286307.9571300.2714338.5571380.0143288.1000294.8714278.2571334.4857314.0286279.2571334.7143293.4429337.2143358.0286286.6000296.9571276.7857336.7857317.7429270.9857332.5429283.2714344.8286390.1857283.7143288.3429264.1571329.8429330.8714298.9143324.8000291.0429337.1000356.4714282.3857291.0714262.6857332.1429334.5857290.6429322.6286280.8714344.7143388.6286279.5000282.4571271.1714345.8714306.1571260.2000341.0429297.1714329.0286363.2857299.8000309.6143269.7000348.1714309.8714251.9286338.8714287.0000336.6429395.4429296.9143301.0000257.0714341.2286323.0000279.8571331.1286294.7714328.9143361.7286295.5857303.7286255.6000343.5286326.7143271.5857328.9571284.6000336.5286393.8857292.7000295.1143277.8429353.5714313.4286297.0143329.1571307.0571336.9143365.4571286.7857314.1857276.3714355.8714317.1429288.7429326.9857296.8857344.5286397.6143283.9000305.5714263.7429348.9286330.2714316.6714319.2429304.6571336.8000363.9000282.5714308.3000262.2714351.2286333.9857308.4000317.0714294.4857344.4143396.0571279.6857299.6857270.7571364.9571305.5571277.9571335.4857310.7857328.7286370.7143299.9857326.8429269.2857367.2571309.2714269.6857333.3143300.6143336.3429402.8714297.1000318.2286256.6571360.3143322.4000297.6143325.5714308.3857328.6143369.1571295.7714320.9571255.1857362.6143326.1143289.3429323.4000298.2143336.2286401.3143292.8857312.3429表1_73:表1_72中行下标所对应的观测站组合编号123456对应组合1 2 3 4 5 6 81 2 3 4 5 6 91 2 3 4 5 11 81 2 3 4 5 11 91 2 3 4 10 6 81 2 3 4 10 6 9编号789101112对应组合1 2 3 4 10 11 81 2 3 4 10 11 91 2 3 7 5 6 81 2 3 7 5 6 91 2 3 7 5 11 81 2 3 7 5 11 9编号131415161718对应组合1 2 3 7 10 6 81 2 3 7 10 6 91 2 3 7 10 11 81 2 3 7 10 11 91 2 3 12 5 6 81 2 3 12 5 6 9编号192021222324对应组合1 2 3 12 5 11 81 2 3 12 5 11 91 2 3 12 10 6 81 2 3 12 10 6 91 2 3 12 10 11 81 2 3 12 10 11 9表1_8分8类,产生16种组合。其下标对应的组合为:下标编号1234对应组合1 2 3 4 5 6 8 121 2 3 4 5 6 9 121 2 3 4 5 11 8 121 2 3 4 5 11 9 12下标编号5678对应组合1 2 3 4 10 6 8 121 2 3 4 10 6 9 121 2 3 4 10 11 8 121 2 3 4 10 11 9 12下标编号9101112对应组合1 2 3 7 5 6 8 121 2 3 7 5 6 9 121 2 3 7 5 11 8 121 2 3 7 5 11 9 12下标编号13141516对应组合1 2 3 7 10 6 8 121 2 3 7 10 6 9 121 2 3 7 10 11 8 121 2 3 7 10 11 9 12附录二每年降水量期望的置信区间年份期望区间上限期望区间下限1981236.5635327.98651982301.9904412.79291983271.1064384.14361984248.5469356.51981985264.3339361.61611986253.3136366.31981987287.8891395.42761988313.5057419.32761989239.2600354.22341990257.7729340.0438 行表示24种组合,列表示年份。数值表示置信度/95%0.87090.79740.8091 0.81510.84760.82060.93450.79020.86040.8689 0.8755 0.79910.8311 0.78060.84030.7986 0.8885 0.8771 0.83470.8597 0.8020 0.78590.8425 0.90340.82360.8201 0.9340 0.7892 0.85660.8400 0.8003 0.79010.8541 0.90030.81140.7937 0.8882 0.8888 0.82810.8116 0.8710 0.90030.8222 0.80910.85900.8270 0.8692 0.8310 0.88110.9277 0.8725 0.89380.8520 0.72430.85500.8113 0.8416 0.8835 0.86230.9599 0.7761 0.90580.8847 1.00410.85020.8280 0.8685 0.8326 0.88820.9221 0.7716 0.90050.9038 0.97470.84090.8080 0.8412 0.8977 0.86670.9360 0.9594 0.82310.8079 0.79160.77030.8368 0.9399 0.8809 0.85770.8692 0.9596 0.82240.8308 0.73700.77560.7817 0.8966 0.8743 0.83510.8609 0.8280 0.81640.8454 0.92760.79970.8288 0.9394 0.8863 0.85750.8409 0.8211 0.81790.8580 0.90560.79910.7689 0.8963 0.8930 0.83230.8133 0.9355 0.91910.8189 0.72600.74380.8552 0.8702 0.9091 0.86670.9270 0.9326 0.91070.8498 0.59260.75340.8069 0.8454 0.8679 0.85100.9600 0.7732 0.92860.8859 1.01320.79160.8490 0.8695 0.9167 0.87710.9219 0.7625 0.92130.9060 0.97970.79460.7958 0.8450 0.8910 0.85870.9366 0.9608 0.84680.8070 0.79780.81850.8294 0.9405 0.8824 0.85730.7590 0.9608 0.83720.8304 0.77680.82010.8030 0.8976 0.8162 0.83490.7991 0.8272 0.85890.8465 0.84940.83360.8279 0.9399 0.8903 0.85730.7688 0.8201 0.85110.8595 0.85970.82960.7971 0.8973 0.8385 0.83220.7915 0.9361 0.89380.8171 0.81870.80290.8373 0.8701 0.9015 0.86590.7127 0.9330 0.87750.8484 0.75720.80850.8174 0.8458 0.7950 0.85030.8018 0.7712 0.91910.8862 0.96970.83550.8375 0.8694 0.9117 0.87650.7549 0.7603 0.90440.9067 0.94630.83490.8131 0.8454 0.8230 0.85820.8208附录3已知置信区间,求置信度 1构造统计量 T = T t(n-1)2根据t1Tt2 求出范围的表达式: 由 t1t2 得 3求出t1 ,t2 = 1 =2 4利用t 分布的累积分布函数,求出t1 ,t2 这两个点的累积概率T1 ,T2 置信度 = T2 - T1

    注意事项

    本文(精简观测站的模型.doc)为本站会员(豆****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开