数学建模空气质量.doc
/.2011高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 中国农业大学 参赛队员 (打印并签名) :1. 王万能 2. 董祥祥 3. 孙靖翔 指导教师或指导教师组负责人 (打印并签名): 日期: 年 月 日赛区评阅编号(由赛区组委会评阅前进行编号):2011高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):北京市空气质量状况探究摘要空气与我们的生存是息息相关的,它直接参与人体的新陈代谢、物质代谢和体温调节等过程。随着现代工业和交通的迅猛发展,烟尘和汽车尾气等的排放,超越了大气的自净界限,接踵而至的却是一个十分严峻的问题大气污染。作为我国的首都,北京的空气质量又是什么情况呢?我们通过数学模型来分析这个问题。对于第一问“查找相关数据(包括近期连续数据及零星数据)”,我们认为,由于空气质量指数(AQI)是2012年上半年才被出台规定取代原有空气污染指数(API)的,且参与空气质量评价的主要污染物为细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫、二氧化氮、臭氧、一氧化碳等六项。为方便后续几问的研究,我们收集了2013年至2014年8月每日的AQI、空气质量等级、PM2.5、PM10、SO2、NO2、CO这7项指标的数据(即连续型数据)和2008年至2013年PM10、SO2、NO2、CO的年度平均指标数据(即离散数据)。第二问中,本文从时间和空间两个维度分析北京污染情况。从时间角度分析时,为保证充分利用数据,本文分别从污染物年浓度平均变化和持续污染日数和空气质量超标日数年变化两个层次对北京空气质量进行了分析,从而归纳出北京空气污染的年度特征。从空间角度分析时,本文根据北京市各区县PM10、SO2、NO2、CO的年度平均数据,将各区县各项指标浓度反映在了北京的区域地图上,绘制得各项指标的浓度空间分布示意图,同时将两年数据求平均值并按照PM10降序排列,结合图、表定量分析并得出结论。第三文中,本文以各个监测点为圆心,以各监测点所能测得的准确数据的最大距离为半径作圆,根据所有圆是否将北京市全部覆盖判断空气质量监测点的布局是否合理。最终本文得出结论:北京市空气质量监测点的布局是合理的。对于第四问“分析北京空气污染的主要成因和解决办法”,本文以抽样的方式,抽取每月1号、5号、10号、15号、20号、25号、30号,二月取28号的数据为样本,统计北京2013年9月1日到2014年8月31日抽样日期每天的23个检测站点监测到的当日首要污染物为“颗粒物”、“臭氧”、“二氧化氮”、“二氧化硫”、“一氧化碳”、及“无”的监测点个数,求出这84天各项指标为首要污染物的频率,比较频率大小,得出北京空气污染的主要气体是颗粒物、臭氧、二氧化氮、一氧化碳,并据此提出解决办法。第五问中,本文选取主成分神经网络模式识别的方法,对未来一周(9月6日至9月12日)的空气状况进行预测。我们选择预报下周空气质量的等级,使用的是MATLAB提供的模式识别工具箱。我们将空气质量看做六个模式:优,良,轻度污染,中度污染,重度污染,严重污染;并将spss软件求解出来的主成分与对应的模式交给神经网络学习。训练好后用于预测。根据主成分分析的方法,对全部160个样本的8个因子进行分析。将数据导入spss,设置抽取系数为0.5,得到相关矩阵;然后由解释总方差表格和成分矩阵找出spss提取的主成分,将八维数据降成五维数据;并将样本转化,用于神经网络的训练;并把不同的空气质量等级二进制化,得到训练结果后进行预测。将要预测时间段的平均气温,最高气温,最低气温,大气压,相对湿度,相对风速,水平能见度,降水量数据按照公式变为五维数据并输入网络进行求解,最终得到未来一个星期的空气质量为:重度污染,重度污染,优,良,良,轻度污染,轻度污染。第六问,本文假设自己想从事相关商业活动,给出了计划及广告词。关键词:空气质量主成分神经网络空气污染1 问题重述空气与我们的生存是息息相关的,它直接参与人体的新陈代谢、物质代谢和体温调节等过程。一个人每天呼吸的空气约为1万多升,折合质量约为12.9kg,约为每天所需食物和饮水量的10倍。随着现代工业和交通的迅猛发展,烟尘和汽车尾气等的排放,超越了大气的自净界限,接踵而至的却是一个十分严峻的问题大气污染。对大气污染影响较大的污染物有:硫氧化物、氮氧化物、碳氢化合物、碳氧化合物、粉尘等。大气污染物对我们身体的影响是巨大的,而2013年以来日益频发的雾霾天气已经严重影响到人们的日常生活。 “生态文明”是被列为当前的一大重要议题,“我们将加强生态环境保护,扎实推进资源节约,为人民创造良好生产生活环境,为应对全球富气候变化作出新的贡献。”,习近平的一系列讲话为坚持节约资源和保护环境基本国策,努力走向生态文明新时代赋予了新内容,提出了新要求,彰显出他对于生态文明领域建设的决心与魄力。本文中,我们(1)查找相关数据(包括近期连续数据及零星数据);(2)分析北京空气污染情况(时间、空间);(3)分析北京空气质量监测点的布局是否合理;(4) 分析北京空气污染的主要成因及解决办法;(5)对未来一周进行预测;(6)假设自己想从事相关商业活动,给出计划及广告词。(不超过一页)2 问题分析对于第一问“查找相关数据(包括近期连续数据及零星数据)”,我们认为,由于空气质量指数(AQI)是2012年上半年才被出台规定取代原有空气污染指数(API)的,且参与空气质量评价的主要污染物为细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫、二氧化氮、臭氧、一氧化碳等六项。为方便后续几问的研究,我们收集了2013年至2014年8月每日的AQI、空气质量等级、PM2.5、PM10、SO2、NO2、CO这7项指标的数据(即连续型数据)和2008年至2013年PM10、SO2、NO2、CO的年度平均指标数据(即离散数据)。第二问中,本文从时间和空间两个维度分析北京污染情况。从时间角度分析时,为保证充分利用数据,本文分别从污染物年浓度平均变化和持续污染日数和空气质量超标日数年变化两个层次对北京空气质量进行了分析,从而归纳出北京空气污染的年度特征。从空间角度分析时,本文根据北京市各区县PM10、SO2、NO2、CO的年度平均数据,将各区县各项指标浓度反映在了北京的区域地图上,绘制得各项指标的浓度空间分布示意图,同时将两年数据求平均值并按照PM10降序排列,结合图、表定量分析并得出结论。第三文中,本文以各个监测点为圆心,以各监测点所能测得的准确数据的最大距离为半径作圆,根据所有圆是否将北京市全部覆盖判断空气质量监测点的布局是否合理。最终本文得出结论:北京市空气质量监测点的布局是合理的。对于第四问“分析北京空气污染的主要成因和解决办法”,本文以抽样的方式,抽取每月1号、5号、10号、15号、20号、25号、30号,二月取28号的数据为样本,统计北京2013年9月1日到2014年8月31日抽样日期每天的23个检测站点监测到的当日首要污染物为“颗粒物”、“臭氧”、“二氧化氮”、“二氧化硫”、“一氧化碳”、及“无”的监测点个数,求出这84天各项指标为首要污染物的频率,比较频率大小,得出北京空气污染的主要气体是颗粒物、臭氧、二氧化氮、一氧化碳,并据此提出解决办法。第五问中,本文选取主成分神经网络模式识别的方法,对未来一周(9月6日至9月12日)的空气状况进行预测。我们选择预报下周空气质量的等级,使用的是MATLAB提供的模式识别工具箱。我们将空气质量看做六个模式:优,良,轻度污染,中度污染,重度污染,严重污染;并将spss软件求解出来的主成分与对应的模式交给神经网络学习。训练好后用于预测。根据主成分分析的方法,对全部160个样本的8个因子进行分析。将数据导入spss,设置抽取系数为0.5,得到相关矩阵;然后由解释总方差表格和成分矩阵找出spss提取的主成分,将八维数据降成五维数据;并将样本转化,用于神经网络的训练;并把不同的空气质量等级二进制化,得到训练结果后进行预测。将要预测时间段的平均气温,最高气温,最低气温,大气压,相对湿度,相对风速,水平能见度,降水量数据按照公式变为五维数据并输入网络进行求解,最终得到未来一个星期的空气质量为:重度污染,重度污染,优,良,良,轻度污染,轻度污染。第六问,本文假设自己想从事相关商业活动,给出了计划及广告词。3 假设与约定假设:()假设预测时间段内没有发生重大的天气异常;()假设预测时间段内没有污染源;()假设以pm2.5为空气质量等级划分的标准为:ps:pm2.5标准0-35优35-75良75-115轻度污染115-150中度污染150-250重度污染250-严重污染4 符号说明符号含义细颗粒物可吸入颗粒物空气质量指数5 模型建立与求解5.1 问题一 本题主要收集了北京市环境污染近期相关连续数据与离散数据。 由于空气质量指数(AQI)是2012年上半年才被出台规定取代原有空气污染指数(API)的,且参与空气质量评价的主要污染物为细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫、二氧化氮、臭氧、一氧化碳等六项。为方便后续几问的研究,我们收集了2013年至2014年8月每日的AQI、空气质量等级、PM2.5、PM10、SO2、NO2、CO这7项指标的数据(即连续型数据)和2008年至2013年PM10、SO2、NO2、CO的年度平均指标数据(即离散数据)。见附录。5.2 问题二本问主要从时间和空间两个维度分析北京空气污染情况。5.2.1 模型建立(1)本题主要从时间和空间两个维度分析北京空气污染情况。(2)从时间角度分析时,为保证充分利用数据,本文分别从污染物年浓度平均变化和持续污染日数和空气质量超标日数年变化两个层次对北京空气质量进行了分析,从而归纳出北京空气污染的年度特征。(3)从空间角度分析时,本文根据北京市各区县PM10、SO2、NO2、CO的年度平均数据,将各区县各项指标浓度反映在了北京的区域地图上,绘制得各项指标的浓度空间分布示意图,同时将两年数据求平均值并按照PM10降序排列,结合图、表定量分析并得出结论。5.2.2 模型求解.时间特征(1) 按污染物年浓度平均变化本文分析了2008年至2013年PM10、CO、NO2、SO2的平均浓度变化,变化情况如下表:时间PM10CONO2SO220081221.4493620091211.6533420101211.5573220111141.4552820121091.452282013108.15626.5变化趋势如下由上表我们可以得出: 近年来,北京市NO2浓度处于缓慢上升趋势;CO浓度与往年相比基本保持持平;PM10浓度略有下降;SO2年平均浓度处于下降趋势。(2) 按持续污染日数和空气质量超标日数年变化统计分析2001-2010年北京空气质量超标日数和空气持续污染日数年变化图,我们可以看出:2001年-2009年北京年空气持续污染日数在年超标日数中所占比例都在50%以上。可以说一半以上的空气质量超标日都是持续污染日。近年来北京的年空气质量超标日数和持续污染日数总体呈下降趋势。但年持续污染日数在年超标日数中所占的比例一直较大。综上,北京空气污染年际变化特征如下:污染物排放量的大力削减使北京市空气质量得到明显改善,年空气质量超标日数和持续污染日数总体也呈下降趋势,但是持续污染对全年空气质量超标日数贡献依然较大,空气质量仍有待改善。.空间特征为了分析北京污染的空间分布情况,我们将2012与2013年的SO2,NO2,以及可吸入颗粒物的各区县浓度反映在了北京的区域地图上。(1)2013年:各区县各项指标年平均数据区县PM2.5SO2NO2PM10东城区93.626.858.0109.6西城区91.728.859.6112.5朝阳区91.329.764.0112.4海淀区98.126.963.6115.0丰台区96.928.157.5118.5石景山区92.824.963.3116.4门头沟区91.124.651.8114.8房山区106.831.261.9131.7通州区105.738.655.8123.5顺义区84.820.844.898.5大兴区107.833.765.7130.3昌平区79.225.943.594.7平谷区84.820.635.098.7怀柔区76.122.337.995.3密云县71.621.343.685.9延庆县68.019.234.478.3亦庄104.933.657.5123.2空气中可吸入颗粒物浓度空间分布示意图空气中细颗粒物颗粒物浓度空间分布示意图空气中二氧化氮浓度空间分布示意图空气中二氧化硫浓度空间分布示意图(2)2012年:各区县各项指标年平均数据区县SO2NO2PM10东城区2956113西城区3259111朝阳区2960114海淀区3154114丰台区2857113石景山区2455124门头沟区2951109房山区3659122通州区4256119顺义区234598大兴区3564124昌平区294097平谷区243598怀柔区223087密云县294085延庆县263982亦庄3654126(3) 两年数据平均值(按关键字PM10降序排列)区县PM10SO2NO2大兴区127.1527.957房山区126.8530.459.3亦庄124.629.3562通州区121.2528.9558.8石景山区120.228.0557.25丰台区115.7524.4559.15海淀区114.526.851.4朝阳区113.233.660.45门头沟区111.940.355.9西城区111.7521.944.9东城区111.334.3564.85平谷区98.3527.4541.75顺义区98.2522.335昌平区95.8522.1533.95怀柔区91.1525.1541.8密云县84.4522.636.7延庆县80.1534.855.75(4) 结合图表定量分析由上表易知2013年:(4.1)按PM2.5值由大到小,各区县排列为大兴区 房山区 通州区 亦庄 海淀区 丰台区 东城区 石景山区 西城区 朝阳区 门头沟区 平谷区 顺义区 昌平区 怀柔区 密云县 延庆县,按此顺序,各区县空气质量愈好;(4.2)各区县的SO2、NO2、PM10取值及大小排序;易知2012年各区县的SO2、NO2、PM10取值及大小排序;易知2013年和2012年各区县的SO2、NO2、PM10平均取值及大小排序;结合图,根据各区县的地理位置分布,我们得出结论:北京市空气质量南北差异显著。位于北部的生态涵养发展区空气质量优于其他区域。5.3 问题三本题主要探讨北京市环境质量监测点的布局是否合理。模型建立及求解.环境空气质量评价城市点的定义:以监测城市建成区的空气质量整体状况和变化趋势为目的而设置的监测点,参与城市环境空气质量评价。其设置的最少数量根据本标准由城市建成区面积和人口数量确定。每个环境空气质量评价城市点代表范围一般为半径500 米至4 千米,有时也可扩大到半径4 千米至几十千米(如对于空气污染物浓度较低,其空间变化较小的地区)的范围。可简称城市点。. .这是北京市环境监测点的分布图:按照比例尺计算,距离最近的两个监测点的距离约为10公里。,这样说来就按照最保守的估计每一个监测点的检测半径为5公里,则每一个监测点的检测的面积为78.5平方公里,市区10个监测点总共为785平方公里,正好和市区的面积相仿。所以,从面积上来说,监测点的分布是合理的。而对于其他的区来说,位于郊区人口密度明显比市区低许多,因而空气质量的变化不大,一个监测点所能代表的范围的半径也有数十公里。5.4 问题四 本题主要探究北京空气污染的主要成因,并提出解决办法。5.4.1 模型建立(1)以抽样的方式,抽取每月1号、5号、10号、15号、20号、25号、30号,二月取28号的数据为样本,统计北京2013年9月1日到2014年8月31日抽样日期每天的23个检测站点监测到的当日首要污染物为“颗粒物”、“臭氧”、“二氧化氮”、“二氧化硫”、“一氧化碳”、及“无”的监测点个数。(2)求出这84天“颗粒物”、“臭氧”、“二氧化氮”、“二氧化硫”、“一氧化碳”、及“无”为首要污染物的频率。(3)比较污染成分为首要污染物的出现频率,随即便可得出北京空气污染的主要成因,并据此提出解决办法。5.4.2 模型求解(1) 统计北京2013年9月1日到2014年8月31日抽样日期每天的23个检测站点监测到的当日首要污染物为“颗粒物”、“臭氧”、“二氧化氮”、“二氧化硫”、“一氧化碳”、及“无”的监测点个数。统计结果见下表:序号颗粒物臭氧二氧化氮二氧化硫一氧化碳无合计1230000023202110012330230000234023000023502100002161143005237230000023871600002392210000231002300002311023000023121220000231312200002314221000023150230000231602300002317202000123184190000231902300002320230000023210230000232222100002323412800125241625000232523000002326149000023272300000232802200012329230000023301930001233123000002332220100023332012000233423000002335131000002336230000124374090010233822000012339220100023402510015234123000002342931100023432300000234423000002345306101323462300000234723000002348230000023492300000235019040002351230000023521805000235322010002354200002123558070182456230000023572102000235813050052359140001823601506002236111080042362230000023631904000236423000002365230000023667160000236722010002368190200223690000023237010070062371230000023722300000237323000002374201300823753015005237660160012377200300023780200003237901200011238018020032381601300423821204007238330120082384210000223合计1133439178121811934(2) 求出这84天“颗粒物”、“臭氧”、“二氧化氮”、“二氧化硫”、“一氧化碳”、及“无”为首要污染物的频率。结果如下表:名称颗粒物臭氧二氧化氮二氧化硫一氧化碳无合计频率0.58580.22700.09200.00050.00100.09361(4) 由上表比较污染成分为首要污染物的出现频率,有P(颗粒物) P(臭氧) P(无) P(二氧化氮) P(一氧化碳) P(二氧化硫),易知:空气污染主要成分为颗粒物、臭氧、二氧化氮、一氧化碳。(5) 通过上网查阅资料我们了解到,一些颗粒物来自污染源的直接排放,比如烟囱与车辆。另一些则是由环境空气中硫的氧化物、氮氧化物、挥发性有机化合物及其它化合物互相作用形成的细小颗粒物,可吸入颗粒物通常来自在未铺沥青、水泥的路面上行使的机动车、材料的破碎碾磨处理过程以及被风扬起的尘土。而NO2主要是是汽车尾气产生的污染物,凡含碳的物质燃烧不完全时,都可产生CO气体,如冶金工业中炼焦、炼铁、锻冶、铸造和热处理的生产。以上这些都是产生上述污染气体的原因。故我们提出下列建议: 外出时尽量多坐公交;发展科技,开发新型绿色能源,减少人类对化石燃料的依赖 ;冶金工业中炼焦、炼铁、锻冶、铸造和热处理等生产尽量鼓足氧气,保证燃料完全燃烧,减少不完全燃烧产生的CO等污染气体;加强公众环保宣传教育,植树造林等。5.5 问题五本题对未来一周(9月6日至9月12日)的空气状况进行预测。考虑到平时人们只是关心空气的大致情况,最常见就是空气的质量等级,例如,优良中差等。因此,在预测下周空气质量的时候,我们不采用预报具体数值的方式而是预报下周空气质量的等级。在这一问中,我们选取主成分神经网络模式识别的方法。使用的是MATLAB提供的模式识别工具箱。我们将空气质量看做六个模式:优,良,轻度污染,中度污染,重度污染,严重污染;并将spss软件求解出来的主成分与对应的模式交给神经网络学习。训练好后用于预测。5.5.1 预报建模的基本原理和方法(1)资料的选取 取北京环境观测站2008到2012年每年8月5号到九月五号的基本天气数据,数据包括以下几项:平均气温,最高气温,最低气温,大气压,相对湿度,相对风速,水平能见度,降水量,以及当天pm2.5的平均值。共160个样本。(2)主成分分析的方法 主成分分析的方法是利用降维的思想,把相关的多指标转化为少数几个不相关的综合指标的一种多元统计分析方法。该方法被广泛用于大气科的预报和分析研究工作中。 设某一预报对象有n个预报因子,,可以通过主成分分析方法构造n个新的综合因子变量,每个新的综合因子变量是原因子变量的线性组合。新的因子变量之间是相互正交的,及各个因子之间的相关系数为0,各个新的综合因子变量的特征值明确表示了它对原因子组的贡献大小。 将主成分分析得到的新的综合因子变量用于构造神经网络学习矩阵,可以很直观地去掉特征值较小的对应的成分。因为这些主成分几乎没有包含原变量的信息, 只保留特征量相对较大的且与预报量相关程度高的主成分, 降维作用直观显著。一般前几个主成分具有更大的方差贡献且与预报量相关较好, 由于主成分间是正交的, 所以最后确定的几个特征值大且与预报量相关程度高的主成分所构成的学习矩阵, 不会有多余的重复信息和噪音声影响。(3)人工神经网络人工神经网络是一个可自动提取一组预报变量和另一组自变量之间非线性关系的数据处理系统。该网络的建立过程称为人工神经网络的训练过程,是用自适应算法递归迭代求解因变量与自变量之间的非线性关系。训练后的神经网络模型可以用来估计或预报预测变量。在本文中我们使用的是MATLAB提供的模式识别工具箱。我们将空气质量看做六个模式:优,良,轻度污染,中度污染,重度污染,严重污染。我们将spss软件求解出来的主成分与对应的模式交给神经网络学习。训练好后用于预测。5.5.2 预报模型的建立(1) 根据主成分分析的方法,对全部160个样本的8个因子进行分析。将数据导入spss,设置抽取系数为0.5,得到相关矩阵;(2) 由解释总方差表格和成分矩阵找出提取的主成分,将数据降维;(3) 将样本转化,用于神经网络的训练;并把不同的空气质量等级二进制化,得到训练结果后即可进行预测。. .模型求解()根据主成分分析的方法,对全部160个样本的8个因子进行分析。将数据导入spss,设置抽取系数为0.5,可得到如下的结果:相关矩阵平均温度最高温度最低温度大气压相对湿度风速能见度降水量相关平均温度1.000.863.806-.575-.123-.082-.206-.225最高温度.8631.000.451-.450-.380.027.072-.291最低温度.806.4511.000-.508.193-.121-.417-.094大气压-.575-.450-.5081.000-.218.066.262-.031相对湿度-.123-.380.193-.2181.000-.375-.764.336风速-.082.027-.121.066-.3751.000.305.015能见度-.206.072-.417.262-.764.3051.000-.068降水量-.225-.291-.094-.031.336.015-.0681.000Sig.(单侧)平均温度.000.000.000.060.151.004.002最高温度.000.000.000.000.370.184.000最低温度.000.000.000.007.063.000.117大气压.000.000.000.003.202.000.349相对湿度.060.000.007.003.000.000.000风速.151.370.063.202.000.000.425能见度.004.184.000.000.000.000.197降水量.002.000.117.349.000.425.197()从spss提供的相关矩阵可以看出平均气温和最高气温,最低气温具有高度的相关性。而其他的因子具有比较强的独立性。有如图所示的解释总方差表格我们可以得知spss抽取了5个主成分。一共可以表示93.963%的原始信息。 解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %13.00137.51437.5143.00137.51437.51422.25928.24165.7552.25928.24165.75531.01012.63078.3851.01012.63078.3854.7299.11887.502.7299.11887.5025.5176.46193.963.5176.46193.9636.3374.21098.1747.1261.57799.7518.020.249100.000提取方法:主成份分析。由上表和如下的成分矩阵可以得到如下的公式成份矩阵a成份12345平均温度.948.236.024.053.167最高温度.757.517.005.169.027最低温度.856-.123.060-.142.312大气压-.729.117-.324-.099.567相对湿度.117-.945.026-.111-.085风速-.191.476.608-.602-.001能见度-.411.769.119.341-.071降水量-.213-.443.719.421.240提
收藏
编号:2604196
类型:共享资源
大小:2.69MB
格式:DOC
上传时间:2020-04-23
10
金币
- 关 键 词:
-
数学
建模
空气质量
- 资源描述:
-
/.
2011高教社杯全国大学生数学建模竞赛
承 诺 书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): A
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名): 中国农业大学
参赛队员 (打印并签名) :1. 王万能
2. 董祥祥
3. 孙靖翔
指导教师或指导教师组负责人 (打印并签名):
日期: 2014 年 9 月 8 日
赛区评阅编号(由赛区组委会评阅前进行编号):
2011高教社杯全国大学生数学建模竞赛
编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
北京市空气质量状况探究
摘要
空气与我们的生存是息息相关的,它直接参与人体的新陈代谢、物质代谢和体温调节等过程。随着现代工业和交通的迅猛发展,烟尘和汽车尾气等的排放,超越了大气的自净界限,接踵而至的却是一个十分严峻的问题—大气污染。作为我国的首都,北京的空气质量又是什么情况呢?我们通过数学模型来分析这个问题。
对于第一问“查找相关数据(包括近期连续数据及零星数据)”,我们认为,由于空气质量指数(AQI)是2012年上半年才被出台规定取代原有空气污染指数(API)的,且参与空气质量评价的主要污染物为细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫、二氧化氮、臭氧、一氧化碳等六项。为方便后续几问的研究,我们收集了2013年至2014年8月每日的AQI、空气质量等级、PM2.5、PM10、SO2、NO2、CO这7项指标的数据(即连续型数据)和2008年至2013年PM10、SO2、NO2、CO的年度平均指标数据(即离散数据)。
第二问中,本文从时间和空间两个维度分析北京污染情况。从时间角度分析时,为保证充分利用数据,本文分别从污染物年浓度平均变化和持续污染日数和空气质量超标日数年变化两个层次对北京空气质量进行了分析,从而归纳出北京空气污染的年度特征。从空间角度分析时,本文根据北京市各区县PM10、SO2、NO2、CO的年度平均数据,将各区县各项指标浓度反映在了北京的区域地图上,绘制得各项指标的浓度空间分布示意图,同时将两年数据求平均值并按照PM10降序排列,结合图、表定量分析并得出结论。
第三文中,本文以各个监测点为圆心,以各监测点所能测得的准确数据的最大距离为半径作圆,根据所有圆是否将北京市全部覆盖判断空气质量监测点的布局是否合理。最终本文得出结论:北京市空气质量监测点的布局是合理的。
对于第四问“分析北京空气污染的主要成因和解决办法”,本文以抽样的方式,抽取每月1号、5号、10号、15号、20号、25号、30号,二月取28号的数据为样本,统计北京2013年9月1日到2014年8月31日抽样日期每天的23个检测站点监测到的当日首要污染物为“颗粒物”、“臭氧”、“二氧化氮”、“二氧化硫”、“一氧化碳”、及“无”的监测点个数,求出这84天各项指标为首要污染物的频率,比较频率大小,得出北京空气污染的主要气体是颗粒物、臭氧、二氧化氮、一氧化碳,并据此提出解决办法。
第五问中,本文选取主成分神经网络模式识别的方法,对未来一周(9月6日至9月12日)的空气状况进行预测。我们选择预报下周空气质量的等级,使用的是MATLAB提供的模式识别工具箱。我们将空气质量看做六个模式:优,良,轻度污染,中度污染,重度污染,严重污染;并将spss软件求解出来的主成分与对应的模式交给神经网络学习。训练好后用于预测。根据主成分分析的方法,对全部160个样本的8个因子进行分析。将数据导入spss,设置抽取系数为0.5,得到相关矩阵;然后由解释总方差表格和成分矩阵找出spss提取的主成分,将八维数据降成五维数据;并将样本转化,用于神经网络的训练;并把不同的空气质量等级二进制化,得到训练结果后进行预测。将要预测时间段的平均气温,最高气温,最低气温,大气压,相对湿度,相对风速,水平能见度,降水量数据按照公式变为五维数据并输入网络进行求解,最终得到未来一个星期的空气质量为:重度污染,重度污染,优,良,良,轻度污染,轻度污染。
第六问,本文假设自己想从事相关商业活动,给出了计划及广告词。
关键词:空气质量 AQI PM2.5
主成分神经网络 空气污染 PM10
1 问题重述
空气与我们的生存是息息相关的,它直接参与人体的新陈代谢、物质代谢和体温调节等过程。一个人每天呼吸的空气约为1万多升,折合质量约为12.9kg,约为每天所需食物和饮水量的10倍。随着现代工业和交通的迅猛发展,烟尘和汽车尾气等的排放,超越了大气的自净界限,接踵而至的却是一个十分严峻的问题—大气污染。对大气污染影响较大的污染物有:硫氧化物、氮氧化物、碳氢化合物、碳氧化合物、粉尘等。大气污染物对我们身体的影响是巨大的,而2013年以来日益频发的雾霾天气已经严重影响到人们的日常生活。 “生态文明”是被列为当前的一大重要议题,“我们将加强生态环境保护,扎实推进资源节约,为人民创造良好生产生活环境,为应对全球富气候变化作出新的贡献。”,习近平的一系列讲话为坚持节约资源和保护环境基本国策,努力走向生态文明新时代赋予了新内容,提出了新要求,彰显出他对于生态文明领域建设的决心与魄力。
本文中,我们
(1)查找相关数据(包括近期连续数据及零星数据);
(2)分析北京空气污染情况(时间、空间);
(3)分析北京空气质量监测点的布局是否合理;
(4) 分析北京空气污染的主要成因及解决办法;
(5)对未来一周进行预测;
(6)假设自己想从事相关商业活动,给出计划及广告词。(不超过一页)
2 问题分析
对于第一问“查找相关数据(包括近期连续数据及零星数据)”,我们认为,由于空气质量指数(AQI)是2012年上半年才被出台规定取代原有空气污染指数(API)的,且参与空气质量评价的主要污染物为细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫、二氧化氮、臭氧、一氧化碳等六项。为方便后续几问的研究,我们收集了2013年至2014年8月每日的AQI、空气质量等级、PM2.5、PM10、SO2、NO2、CO这7项指标的数据(即连续型数据)和2008年至2013年PM10、SO2、NO2、CO的年度平均指标数据(即离散数据)。
第二问中,本文从时间和空间两个维度分析北京污染情况。从时间角度分析时,为保证充分利用数据,本文分别从污染物年浓度平均变化和持续污染日数和空气质量超标日数年变化两个层次对北京空气质量进行了分析,从而归纳出北京空气污染的年度特征。从空间角度分析时,本文根据北京市各区县PM10、SO2、NO2、CO的年度平均数据,将各区县各项指标浓度反映在了北京的区域地图上,绘制得各项指标的浓度空间分布示意图,同时将两年数据求平均值并按照PM10降序排列,结合图、表定量分析并得出结论。
第三文中,本文以各个监测点为圆心,以各监测点所能测得的准确数据的最大距离为半径作圆,根据所有圆是否将北京市全部覆盖判断空气质量监测点的布局是否合理。最终本文得出结论:北京市空气质量监测点的布局是合理的。
对于第四问“分析北京空气污染的主要成因和解决办法”,本文以抽样的方式,抽取每月1号、5号、10号、15号、20号、25号、30号,二月取28号的数据为样本,统计北京2013年9月1日到2014年8月31日抽样日期每天的23个检测站点监测到的当日首要污染物为“颗粒物”、“臭氧”、“二氧化氮”、“二氧化硫”、“一氧化碳”、及“无”的监测点个数,求出这84天各项指标为首要污染物的频率,比较频率大小,得出北京空气污染的主要气体是颗粒物、臭氧、二氧化氮、一氧化碳,并据此提出解决办法。
第五问中,本文选取主成分神经网络模式识别的方法,对未来一周(9月6日至9月12日)的空气状况进行预测。我们选择预报下周空气质量的等级,使用的是MATLAB提供的模式识别工具箱。我们将空气质量看做六个模式:优,良,轻度污染,中度污染,重度污染,严重污染;并将spss软件求解出来的主成分与对应的模式交给神经网络学习。训练好后用于预测。根据主成分分析的方法,对全部160个样本的8个因子进行分析。将数据导入spss,设置抽取系数为0.5,得到相关矩阵;然后由解释总方差表格和成分矩阵找出spss提取的主成分,将八维数据降成五维数据;并将样本转化,用于神经网络的训练;并把不同的空气质量等级二进制化,得到训练结果后进行预测。将要预测时间段的平均气温,最高气温,最低气温,大气压,相对湿度,相对风速,水平能见度,降水量数据按照公式变为五维数据并输入网络进行求解,最终得到未来一个星期的空气质量为:重度污染,重度污染,优,良,良,轻度污染,轻度污染。
第六问,本文假设自己想从事相关商业活动,给出了计划及广告词。
3 假设与约定
假设:
(1)假设预测时间段内没有发生重大的天气异常;
(2)假设预测时间段内没有污染源;
(3)假设以pm2.5为空气质量等级划分的标准为:
ps:pm2.5 标准
0-35 优
35-75 良
75-115 轻度污染
115-150 中度污染
150-250 重度污染
250- 严重污染
4 符号说明
符号
PM2.5
PM10
AQI
含义
细颗粒物
可吸入颗粒物
空气质量指数
5 模型建立与求解
5.1 问题一
本题主要收集了北京市环境污染近期相关连续数据与离散数据。
由于空气质量指数(AQI)是2012年上半年才被出台规定取代原有空气污染指数(API)的,且参与空气质量评价的主要污染物为细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫、二氧化氮、臭氧、一氧化碳等六项。为方便后续几问的研究,我们收集了2013年至2014年8月每日的AQI、空气质量等级、PM2.5、PM10、SO2、NO2、CO这7项指标的数据(即连续型数据)和2008年至2013年PM10、SO2、NO2、CO的年度平均指标数据(即离散数据)。见附录。
5.2 问题二
本问主要从时间和空间两个维度分析北京空气污染情况。
5.2.1 模型建立
(1)本题主要从时间和空间两个维度分析北京空气污染情况。
(2)从时间角度分析时,为保证充分利用数据,本文分别从污染物年浓度平均变化和持续污染日数和空气质量超标日数年变化两个层次对北京空气质量进行了分析,从而归纳出北京空气污染的年度特征。
(3)从空间角度分析时,本文根据北京市各区县PM10、SO2、NO2、CO的年度平均数据,将各区县各项指标浓度反映在了北京的区域地图上,绘制得各项指标的浓度空间分布示意图,同时将两年数据求平均值并按照PM10降序排列,结合图、表定量分析并得出结论。
5.2.2 模型求解
5.2.2.1 时间特征
(1) 按污染物年浓度平均变化
本文分析了2008年至2013年PM10、CO、NO2、SO2的平均浓度变化,变化情况如下表:
时间
PM10
CO
NO2
SO2
2008
122
1.4
49
36
2009
121
1.6
53
34
2010
121
1.5
57
32
2011
114
1.4
55
28
2012
109
1.4
52
28
2013
108.1
56
26.5
变化趋势如下
由上表我们可以得出:
近年来,北京市NO2浓度处于缓慢上升趋势;CO浓度与往年相比基本保持持平;PM10浓度略有下降;SO2年平均浓度处于下降趋势。
(2) 按持续污染日数和空气质量超标日数年变化
统计分析2001-2010年北京空气质量超标日数和空气持续污染日数年变化图,我们可以看出:
2001年-2009年北京年空气持续污染日数在年超标日数中所占比例都在50%以上。可以说一半以上的空气质量超标日都是持续污染日。近年来北京的年空气质量超标日数和持续污染日数总体呈下降趋势。但年持续污染日数在年超标日数中所占的比例一直较大。
综上,北京空气污染年际变化特征如下:
污染物排放量的大力削减使北京市空气质量得到明显改善,年空气质量超标日数和持续污染日数总体也呈下降趋势,但是持续污染对全年空气质量超标日数贡献依然较大,空气质量仍有待改善。
5.2.2.2 空间特征
为了分析北京污染的空间分布情况,我们将2012与2013年的SO2,NO2,以及可吸入颗粒物的各区县浓度反映在了北京的区域地图上。
(1)2013年:
各区县各项指标年平均数据
区县
PM2.5
SO2
NO2
PM10
东城区
93.6
26.8
58.0
109.6
西城区
91.7
28.8
59.6
112.5
朝阳区
91.3
29.7
64.0
112.4
海淀区
98.1
26.9
63.6
115.0
丰台区
96.9
28.1
57.5
118.5
石景山区
92.8
24.9
63.3
116.4
门头沟区
91.1
24.6
51.8
114.8
房山区
106.8
31.2
61.9
131.7
通州区
105.7
38.6
55.8
123.5
顺义区
84.8
20.8
44.8
98.5
大兴区
107.8
33.7
65.7
130.3
昌平区
79.2
25.9
43.5
94.7
平谷区
84.8
20.6
35.0
98.7
怀柔区
76.1
22.3
37.9
95.3
密云县
71.6
21.3
43.6
85.9
延庆县
68.0
19.2
34.4
78.3
亦庄
104.9
33.6
57.5
123.2
空气中可吸入颗粒物浓度空间分布示意图
空气中细颗粒物颗粒物浓度空间分布示意图
空气中二氧化氮浓度空间分布示意图
空气中二氧化硫浓度空间分布示意图
(2)2012年:
各区县各项指标年平均数据
区县
SO2
NO2
PM10
东城区
29
56
113
西城区
32
59
111
朝阳区
29
60
114
海淀区
31
54
114
丰台区
28
57
113
石景山区
24
55
124
门头沟区
29
51
109
房山区
36
59
122
通州区
42
56
119
顺义区
23
45
98
大兴区
35
64
124
昌平区
29
40
97
平谷区
24
35
98
怀柔区
22
30
87
密云县
29
40
85
延庆县
26
39
82
亦庄
36
54
126
(3) 两年数据平均值(按关键字PM10降序排列)
区县
PM10
SO2
NO2
大兴区
127.15
27.9
57
房山区
126.85
30.4
59.3
亦庄
124.6
29.35
62
通州区
121.25
28.95
58.8
石景山区
120.2
28.05
57.25
丰台区
115.75
24.45
59.15
海淀区
114.5
26.8
51.4
朝阳区
113.2
33.6
60.45
门头沟区
111.9
40.3
55.9
西城区
111.75
21.9
44.9
东城区
111.3
34.35
64.85
平谷区
98.35
27.45
41.75
顺义区
98.25
22.3
35
昌平区
95.85
22.15
33.95
怀柔区
91.15
25.15
41.8
密云县
84.45
22.6
36.7
延庆县
80.15
34.8
55.75
(4) 结合图表定量分析
由上表易知2013年:
(4.1)
按PM2.5值由大到小,各区县排列为大兴区 > 房山区 > 通州区 > 亦庄 > 海淀区 > 丰台区 > 东城区 > 石景山区 > 西城区 > 朝阳区 > 门头沟区 > 平谷区 > 顺义区 > 昌平区 > 怀柔区 > 密云县 > 延庆县,按此顺序,各区县空气质量愈好;
(4.2)
各区县的SO2、NO2、PM10取值及大小排序;
易知2012年各区县的SO2、NO2、PM10取值及大小排序;
易知2013年和2012年各区县的SO2、NO2、PM10平均取值及大小排序;
结合图,根据各区县的地理位置分布,我们得出结论:
北京市空气质量南北差异显著。位于北部的生态涵养发展区空气质量优于其他区域。
5.3 问题三
本题主要探讨北京市环境质量监测点的布局是否合理。
模型建立及求解
5.3.1环境空气质量评价城市点的定义:
以监测城市建成区的空气质量整体状况和变化趋势为目的而设置的监测点,参与城市环境空气质量评价。其设置的最少数量根据本标准由城市建成区面积和人口数量确定。每个环境空气质量评价城市点代表范围一般为半径500 米至4 千米,有时也可扩大到半径4 千米至几十千米(如对于空气污染物浓度较低,其空间变化较小的地区)的范围。可简称城市点。
5. 3.2
这是北京市环境监测点的分布图:
按照比例尺计算,距离最近的两个监测点的距离约为10公里。,这样说来就按照最保守的估计每一个监测点的检测半径为5公里,则每一个监测点的检测的面积为78.5平方公里,市区10个监测点总共为785平方公里,正好和市区的面积相仿。
所以,从面积上来说,监测点的分布是合理的。而对于其他的区来说,位于郊区人口密度明显比市区低许多,因而空气质量的变化不大,一个监测点所能代表的范围的半径也有数十公里。
5.4 问题四
本题主要探究北京空气污染的主要成因,并提出解决办法。
5.4.1 模型建立
(1)以抽样的方式,抽取每月1号、5号、10号、15号、20号、25号、30号,二月取28号的数据为样本,统计北京2013年9月1日到2014年8月31日抽样日期每天的23个检测站点监测到的当日首要污染物为“颗粒物”、“臭氧”、“二氧化氮”、“二氧化硫”、“一氧化碳”、及“无”的监测点个数。
(2)求出这84天“颗粒物”、“臭氧”、“二氧化氮”、“二氧化硫”、“一氧化碳”、及“无”为首要污染物的频率。
(3)比较污染成分为首要污染物的出现频率,随即便可得出北京空气污染的主要成因,并据此提出解决办法。
5.4.2 模型求解
(1) 统计北京2013年9月1日到2014年8月31日抽样日期每天的23个检测站点监测到的当日首要污染物为“颗粒物”、“臭氧”、“二氧化氮”、“二氧化硫”、“一氧化碳”、及“无”的监测点个数。
统计结果见下表:
序号
颗粒物
臭氧
二氧化氮
二氧化硫
一氧化碳
无
合计
1
23
0
0
0
0
0
23
2
0
21
1
0
0
1
23
3
0
23
0
0
0
0
23
4
0
23
0
0
0
0
23
5
0
21
0
0
0
0
21
6
1
14
3
0
0
5
23
7
23
0
0
0
0
0
23
8
7
16
0
0
0
0
23
9
22
1
0
0
0
0
23
10
0
23
0
0
0
0
23
11
0
23
0
0
0
0
23
12
1
22
0
0
0
0
23
13
1
22
0
0
0
0
23
14
22
1
0
0
0
0
23
15
0
23
0
0
0
0
23
16
0
23
0
0
0
0
23
17
20
2
0
0
0
1
23
18
4
19
0
0
0
0
23
19
0
23
0
0
0
0
23
20
23
0
0
0
0
0
23
21
0
23
0
0
0
0
23
22
22
1
0
0
0
0
23
23
4
12
8
0
0
1
25
24
16
2
5
0
0
0
23
25
23
0
0
0
0
0
23
26
14
9
0
0
0
0
23
27
23
0
0
0
0
0
23
28
0
22
0
0
0
1
23
29
23
0
0
0
0
0
23
30
19
3
0
0
0
1
23
31
23
0
0
0
0
0
23
32
22
0
1
0
0
0
23
33
20
1
2
0
0
0
23
34
23
0
0
0
0
0
23
35
13
10
0
0
0
0
23
36
23
0
0
0
0
1
24
37
4
0
9
0
0
10
23
38
22
0
0
0
0
1
23
39
22
0
1
0
0
0
23
40
2
5
1
0
0
15
23
41
23
0
0
0
0
0
23
42
9
3
11
0
0
0
23
43
23
0
0
0
0
0
23
44
23
0
0
0
0
0
23
45
3
0
6
1
0
13
23
46
23
0
0
0
0
0
23
47
23
0
0
0
0
0
23
48
23
0
0
0
0
0
23
49
23
0
0
0
0
0
23
50
19
0
4
0
0
0
23
51
23
0
0
0
0
0
23
52
18
0
5
0
0
0
23
53
22
0
1
0
0
0
23
54
2
0
0
0
0
21
23
55
8
0
7
0
1
8
24
56
23
0
0
0
0
0
23
57
21
0
2
0
0
0
23
58
13
0
5
0
0
5
23
59
14
0
0
0
1
8
23
60
15
0
6
0
0
2
23
61
11
0
8
0
0
4
23
62
23
0
0
0
0
0
23
63
19
0
4
0
0
0
23
64
23
0
0
0
0
0
23
65
23
0
0
0
0
0
23
66
7
16
0
0
0
0
23
67
22
0
1
0
0
0
23
68
19
0
2
0
0
2
23
69
0
0
0
0
0
23
23
70
10
0
7
0
0
6
23
71
23
0
0
0
0
0
23
72
23
0
0
0
0
0
23
73
23
0
0
0
0
0
23
74
2
0
13
0
0
8
23
75
3
0
15
0
0
5
23
76
6
0
16
0
0
1
23
77
20
0
3
0
0
0
23
78
0
20
0
0
0
3
23
79
0
12
0
0
0
11
23
80
18
0
2
0
0
3
23
81
6
0
13
0
0
4
23
82
12
0
4
0
0
7
23
83
3
0
12
0
0
8
23
84
21
0
0
0
0
2
23
合计
1133
439
178
1
2
181
1934
(2) 求出这84天“颗粒物”、“臭氧”、“二氧化氮”、“二氧化硫”、“一氧化碳”、及“无”为首要污染物的频率。
结果如下表:
名称
颗粒物
臭氧
二氧化氮
二氧化硫
一氧化碳
无
合计
频率
0.5858
0.2270
0.0920
0.0005
0.0010
0.0936
1
(4) 由上表比较污染成分为首要污染物的出现频率,有
P(颗粒物)> P(臭氧)> P(无)> P(二氧化氮)> P(一氧化碳)> P(二氧化硫),易知:空气污染主要成分为颗粒物、臭氧、二氧化氮、一氧化碳。
(5) 通过上网查阅资料我们了解到,一些颗粒物来自污染源的直接排放,比如烟囱与车辆。另一些则是由环境空气中硫的氧化物、氮氧化物、挥发性有机化合物及其它化合物互相作用形成的细小颗粒物,可吸入颗粒物通常来自在未铺沥青、水泥的路面上行使的机动车、材料的破碎碾磨处理过程以及被风扬起的尘土。而NO2主要是是汽车尾气产生的污染物,凡含碳的物质燃烧不完全时,都可产生CO气体,如冶金工业中炼焦、炼铁、锻冶、铸造和热处理的生产。以上这些都是产生上述污染气体的原因。故我们提出下列建议:
外出时尽量多坐公交;
发展科技,开发新型绿色能源,减少人类对化石燃料的依赖 ;
冶金工业中炼焦、炼铁、锻冶、铸造和热处理等生产尽量鼓足氧气,保证燃料完全燃烧,减少不完全燃烧产生的CO等污染气体;
加强公众环保宣传教育,植树造林等。
5.5 问题五
本题对未来一周(9月6日至9月12日)的空气状况进行预测。
考虑到平时人们只是关心空气的大致情况,最常见就是空气的质量等级,例如,优良中差等。因此,在预测下周空气质量的时候,我们不采用预报具体数值的方式而是预报下周空气质量的等级。
在这一问中,我们选取主成分神经网络模式识别的方法。使用的是MATLAB提供的模式识别工具箱。我们将空气质量看做六个模式:优,良,轻度污染,中度污染,重度污染,严重污染;并将spss软件求解出来的主成分与对应的模式交给神经网络学习。训练好后用于预测。
5.5.1 预报建模的基本原理和方法
(1)资料的选取
取北京环境观测站2008到2012年每年8月5号到九月五号的基本天气数据,数据包括以下几项:平均气温,最高气温,最低气温,大气压,相对湿度,相对风速,水平能见度,降水量,以及当天pm2.5的平均值。共160个样本。
(2)主成分分析的方法
主成分分析的方法是利用降维的思想,把相关的多指标转化为少数几个不相关的综合指标的一种多元统计分析方法。该方法被广泛用于大气科的预报和分析研究工作中。
设某一预报对象有n个预报因子,,可以通过主成分分析方法构造n个新的综合因子变量,每个新的综合因子变量是原因子变量的线性组合。新的因子变量之间是相互正交的,及各个因子之间的相关系数为0,各个新的综合因子变量的特征值明确表示了它对原因子组的贡献大小。
将主成分分析得到的新的综合因子变量用于构造神经网络学习矩阵,可以很直观地去掉特征值较小的对应的成分。因为这些主成分几乎没有包含原变量的信息, 只保留特征量相对较大的且与预报量相关程度高的主成分, 降维作用直观显著。一般前几个主成分具有更大的方差贡献且与预报量相关较好, 由于主成分间是正交的, 所以最后确定的几个特征值大且与预报量相关程度高的主成分所构成的学习矩阵, 不会有多余的重复信息和噪音声影响。
(3)人工神经网络
人工神经网络是一个可自动提取一组预报变量和另一组自变量之间非线性关系的数据处理系统。该网络的建立过程称为人工神经网络的训练过程,是用自适应算法递归迭代求解因变量与自变量之间的非线性关系。训练后的神经网络模型可以用来估计或预报预测变量。
在本文中我们使用的是MATLAB提供的模式识别工具箱。我们将空气质量看做六个模式:优,良,轻度污染,中度污染,重度污染,严重污染。我们将spss软件求解出来的主成分与对应的模式交给神经网络学习。训练好后用于预测。
5.5.2 预报模型的建立
(1) 根据主成分分析的方法,对全部160个样本的8个因子进行分析。将数据导入spss,设置抽取系数为0.5,得到相关矩阵;
(2) 由解释总方差表格和成分矩阵找出SPSS提取的主成分,将数据降维;
(3) 将样本转化,用于神经网络的训练;并把不同的空气质量等级二进制化,得到训练结果后即可进行预测。
5. 5.3 模型求解
(1)根据主成分分析的方法,对全部160个样本的8个因子进行分析。将数据导入spss,设置抽取系数为0.5,可得到如下的结果:
相关矩阵
平均温度
最高温度
最低温度
大气压
相对湿度
风速
能见度
降水量
相关
平均温度
1.000
.863
.806
-.575
-.123
-.082
-.206
-.225
最高温度
.863
1.000
.451
-.450
-.380
.027
.072
-.291
最低温度
.806
.451
1.000
-.508
.193
-.121
-.417
-.094
大气压
-.575
-.450
-.508
1.000
-.218
.066
.262
-.031
相对湿度
-.123
-.380
.193
-.218
1.000
-.375
-.764
.336
风速
-.082
.027
-.121
.066
-.375
1.000
.305
.015
能见度
-.206
.072
-.417
.262
-.764
.305
1.000
-.068
降水量
-.225
-.291
-.094
-.031
.336
.015
-.068
1.000
Sig.(单侧)
平均温度
.000
.000
.000
.060
.151
.004
.002
最高温度
.000
.000
.000
.000
.370
.184
.000
最低温度
.000
.000
.000
.007
.063
.000
.117
大气压
.000
.000
.000
.003
.202
.000
.349
相对湿度
.060
.000
.007
.003
.000
.000
.000
风速
.151
.370
.063
.202
.000
.000
.425
能见度
.004
.184
.000
.000
.000
.000
.197
降水量
.002
.000
.117
.349
.000
.425
.197
(2)从spss提供的相关矩阵可以看出平均气温和最高气温,最低气温具有高度的相关性。而其他的因子具有比较强的独立性。
有如图所示的解释总方差表格我们可以得知spss抽取了5个主成分。一共可以表示93.963%的原始信息。
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的 %
累积 %
合计
方差的 %
累积 %
1
3.001
37.514
37.514
3.001
37.514
37.514
2
2.259
28.241
65.755
2.259
28.241
65.755
3
1.010
12.630
78.385
1.010
12.630
78.385
4
.729
9.118
87.502
.729
9.118
87.502
5
.517
6.461
93.963
.517
6.461
93.963
6
.337
4.210
98.174
7
.126
1.577
99.751
8
.020
.249
100.000
提取方法:主成份分析。
由上表和如下的成分矩阵可以得到如下的公式
成份矩阵a
成份
1
2
3
4
5
平均温度
.948
.236
.024
.053
.167
最高温度
.757
.517
.005
.169
.027
最低温度
.856
-.123
.060
-.142
.312
大气压
-.729
.117
-.324
-.099
.567
相对湿度
.117
-.945
.026
-.111
-.085
风速
-.191
.476
.608
-.602
-.001
能见度
-.411
.769
.119
.341
-.071
降水量
-.213
-.443
.719
.421
.240
提
展开阅读全文
淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。