2013年美国数学建模竞赛论文资料C题论文资料.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2013年美国数学建模竞赛论文资料C题论文资料.doc》由会员分享,可在线阅读,更多相关《2013年美国数学建模竞赛论文资料C题论文资料.doc(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、.-基于主成分-有向复杂网络的地球健康的评价及动态预测摘要地球是一个庞大而复杂的生态系统,评价并预测其健康状况一直是一个难题。本文建立了分析各国家(节点)健康状况的主成分分析模型;基于生态系统的复杂性,进一步构建了一个反映各节点间交互影响的有向复杂网络模型;进而采用灰色预测模型对地球健康状况进行动态预测。计算每个节点的健康指数。因为地球上的国家较多和地球健康指数影响指标较多,本文选取21个国家作为分析地球的节点、11个地球健康指标。采用主成分分析法对21个节点以及全球的11个指标进行综合分析,把11个指标抽象成5个主成分进行健康指数的求解。我们以2000年的进行验证,结果显示五个主成分的累积贡
2、献率高达92%,结果可靠。我们同时对各个节点的综合值Z(健康指数)进行排名,排名靠前的是美国、澳大利亚、加拿大等发达国家,排名靠后的是Morocco、Egypt Arab Rep. China、Kenya等发展中国家且生态保护较差的国家。分析节点间的交互影响。建立有向复杂网络来考虑各节点间的相互影响,选取8个典型国家来构成类似生物圈的“小世界”,用8个国家节点的健康指数进行逐步回归来确定网络的边和权重。在考察网络的基本特征参数后,通过边的权重来求得各节点的权重值。最后我们用修正后的网络加权模型和主成分分析模型结果对比,二者相互验证,说明模型的合理性。最后将模型推广到地球生态系统。未来地球健康状
3、况的动态预测。我采用灰色预测中的GM(1,1)模型对世界的健康指数进行10年的动态预测,预测结果的相对误差小于5%,预测精度较高。预测的十年结果见表11。对于模型的预警,我们通过给定健康指数的最低值a作为临界点,把GM(1,1)预测的结果与a比较,小于a则就警报。对于a的确定可以查找本文中11个指标的限定,通过限定值确定a的大小。对于政策的影响,我们选取中国和世界的人口增长率为对象进行了分析,证明政策对地球生态有一定的潜在影响。关键词 健康指数 有向复杂网络 主成分分析 逐步回归 动态预测一、问题重述本题目要求建立一个全球网络,该网络一方面能建立一个全球模型来改进生物预测,这个模型要能反映由于
4、地球上各系统间的交叉影响而带来的复杂性,以及地区条件和全球系统之间的相互影响,指明如何有效使用生态系统管理来防止或减少这些迫近的变化,并为政策制定者提供建议。同时,尽管许多警示性的信号已经出现,但没人知道地球是否已经在全球范围内逼近了临界点,以及这样一个极端的状态是否是不可避免的,题目要求我们建立的模型能预测生态健康的临界点,并为阻止达到这个临界点提供意见。要求1:通过确定影响地球健康某一方面的本土因素,即网络节点,分析其关系和属性,通过恰当的方式将这些节点连起来,在此基础上建立一个动态的全球网络模型。明确定义模型中的所有要素并且解释你在建模过程中界定网络建构考量因素、节点实体和链接特性的科学
5、依据。要求2:要求预测未来的地球健康,并通过数据进行验证、评估。同时注意模型中是否有人为因素,该模型是否能预测地球状态的变化或临界点。还要求出本地发生变化时引起的全球的变化。要求3:所建立的模型能识别网络中的关键点,并且在节点缺失时能感知,有一定的灵敏度,能在全球的生态健康方面发挥预警作用。要求4:拟定一篇20页的报告(不包括总结页)来解释所建的模型与其应用前景。确保指出模型的优点和缺点。二、模型假设1 所查到的数据真实可靠。2 所使用的11个因素涵盖了影响生态系统健康的所有方面。3 在预测的时间段内,世界不会发生极大影响生态系统健康的突发性事件。4 对于部分缺失的数据,所填补是公平合理的,不
6、影响总体。5 模型基于的规则是完全公平的。6 模型建立的过程中所有选择的国家都是具有代表性的,可以带表整体的特性。三、符号说明符号含义Z健康指数标准化后指标值指标的取值pR主成分数标准化后的健康值相关系数矩阵CiKiB,Ya聚类系数节点i的邻接点数据矩阵健康指数的临界值注:部分未说明的符号在模型会给与介绍。四、问题分析根据对题目的分析,我们知道题目要求我们考虑地球上各系统间的交叉影响的复杂性及地区条件和全球系统之间的影响,建立一个动态的全球网络模型,明确节点的实体和节点间的链接特性,根据地区条件变化引起全球变化提供预警,并能预测未来地球健康状况的变化,为政策制定者提供有效的政策。针对问题,以国
7、家为节点,根据生态学选取地球健康因子,在世界银行数据库中查得所需的数据。具体分析思路如下:(1)根据所查的数据求出各个节点及世界的健康指数。可以通过主成分分析法对所取20年的数据进行综合评价;(2)接着,求解各节点间的影响及内部的相互作用。在主成分分析的基础上,因为数据量较大,在21个国家中挑选出8个国家来构成“小世界”作为真实世界的模拟。对于选出来的8个国家,将他们构成有向复杂网络来考虑各节点间的影响及内部的相互作用。(3)对未来健康状况的预测。根据全球1991年到2010年的健康指数,以20年的数据为基础,采用GM(1,1)进行预测,并提出预警情况。五、模型的建立与求解5.1 节点和指标的
8、选取(1)节点的选取考虑地理位置和国家发展状况,选取了21个典型的国家,这21个国家可以代表全球。选取的21个国家:Argentina,Australia,Brazil,Canada,China,Egypt,Arab Rep.,France,Germany,Iran,Islamic Rep.,Israel,Italy,Japan,Kazakhstan,Kenya,Morocco,New Zealand,Russian Federation,Saudi,Arabia,South Africa United,Kingdom,United States。(2)指标的选取1,2地球是一个大生态系统,我
9、们根据文献3选取了11个地球健康的指标,如下表所示:表1 地球健康指标地球健康社会因素城镇人口比重(%)人均耕地面积(公顷)高等院校入学率(%)经济因素人均GDP(美元)每千美元的能源消耗量(千克石油当量)环境因素CO2排放量(人均公吨数)颗粒污染程度(每立方米微克)人均能源使用量(千克石油当量)人的因素人口密度(每平方公里)人口增长(%)五岁以下婴儿死亡率(%)选取21个国家11个指标的时间区间:1991-2010年;数据的来源:世界银行数据库45.2 主成分分析模型的建立与求解5.2.1主成分分析法的步骤1)对原始数据进行标准化处理假设进行主成分分析的指标变量有m个:,共有n个评价对象,第
10、i个评价对象的第 j 个指标的取值为。将各指标值 转换成标准化指标,其中,即,,为第 j 个指标的样本均值和样本标准差。对应地,称为标准化指标变量。2)计算相关系数矩阵 R相关系数矩阵式中 =1 ,=,是第i个指标与第 j 个指标的相关系数。3)计算特征值和特征向量计算相关系数矩阵R的特征值,及对应的特征向量,其中,由特征向量组成m个新的指标变量式中,是第1主成分,是第2主成分,是第 m 主成分。4)选择 p()个主成分,计算综合评价值计算特征值的信息贡献率和累积贡献率。称为主成分的信息贡献率;称为主成分的累积贡献率,当接近于1时,则选择前p个指标变量,作为p个主成分,代替原来m个指标变量,从
11、而可对p个主成分进行综合分析。计算综合得分定义:Z为健康指数,表示健康状况的综合评价值5.2.2模型的求解以2000年的数据为例,我们选取5个主成分即令p=5,利用MATLAB软件对11个评价指标进行主成分分析,相关系数矩阵的前几个特征根及其贡献率如表2。表2主成分分析结果序号特征根贡献率累积贡献率15.221847.470547.470522.199519.995867.466331.267511.522778.989040.73696.699185.688050.69866.350592.038560.33963.087395.1258可以看出,前四个特征根的累计贡献率就达到85%以上,主
12、成分分析效果很好。下面我们选取五个主成分(累计贡献率就达到92%)进行综合评价。前五个特征根对应的特征向量见表3。表3 标准化变量的前4个主成分对应的特征向量第1特征向量第2特征向量第3特征向量第4特征向量第5特征向量10.37750.35660.3763-0.1293-0.22342-0.2237-0.04960.20210.4985-0.059830.04200.21460.1964-0.21260.559240.3196-0.44430.32210.4191-0.033450.1640-0.0233-0.0179-0.3379-0.64836-0.26540.5122-0.04110.4
13、827-0.29197-0.07680.1891-0.33170.23330.073880.0144-0.3248-0.15670.07670.209290.44090.4558-0.15740.10300.2607100.4813-0.00750.23450.27860.030211-0.41730.12230.6774-0.13470.0955注:竖列的1,2,11表示标准化后的11个数据,即,。由此得到五个主成分:从主成分的系数可以看出,第一主成分主要反映了人均GDP、人口密度、高等院校入学率、人均耕地面积的信息;第二主成分主要反映了人均GDP、每千美元的能源消耗量、CO2排放量、人口增
14、长、人口密度;第三主成分主要反映了人均GDP、每千美元的能源消耗量、五岁以下婴儿死亡率、人均耕地面积;第四主成分主要反映了城镇人口比重、每千美元的能源消耗量、颗粒污染程度、CO2排放量;第五主成分主要反映了人均能源使用量和颗粒污染程度。综上可以看出人均GDP、每千美元的能源消耗量、五岁以下婴儿死亡率的影响相对较大一些。把各节点的原始11个指标的标准化数据代入五个主成分的表达式,就可以得到各地区的五个主成分值。分别以五个主成分的贡献率为权重,构建主成分综合评价模型: (1)把各节点的五个主成分值代入式(1),可以得到各地区高教发展水平的综合评价值以及排序结果如表4表4 2000年的21个国家和世
15、界的健康指数节点USAAUSCANNZLRUSJPN排名123456Z2.0542.0391.9680.7240.5390.529节点GBRFRADEUISRSAUITA排名789101112Z0.4950.4290.4180.2910.1950.075节点ARGKAZZAFBRAIRNWLD排名131415161718Z-0.075-0.094-0.558-0.788-0.85685-1.11022节点MAREGYCHNKEN排名19202122Z-1.34431-1.48728-1.49224-1.94967注:上述的USA等为各节点的缩写。由表4以及附录中表5的数据可以看出美国、澳大利亚
16、、加拿大的健康指数在20年内都很高,说明这几个国家的健康状况较好;Morocco、Egypt Arab Rep. China、Kenya等国家的健康指数在20年后都很低,说明这几个国家的健康状况较差。同时可以世界平均水平的健康指数也较低,说明地球面临严峻的健康问题。运用同样的方法,可以求出1991-2010的各节点的综合评价,所得的综合值Z进行如下标准化:标准化后的1991-2010年的21个国家和世界的健康指数见附录。5.3有向复杂网络模型的建立与求解针对上文已经得到的21个国家的生态健康指数值,考虑在同一个地球生物圈内各国的生态健康是相互作用的,不能独立于周边的国家的影响,而且随着全球化进
17、程的不断加快,全球间的各个国家势必会联系越来越频繁。我们在考虑地球生态健康的时候,将各个国家看成一个个节点,不同节点由网络边连接起来,构成整体的生态系统网络。在整个生态系统大网络中各个节点间是否作用,或作用的强弱程度我们是通过对选取节点的健康值进行逐步回归得到的。本文运用逐步回归来分析来确定有向复杂网络的边和对应权重。由于涉及国家数目过多,根据地理特性分别在各大洲共选取8个国家:澳大利亚、巴西、中国、日本、俄罗斯联邦、南非、英国、美国。依次将其中一个国家的生态健康值当做y值,其余各国指标为x值来进行逐步回归观察各国家节点在网络中是否关联及相应权重。5.3.1 逐步回归逐步回归的基本思想是:对全
18、部因子按其对y影响程度大小(偏回归平方的大小),从大到小地依次逐个地引入回归方程,并随时对回归方程当时所含的全部变量进行检验,看其是否仍然显著,如不显著就将其剔除,知道回归方程中所含的所有变量对y的作用都显著是,才考虑引入新的变量。再在剩下的未选因子中,选出对y作用最大者,检验其显著性,显著着,引入方程,不显著,则不引入。直到最后再没有显著因子可以引入,也没有不显著的变量需要剔除为止。逐步回归分析时在考虑的全部自变量中按其对y的贡献程度大小,由大到小地逐个引入回归方程,而对那些对y作用不显著的变量可能是中不被引入回归方程。另外,已被引入回归方程的变量在引入新变量进行F检验后失去重要性时,需要从
19、回归方程中剔除出去。逐步回归算法步骤:Step 1 计算变量均值:差平方和:记各自的标准化变量为:Step 2 计算的相关系数矩阵。Step 3 设已经选上了个变量:且互不相同,经过变换后为:对逐一计算标准化变量的偏回归平方和:记:作F检验:对给定的显著性水平,拒绝域为:。Step 4 转到Step 3 循环,直至最终选上了个变量,且互不相同,经过变换后为:则对应的回归方程为:,通过代数运算可得:。逐步回归是用Matlab统计工具箱中的命令stepwise,它提供了一个交互式画面,通过这个工具你可以自由地选择变量,进行统计分析,其方法通常为:stepwise(x,y,inmodel,alpha
20、)其中x是自变量数据,y是因变量数据,分别为 nm和 n1矩阵,inmodel是矩阵x的列数的指标,给出初始模型中包括的子集(缺省时设定为空),alpha为显著性水平。Stepwise Regression 窗口,显示回归系数及其置信区间,和其它一些统计量的信息。绿色表明在模型中的变量,红色表明从模型中移去的变量。在这个窗口中有Export按钮,点击Export产生一个菜单,表明了要传送给Matlab工作区的参数,它们给出了统计计算的一些结果。下面以美国的指标为y值,其他国家的指标为x值进行逐步回归的结果:,由此认为美国和巴西,中国,日本,俄罗斯之间的节点存在边,各边权重分别为-0.4606,
21、-0.4921,0.5677,0.191.具体运算界面见图1图1 逐步回归结果图(USA)同样方法可以得到其他各国节点在网络中的边和权重。各国数据如表6表 6网络中国家节点边和权重USA AUSBRACHNJPNRUSZAFGBR常数项USA 0-0.4606-0.49210.56770.191000.5118AUS0000-0.78310-0.56252.3883BRA-0.49730-0.34070.3206000-0.4133CHN-0.6625000.7180.3529-0.6411-0.8937-0.4951JPN0.7807000.8548-0.50610.43720.69330.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 美国 数学 建模 竞赛 比赛 论文 资料
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内