《数据分析与处理.doc》由会员分享,可在线阅读,更多相关《数据分析与处理.doc(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流数据分析与处理.精品文档.数据分析与处理一个地区旱涝灾害受降水量的影响,同时对旱涝灾害的估计也是预备救援物资的依据。表1是某地区45年来的降水量的数据(单位:毫米),请依次完成以下问题:(1) 根据表1中的降雨量数据,给出第46年的降水量预测值,并说明结果的置信度。(2) 根据表1中的降雨量数据,建立数学模型将旱涝灾害分级,并说明第46年的灾害分级结果;(3) 建立数学模型说明在较长时间内,该地区准备抗洪和抗旱物资的策略。表1 某地区45年来降水量数据(单位:毫米)年份1月2月3月4月5月6月7月8月9月10月11月12月年总计1108255
2、922301273411041274446261284220771699316210648130140632111030324471144616020190165857746351090410394252243514705684322933892031514531591031114895516028012011936431418510724519672785224497575242601481532422951121530142311322863489826918117115306113155133214109311608724317551946058681026015491023662166
3、711019911923104246601017111926160105792473230154561002610341216541313614820338541610832713916211302477223126916632732107526109514358891196230379603271145611134415188640183441688173496157388981618284410011111087019865051704175265139127155761016814568160211581843012084138822005780233210496319674410616
4、265205530480271382172720106786144206251153131932624351208214153788412613343482910132877622285910110713675724173204132261054232890102143264141173322172311121524635050136194101138205456443794325105165220137250101186831242259130826191197298100269261819101201087127261812925319311711212174454446117828355
5、486772041622714663481378929281981123119386923347064297630423818556146275286421438320616013151341131123421980168611699101132322873127681434132012581381413031596333715301681913853211141514083518187334341952100744511229145546681118935847978025377138329511743181005361010741496216522223128101454110303758
6、521041481951631732191227840142438159250363022258131016026051302396710488148180355134163119138111221629404718083197145217129117383678391306415411412517121119371611136424517824218272231021433318943629143310944398881271232551351901192015812928155144239063103809231637118254627102045794341203257223169153
7、0104021274【问题1】:n 插值与拟合(要求降雨量与年份有确定的联系,满足吗?)n 回归分析方法(降雨量与年份有因果联系吗?)n 时间序列方法(可行吗?)n 灰色预测(对数据进行累加后,可能出现降雨量总合与时间的联系?)使用灰色步骤:【Step 1】:数据检验与预处理:级比检验和轻易变换【Step 2】:建立GM(1,1)模型并求解【Step 3】:模型检验,确定可行性【Step 4】:预测预报【问题2】:【Step 1】:建立旱涝灾害分类模型(聚类模型);【Step 2】:求解模型,从而将它们分类;【Step 3】:建立判别分析模型,将预测结果归类。两种选择:第一选择:只对年降雨量分
8、类:特干(1)、较干、正常、较涝、特涝(可以采用欧氏做聚类分析,分成五类)Y=pdist(A(:,13);Z=linkage(Y,ward);H,T=dendrogram(Z);c=cophenet(Z,Y);T=cluster(Z,maxclust,5); 第二选择:对所有数据做聚类分析,分成合适的类(较复杂)。分类结果:年份一月二月三月四月五月六月七月八月九月十月十一月十二月年总量分类结果110825592230127341104127444626128422207716993162106481301406321110305324471144616020190165857746351090
9、141039425224351470568432293389203145145315910311148955160280120119316431418510724519672785224497557524260148153242295112153014231132228634898269181171153061131551332141029311608724317551946058681026015493102366216671101991192310424660101751119261601057924732301545610026103451216541313614820338541610
10、832713916213130247722312691663273210752610951143588911962303796032711456111344215188640183441688173496157388985161828441001111108701986505170451752651391271557610168145681602115811843012084138822005780233210496351967441061626520553048027138217274201067861442062511531319326243512081214153788412613343
11、482910132877652228591011071367572417320413226105452328901021432641411733221723111215124635050136194101138205456443794352510516522013725010118683124225913082261911972981002692618191012010871527261812925319311711212174454446117812835548677204162271466348137895292819811231193869233470642976530423818556
12、146275286421438320616013315134113112342198016861169910113213228731276814341320125813814130315963333715301681913853211141514083518187343434195210074451122914554668111891358479780253771383295117431810055361010741496216522223128101454110305375852104148195163173219122784014242381592503630222581310160260
13、51302239671048814818035513416311913811122162934047180831971452171291173836783913062415411412517121119371611136424517824421827223102143331894362914331094143988812712325513519011920158129281551344239063103809231637118254627102054579434120325722316915301040212742【问题 3】:【Step 1】:建立平稳马尔可夫链模型根据状态转移频率建立转移矩
14、阵,建立马尔可夫过程:【Step 2】:求解该模型:计算特征向量。【Step 3】:解读数据并确定整体的物资准备策略:【Step 4】:利用问题1的模型连续计算几年的结果,并判别特殊状态。第一步:探索性数据分析(统计方法)1做出相关图形:散点图、直方图、频数表% 1. 绘制:散点图、直方图、盒子图、经验累加分布函数图plot(A(:,1),*) %绘制散点图hist(A(:,1) %绘制直方图boxplot(A(:,1:12),1,+,0)%盒子图cdfplot(A(:,1) %经验累加分布函数图 经过观察无明显规律。2计算相关的统计参数:频数表、均值、方差、标准差、偏度、峰度、协方差矩阵等t
15、abulate(A(:,1) % 频数表M=mean(A); % 均值V=var(A); % 方差S=std(A); % 标准差y=skewness(A) % 偏度【解读】:偏度用于衡量样本均值的对称性,若偏度为负,则数据均值左侧的离散型比右侧的强;若偏度为正,则右侧的离散性比左侧的强。严格对称分布的偏度为0。【结果】:0.999341.02840.706010.567340.403540.67791.90551.39920.558982.32320.822741.13270.62368。全部右偏。k=kurtosis(A) % 峰度【解读】:峰度是分布形状的另一种度量,若比3(正态分布的峰度
16、)大得多,表示分布有沉重的尾巴,说明样本中有较多远离均值的数据。【结果】:3.67844.32383.12952.58773.00652.73286.59224.24582.443110.2692.81314.31742.8452;10月分布最分散。R,P=corrcoef(A(:,1:12) % 相关系数【解读】:R返回相关系数矩阵;P用于检验假设:没有相关性(0.05),如果P(i,j)较小,小于0.05,则相关性R(i,j)显著。【结果】:相关系数表格10.14954-0.0702860.275930.359910.0876250.363590.10318-0.199650.11190.
17、175580.0507810.149541-0.13830.183860.239310.19440.085131-0.108860.089692-0.133870.1292-0.062304-0.070286-0.13831-0.31307-0.12404-0.024753-0.21859-0.00647740.093672-0.23614-0.00043908-0.321150.275930.18386-0.3130710.138120.053880.187490.06594-0.156890.14996-0.0268470.293840.359910.23931-0.124040.1381
18、210.0343330.20326-0.0601450.142320.014662-0.23735-0.0186650.0876250.1944-0.0247530.053880.03433310.045256-0.058771-0.14980.0018883-0.0619870.184250.363590.085131-0.218590.187490.203260.04525610.32935-0.063454-0.1313-0.0779310.21040.10318-0.10886-0.00647740.06594-0.060145-0.0587710.329351-0.037819-0.
19、0293-0.011184-0.24315-0.199650.0896920.093672-0.156890.14232-0.1498-0.063454-0.03781910.0599680.15171-0.145610.1119-0.13387-0.236140.149960.0146620.0018883-0.1313-0.02930.05996810.1106-0.183250.175580.1292-0.00043908-0.026847-0.23735-0.061987-0.077931-0.0111840.151710.11061-0.0261650.050781-0.062304
20、-0.321150.29384-0.0186650.184250.2104-0.24315-0.14561-0.18325-0.0261651相关性检验表10.326870.646380.0665490.0151660.567070.0140840.500010.188550.464280.248620.740430.3268710.364930.226660.113360.200680.57820.476560.557930.380630.397640.684320.646380.3649310.0362620.41690.871780.149130.966320.540510.118370
21、.997720.0314730.0665490.226660.03626210.365570.72520.217460.666930.303380.325490.861030.0500910.0151660.113360.41690.3655710.822840.180520.694720.351020.923840.116430.903140.567070.200680.871780.72520.8228410.767840.701360.326030.990180.685840.225670.0140840.57820.149130.217460.180520.7678410.027161
22、0.67880.389930.610870.165370.500010.476560.966320.666930.694720.701360.02716110.805180.848480.941870.107520.188550.557930.540510.303380.351020.326030.67880.8051810.695570.319820.339890.464280.380630.118370.325490.923840.990180.389930.848480.6955710.469520.228220.248620.397640.997720.861030.116430.68
23、5840.610870.941870.319820.4695210.864530.740430.684320.0314730.0500910.903140.225670.165370.107520.339890.228220.864531【解释】:cov(A(:,1:12) % 协方差阵tab,chi2,p=crosstab(A(:,11),A(:,12);% 列联表检验独立性【解读】:chi2为统计量,用于检验表中行和列的独立性。标量p为检验的显著性水平。当p接近于0时,可以拒绝零假设,认为行和列之间是不独立的。【结果】:p=0.4634。11月和12月降雨量是各自独立的。3统计推断:判定数
24、据服从怎样的分布,并作分布检验【变量分布形态的估计】:n 频数分布表和频率直方图n 频数表:tabulate(A(:,1) n 直方图:hist(A(:,1)n 带正态密度曲线的直方图:histfit(A(:,1)n 经验分布函数n cdfplot(A(:,1)n 五数概括与Box图n Boxplot(A(:,1)【变量分布参数的估计】:n 矩估计:原点矩、方差n 极大似然估计n 区间估计【变量分布形态的检验】:n 假设检验的步骤n 提出原假设H0和备择假设H1;n 选取一个适当的统计量T,并写出相应的检验准则;n 给定显著性水平,并求出H0的拒绝域W;n 由样本算出检验统计量T的实测值,判断
25、其是否落入拒绝域。n K.Pearson-Fisher检验n 拟合优度检验:关于变量X分布形态的某种先验知识或猜测是否为真的统计推断方法。u 用极大似然法估计分布参数:;u 对假设进行检验。【例】:对一月份的降雨量数据(数据表中第一列)做正态性检验。分析:这是一个正态拟合检验问题。检验的原假设为,其中参数未知。第一步:进行未知参数的极大似然估计mu,sigma=normfit(A(:,1);%输出:mu=35.7333;sigma=23.4370。于是原假设修正为:。第二步:样本数据分组f,med=hist(A(:,1);f_med=f,med运行结果:69865441025.1515.452
26、5.7536.0546.3556.6566.9577.2587.5597.85利用hist指令自动分为10组,并统计各组频数。由计算结果知道,前后三组数据的频数偏小,故将后三组数据进行合并,这样可得8组数据。这8组数据所属的数据组的区间边界值如下:a=;for k=1:7aa=(med(k)+med(k+1)/2;a=a,aa;enda=-inf,a,inf输出如下:-Inf 10.3000 20.6000 30.9000 41.2000 51.5000 61.8000 72.1000 Inf第三步:统计经验频数经验频数在第二步中已经给出,只需将最后三组合并即可。f=f(1:7),f(8)+f
27、(9)+f(10);输出结果为:6 9 8 6 5 4 4 3第四步:计算理论频数pest=;for i=1:8 pp=normcdf(a(i+1),mu,sigma)-normcdf(a(i),mu,sigma); pest=pest,pp;endthef=45*pest输出结果:6.2514 5.4142 7.1582 7.8259 7.0750 5.2891 3.2695 2.7166。第五步:计算检验统计量的观测值chi2est=sum(f-thef).2./thef)输出结果: 4.0256。第六步:检验决策k=8;%分组数量r=2;%参数数量alpha=0.20;%检验水平df=k
28、-r-1;refcr=chi2inv(1-alpha,df);%计算拒绝域临界值p=1-chi2cdf(chi2est,df);%检验的p值if chi2estrefcr h=1; % 拒绝原假设else h=0; % 接受原假设endalpha,h,p,chi2est,refcr输出结果:0.10,0,0.5457,4.0256,9.2364。计算结果表明,在0.10显著水平下,h=0保留原假设H0,即拟合优度检验认为一月份的降雨量。由最小显著性概率p=0.5457表面,当前样本数据下不能拒绝原假设。n 列联表的独立性检验7tab,chi2,p=crosstab(A(:,11),A(:,12
29、);输出结果:p=0.4634。11月和12月降雨量是各自独立的。n Kolmogorov-Simirnov 检验原理:参见概率统计教材中的假设检验。函数:h,p,stats,cv=kstest(x,cdf,alpha,tail)参数说明:x:样本数据向量;cdf:检验的原假设所指定的分布形式(具体引用为变量的累计分布函数,缺省时cdf=,表示拟合标准正态分布);alpha:检验的显著性水平(缺省时为0.05);tail:备择假设类型的标示值;h:检验决策;p:拒绝原假设的最小显著概率;stats:检验统计量的值;cv:拒绝域的临界值。x=(A(:,1)-mu)/sigma;h,p,stats,cv=kstest(x,0.10,0);输出结果:h=0,p=0.3142,stats=0.1404,cv=0.1718。结果表面,接受原假设,即服从正态分布。n 正态性检验(相关原理参考有关教材)n 概率纸法:normplot(x)n Lilliefors法:h,p,stats,cv=lillietest(x,alpha,tail)n Jarque-Bera法:h,p,stats,cv=jbtest(x,alpha,tail)4可以用于回答问题吗?【问题1】:预测?不可以!需要新的预测方法【问题2】:分类模型【问题3】:用处?
限制150内