数学建模评价模型方法.pdf
,数据处理与数据建模方法实际中大量信息或海量信息对应着大量的数据 或海量数据,从这些数据中寻求所需要的问题答案-数据建模问题。通过实际对象过去或当前的相关信息,主要研 究两个方面问题:(1)分析研究实际对象所处的状态和特征等,依此做出评价和决策;(2)分析预测实际对象未来的变化状况和趋势 等,为科学决策提供依据。1*,数据处理与数据建模方法1.一般数据建模问题的提出2.数据处理的一般方法3.数据建模的综合评价方法4.数据建模的动态加权方法5.数据建模的综合排序方法6,数据建模的预测方法2勿一、一般数据建模问题的提出一般问题:实际对象都客观存在一些相关的数据信息;如何综合利用这些相关信息给出综合评价结果、制定决策方案,或预测未来?这类问题都归结为信息综合利用与评价问题。什么是综合评价与综合评价问题呢?3一、一般数据建模问题的提出综合评价:依据相关信息对被评价的对象 所进行的客观、公正、合理的全面评价。如果把被评价对象视为系统,则综合评 价问题:在若干个(同类)系统中,如何确定哪 个系统的运行(或发展)状况好,哪个状况差?即哪个优,哪个劣?一类多属性(或多指标)的综合评价问题。4一、一般数据建模问题的提出综合评价是科学、合理决策的前提。综合评价的基础是信息的综合利用。综合评价的过程是数据建模的过程。数据建模的基础是数据的标准化处理O如何构成一个综合评价问题呢?5勿一、一般数据建模问题的提出综合评价问题的五个要素:(1)被评价对象综合评价问题中所研究的对象,或称为系统。在一个问题中被评价对象是属于同一类的,且个 数要大于10假设一个综合评价问题中有几个被评价对象(或系统),分别记为冬邑,5(几1)。6,综合评价问题的五个要素(2)评价指标它是反映被评价对象(系统)的运行状况的基本要素。通常问题都有多项指标构成,每一项指标都是从 不同的侧面刻画系统所具有某种特征大小的一个度量。所有的评价指标一起称为综合评价的指标体系。原则:系统性、科学性、可比性、可测性和独立性。设系统有根个评价指标(属性)菁,入其加1),即评价指标向量 了=(%,42,,/A。7,综合评价问题的五个要素(3)权重系数针对每一综合评价问题不同的评价目的,各评价指标之间的相对重要性是不同的。权重系数:用来刻画评价指标之间相对重 要性的大小。如果用w.来表示评价指标玉(/=1,2,,加)的权m重系数,则s 20(/=1,2,,附,且吗=1。j=l8勿,综合评价问题的五个要素(4)综合评价模型通过建立合适的综合评价数学模型将多 个评价指标综合成为一个整体的综合评价指 标,即得到相应的综合评价结果。假设个被评价对象的小个数据指标向量%二(%,%,%)丁,权重向量为W=(叫,暝,.,5)丁,则枸造综合评价函数y=/(w,x)o综合评价问题的五个要素(5)评价者评价者是直接参与评价的人,可以是某一个人,也可以是一个团体。对于评价目的选择、评价指标体系确定、权重系数的确定和评价模型的建立都与评价者 有关。,综合评价过程的流程11,二、数据处理的一般方法1.数据类型的一致化处理方法一般问题的数据指标看,马,/(帆 1)可能有“极大型”、“极小型”、“中间型”和“区间型”指标。极大型:期望取值越大越好;极小型:期望取值越小越好;中间型:期望取值既不要太大,也不要 太小为好,即取适当的中间值为最好;区间型:期望取值最好是落在某一个确 什么是一 致化处理?为什么要 一致化?定的区间内为最好。12,二、数据处理的一般方法1.数据类型的一致化处理方法(1)极小型:对某个极小型数据指标X,则令 元二4(0),或X二加一元,即可将x极大化。x(2)中间型:对某个中间型数据指标X,则令2(一一),mxM+m)xf-M m 2x-2(M-x)I,。、,-,(M+m)x M M-m 2即可将中间型数据指标x极大化。13 二、数据处理的一般方法1.数据类型的一致化处理方法(3)区间型:对某个区间型数据指标1,则令A a-x1-,xacax b、c其中乃为x的最佳稳定区间,c=max Q-私M-/?,M 和机分别为X可能取值的最大值和最小值。即可将X极大化。14,二、数据处理的一般方法2.数据指标的无量纲化处理方法在实际数据指标外,犬2,,2(加1)之间,往往 存在着不可公度性,直接应用是困难的,会出现“大数 吃小数”的错误、从而导致结果的不合理。常用方法:标准差法、极值差法和功效系数法等。假设机个数据指标不起,房,不妨设已做了类型的一 致化,并有组样本观测值面(i=L2,稚15,二、数据处理的一般方法2.数据指标的无量纲化处理方法(1)标准差方法,X 一X.令七7=-=1,2,%/=1,2,加),J1 n 1 n其中毛=HXSJ=一乞(_弓A2(/=1,2,,根)。显然*(,=L2=L2,晒的均值和均方差分别 为0和1,即耳UQ1是无量纲的,称之为他的标准观测值。16,二、数据处理的一般方法2.数据指标的无量纲化处理方法(2)极值差方法.%.,-m;令%-a=J Mj-m.J/其中 M.=maxxij,mj=mnxij(j=1,o则4 g 0/是无量纲的标准观测值。V17,二、数据处理的一般方法2.数据指标的无量纲化处理方法(3)功效系数方法X.-m;令/=c-M./d(,=1,2/刀;/=1,2/,冽),其中均为确定的常数。表示“平移量。d表示 旋转量。即表示“放大”或缩小倍数。则 X.Ec,c+do y譬如若取 C=60,d=40,则 X;.G 60,100。IJ,二、数据处理的一般方法3.定性指标的量化处理方法在社会实践中,很多问题都涉及到定性因素(指标)的定量处理问题。诸如:教学质量、科研水平、工作政绩、人 员素质、各种满意度、信誉、态度、意识、观 念、能力等因素有关的政治、社会、人文等领域的问题。如何对有关问题给出定量分析呢?19,二、数据处理的一般方法3.定性指标的量化处理方法按国家的评价标准,评价因素一般分为五个等 级,如A,B,C,D,Eo如何将其量化?若A B+,C,D+等又如何合 理量化?简单地对应数字分量化方法是不科学的!根据实际问题,构造模糊隶属函数的量化方法是一种可行有效的方法。20,二、数据处理的一般方法假设有多个评价人对某项因素评价为A,B,C,D,E共5个等级:V叱/中。譬如:评价人对某章件“满意度”的评价可分为很满意,满意,较满意,不太满意,很不满意 将其5个等级依次对应为5,4,3,2,1。为取连续量化,取偏大型柯西分布和对数函数 作为隶属函数:JW=l+a(x-Y2Vlx3 anx+b,3 x 5其中。,四“力为待定常数.21,二、数据处理的一般方法勿3.定性指标的量化处理方法当“很满意”时,则隶属度为1,即/(5)=1;当“较满意”时,则隶属度为0.8,即/(3)=0.8;当“很不满意”时,则隶属度为0.01,即/=0.01.计算得 1=1.1086B=0.8942。=0.3913 b=0.369So x30.39151nx+0.3699,3x 5I则了 22,二、数据处理的一般方法3.定性指标的量化处理方法_J1.4 iiii1.2-10.8-0.6-/-0.4-/-0.2-/-Q H 1_1 1 1 1 1_I_1 1.5 2 2.5 3 3.5 4 4.5 5(x)=(I+1,1081工 一 08943-2j 30.39151nx+0.3699,3x 10/适用条件:各指标间有较强关联性。主要特点:(1)英山了各指标值的一致性,即平衡评价指标值较小的指标影响的作用;(2)权重系数大小的影响不是特别明显,而对指标 值的大小差异相对较敏感。25,三、数据建模的综合评价方法3.逼近理想点(TOPSIS)方法首先设定系统指标的一个理想(样本)点(X;,芯,二),然后对于每一个被评价对象与理想点进行比较。如果某一个被评价对象指标(如,王2,工加)在某种意义 下与理想点(M,芯,最接近,则认为被评价对象(七1,七2,Xim)就是最好的。基于这种思想的综合评价方法称为逼近理想点的排序方法(The technique for order preference by similarity to ideal solution,简称为 TOPSIS)。26三、数据建模的综合评价方法4.其他综合评价法 因子分析 聚类分析 模糊评价 层次分析法等27,,四、数据建模的动态加权方法1.动态加权问题的一般提法设有个被评价对象(或系统)51952,-,51),每个 系统都有机属性(或评价指标)xl,2,-,xw(m l)o对每一个不都可分为K个等级口,2,Pk(K1)。而对每一个都包含一个陵)/?),且或)4)(i=1,2,,用大=1,2,K),即当 e吸,续)时,则为属 于第 k 类 PkQSkSK)。问题:如何对个系统做出综合评价呢?28,,四、数据建模的动态加权方法2005年中国大学生数学建模竞赛的A题:“长江水质的 评价和预测”问题的第一部份给出了 17个观测站(城市)的 最近28个月的实际检测指标数据,包括反映水质污染程度的 最主要的四项指标:溶解氧(DO)、高镒酸盐指数(CODMn)、氨氮(NH3-N)和PlHi,要求综合这四种污染指标的28个月 的检测数据对17个城市的水质情况做出综合评价。表(1):地表水环境质量标准(GB38382002)中4个主要项目标准限值 单位:mg/L指标I类n类口1 类IV类V类劣V类氧(DO)7.5,8)6,7.5)5,6)3,5)2,3)0,2高镒例指数(CODMn)(0,2(2,4(4,6(6,10(10,15(15,8)氨氮(NH3-N)(0,0.15(0.15,0.5(0.5,1(1,1.5(1.5,2(2,8)PH值(无量纲)6,929,四、数据建模的动态加权方法根据国标(GB 38382 002)的规定,关于地表水的水 质可分为I类、n类、in类、IV类、v类、劣v类共六个类 别,每一个类别对每一项指标都有相应的标准值(区间),只要有一项指标达到高类别的标准就算是高类别的水质,所 以实际中不同类别的水质有很大的差别,而且同一类别的水 在污染物的含量上也有一定的差别。在对17个城市的水质做综合评价时,要充分考虑这些指 标值不同类别水的“质的差异”和同类别水的“量的差异”,在此简称为“质差”和“量差”。因此,这是一个较复 杂的多因素多属性的综合评价问题。30,,四、数据建模的动态加权方法针对长江水质的综合评价这一问题,采用动态加权综合评价方 法来解决。假没17个城市为被评价对象5应,同7,共有四项评 价指标(或属性)DO、CODMn.NH3-N和PH值,分别记为七,乙,%和%4,前三项指标都有6个等级外P2,,相应的分类区间值如 表(1)所示,而PH值没有等级之分。31,四、数据建模的动态加权方法1.动态加权问题的一般提法注意:问题对于每一个属性而言,既有 不同类别的差异,同类别的又有不同量值 的差异。对于这种既有“质差”,又有“量差”的问题,合理有效的方法是动态加权综合 评价方法。32,四、数据建模的动态加权方法2.动态加权函数的设定 考虑到评价指标的“质差”与“量差”,既要能体现不同类型指标之间的差异,也 要能体现同类型指标的数量差异。具体取什么样的动态加权函数,主要是 从实际问题出发分析确定。对于不同的指标可以取相同的权函数,也可以取不同的权函数。33:四、数据建模的动态加权方法2.动态加权函数的设定(1)分段变幕函数如果某项指标七对评价效果的影响大约是随着类别 口的增加而按正赛次增加;同时在某一类中随着指标值 的增加按相应的一个氟函数增加。则对指标七可设定分段 1/变森函数为变权函数。(k=12,K)其中1i 加。9 8 7 6 5 4 3 O.0.0.0.0.0.0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 16类指标值x0,,四、数据建模的动态加权方法2.动态加权函数的设定(2)偏大型正态分布函数若某项指标不对评价效果的影响大约是随着类别p%的增加,先缓慢增加,中间有一个快速增长的过程,随后平缓增加趋于最大,相应的图形呈正态分布曲线(左侧)形状。则对方的变权函数可 设定为偏大型正态分布函数。0,当 x .时,其中参数4可取4),*)中的某 定值。:四、数据建模的动态加权方法2.动态加权函数的设定(3)S型分布函数若某项指标为对评价效果影响是随着类别0增加而增加的过程,呈一条“S”曲线,则对指标王的变权函数可设定为S型 分布函数。、2叱(%)=x-al)bJ)x c.、221-2f f)K 1/其中参数c=;(%)+邕)X且吗=65(1 z m).C X 媚),,四、数据建模的动态加权方法3.动态加权的综合评价模型根据标准化后的指标值,仍用X.表示,相应动态权 C函数w.(x)(i=1,2,利),贝I 个系统的综合评价模型m取乂=%)玉。1=1若每个系统的相个属性都N组样本观测值%=1,2,,机;j=1,2,N),则每一个系统都有个 综合评价指标值X)/=1,2,,耳j=l,2,N)。按 其大小排序可给出个系统的7个排序方案。37,五、数据建模的综合排序方法.十1.综合排序问题的一般提法设有个系统(或方案)S,S2,SD,每个 系统都有用属性(或指标)xpx2,-,xm(rn 1)o相应 的都有N组本观测值为x.(lzm;l j 1)的一个排序,则共有N个不同的排序结果。问题:如何给出个系统的最终排序结果呢?38,五、数据建模的综合排序方法勿2.综合排序问题的方法Borda函数方法:在第J个排序方案中排在第左个 系统&后面的个数为则系统项的Borda数为Ng)=E)1,2,MjT按其大小排序,可得到个系统的综合排序结果,即总 排序结果。39,长江水质的综合评价模型1.指标数据的标准化处理(1)溶解氧(DO)的标准化注意到溶解氧(DO)为极大型指标,首先将数据指标作极小化处理,即令倒数变换%;=,相应的分类标准区间变为为小 1 1,1 1 1 1 1 1 1 1 1、(Q-J,(_-,-r,(T,(,(,z,(,8),7.5 7.5 o o 5 5 3 3 2 2xr然后通过极差变换吊=将其数据标准化,对应的分类区间随之变为 0.5(090.26679(0.266790.3333,(0.3333,0.4,(0.4,0.6667,(0.66671,(I。).,(2)(CWMn)fiWWt高猛酸盐指数本身就是极小型指标,即由极差变换将其受据标准化,即令=至,对应的分类区间随之变为15(0,0.1333,(0.1333,0.2 667,(0.2 667,0.4,(0.4,0.6667,(0.6667,1,Qoo)(3)氨氮(NH3N)的标准化氨氮也是极小型指标,对指标数据作极差变换将其数据标准化,即令乂 二丛,对应的分类区间随之变为2(0,0.075,(0.075,0.2 5 9(0.2 5,0.5,(050.75,(0.75,1,(l,oc)41(4)PH值的处理酸碱度(PH值)的大小反映出水质呈酸碱性的程度,通常的水生物都适应于中性水质,即酸碱度的平衡值(PH 值略大于7),在这里不妨取正常值的中值7.5。当PH7.5时偏酸性,而偏离值越大水质 就越坏,PH值属于中间型指标。为此,对所有的PH值指 标数据作均值差处理,即令,_|%4-7,5 _ 2Xa=Xa /.5 54 1.5 3 4则将其数搪标准化。422.动态加权函数的确定根据对这一实际问题的分析,不妨取动态加权函数为偏大型正态分布 函数,即0,当x Vq时,叱(%)=/f Tl-e 0 J,当时,其中区.在这里取指标为的I类水标准区间的中值,即/=(邛)4,/2,q 由吗(戏)=0.9(/=1,2,3)确定。由实际数据经计算可得=0.1333%=0.0667%=0.0375,力=0.1757 4=02197 cr3=0.3048,则代入上式可以得到DO、CODMn 和NH3-N三项指标的动态加权函数。433.综合评价指标函数的确定考虑到对实际评价效果影响差异较大的是前三项指标,以及指标PH值 的椒h性,这里取前三项指标的综合影响权值为0.8,而PH值的影响权值 取0.2。因此 根据综合评你翘,某城市某一时间的水质综合评价指标定3乂=0.8叱(%此+0.2x4 oi=l根据17个城市的28组实际检测数据,经计算可得各城市的水质综合 评价指标值,即可得到一个17X2 8阶的综合评价矩阵(X/7X2 8。44由17个城市28个月的水质综合评价指标X,*=1,2,7;J=1,2,28),根据其大小(即污染的程度)进行排序,数值越 大说明水质越差。由此可得反映17个城市水质污染程度的28个排 序结果,根据Borda数的计算方法则得到第i个城市(被评价对象)5.28的Borda数为 50)=之约0)(,=1217)。j=i经计算可得到各城市的Borda数及总排序结果如表所示。表(2):按各城市的水质污染总排序结果排序、S2S3$4$5S6S8S9%席几%几儿席Borda 数20313614323410613913837823227160357277264438214217总排序111512716131428517346110945表:按各蜥喇颂屣翩F序结果S$2风5S6SS859品品S12S13品S16%Borda 数20313614323410613913837823227160357277264438214217总排序1115127161314285173461109由表可以看出,各观测市所在的江段的水质污染的情况,水 质最差的是贬峨市是几,即是江西南昌赣江鄱阳湖入口地区;其次 是观测市$8,即四川乐山泯江与大渡河的汇合地区;第三位的是 耳2,即湖南长沙湘江洞庭湖地区;干流水质最差的是湖南岳阳段(邑),主要污染可能是来自于洞庭湖。干流水质最好的区段是江西 九江(鄂赣交给段(。),支流zK质最好是知匕丹江口水4(凡)。46+何节节是K.二三=我所*二,(+何节节是K.二三=我所*二,(,,六、数据建模的常用预测方法1.插值与拟合方法:小样本内部预测;2.回归模型方法:大样本的内部预测;3.灰预测GM(1,1):小样本的未来预测;4.时间序列方法:大样本的随机因素或周 期特征的未来预测;5.神经网络方法:大样的未来预测.