基于数理分析的葡萄及葡萄酒评价体系数学建模a题--学士学位论文.doc
高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写): A 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 重庆大学 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名): 日期: 2012 年 9 月 10 日赛区评阅编号(由赛区组委会评阅前进行编号):学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号): 基于数理分析的葡萄及葡萄酒评价体系摘要葡萄酒的质量评价是研究葡萄酒的一个重要领域,目前葡萄酒的质量主要由评酒师感官评定。但感官评定存在人为因素,业界一直在尝试用葡萄的理化指标或者葡萄酒的理化指标定量评价葡萄酒的质量。本题要求我们根据葡萄以及葡萄酒的相关数据建模,并研究基于理化指标的葡萄酒评价体系的建立。对于问题一,我们首先用配对样品t检验方法研究两组评酒员评价差异的显著性,将红葡萄酒与白葡萄酒进行分类处理,用SPSS软件对两组评酒员的评分的各个指标以及总评分进行了配对样本t检验。得到的部分结果显示:红葡萄酒外观色调、香气质量的评价存在显著性差异,其他单指标的评价不存在显著差异,白葡萄、红葡萄以及整体的评价存在显著性差异。接着我们建立了数据可信度评价模型比较两组数据的可信性,将数据的可信度评价转化成对两组评酒员评分的稳定性评价。首先我们对单个评酒员评分与该组所有评酒员评分的均值的偏差进行了分析,偏差不稳定的点就成为噪声点,表明此次评分不稳定。然后我们用两组评酒员评分的偏差的方差衡量评酒员的稳定性。得到第2组的方差明显小于第1组的,从而得出了第2组评价数据的可信度更高的结论。对于问题二,我们根据酿酒葡萄的理化指标和葡萄酒质量对葡萄进行了分级。一方面,我们对酿酒葡萄的一级理化指标的数据进行标准化,基于主成分分析法对其进行了因子分析,并且得到了27种葡萄理化指标的综合得分及其排序(见正文表5)。另一方面,我们又对附录给出的各单指标百分制评分的权重进行评价,并用信息熵法重新确定了权重,用新的权重计算出27种葡萄酒质量的综合得分并排序(见正文表6)。最后我们对两个排名次序用基于模糊数学评价方法将葡萄的等级划分为1-5级(见正文表8)。对于问题三,首先我们将众多的葡萄理化指标用主成分分析法综合成6个主因子,并将葡萄等级也列为主因子之一。对葡萄的6个主因子,以及葡萄酒的10个指标用SPSS软件进行偏相关分析,得到酒黄酮与葡萄的等级正相关性较强等结论。之后对相关性较强的主因子和指标作多元线性回归。得到了葡萄酒10个单指标与主因子之间的多元回归方程,该回归方程定量表示两者之间的联系。对于问题四,我们首先将葡萄酒的理化指标标准化处理,对葡萄酒的质量与葡萄的6个主因子和葡萄酒的10个单指标作偏相关分析,并求出多元线性回归方程。该方程就表示了葡萄和葡萄酒理化指标对葡萄酒质量的影响。之后,我们通过通径分析方法中的逐步回归分析得到葡萄与葡萄酒的理化指标只确定了葡萄酒质量信息的47%。从而得出了不能用葡萄和葡萄酒的理化指标评价葡萄酒的质量的结论。接着我们还采用通径分析中的间接通径系数分析求出各自变量之间通过传递作用对应变量的影响,得到单宁与总酚传递性影响较强等结论。 最后,我们对模型的改进方向以及优缺点进行了讨论。关键词:配对样本t检验 数据可信度评价 主成分分析 模糊数学评价 综合评分 信息熵 偏相关分析 多元线性回归1问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件中给出了某一年份一些葡萄酒的评价结果,并分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。我们需要建立数学模型并且讨论下列问题:1. 分析附件1中两组评酒员的评价结果有无显著性差异,并确定哪一组的评价结果更可信。2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。2模型的假设与符号的约定2.1模型的假设与说明(1)评酒员的打分是按照加分制(不采用扣分制);(2)假设20名评酒员的评价尺度在同一区间(数据合理,不需要标准化);(3)每位评酒员的系统误差较小,在本问题中可以忽略不计;(4)假设附件中给出的葡萄和葡萄酒理化指标都准确可靠。2.2符号的约定与说明符号符号的意义原假设显著性概率第1组评酒员对第号品种葡萄酒评分的平均值,第2组评酒员对第号品种葡萄酒评分的平均值,第一组评酒员对指标评分的偏差的方差,第二组评酒员对指标评分的偏差的方差,第1组10位评酒员对号酒样品第项指标评分的平均分第1组第号评酒员对号酒样品第项指标评分与平均值的偏差第1组第号评酒员对其项指标评分与平均值的偏差的平均值第2组第个评酒员的总体指标偏差的方差重新确立的第项指标的权重第2组10个评酒员的总体指标偏差的方差评酒员指标的平均评分,葡萄的第项指标,葡萄的第项因子,葡萄酒的第项理化指标,3问题一的分析与求解3.1问题一的分析题目要求我们根据两组评酒员对27种红葡萄酒和28种白葡萄酒的10个指标相应的打分情况进行分析,并确定两组评酒员对葡萄酒的评价结果是否有显著性差异,然后判断哪组评酒员的评价结果更可信。初步分析可知:由于评酒员对颜色、气味等感官指标的衡量尺度不同,因此两组评酒员评价结果是否具有显著性差异应该与评价指标的类型有关,不同的评价指标的显著性差异可能会不同。同时,由于红葡萄酒和白葡萄酒的外观、口味等指标差异性较大,处理时需要将白葡萄酒和红葡萄酒的评价结果的显著性差异分开讨论。基于以上分析,我们可以分别两组品尝同一种类酒样品的评酒员的评价结果进行两两配对,分析配对的数据是否满足配对样品t检验的前提条件,而且根据常识可知评酒员对同一种酒的同一指标的评价在实际中是符合t检验的条件的。接着我们就可以对数据进行多组配对样品的t检验,从而对两组评酒员评价结果的显著性差异进行检验。由于对同一酒样品的评价数据只有两组,我们只能通过评价结果的稳定性来判定结果的可靠性。而每组结果的可靠性又最终决定于每个评酒员的稳定性,因此将问题转化为对评酒员稳定性的评价。3.2配对样品的t检验简介统计知识指出:配对样本是指对同一样本进行两次测试所获得的两组数据,或对两个完全相同的样本在不同条件下进行测试所得的两组数据。在本问中我们可以把配对样品理解为有27组两个完全相同的酒样品在两组不同评酒员的检测下得到的两组数据,两组中各个指标的数据为每组评酒员对该指标打分的平均值。配对样品的t检验可检测配对双方的结果是否具有显著性差异,因此就可以检验出配对的双方(第一组与第二组)对葡萄酒的评价结果是否有差异性。 配对样品t检验具有的前提条件为:(1)两样品必须配对(2)两样品来源的总体应该满足正态性分布。配对样品t检验基本原理是:求出每对的差值如果两种处理实际上没有差异,则差值的总体均数应当为0,从该总体中抽出的样本其均数也应当在0附近波动;反之,如果两种处理有差异,差值的总体均数就应当远离0,其样本均数也应当远离0。这样,通过检验该差值总体均数是否为0,就可以得知两种处理有无差异。该检验相应的假设为: ,两种处理没有差别,两种处理存在差别。3.3葡萄酒配对样品的t检验问题一中配对样品为27组两个完全相同的酒样品在两组不同评酒员的检测下得到的两组数据,其中两组中各个指标的数据为各组10个评酒员对该指标打分的平均值。该问题中的10个指标分别为:外观澄清度、外观色调、香气纯正度、香气浓度、香气质量、口感纯正度、口感浓度、口感持久性、口感质量、平衡/总体评价。根据t检验的原理,对葡萄酒配对样品进行t检验之前我们要对样品进行正态性检验。首先我们根据附件一并处理表格中的数据,得到配对样品的两组数据,绘制红葡萄酒配对样品表格部分数据如表1: 表1 红葡萄酒配对样品数据表 澄清度(1组均值) 澄清度(2组均值)平衡/整体评价(1组均值)平衡/整体评价(2组均值)红12.33.17.78.4红22.93.19.69.1红263.63.78.98.8红273.73.798.8 白葡萄酒配对样品表格部分数据如表2:表2 白葡萄酒配对样品数据表澄清度(1组均值) 澄清度(2组均值)平衡/整体评价(1组均值)平衡/整体评价(2组均值)白12.33.17.78.4白22.93.19.69.1白263.63.78.98.8白273.73.798.8从上表中我们能看出,将白葡萄酒和红葡萄酒中的每个指标分别进行样品的配对后,每一个指标的配对结果有27对,每一对的双方分别是1组和2组的评酒员对该指标的评分的平均值。3.3.1样本总体的K-S正态性检验 配对样品的t检验要求两对应样品的总体满足正态分布,则总体中的样品应该满足正态性或者近似正态性,样本的正态性检验如下: 以红葡萄酒的澄清度的27组数据为例分析:利用SPSS软件绘制两样品的直方图和趋势图如图1所示: 图1 红葡萄酒澄清度两组数据直方图 我们假设两组总体数据都服从正态分布,利用SPSS软件进行K-S正态性检验的具体结果见附录2.3。两组数据的近似相伴概率值P分别为0.239和0.329,大于我们一般的显著水平0.05则接受原来假设,即两组红葡萄酒的澄清度数据符合近似正态分布。 同理可用SPSS软件对其他指标的正态性进行检验,得到结果符合实际猜想,都服从近似正态分布。3.3.2葡萄酒配对样品t检验步骤两种葡萄酒的处理过程类似,这里我们以对红葡萄酒评价结果的差异的显著性分析为例。Step1: 我们以第一组对葡萄酒的评价结果总体服从正态分布,以第二组对葡萄酒的评价结果总体服从正态分布。我们已分别从两总体中获得了抽样样本和,并分别进行两样品相互配对。(具体数据见附录2.1)Step2:;引进一个新的随机变量,对应的样本为,将配对样本的t检验转化为单样本t检验。Step3: 建立零假设,构造t统计量;Step4:利用SPSS进行配对样品t检验分析,并对结果做出推断。3.4显著性差异结果分析3.4.1红葡萄酒各指标差异显著性分析由SPSS软件对红葡萄酒各指标的配对样品t检验后,得到各指标的显著性概率分布表。(结果如表3所示) 表3 红葡萄酒酒各指标显著性概率P指标外观澄清度外观色调香气纯正度香气浓度香气质量P0.6140.0020.1510.1000.010指标口感纯正度口感浓度口感持久性口感质量平衡整体P0.4370.1580.2510.0550.674 由统计学知识,如果显著性概率P<显著水平,(),则拒绝零假设,即认为两总体样本的均值存在显著差异。若P>显著水平 ,则不能拒绝零假设,即认为两总体样本的均值不存在显著差异。则根据表3可得:两组评酒员对红葡萄酒各项指标的评价中除外观色调、香气质量存在显著性差异以外,其他8项指标都无显著性差异。3.4.2白葡萄酒各指标差异显著性分析代入白葡萄酒的评价数据,重复以上步骤,得到白葡萄酒各指标的显著性概率分布表。(结果如表4所示) 表4 白葡萄酒各指标显著性概率P分布表 指标外观澄清度外观色调香气纯正度香气浓度香气质量P0.2990.0890.9370.2380.714指标口感纯正度口感浓度口感持久性口感质量平衡/整体P0.0000.0050.8630.0000.001分析表4可得:两组评酒员对白葡萄酒各项指标的评价中只有口感纯正度、口感浓度、口感质量、平衡/整体评价存在显著性差异,其他6项指标都无显著性差异。3.4.3葡萄酒总体差异显著性分析(1)红葡萄酒总体差异显著性分析 该问题的附件中已经给出了10项指标的权重,因此将10项指标利用加权合并成总体评价。对于红葡萄酒两组评价结果构造两组配对t检验。得到显著性概率P=0.030。即红葡萄酒整体评价结果有显著性差异。(2)白葡萄酒总体差异显著性分析同理对于白葡萄酒两组评价结果构造两组配对t检验。得到显著性概率P=0.02。即白葡萄酒整体评价结果有显著性差异。(3)葡萄酒总体差异显著性分析对于白葡萄酒和红葡萄酒总体评价结果配对t检验。得到显著性概率P=0.002。即两组对整葡萄酒的评价有显著性差异。3.5评分数据可信度评价3.5.1数据可信度评价分析前面我们已经对两组评酒员评价结果的差异显著性进行了分析,部分但指标存在显著性差异,但两组评酒员对葡萄酒总体评价并无显著性差异。也即我们不能通过显著性差异指标明显地看出哪一组评酒员的数据可信。因此比较两组评酒员所评数据的可信度要建立更贴切的数据可信度指标。3.5.2数据可信度评价指标建立由于整体评价数据无显著性差异,我们可以认为20名评酒员的水平在一个区间内。因此评酒员的评价结果的稳定性将决定该评酒员评价的数据的可信度。若某一评酒员的评价数据不稳定,则其所评数据可信度较低,其所在组别的数据评价可信度也将相应降低。因此,我们将数据的可信度比较转化为两组评酒员评论水平的稳定性比较。查阅相关资料获知,评酒员的评价尺度是有一定的系统误差的。如不同评酒员对色调的敏感度或许是不同的,如果某一评酒员评价的色调稍高于标准色调,但他每次评价的色调都稍高,而且一直很稳定。虽然与均值间始终存在误差,由于其稳定性,这样的评酒员的评价数据仍然是可信的。 所以,我们建立的数据可信度评价指标为评酒员评价的稳定性。评酒员的评价数据越稳定,数据越可信。3.5.3数据可信度评价模型的建立与求解我们已分析将数据可信度的评价转化为对评酒员评价稳定性评价。通过对数据的初步观察处理,发现每位评酒员的系统偏差都较小,20位评酒员的评价尺度近似处在同一区间,因此我们不对附件中的数据进行标准化处理,认为附件中的数据的系统偏差可以忽略。(1)噪声点分析首先作出观察评酒员稳定性的偏差图,其中偏差为评酒员对同一个单指标的评分值与该组评论员评分的平均值之差。下面利用matlab软件作出第2组中1号和2号评酒员对27种红葡萄酒的澄清度评分与组内平均值的偏差如下(程序见附录1.1): 图2 第2组中1(左)、2号评酒员对澄清度评分与组内平均值偏差图分析上图可以看出,1号评酒员在对27种酒的澄清度评分时,出现了3个噪声点,(即偏离自己的平均水平较大的点)。2号评酒员在评分的时候只出现了1个噪声点。因而可以初步判定2号评酒员的稳定性比1号评酒员的稳定性好。(2)各指标偏差的方差计算 基于以上分析:要评价一个评酒员评价的稳定性,我们可以观察该评论员在评价时具有的噪声点的个数。噪声点的个数也可用评酒员的评酒数据与该组所评数据平均值的偏差的方差进行计算衡量。在此问中我们仍然选择两组红葡萄酒的评分求解偏差的方差。评酒员评价数据中包含10个评价指标,分别为外观澄清度、外观色调平衡整体评价等。我们给它们分别标号为从1-10。其中符号的含义为:号评论员对个单指标评分的偏差的方差。 表示第1组中号评酒员对号样品酒号单指标的评分,其中,。表示第2组中号评酒员对n号样品酒号单指标的评分其中,。在第1组中: 10位评酒员对号酒样品的项指标评分的平均分为: (1) 第号评酒员对号酒样品第项指标评分与平均值的偏差为: (2) 第号评酒员对酒样品的项指标评分与平均值的偏差的平均值为: (3) 第号评酒员对酒样品的项指标评分与平均值的偏差的方差为: (4)同理,第2组中第号评酒员对酒样品项指标评分与平均值的偏差的方差为: (5)(3)总体的偏差的方差计算问题1的附件中应经给出了10项单指标的权重(每项指标的满分值),利用该权重可得到第2组总体指标偏差的方差为: (6)第2组10名评酒员的27个酒样品的10项单指标的总体的偏差的方差为: (7)第1组10名评酒员的27个酒样品的10项单指标的总体的偏差的方差为: (8)3.5.4数据可信度评价结果分析 由附件中的数据求得:1组的10名评酒员的27个酒品的10项单指标的总体的偏差的方差;2组的10名评酒员的27个酒品的10项单指标的总体的偏差的方差;因此,我们认定2组的评酒员的评价的稳定性较高,第2组的数据更可信。3.6问题1的结果分析在本问中,我们通过对两组评酒员的品酒打分情况统计数据按照指标进行配对t检验,发现有部分指标存在显著性差异。接着,我们又对样本总体做了一次t检验,发现两组评酒员之间的评分已经不存在显著性差异。随后,我们把对每组数据可靠性的评价转化为对每组各个评酒员稳定性的评价,最后得出了第二组数据更加可靠的结论。4问题二模型的建立与求解4.1问题二的分析 题目要求我们根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级。经验告诉我们,葡萄的理化指标越合理、葡萄酒的质量越好该酿酒葡萄的质量也就越好。这就要求我们分析葡萄的具体理化对葡萄的综合得分的贡献,并结合所酿葡萄酒的得分去评价葡萄的等级。在葡萄品质的评价过程中,如果将葡萄所具备的每个理化指标不分主次进行评判不仅会增加工作量,也极有可能对评判结果产生比较大的影响。因此,必须对所考虑的众多变量用数学统计方法,经过正交化处理,变成一些相互独立、为数较少的综合指标(即主导因子)。利用主成分分析法确定出附件2给出的各个一级指标的主成分,在贡献率达到统计要求的情况下进行必要的因子剔除以后,保留产生主导因素的因子,把原来较多的评价指标用较少的几个综合指标来代替,综合指标既保留了原有指标的绝大多数信息, 又把复杂的问题简单化。此外,由于原有的葡萄酒评分体系的建立并不一定准确,我们考虑用熵值法重新确立在葡萄酒得分中各个指标的权重系数(即百分制的重新划分),最后和问题1中确定的评判标准比较,采用更准确一组的打分情况重新得到各品种葡萄酒的评价总分。最后,根据理化指标的综合得分和葡萄酒质量的综合得分确立一个等级划分表,以这个等级划分表为依据划分葡萄的等级。4.2基于主成分分析的酿酒葡萄理化指标的综合评分 在问题二的分析中我们已经探讨出利用主成分分析将众多葡萄理化指标归纳到几个主成分中,并且利用主成分分析去求葡萄酒理化指标的综合得分。考虑到问题的复杂性和指标的实际意义,在此我们只选取葡萄的一级指标进行具体的数据分析。4.2.1 基于主成分分析方法的主要步骤 Step1:标准化数据主成分计算是从协方差矩阵出发的,它的结果会受变量单位的影响。不同的变量往往有不同的单位,对同一变量单位的改变会产生不同的主成分,主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。因此,为了使主成分分析能够均等地对待每一个原始变量,消除由于单位的不同可能带来的影响,我们常常将各原始变量作标准化处理。用matlab软件的zscore函数即可得到一个矩阵的标准化矩阵。(具体程序见附录1.2) Step2:计算标准化理化指标相关矩阵 考虑到本题数据的复杂性,人工进行相关矩阵显然不合理,我们借助matlab软件corrcoef函数求解标准化矩阵的相关矩阵。(具体程序见附录1.2)处理后的相关矩阵部分数据如表5所示: 表5 酿酒葡萄理化指标相关系数表氨基酸总量 蛋白质 出汁率果皮质量 氨基酸总量1.0000 0.02350.0075 -0.3151 蛋白质0.02351.0000 0.4018-0.0991 出汁率 0.00750.4018 1.0000-0.0185 果皮质量-0.3151 -0.0991-0.01851.0000 Step3:相关矩阵的特征向量和特征值统计 数学上我们可以证明,每个因子关于原来所有因子的线性函数系数的组合就是相关矩阵的特征向量矩阵,而综合得分中每个因子的权重就是与该因子系数相对应的特征值。这里我们需要借助matlab软件的eig函数来求解相关矩阵的特征值和特征向量。(具体程序见附录1.2)处理后的相关矩阵的特征向量和特征值及其贡献率统计的部分数据如表6、表7所示: 表6 酿酒葡萄理化指标特征向量矩阵因子1因子2因子3因子4因子26因子27氨基酸总量-0.138-0.263-0.0300.2811 -0.0650.0109蛋白质-0.2480.2305-0.0010.1634 -0.199-0.185出汁率-0.19730.06360.2439 0.06120.15770.0779皮质量0.11720.0727 0.3939-0.1267 0.0536 0.0343 表7 酿酒葡萄理化指标特征值和累计率因子特征值 百分率累计贡献率16.6114 47.26% 47.26%24.6437 23.31%70.57%32.9020 9.10%79.67%42.83458.69%88.36%5 1.9676 4.19%92.55%2600100% 270.00060%100%Step4:计算各品种葡萄在主成分下的综合得分 从表7可以看出,前4个因子的累计贡献率已经达到88.36%,基本信息已经包含在前4个因子中,符合统计学的标准。所以,我们把他们作为主成分来分析是完全可行的。所以在我们的基于主成分分析的评价体系下,由累计贡献率得到贡献率,即作为因子的综合评分的权重,不同品种葡萄的总评价得分的表达式即为: (9)部分葡萄的得分和排名如下表所示:(完整的数据见附录2.7)表8 不同品种酿酒葡萄品质预测评价因子1因子2因子3因子4总评分排名红1-4.3926-0.6892 -0.0514 -3.2468 -2.42782红2-4.4591 0.5430 0.1695 1.0701-1.79164红3-4.1881-3.6548 0.4231 3.0487 -2.61981红42.4579-0.3661 -0.8512-0.2518 0.954423红262.3909 3.6094 -0.2997 0.3308 2.117626红27 2.01900.2322-0.6908-0.7819 0.8662 22 4.3葡萄酒质量得分 附件1已经给出评酒员的具体打分情况,但是百分制打分各单项指标的分数分配不一定合理。也就是说各单项指标的权重分配不一定合理。因此,首先我们以2组可信度较高的评分数据,对各指标的权重进行重新分配。4.3.1基于信息熵对权重的重新分配(1)检测权重的合理性在问题1中通过数据可信度的评价,我们已经得到第二组的数据更可信。在此,我们可以以2组的可信数据,对已知权重的合理性进行检验,若权重不合理,将重新确定权重。这里为了避免客观给定权重,我们可以根据基于信息熵的确定权重的方法重新计算信息熵并比较。(2)基于信息熵的确定权重方法分析 信息熵法是偏于客观的确定权重的方法,它借用信息论中熵的概念。适用于多属性决策和评价。本问题中各属性是葡萄酒的10项单指标(外观澄清度、气味浓度等),本问题的决策方案即是对27种红葡萄酒和27种白葡萄酒进行分级,也就是说对各属性确定权重,然后计算每种葡萄酒的总得分,最后进行排序分类。(3)用信息熵确定各属性权重的具体步骤:Step1: 以2组评酒员对红葡萄酒各项指标的评分的平均值为信息构造决策矩阵X,决策变量为27种红葡萄酒,决策的属性。则决策矩阵X为27行10列矩阵如下: Step2:上述10个指标属性都是效应型指标,利用公式对决策矩阵进行规范化处理,其中分别为10个属性得分的最高值,(如)得到规范化决策矩阵R。 Step3:再由对规范化矩阵进行归一化处理后,得到归一化决策矩阵为(具体数据见附录7): Step4:通过公式,()计算10个属性的信息熵分别为:0.99750.99460.99740.99910.99340.99471.00040.99980.99250.9998Step5: 通过公式 计算我们确定的各单项的新的权重为:0.01450.20500.07500.06190.25190.01810.03950.00850.31760.00794.3.2葡萄酒质量综合得分 根据以上信息熵重新确定的各个评价指标的权重分配,得到每种葡萄酒指标的权重向量:=(,) =(0.0145,0.2050,0.0750,0.0619,0.2519,0.0181,0.0395,0.0085,0.3176,0.0079)再根据权重和评酒员的评分就可以计算出每种葡萄酒质量的总得分为:=+使用matlab软件进行计算(具体程序见附录1.3)得到每种红葡萄酒质量得分和排名如下表所示:表9 红葡萄酒得分及排名表 品种红1红2红3红4红5红6红7红8红9得分9.66410.8910.8310.3210.449.441 9.291 9.460 11.39排名194512102124201品种红10红11红12红13红14红15红16红17红18得分9.943 8.4619.836 6.589 10.609.404 10.214.904 9.321 排名16251726722152723品种红19红20红21红22红23红24红25红26红27得分10.6410.9510.5010.3911.1310.319.763 10.2910.47排名63811213181494.4基于模糊数学对酿酒葡萄等级的划分 通过以上模型我们计算得到了酿酒葡萄理化指标的综合得分和葡萄酒质量的综合得分。若把两个综合得分处理成一个综合得分,需要用层次分析法等确定两者的权重。但层次分析过于主观,而且在本问题中,酿酒葡萄的理化指标和葡萄酒的质量对葡萄等级的影响是比较模糊和复杂的。 因此我们对得分进行排序,利用模糊数学知识进行葡萄等级的划分。 表 10 得分排名模糊划分标准葡萄模糊等级标准葡萄理化指标排名葡萄酒质量排名1级(最高等级)1919 2级1910183级101810184级101819275级(最低等级)19271927 4.5酿酒葡萄的等级评价结果 根据4.4提出的酿酒葡萄等级指标的划分,结合4.2,4.3得到的葡萄理化指标排名和葡萄酒质量排名,得到酿酒葡萄的等级划分如表11所示: 表11 红葡萄等级划分表等级葡萄种类1级2,3,9,14,21,23 2级1,19,223级5,8,20,274级4,6,7,9,10,11,12,13,14,15,16,24,25,265级17,18其中白葡萄的等级划分方法与红葡萄酒的划分方法相同。根据以上模型对白葡萄酒的等级划分结果如表12所示。(程序见附录1.3) 表12 白葡萄等级划分表等级葡萄种类1级5,9,22,25,28 2级3,10,17,20,21,23,24,263级2,4,12,14,15,19,4级1,12,185级6,7,8,11,13,16,274.6酿酒葡萄等级划分标准的评价 本问中为了最终得到酿酒葡萄的等级划分标准,分别从酿酒葡萄的理化指标和与酿酒葡萄对应的葡萄酒的质量出发。首先,我们基于主成分分析法逐步得到了酿酒葡萄的理化指标的综合得分,并对其进行排名,应用主成分分析法既避免了大量数据处理的复杂同时也尽可能地获得了最大的信息量。接着,考虑到原有的葡萄酒评分标准不一定能够完全反应各项指标在葡萄酒质量中所起的重要性,我们又利用熵值法重新确定了各项指标的权重系数,得到了各品种葡萄酒在新的权重下的得分,并得到排名。最后,综合两个排名,我们提出了基于模糊数学对酿酒葡萄等级的划分,这种划分方法充分尊重了两组数据,但是当两组数据对结果的影响因素相差很大是,评价结果将产生较大的误差。 5问题三模型的建立与求解5.1问题三的分析题目要求我们分析酿酒葡萄与葡萄酒理化指标之间的联系。初步分析得到两者之间的联系应该体现在酿酒葡萄的理化指标和葡萄酒理化指标之间的联系。由于我们在问题二的模型中已经对酿酒葡萄进行了分级,不同等级的酿酒葡萄和葡萄酒的理化指标的联系在理论上应该是不同的。由于葡萄的理化指标数量过多,处理较复杂,我们可以用问题二的模型中提出的葡萄理化指标的主成分替代众多的葡萄理化指标。因此,本问题就简化成葡萄的主成分与葡萄酒的理化指标的联系。基于此我们就可以对各指标进行统计分析,如相关性分析、偏相关分析,并尝试建立多元回归模型。5.2模型的建立 5.2.1 葡萄理化指标主成分分析 在问题2的主成分分析中我们已经得到红葡萄的27个指标可以由4个主因子-衡量。其中的表达式中的在主成分分析中已经给出(附录1.2的MATLAB程序的输出结果),其中为主成分法标准化后的各葡萄理化指标的数据,编号遵循附件中一级指标的排序方式。 因子1和所有理化指标的关系表达式为: 。 (10) 同理的表达式也可以表示成一次多项式的形式。每一个因子是27个理化指标指标交互的结果,问题要求我们建立起酿酒葡萄和葡萄酒理化指标的联系,指标过多将导致联系的复杂性。所以选取贡献率最高的4个因子中显著性指标的交互