2022年数学建模 2.pdf





《2022年数学建模 2.pdf》由会员分享,可在线阅读,更多相关《2022年数学建模 2.pdf(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2012高教社杯全国大学生数学建模竞赛名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 23 页 -1 葡萄酒的评价摘要随着如今葡萄酒理化指标检测手段的进步,利用酿酒葡萄及葡萄酒的理化指标对葡萄酒进行质量判别已成为现代检测葡萄酒质量的一种趋势,为此,本文做了如下研究,来分析葡萄及葡萄酒的理化指标对葡萄酒质量的影响。对于问题一,利用SPSS软件的 K-S 检验分析每组评酒员打分,得到每种样本集的打分均符合正态分布,再利用 MATLAB 中的 ttest2函数对样本进行 t 检验,以检验第一组评酒员与第二组评酒员评分结果的显著性差异,得到两组评酒员的评价结果具有显著性差异;最后综合运用
2、信度分析和均标准差方法来求可信度,得出第二组评酒员的评价结果更可信。对于问题二,先将第二组评酒员得出的葡萄酒质量结果,利用灰色模型,对每种样品的十个得分灰色数据融合算法计算,得出更合理的葡萄酒质量得分,结果见表5 和表6。再利用 SPSS对酿酒葡萄的理化指标分别采用相关性分析和主成分分析模型,对酿酒葡萄进行排名,得到结果见表11和表 12;最后再利用不同权值得出酿酒葡萄的得分,结果见表 13,分别对酿酒葡萄得分结果进行聚类分析,选出其中一组符合定义的葡萄级别黄金分割型,最终权重及酿酒葡萄的分级见表14。对于问题三,针对所给样本建立了BP 人工神经网络,并对其进行了训练,得到的结果表明,建立的网
3、络可以很好表现白葡萄和白葡萄酒的理化指标之间的联系,对红葡萄的表现则不如表现白葡萄和白葡萄酒之间的联系。对于问题四,首先用由相关性分析等方法提取的一部分葡萄及葡萄酒理化指标的主要成分与葡萄酒质量得分之间建立了多元线性回归模型,求得红葡萄酒和白葡萄酒各自变量的权重,求得红酒和白葡萄酒的复相关系数均为0.5;再使用主成分分析方法得到主要芳香物质,然后以葡萄、葡萄酒的理化指标以及芳香物质与葡萄酒质量得分之间再次建立多元线性回归模型,得到红葡萄酒和白葡萄酒的各自变量的权重,以及得到加入芳香物质指标后的红酒复相关指数为0.6261,白酒的复相关指数为0.5,白酒的复相关系数无变化,可以得出对于红酒单纯用
4、葡萄和葡萄酒的理化指标不足以评价葡萄酒的质量,而对于白葡萄酒则可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。关键词:葡萄酒评价灰色模型主成分分析BP 神经网络理化指标名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 23 页 -2 1.问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件 1 给出了某一年份一些葡萄酒的评价结果,附件 2 和附件 3 分别给出了该
5、年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:(1)分析附件 1 中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?(2)根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。(3)分析酿酒葡萄与葡萄酒的理化指标之间的联系。(4)分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。模型假设与符号说明2.1模型假设(1)假设题目中所有调查数据真实可信;(2)假设在葡萄酒品尝时的评价标准是客观的,符合实际情况;(3)假设当仪器没有检测到该样品成分时,其含量为零;(4)假设酿酒葡萄的好坏与所酿葡萄酒的质量有直接的
6、关系;(5)假设酿酒葡萄和葡萄酒有效理化指标的主要成分对葡萄酒质量仅产生线性影响(6)假设两组评酒员对样本就的评价结果数据是两组独立的样本;名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 23 页 -3 2.2符号说明1iA:第一组的 10 个品酒员对第i种红葡萄酒的评分集合(1,2,27i);2iA:第二组的 10 个品酒员对第i种红葡萄酒的评分集合(1,2,27i);1jB:第一组的 10 个品酒员对第j种白葡萄酒的评分集合(1,2,28j);2jB:第二组的 10 个品酒员对第j种白葡萄酒的评分集合(1,2,28j);n:每个评分集合的样本容量,本题中n=10;2.问题分析
7、3.1 问题(1)分析该问题要求分析附件1 中两组评酒员的评价结果有无显著性差异,并且要得到哪一组结果更可信。题目中分别给出了两组评酒员对27 种红葡萄酒和 28 种白葡萄酒基于各项评分标准的得分情况。本文首先对每种酒的分类指标求和,得到每个评酒员对每种酒的总得分,这些总得分可以分为 4 类:第一组红葡萄酒品尝总分、第一组白葡萄酒品尝总分、第二组红葡萄酒品尝总分以及第二组白葡萄酒品尝总分,然后对这四类数据从显著性差异和可信度方面进行进一步分析。关于显著性差异,通常情况下,实验结果达到0.05 水平或 0.01 水平,才可以说数据之间具备了差异显著或是极显著。在作结论时,应描述方向性(例如显著大
8、于或显著小于)。sig值通常用0.05P表示差异性不显著;0.010.05P表示差异性显著,p0.01表示差异性极显著。具体从以下几个步骤进行讨论研究。对于上述四类葡萄酒品尝总分数据,将每组数据中一个样品酒的10个总得分数据记为一组样本数据,用字母A或B表示。第一步用 K-S 单样本检验方法来检验这组样本数据的实际分布是否符合对应的理论分布,经过进一步计算得到,这些样本数据均服从正态分布。在符合正态分布的前提下,如果总体标准差未知,而且样本容量30n,那么这时一切可能的样本平均数与总体平均数的离差统计量呈t分布。第二步对对应一种样品酒的两组样本集合进行t检验,通过对双总体t检验来检验两组样本平
9、均数与其各自所代表的总体的差异是否显著。第三步得到两组品酒员的评价结果是否有显著性差异。关于结果的可信度,我们运用了两种方法来确定其可信度,一种是通过计算标准差名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 23 页 -4 的方法,如果一组数据的标准差越大,说明各个品酒员之间评分存在异议的程度越大,结果的不确定性也越大,导致结果的可信度低。另一种是通过信度分析来评价这组数据的可靠性。信度反映了测验结果的一致性或稳定性,是被测特征真实程度的指标。信度分析的主要方法有重测信度法、折半信度法和信度系数法。本文则选用了常用的信度系数法对结果的可信度进行信度分析。3.2 问题(2)分析问题
10、(2)是根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。题目附录 2 中给出了酿酒葡萄的55 个理化指标,其中有一级指标和二级指标,而葡萄酒的质量是由评酒员的打分来确定的。根据对问题(1)的分析与计算,得到第二组评酒员的结果更为可信,因此本文采用第二组评酒员评分作为葡萄酒的质量。酿酒葡萄的分级既受制于葡萄的理化指标,又与其所酿成的葡萄酒的质量有关(将葡萄的理化指标和葡萄酒的质量称为一组变量)。由于酿酒葡萄的分级与这组变量有关,而且变量的维数很大,所以很难直接考虑它们与结果的关系。当考察的变量是一组变量(多于两个变量)时,则需要考察这一组变量总体的相关性,也可称为多元整体相关性分析。
11、所以对第二题,本文采用如下的思路进行求解。第一步通过对酿酒葡萄的理化指标和葡萄酒的质量进行相关性分析,考察多个变量整体的相关性,剔除相关性较小的指标,留下相关性较大的指标;第二步对剩下的指标再通过主成分分析法,用维数极少的互补相关的新变量来反映原变量所提供的绝大部分信息;第三步通过对新变量的分析计算得到葡萄基于理化指标的得分情况。但是这并没有把葡萄酒的质量考虑在内,所以第四步本文以葡萄的理化和葡萄酒质量这两个指标设置不同权重,综合考虑葡萄酒质量的分数排名和理化指标的分数排名,最终利用聚类分析确定葡萄的得分分级。3.3 问题(3)分析此问题采用 BP 神经网络进行求解,BP(Back Propa
12、gation)神经网络是 1986 年由Rumelhart和 McCelland 为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP 网络能学习和存贮大量的输入到输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。由此我们可以将BP 神经网络应用于该多因变量的多元线性回归分析上,利用问题中提供的酿酒葡萄的经过相关性等方法得到部分的理化指标作为BP 网络的输入,葡萄酒质量的得分为网络输名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 23 页 -5 出层进行训练,最后得到一个可信的网络,用这个网络来表示酿酒葡萄与葡萄酒质量
13、之间的联系。3.4 问题(4)分析本题要分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。在前三个题的基础上,首先通过主成分分析法将原有的大量指标降维,得到既能反映指标的特征,指标维数较小的主要成分。根据是否考虑芳香物质对葡萄酒质量的影响,将问题分为两个方面进行讨论。(1)不考虑芳香物质的影响将葡萄和葡萄酒的理化指标作为因变量,以第一问求得的葡萄酒质量为自变量,分别围绕着红葡萄的27 组数据和白葡萄的 28 组数据,采用多元线性回归的方法对数据拟合,然后对拟合曲线与原始点的差异进行讨论分析,得出反映多元线性回归的拟合度的参数。(2)考虑芳香物质的影响对各项芳香物质进行主成分分析后,得到了芳香物
14、质的主要成分。将芳香物质的主要成分和葡萄以及葡萄酒理化指标的主要成分一起作为因变量,以葡萄酒质量作为自变量,依然采用和(1)相同的方法,得出一组反映多元线性回归的参数。然后对比参数之间的差异,得出结果。3.建模前的准备4.1 数据的预处理考虑到本题涉及的数据量特别庞大,因此对这些数据进行预先的处理也很重要,本文从以下几个方面对数据进行预处理。(1)剔除无效数据:在题目的附录 1 中,所给数据出现了缺失与错误:第一组红葡萄酒品尝评分表表格F76 的数据缺失以及第一组白葡萄酒品尝评分表表格J233的数据有误(满分 8 分,此处为 77 分),对于此类问题,本文通过对其他9 名品酒员在该项目得分的均
15、值作为此缺失或错误的数据。(2)分类指标求和:在附录 1 中,每个评酒员在对葡萄酒进行品尝后对其分类指标打分,通过对各分类名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 23 页 -6 指标求和得到其总分,确定出葡萄酒的质量。(3)多次测量均值:在附录 2 中,有些项目/理化指标测试了不止一次,通过对这几次的测量结果求平均值,来减少误差。4.2 用灰色模型计算酒样品的总分在这个问题中一个酒样品由10 个评酒员进行打分,按照通常的做法,我们会去掉一个最高分,去掉一个最低分,剩下的取平均值作为样品酒的最后得分。可是,严格的讲,如果评酒员比较权威,最高分最低分也反映了样品酒某方面的一些
16、情况,贸然去掉的话会损失一些信息,因此本文采用了灰色数据融合算法(算法的进一步介绍可见参考文献 5,第 184-186页),不但充分利用这些信息,而且这些信息又不会对结果造成决定性的影响。在后面的计算中用到的酒样品分数都是通过灰色模型计算出的。4.模型的建立与求解5.1 问题(1)的模型建立与求解5.1.1评价结果的显著性差异根据问题的分析,关于显著性差异的讨论可以分为以下几步。(1)K-S 单样本检验K-S 检验是将一组样本值(观察结果)的分布和某一指定的理论分布函数(如正态分布,均匀分布,泊松分布,指数分布)进行比较,确定两者之间的符合程度。这种检验可以确定是否有理由认为样本的观察结果来自
17、具有该理论分布的总体。简言之,这种检验包括确定理论分布下的累积频数分布,以及把这种累积频数分布和观察的累积频数分布进行比较(这里的理论分布是指零假设成立时所预期的分布),确定理论分布和观察分布的最大差异点,参照抽样分布并定出这样大的差异是否基于偶然。这就是说,若观察的结果的确是从理论分布抽取的随机样本,则抽样分布将指出这种观察到的差异程度是否是随机出现的。本文运用 SPSS软件对1iA和2iA(1,2,27i)、1jB和2jB(1,2,28j)总名师资料总结-精品资料欢迎下载-名师精心整理-第 7 页,共 23 页 -7 共 110组样本数据分别进行K-S 单样本检验,在显著性水平0.05的情
18、况下检验发现所有的样本值均符合正态分布。以11A(第一组品酒员对第1 种红葡萄酒的评分集合)为例进行说明,下面给出Kolmogorov-Sirmov 单样本检验表,如下表所示。表 1:12A的 K-S 单样本检验表单样本 Kolmogorov-Smirnov 检验样品一N 10 正态参数均值62.70 标准差9.638 最极端差别绝对值0.133 正0.129 负-0.133 Kolmogorov-Smirnov Z 0.420 渐近显著性(双侧)0.995 从表中可以看出,Kolmogorov-Sirmov 单样本检验的0.995p大于 0.05,差异不显著,即不能否定假设样本集12A服从正
19、态分布。因此,可认为服从正态分布。(2)双总体t检验双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。双总体t检验又分为两种情况,一是相关样本平均数差异的显著性检验,用于检验匹配而成的两组被试获得的数据或同组被试在不同条件下所获得的数据的差异性,这两种情况组成的样本即为相关样本。二是独立样本平均数的显著性检验。各实验处理组之间毫无相关存在,即为独立样本。该检验用于检验两组非相关样本被试所获得的数据的差异性。考虑到本题是两组不同人员对同品种的酒进行品评,因此产生的两组数据是独立的,固本文采用独立样本平均数的显著性检验。对本文运用MATLAB 软件中的 ttest函数分别对1iA
20、和2iA(1,2,27i)、1jB和2jB(1,2,28j)进行t检验,得到显著性结果如下表。表 2:两组评价结果的显著性差异表酒样品编号红葡萄酒白葡萄酒名师资料总结-精品资料欢迎下载-名师精心整理-第 8 页,共 23 页 -8 存在显著性差异1,2,3,6,7,8,9,10,11,12,13,15,16,17,18,19,20,21,22,23,24 5,6,9,12,13,14,15,19,22,26,27 不存在显著性差异4,5,14,25,26,27 1,2,3,4,7,8,10,11,16,17,18,20,21,23,24,25,28 从上表可以看出,红葡萄酒中有21 种酒的评价
21、结果存在显著性差异,白葡萄酒中有 11 种酒存在显著性差异,两组评酒员的评价结果有显著性差异。5.1.2评价结果的可信度根据问题分析,本文用两种模型来讨论结果的可信度,信度分析法与标准差计算法。(1)信度分析信度是指一个衡量的正确性或精确性,信度包括稳定性以及一致性。本文用信度系数法,克朗巴哈信度系数是目前最常用的信度系数。其公式为:1var()11varkiikk(1)其中,k为量表中评估项目的总数,var()i为第i个项目得分的表内方差,var为全部项目总得分的方差。对于信度系数的界限值,不同研究者对其有不同的看法,一般有如下看法,见下表:表 3:信度系数评价表a 信度系数范围0.60-0
22、.65 0.65-0.70 0.70-0.80 0.80-1.00 可信程度不可信最小可接受值很可信十分可信通过 SPSS软件分别对1iA和2iA(1,2,27i)、1jB和2jB(1,2,28j)进行信度分析,得到各个信度系数如下表.表 4:四类数据的信度系数值分组第一组红葡萄酒第二组红葡萄酒第一组白葡萄酒第二组白葡萄酒信度系数0.878 0.928 0.971 0.962 由上表可以看出,标准化项的信度系数都大于0.8,由信度系数评价表可知所有评价结果均十分可信,但是第二组红葡萄酒的值明显大于第一组的值,说明第二组红葡萄酒的评价结果更可信,而两组白葡萄酒的值在0.97 左右,相差不大,所以
23、下面通过求标准差的方法来继续讨论。名师资料总结-精品资料欢迎下载-名师精心整理-第 9 页,共 23 页 -9(2)标准差计算法分别计算1iA和2iA(1,2,27i)、1jB和2jB(1,2,28j)的标准差,做出如下的折线图。0246810121 3 5 79 11 1315 17 19 21 2325 27酒样品编号标准差第一组红葡萄酒第二组红葡萄酒02468101214161 3 5 7 9 1113 15171921232527酒样品编号标准差第一组白葡萄酒第二组白葡萄酒图 1:两组红葡萄酒的标准差折线图图 2:两组白葡萄酒的标准差折线图由上图明显可以看出来第二组数据的标准差小于第一
24、组的标准差,而且经过Excel计算得出,第一组的均标准差为10.57,第二组的均标准差为7.14,小于第一组。因此得到对于白葡萄酒的评价结果是第二组更可信。综合以上两种评价方法得出最终结论:第二组评价结果更可信。5.2 问题(2)的模型建立与求解由问题一得第二组结果可信后,下面用灰色模型得出每种葡萄酒样品得分,如下表:表 5:红葡萄酒各样本质量得分样本序号得分样本序号得分样本序号得分1 69.136 10 68.165 19 72.901 2 73.725 11 62.921 20 75.976 3 75.037 12 68.674 21 72.712 4 72.111 13 68.49 22
25、 71.769 5 72.313 14 72.721 23 77.653 6 66.309 15 66.295 24 71.56 7 66.347 16 69.664 25 67.466 8 66.366 17 74.7 26 71.912 9 78.434 18 64.869 27 71.221 表 6:白葡萄各样本质量得分样本序号得分样本序号得分样本序号得分样本序号得分1 82.751 8 73.629 15 73.576 22 71.596 2 76.073 9 73.86 16 74.811 23 75.824 3 78.376 10 76.122 17 79.995 24 74.16
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年数学建模 2022 数学 建模

限制150内