2012数学建模A葡萄酒的评价.doc
+-2012高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写): A 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名): 日期: 2012 年 9 月 7 日赛区评阅编号(由赛区组委会评阅前进行编号):2012高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):+-葡萄酒的评价摘 要目前,葡萄酒备受大家的青睐,其质量也日益受到人们的关注。葡萄酒的质量与酿酒葡萄的好坏有直接关系,葡萄酒和酿酒葡萄的理化指标会在一定程度上反应葡萄酒和酿酒葡萄的质量。对于问题1,我们采用方差分析的方法建模解决。基本思路是:对两组评酒员的评价结果进行单因素方差分析,然后再用F检验对得出的结果进行进一步验证,得出两组评酒员的评价结果无显著性差异,通过比较两组评酒员评价结果的方差值,得出第二组的结果更可信。对于问题2,我们采用主成分分析方法,建立综合评价模型,对酿酒葡萄进行分级。基本思路是运用因子分析的方法,以特征值大于1为标准,得出酿酒葡萄理化指标的8种主成分,在此基础上把综合因子作为一项排名指标,结合问题1得出的葡萄酒的质量,对酿酒葡萄进行排名,用两种排名的名次之和作为对酿酒葡萄分级的主要依据。此方法消除了主观加权的盲目性,保证了分级的客观性;避免了两个指标中因某一指标数值上远远大于另一指标而使另一指标对排名起不到作用的现象的发生。最终将酿酒葡萄分为了、五个等级。对于问题3,我们对酿酒葡萄和葡萄酒的理化指标中具有可比性的同类指标一一对比,经相关性检验得到他们具有显著的线性相关性,进而用线性回归的方法得出回归方程,找到酿酒葡萄和葡萄酒的理化指标之间的联系。对于问题4,先将酿酒葡萄和葡萄酒的量化指标进行无量纲化处理,用F检验验证两组值的相似程度为1,得出酿酒葡萄和葡萄酒的理化指标会对葡萄酒质量产生影响,所以可以用葡萄和葡萄酒的理化指标来评判葡萄酒的质量。文章最后对论文的优缺点做了评价,并给出了一些改进方向,以利于在实际中应用和推广。关键词:方差分析;因子分析;主成分分析法;线性回归分析;SPSS软件;F检验1问题的重述确定葡萄酒质量时一般是通过聘请一批有资质的的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年分一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:1.分析附件1中两组评酒员的评价结果又无明显差异,哪一组结果更可信?2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3.分析酿酒葡萄与葡萄酒的理化指标之间的关系。4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?2问题的分析对问题1,我们对附件一所给的葡萄酒品尝评分表进行统计学分析,根据各组评酒员对同一种葡萄酒的评价结果算出每种酒样品的得分,并对每组的数据进行方差分析,利用F检验求出两组间的显著水平,并与0.05的显著水平比较,从而判断两组评酒员的评价结果有无显著性差异。确定哪组更可信时,分别求出两组评价结果的方差进行比较,方差越小,可信度也就越高。对问题2,要求根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级,属于分类问题。对该问题,可以采用主成分分析法,建立综合评价模型。选取附件2中关于葡萄的一级指标作为影响等级划分的因素,采用因子分析法,确定主成分,结合问题1所得出的葡萄酒的质量对酿酒葡萄进行综合评价并分级。对问题3,分析酿酒葡萄与葡萄酒的理化指标之间的联系,既然是分析两指标之间的联系,就少不了作比较,从比较数据成对出现这一方面考虑,应该选取酿酒葡萄与葡萄酒理化指标中的共有指标进行分析,用一元线性回归模型求出对应指标之间的函数关系,进而确定酿酒葡萄与葡萄酒的理化指标之间的联系。对问题4,分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,参照问题2中酿酒葡萄的理化指标的处理方法,对葡萄酒的理化指标做同样分析。加权处理得出酿酒葡萄和葡萄酒的理化指标对葡萄酒质量产生影响的综合因子E,根据葡萄酒质量排名和E排名比较出产生的影响大小。3模型的假设(1)假设评酒员都有很高的品评资质,给出的评价结果客观可信。(2)假设问题1中葡萄酒的质量只与评酒员的评分有关。(3)假设更可信的评分组给出的数据可以代表葡萄酒的真实质量。4符号说明符号一 方差符号二 自由度符号三 标准差符号四 统计量符号五 假定值符号六 F临界值符号七 F值实际显著性概率符号八 对应的主成分值符号九 总主成分值符号十 因变量符号十一 自变量符号十二 综合因子5模型的建立与求解51 问题1的模型建立与求解在评价结果采用百分制的前提下,对每一个品酒员所给出的每一种样品酒的评价结果求和,并求出每一组10名评酒员对同一种酒评价结果总分的平均值,此平均值即为本组针对该样品酒给出的评分,得到两组分别对27个红葡萄酒样品和28个白葡萄酒样品给出的评分。用Excel中的数据分析对每组的数据进行方差分析,利用F检验判断两组评酒员的评价结果有无显著性差异。方差分析结果如下:(1)分析两组评酒员对红葡萄酒的评价表(1):方差分析方差分析:单因素方差分析SUMMARY组观测数求和平均方差列 1271972.973.0703753.51524列 2271903.970.5148115.82439方差分析差异源SSdfMSFP-valueF crit组间88.16667188.166672.5430380.1168424.026631组内1802.835234.66981总计1890.99753因为统计量,所以对红葡萄酒而言,两组评酒员的评价结果没有显著性差异。因为第二组的方差远小于第一组,所以第二组的可信度高于第一组,即第二组的结果更可信。(2)分析两组评酒员对白葡萄酒的评价表(2):方差分析方差分析:单因素方差分析SUMMARY组观测数求和平均方差列 1282079.374.2607127.05284列 2282142.976.5321410.05485方差分析差异源SSdfMSFP-valueF crit组间72.23143172.231433.893070.0536134.019541组内1001.9085418.55385总计1074.13955因为统计量,所以对白葡萄酒而言,两组评酒员的评价结果没有显著性差异。因为第二组的方差小于第一组,所以第二组的可信度高于第一组,即第二组的结果更可信。综上所述,两组评酒员的评价结果无显著性差异,且第二组的结果更可信。52 问题2的模型建立与求解对于问题2,要求根据酿酒葡萄的理化标准及葡萄酒的质量,对酿酒葡萄进行分级,我们考虑红白两种酿酒葡萄及葡萄酒,建立模型,采运因子分析的方法进行主成分分析。(1) 首先对所给附件二的数据进行求平均值等优化处理,以便于进行运算。为了对酿酒葡萄进行客观分级,采用主成分分析法,应用SPSS软件对数据进行因子分析,具体实施步骤如下:1、数据的标准化2、求出R及其特征值,贡献率运用SPSS软件计算出相关矩阵R及其特征值,贡献率。在主成分个数选取时,按照特征值大于1的原则,计算结果如下表:表(3):方差分解主成分提取分析表成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %16.96623.22123.2216.96623.22123.22124.94016.46739.6874.94016.46739.68733.73712.45752.1443.73712.45752.14442.8409.46761.6112.8409.46761.61151.9996.66368.2741.9996.66368.27461.7425.80874.0821.7425.80874.08271.4184.72878.8101.4184.72878.81081.2704.23483.0441.2704.23483.0449.9613.20386.24710.7382.46188.70811.6912.30291.01012.5141.71392.72313.4941.64594.36814.3721.24095.60815.296.98696.59416.254.84697.44017.218.72898.16918.200.66898.83619.112.37599.21120.070.23499.44521.062.20699.65122.043.14399.79423.032.10899.90224.016.05399.95525.010.03499.98826.003.012100.000271.135E-163.782E-16100.00028-3.056E-17-1.019E-16100.00029-1.201E-16-4.003E-16100.00030-3.414E-16-1.138E-15100.000由上表可知,有8种成分的特征值大于1,总贡献率达到83%,适宜做主成分分析,因此我们选取前8个成分作为主要成分,即:F1、F8。然后求出成分矩阵,得出主成分的线性表达式。8个主成分的成分矩阵如下表:表(4):成分矩阵成份12345678总酚.863-.171-.177.224-.018.184-.011.088花色苷.847-.106-.106-.302.097.196-.093.063DPPH自由基.756-.461-.013.215-.023.114.212.114单宁.756-.152-.280-.068-.166.246.243-.057葡萄总黄酮.719-.286-.197.284.031.297.124.057蛋白质.614-.499.181.272.193-.129.081-.126果梗比.583-.212.172-.215-.411-.405.088.040L*-.564-.330.305-.038.050-.307.076.345黄酮醇.558.022.028-.070-.173-.501.476.216出汁率.545-.181-.271.169.016.398-.144.015百粒质量-.534-.355-.472.079.269.149.222.194干物质含量.375.856-.189.094.095-.024.054.034总糖.256.785-.150.261.103-.040-.072.297还原糖.079.769-.113.128.116-.108-.050.073可溶性固形物.246.760-.316.147.121-.048-.025.266氨基酸总量.375.543.016.455-.241-.297.167-.009白藜芦醇.064-.060.818.075-.217.165.293.294果皮颜色-.332.278.738.052-.020.294.257.213果皮质量-.257-.247-.613-.112.325-.080.477.221b*-.138.488.601-.023.191.455.295.090可滴定酸-.302.458-.596-.004-.330.220.296-.138褐变度.597-.090.054-.707-.020-.057-.081.110PH值.270-.280.184.696.130-.115-.286.240苹果酸.391.321.166-.661.087.367-.114.117多酚氧化酶活力.313.087-.214-.594.235-.339-.007.165果穗质量-.343-.460-.220.067.598.044.227.093VC含量-.142-.397.094-.009-.546.132-.022.160固酸比.396-.052.431-.002.534-.104-.317.223酒石酸.381.099.367.386.312-.145.202-.516柠檬酸.305.190.400-.367.356-.072.292-.428由上面表(4)可以看出:总酚、花色苷、单宁、DPPH自由基、葡萄总黄酮、蛋白质、果梗比、黄酮醇、多酚氧化酶活力、出汁率和褐变度为第一主成分,干物质含量、总糖、还原糖、可溶性固体物、氨基酸总量和可滴定酸为第二主成分,白藜芦醇、果皮颜色、b*和柠檬酸为第三主成分,PH和酒石酸为第四种主成分,百粒质量、果穗质量、固酸比为第五主成分,苹果酸为第六主成分,果皮质量为第七主成分,VC含量、L*为第八主成分。然后计算出8个主成分用原来指标表达出的线性关系式,其中各变量前的系数为表(4)中数据除以其对应主成分的特征值开平方得到,即: (为表(4)中相应特征值,为主成分特征值)(所得系数见附录2) (为酿酒葡萄原始数据)最后计算出综合指标,用8个主成分的贡献率分别乘以F1、F2、F3F8的值得出最终的G值,其表达式如下:由问题一得到的结果可知,第二组的评价结果更可信,所以,该问题建模时使用第二组的评分作为葡萄酒质量的依据,因为酿酒葡萄的好坏与所酿葡萄酒的质量有直接关系,故两者之间有着很强的相互依赖关系。综合考虑酿酒葡萄的理化标准和葡萄酒的质量来对酿酒葡萄进行分级。分级见下表:表(5):对酿酒红葡萄的分级红葡萄F按F排名酒质量评分按酒质量排名名次之和综合排名等级葡萄样品3690.5144174.6451葡萄样品23195.7758977.12112葡萄样品21521.9043272.29113葡萄样品9186.06531278.21134葡萄样品19202.5838672.67135葡萄样品20186.96191175.83146葡萄样品22211.0541471.612167葡萄样品2175.054615746218葡萄样品17140.91481974.55249葡萄样品12210.2464568.3192410葡萄样品6282.394366.3222511葡萄样品5151.6331872.1102812葡萄样品4176.35891471.2152913葡萄样品18197.2206765.4253214葡萄样品14101.78582572.683315葡萄样品24134.76192071.5133316葡萄样品7196.6263865.3263417葡萄样品16127.74562169.9163718葡萄样品1166.76031668.1213719葡萄样品15179.09121365.7243720葡萄样品11193.71041061.6273721葡萄样品2669.992232772113822葡萄样品13116.44782268.8173923葡萄样品2791.819792671.5144024葡萄样品8160.41231766234025葡萄样品10112.17412468.8184226葡萄样品25115.92082368.2204327对本问题分析不能直接证明酿酒葡萄的好坏与葡萄中某些物质如氨基酸、蛋白质的含量多少等因素直接相关,由于酿酒葡萄的理化标准是按主成分分析得出的,其F值不能与葡萄酒质量的评分直接叠加使用进行综合排名,加之葡萄酒质量除与酿酒葡萄的好坏直接相关。我们进行了主成分分析F值的排名和根据葡萄酒的质量进行两种排名。对于综合排名分级,我们为了避免讨论两者所占的权重,采取了两种排名名次的求和重新进行排名分级,结果显得更加客观。最后,我们以10作为区间长度,将葡萄分为五个等级。(2) 同理,我们对酿酒白葡萄运用SPSS软件进行主成分分析,取特征值大于1的因子作为主成分,得出的主成分提取分析表如下:表(6):方差分解主成分提取分析表成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %15.83019.43419.4345.83019.43419.43424.92716.42235.8564.92716.42235.85633.63012.10247.9583.63012.10247.95842.0816.93554.8932.0816.93554.89351.8896.29761.1901.8896.29761.19061.6555.51666.7051.6555.51666.70571.5235.07771.7821.5235.07771.78281.2804.26676.0491.2804.26676.04991.2384.12780.1751.2384.12780.175101.0023.34083.5161.0023.34083.51611.9673.22286.73812.8632.87689.61413.6392.13191.74514.6022.00693.75115.3961.31995.07016.3451.14996.21917.3031.00997.22918.279.93098.15919.176.58598.74420.117.39199.13521.096.32099.45522.064.21399.66823.051.17199.83924.023.07799.91725.014.04799.96326.008.02699.99027.003.010100.000288.222E-172.741E-16100.00029-4.434E-18-1.478E-17100.00030-1.318E-16-4.393E-16100.000由上表可知,有10种成分的特征值大于1,总贡献率达到83%,适宜做主成分分析,因此我们选取前10个成分作为主要成分。各主成分的的成分矩阵如下:表(7):成分矩阵成份12345678910干物质含量g/100g.835-.175.105.155-.062-.091.114.222-.137-.067可溶性固形物g/l.802-.300-.028-.041-.274.297.067-.034.162-.042总糖g/L.756-.189-.097.018-.346.037.082-.035.169-.143还原糖g/L.721-.073.004.164-.273-.199.276.245-.028.073果皮颜色b*.646.152-.613.004.275-.085.044-.188-.078.107氨基酸总量.592.111.181.532.061.126-.060-.159.070.164出汁率(%)-.577.204-.231.216.210-.057.173-.301-.012-.450果穗质量/g-.576.478.278.226-.013-.167-.046-.138.057.179L*.519.366-.497-.071.357-.019-.182-.145-.208.091单宁(mmol/kg).472.372.231-.134-.211.260-.301.319-.143-.340百粒质量/g-.462.301-.142-.071-.388.282.113-.003.328.265多酚氧化酶活力-.450-.385-.076-.195-.051.305.372.135-.284-.055总酚(mmol/kg).071.763.465-.140.221.167-.163.050-.034-.150葡萄总黄酮(mmol/kg).002.763.502-.050.132.202-.187.094-.129-.044蛋白质.224.640.232-.301.004-.250.273-.054.011-.068固酸比.151-.628.583-.213.127.024-.029-.222-.117.146可滴定酸(g/l)-.020.625-.547.286-.174.059.092.212.205-.170酒石酸.342-.492.019.223.410.435-.092-.115.329-.053DPPH自由基1/IC50(g/L).435.452-.133-.126-.210.198-.326-.015-.070.278花色苷-.380-.421.129.279.187.238-.142.302-.369.308果皮颜色a*-.280-.496.576-.012-.062-.132.003.281.276-.251VC-.292.014-.553-.341.133.305-.312.139.215.006黄酮醇(mg/kg).270.288.501-.357.441.068.081.283.260.083果梗比(%)-.170-.390-.480.117.342.065-.194.312.337-.058果皮质量(g)-.261.368.371.220-.331.351.129-.264.299.177苹果酸.133.386.101.610.389.149.281-.008-.029-.147褐变度.215.149-.128-.591.324-.193.395-.023.278.157白藜芦醇(mg/kg).066.062.235.387.127-.607-.247.241.284.212柠檬酸.223-.107.289.066.301.353.455.006.000.097PH值.284-.403.355-.127.012-.082-.411-.489.148-.201与(1)采用相同的方法进行处理得出主成分数据。从而根据所得数据对酿酒白葡萄进行分级如下:表(8):对酿酒白葡萄的分级白葡萄F按F排名酒质量评分按酒质量排名名次之和综合排名等级葡萄样品5178.7581.5161葡萄样品28254.5279.6572葡萄样品10140.9879.84123葡萄样品25158.1779.56134葡萄样品15179.5478.49135葡萄样品9129.61280.42146葡萄样品27166.4677.013197葡萄样品3337.7175.620218葡萄样品24206.3376.118219葡萄样品4140.3976.9142310葡萄样品21104.51879.282611葡萄样品20137.51176.6162712葡萄样品2298.02179.472813葡萄样品1778.52580.332814葡萄样品23102.42077.4113115葡萄样品14103.71977.1123116葡萄样品26139.41074.3223217葡萄样品2125.81375.8193218葡萄样品186.02377.9103319葡萄样品6124.21475.5213520葡萄样品1886.72276.7153721葡萄样品7115.81674.2233922葡萄样品12115.91572.4254023葡萄样品1955.02776.4174424葡萄样品11105.41771.4274425葡萄样品885.62472.3265026葡萄样品1344.72873.9245227葡萄样品1666.72667.328542853 问题3的模型建立与求解画出酿酒葡萄与葡萄酒的相同指标的散点图,我们以单宁含量为例图(1):酿酒葡萄和葡萄酒的单宁含量不妨假设散点有线性关系,做一元线性回归分析,建立酿酒葡萄和葡萄酒的理化指标之间的函数关系。把酿酒葡萄的理化指标作为自变量,葡萄酒的理化指标作为因变量,建立线性回归的数学模型:运用SPSS统计功能,分别对每一组指标进行求解,求得每一组指标之间的函数关系,下面以酿酒红葡萄和红葡萄酒的单宁含量对比值为例 表(9)模型汇总b模型RR 方调整 R 方标准 估计的误差Durbin-Watson1.718a.516.4962.061501.577R方(拟合优度):是线性回归的决定系数,说明自变量和因变量形成的散点与回归曲线的接近程度,数值介于0和1之间,这个数值越大说明回归越好,也就是散点越集中于回归线上。表(10)方差分析表模型平方和df均方FSig.1回归113.0841113.08426.609.000a残差106.245254.2
收藏
编号:2725176
类型:共享资源
大小:748KB
格式:DOC
上传时间:2020-05-01
8
金币
- 关 键 词:
-
数学
建模
葡萄酒
评价
- 资源描述:
-
+-
2012高教社杯全国大学生数学建模竞赛
承 诺 书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): A
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):
参赛队员 (打印并签名) :1.
2.
3.
指导教师或指导教师组负责人 (打印并签名):
日期: 2012 年 9 月 7 日
赛区评阅编号(由赛区组委会评阅前进行编号):
2012高教社杯全国大学生数学建模竞赛
编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
+-
葡萄酒的评价
摘 要
目前,葡萄酒备受大家的青睐,其质量也日益受到人们的关注。葡萄酒的质量与酿酒葡萄的好坏有直接关系,葡萄酒和酿酒葡萄的理化指标会在一定程度上反应葡萄酒和酿酒葡萄的质量。
对于问题1,我们采用方差分析的方法建模解决。基本思路是:对两组评酒员的评价结果进行单因素方差分析,然后再用F检验对得出的结果进行进一步验证,得出两组评酒员的评价结果无显著性差异,通过比较两组评酒员评价结果的方差值,得出第二组的结果更可信。
对于问题2,我们采用主成分分析方法,建立综合评价模型,对酿酒葡萄进行分级。基本思路是运用因子分析的方法,以特征值大于1为标准,得出酿酒葡萄理化指标的8种主成分,在此基础上把综合因子作为一项排名指标,结合问题1得出的葡萄酒的质量,对酿酒葡萄进行排名,用两种排名的名次之和作为对酿酒葡萄分级的主要依据。此方法消除了主观加权的盲目性,保证了分级的客观性;避免了两个指标中因某一指标数值上远远大于另一指标而使另一指标对排名起不到作用的现象的发生。最终将酿酒葡萄分为了Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ五个等级。
对于问题3,我们对酿酒葡萄和葡萄酒的理化指标中具有可比性的同类指标一一对比,经相关性检验得到他们具有显著的线性相关性,进而用线性回归的方法得出回归方程,找到酿酒葡萄和葡萄酒的理化指标之间的联系。
对于问题4,先将酿酒葡萄和葡萄酒的量化指标进行无量纲化处理,用F检验验证两组值的相似程度为1,得出酿酒葡萄和葡萄酒的理化指标会对葡萄酒质量产生影响,所以可以用葡萄和葡萄酒的理化指标来评判葡萄酒的质量。
文章最后对论文的优缺点做了评价,并给出了一些改进方向,以利于在实际中应用和推广。
关键词:方差分析;因子分析;主成分分析法;线性回归分析;SPSS软件;F检验
1.问题的重述
确定葡萄酒质量时一般是通过聘请一批有资质的的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年分一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:
1.分析附件1中两组评酒员的评价结果又无明显差异,哪一组结果更可信?
2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3.分析酿酒葡萄与葡萄酒的理化指标之间的关系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
2.问题的分析
对问题1,我们对附件一所给的葡萄酒品尝评分表进行统计学分析,根据各组评酒员对同一种葡萄酒的评价结果算出每种酒样品的得分,并对每组的数据进行方差分析,利用F检验求出两组间的显著水平,并与0.05的显著水平比较,从而判断两组评酒员的评价结果有无显著性差异。确定哪组更可信时,分别求出两组评价结果的方差进行比较,方差越小,可信度也就越高。
对问题2,要求根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级,属于分类问题。对该问题,可以采用主成分分析法,建立综合评价模型。选取附件2中关于葡萄的一级指标作为影响等级划分的因素,采用因子分析法,确定主成分,结合问题1所得出的葡萄酒的质量对酿酒葡萄进行综合评价并分级。
对问题3,分析酿酒葡萄与葡萄酒的理化指标之间的联系,既然是分析两指标之间的联系,就少不了作比较,从比较数据成对出现这一方面考虑,应该选取酿酒葡萄与葡萄酒理化指标中的共有指标进行分析,用一元线性回归模型求出对应指标之间的函数关系,进而确定酿酒葡萄与葡萄酒的理化指标之间的联系。
对问题4,分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,参照问题2中酿酒葡萄的理化指标的处理方法,对葡萄酒的理化指标做同样分析。加权处理得出酿酒葡萄和葡萄酒的理化指标对葡萄酒质量产生影响的综合因子E,根据葡萄酒质量排名和E排名比较出产生的影响大小。
3.模型的假设
(1)假设评酒员都有很高的品评资质,给出的评价结果客观可信。
(2)假设问题1中葡萄酒的质量只与评酒员的评分有关。
(3)假设更可信的评分组给出的数据可以代表葡萄酒的真实质量。
4.符号说明
符号一 方差
符号二 自由度
符号三 标准差
符号四 统计量
符号五 假定值
符号六 F临界值
符号七 F值实际显著性概率
符号八 对应的主成分值
符号九 总主成分值
符号十 因变量
符号十一 自变量
符号十二 综合因子
5.模型的建立与求解
5.1 问题1的模型建立与求解
在评价结果采用百分制的前提下,对每一个品酒员所给出的每一种样品酒的评价结果求和,并求出每一组10名评酒员对同一种酒评价结果总分的平均值,此平均值即为本组针对该样品酒给出的评分,得到两组分别对27个红葡萄酒样品和28个白葡萄酒样品给出的评分。用Excel中的数据分析对每组的数据进行方差分析,利用F检验判断两组评酒员的评价结果有无显著性差异。
方差分析结果如下:
(1)分析两组评酒员对红葡萄酒的评价
表(1):方差分析
方差分析:单因素方差分析
SUMMARY
组
观测数
求和
平均
方差
列 1
27
1972.9
73.07037
53.51524
列 2
27
1903.9
70.51481
15.82439
方差分析
差异源
SS
df
MS
F
P-value
F crit
组间
88.16667
1
88.16667
2.543038
0.116842
4.026631
组内
1802.83
52
34.66981
总计
1890.997
53
因为统计量,所以对红葡萄酒而言,两组评酒员的评价结果没有显著性差异。
因为第二组的方差远小于第一组,所以第二组的可信度高于第一组,即第二组的结果更可信。
(2)分析两组评酒员对白葡萄酒的评价
表(2):方差分析
方差分析:单因素方差分析
SUMMARY
组
观测数
求和
平均
方差
列 1
28
2079.3
74.26071
27.05284
列 2
28
2142.9
76.53214
10.05485
方差分析
差异源
SS
df
MS
F
P-value
F crit
组间
72.23143
1
72.23143
3.89307
0.053613
4.019541
组内
1001.908
54
18.55385
总计
1074.139
55
因为统计量,所以对白葡萄酒而言,两组评酒员的评价结果没有显著性差异。
因为第二组的方差小于第一组,所以第二组的可信度高于第一组,即第二组的结果更可信。
综上所述,两组评酒员的评价结果无显著性差异,且第二组的结果更可信。
5.2 问题2的模型建立与求解
对于问题2,要求根据酿酒葡萄的理化标准及葡萄酒的质量,对酿酒葡萄进行分级,我们考虑红白两种酿酒葡萄及葡萄酒,建立模型,采运因子分析的方法进行主成分分析。
(1) 首先对所给附件二的数据进行求平均值等优化处理,以便于进行运算。为了对酿酒葡萄进行客观分级,采用主成分分析法,应用SPSS软件对数据进行因子分析,具体实施步骤如下:
1、数据的标准化
2、求出R及其特征值,贡献率
运用SPSS软件计算出相关矩阵R及其特征值,贡献率。在主成分个数选取时,按照特征值大于1的原则,计算结果如下表:
表(3):方差分解主成分提取分析表
成份
初始特征值
提取平方和载入
合计
方差的 %
累积 %
合计
方差的 %
累积 %
1
6.966
23.221
23.221
6.966
23.221
23.221
2
4.940
16.467
39.687
4.940
16.467
39.687
3
3.737
12.457
52.144
3.737
12.457
52.144
4
2.840
9.467
61.611
2.840
9.467
61.611
5
1.999
6.663
68.274
1.999
6.663
68.274
6
1.742
5.808
74.082
1.742
5.808
74.082
7
1.418
4.728
78.810
1.418
4.728
78.810
8
1.270
4.234
83.044
1.270
4.234
83.044
9
.961
3.203
86.247
10
.738
2.461
88.708
11
.691
2.302
91.010
12
.514
1.713
92.723
13
.494
1.645
94.368
14
.372
1.240
95.608
15
.296
.986
96.594
16
.254
.846
97.440
17
.218
.728
98.169
18
.200
.668
98.836
19
.112
.375
99.211
20
.070
.234
99.445
21
.062
.206
99.651
22
.043
.143
99.794
23
.032
.108
99.902
24
.016
.053
99.955
25
.010
.034
99.988
26
.003
.012
100.000
27
1.135E-16
3.782E-16
100.000
28
-3.056E-17
-1.019E-16
100.000
29
-1.201E-16
-4.003E-16
100.000
30
-3.414E-16
-1.138E-15
100.000
由上表可知,有8种成分的特征值大于1,总贡献率达到83%,适宜做主成分分析,因此我们选取前8个成分作为主要成分,即:F1、……、F8。
然后求出成分矩阵,得出主成分的线性表达式。
8个主成分的成分矩阵如下表:
表(4):成分矩阵
成份
1
2
3
4
5
6
7
8
总酚
.863
-.171
-.177
.224
-.018
.184
-.011
.088
花色苷
.847
-.106
-.106
-.302
.097
.196
-.093
.063
DPPH自由基
.756
-.461
-.013
.215
-.023
.114
.212
.114
单宁
.756
-.152
-.280
-.068
-.166
.246
.243
-.057
葡萄总黄酮
.719
-.286
-.197
.284
.031
.297
.124
.057
蛋白质
.614
-.499
.181
.272
.193
-.129
.081
-.126
果梗比
.583
-.212
.172
-.215
-.411
-.405
.088
.040
L*
-.564
-.330
.305
-.038
.050
-.307
.076
.345
黄酮醇
.558
.022
.028
-.070
-.173
-.501
.476
.216
出汁率
.545
-.181
-.271
.169
.016
.398
-.144
.015
百粒质量
-.534
-.355
-.472
.079
.269
.149
.222
.194
干物质含量
.375
.856
-.189
.094
.095
-.024
.054
.034
总糖
.256
.785
-.150
.261
.103
-.040
-.072
.297
还原糖
.079
.769
-.113
.128
.116
-.108
-.050
.073
可溶性固形物
.246
.760
-.316
.147
.121
-.048
-.025
.266
氨基酸总量
.375
.543
.016
.455
-.241
-.297
.167
-.009
白藜芦醇
.064
-.060
.818
.075
-.217
.165
.293
.294
果皮颜色
-.332
.278
.738
.052
-.020
.294
.257
.213
果皮质量
-.257
-.247
-.613
-.112
.325
-.080
.477
.221
b*
-.138
.488
.601
-.023
.191
.455
.295
.090
可滴定酸
-.302
.458
-.596
-.004
-.330
.220
.296
-.138
褐变度
.597
-.090
.054
-.707
-.020
-.057
-.081
.110
PH值
.270
-.280
.184
.696
.130
-.115
-.286
.240
苹果酸
.391
.321
.166
-.661
.087
.367
-.114
.117
多酚氧化酶活力
.313
.087
-.214
-.594
.235
-.339
-.007
.165
果穗质量
-.343
-.460
-.220
.067
.598
.044
.227
.093
VC含量
-.142
-.397
.094
-.009
-.546
.132
-.022
.160
固酸比
.396
-.052
.431
-.002
.534
-.104
-.317
.223
酒石酸
.381
.099
.367
.386
.312
-.145
.202
-.516
柠檬酸
.305
.190
.400
-.367
.356
-.072
.292
-.428
由上面表(4)可以看出:总酚、花色苷、单宁、DPPH自由基、葡萄总黄酮、蛋白质、果梗比、黄酮醇、多酚氧化酶活力、出汁率和褐变度为第一主成分,干物质含量、总糖、还原糖、可溶性固体物、氨基酸总量和可滴定酸为第二主成分,白藜芦醇、果皮颜色、b*和柠檬酸为第三主成分,PH和酒石酸为第四种主成分,百粒质量、果穗质量、固酸比为第五主成分,苹果酸为第六主成分,果皮质量为第七主成分,VC含量、L*为第八主成分。
然后计算出8个主成分用原来指标表达出的线性关系式,其中各变量前的系数为表(4)中数据除以其对应主成分的特征值开平方得到,即:
(为表(4)中相应特征值,为主成分特征值)(所得系数见附录2)
(为酿酒葡萄原始数据)
最后计算出综合指标,用8个主成分的贡献率分别乘以F1、F2、F3……F8的值得出最终的G值,其表达式如下:
由问题一得到的结果可知,第二组的评价结果更可信,所以,该问题建模时使用第二组的评分作为葡萄酒质量的依据,因为酿酒葡萄的好坏与所酿葡萄酒的质量有直接关系,故两者之间有着很强的相互依赖关系。
综合考虑酿酒葡萄的理化标准和葡萄酒的质量来对酿酒葡萄进行分级。分级见下表:
表(5):对酿酒红葡萄的分级
红葡萄
F
按F排名
酒质量评分
按酒质量排名
名次之和
综合排名
等级
葡萄样品3
690.5144
1
74.6
4
5
1
Ⅰ
葡萄样品23
195.7758
9
77.1
2
11
2
Ⅱ
葡萄样品21
521.9043
2
72.2
9
11
3
Ⅱ
葡萄样品9
186.0653
12
78.2
1
13
4
Ⅱ
葡萄样品19
202.5838
6
72.6
7
13
5
Ⅱ
葡萄样品20
186.9619
11
75.8
3
14
6
Ⅱ
葡萄样品22
211.0541
4
71.6
12
16
7
Ⅱ
葡萄样品2
175.0546
15
74
6
21
8
Ⅲ
葡萄样品17
140.9148
19
74.5
5
24
9
Ⅲ
葡萄样品12
210.2464
5
68.3
19
24
10
Ⅲ
葡萄样品6
282.394
3
66.3
22
25
11
Ⅲ
葡萄样品5
151.633
18
72.1
10
28
12
Ⅲ
葡萄样品4
176.3589
14
71.2
15
29
13
Ⅲ
葡萄样品18
197.2206
7
65.4
25
32
14
Ⅳ
葡萄样品14
101.7858
25
72.6
8
33
15
Ⅳ
葡萄样品24
134.7619
20
71.5
13
33
16
Ⅳ
葡萄样品7
196.6263
8
65.3
26
34
17
Ⅳ
葡萄样品16
127.7456
21
69.9
16
37
18
Ⅳ
葡萄样品1
166.7603
16
68.1
21
37
19
Ⅳ
葡萄样品15
179.0912
13
65.7
24
37
20
Ⅳ
葡萄样品11
193.7104
10
61.6
27
37
21
Ⅳ
葡萄样品26
69.99223
27
72
11
38
22
Ⅳ
葡萄样品13
116.4478
22
68.8
17
39
23
Ⅳ
葡萄样品27
91.81979
26
71.5
14
40
24
Ⅴ
葡萄样品8
160.4123
17
66
23
40
25
Ⅴ
葡萄样品10
112.1741
24
68.8
18
42
26
Ⅴ
葡萄样品25
115.9208
23
68.2
20
43
27
Ⅴ
对本问题分析不能直接证明酿酒葡萄的好坏与葡萄中某些物质如氨基酸、蛋白质的含量多少等因素直接相关,由于酿酒葡萄的理化标准是按主成分分析得出的,其F值不能与葡萄酒质量的评分直接叠加使用进行综合排名,加之葡萄酒质量除与酿酒葡萄的好坏直接相关。我们进行了主成分分析F值的排名和根据葡萄酒的质量进行两种排名。对于综合排名分级,我们为了避免讨论两者所占的权重,采取了两种排名名次的求和重新进行排名分级,结果显得更加客观。最后,我们以10作为区间长度,将葡萄分为五个等级。
(2) 同理,我们对酿酒白葡萄运用SPSS软件进行主成分分析,取特征值大于1的因子作为主成分,得出的主成分提取分析表如下:
表(6):方差分解主成分提取分析表
成份
初始特征值
提取平方和载入
合计
方差的 %
累积 %
合计
方差的 %
累积 %
1
5.830
19.434
19.434
5.830
19.434
19.434
2
4.927
16.422
35.856
4.927
16.422
35.856
3
3.630
12.102
47.958
3.630
12.102
47.958
4
2.081
6.935
54.893
2.081
6.935
54.893
5
1.889
6.297
61.190
1.889
6.297
61.190
6
1.655
5.516
66.705
1.655
5.516
66.705
7
1.523
5.077
71.782
1.523
5.077
71.782
8
1.280
4.266
76.049
1.280
4.266
76.049
9
1.238
4.127
80.175
1.238
4.127
80.175
10
1.002
3.340
83.516
1.002
3.340
83.516
11
.967
3.222
86.738
12
.863
2.876
89.614
13
.639
2.131
91.745
14
.602
2.006
93.751
15
.396
1.319
95.070
16
.345
1.149
96.219
17
.303
1.009
97.229
18
.279
.930
98.159
19
.176
.585
98.744
20
.117
.391
99.135
21
.096
.320
99.455
22
.064
.213
99.668
23
.051
.171
99.839
24
.023
.077
99.917
25
.014
.047
99.963
26
.008
.026
99.990
27
.003
.010
100.000
28
8.222E-17
2.741E-16
100.000
29
-4.434E-18
-1.478E-17
100.000
30
-1.318E-16
-4.393E-16
100.000
由上表可知,有10种成分的特征值大于1,总贡献率达到83%,适宜做主成分分析,因此我们选取前10个成分作为主要成分。
各主成分的的成分矩阵如下:
表(7):成分矩阵
成份
1
2
3
4
5
6
7
8
9
10
干物质含量g/100g
.835
-.175
.105
.155
-.062
-.091
.114
.222
-.137
-.067
可溶性固形物g/l
.802
-.300
-.028
-.041
-.274
.297
.067
-.034
.162
-.042
总糖g/L
.756
-.189
-.097
.018
-.346
.037
.082
-.035
.169
-.143
还原糖g/L
.721
-.073
.004
.164
-.273
-.199
.276
.245
-.028
.073
果皮颜色b*
.646
.152
-.613
.004
.275
-.085
.044
-.188
-.078
.107
氨基酸总量
.592
.111
.181
.532
.061
.126
-.060
-.159
.070
.164
出汁率(%)
-.577
.204
-.231
.216
.210
-.057
.173
-.301
-.012
-.450
果穗质量/g
-.576
.478
.278
.226
-.013
-.167
-.046
-.138
.057
.179
L*
.519
.366
-.497
-.071
.357
-.019
-.182
-.145
-.208
.091
单宁(mmol/kg)
.472
.372
.231
-.134
-.211
.260
-.301
.319
-.143
-.340
百粒质量/g
-.462
.301
-.142
-.071
-.388
.282
.113
-.003
.328
.265
多酚氧化酶活力
-.450
-.385
-.076
-.195
-.051
.305
.372
.135
-.284
-.055
总酚(mmol/kg)
.071
.763
.465
-.140
.221
.167
-.163
.050
-.034
-.150
葡萄总黄酮(mmol/kg)
.002
.763
.502
-.050
.132
.202
-.187
.094
-.129
-.044
蛋白质
.224
.640
.232
-.301
.004
-.250
.273
-.054
.011
-.068
固酸比
.151
-.628
.583
-.213
.127
.024
-.029
-.222
-.117
.146
可滴定酸(g/l)
-.020
.625
-.547
.286
-.174
.059
.092
.212
.205
-.170
酒石酸
.342
-.492
.019
.223
.410
.435
-.092
-.115
.329
-.053
DPPH自由基1/IC50(g/L)
.435
.452
-.133
-.126
-.210
.198
-.326
-.015
-.070
.278
花色苷
-.380
-.421
.129
.279
.187
.238
-.142
.302
-.369
.308
果皮颜色a*
-.280
-.496
.576
-.012
-.062
-.132
.003
.281
.276
-.251
VC
-.292
.014
-.553
-.341
.133
.305
-.312
.139
.215
.006
黄酮醇(mg/kg)
.270
.288
.501
-.357
.441
.068
.081
.283
.260
.083
果梗比(%)
-.170
-.390
-.480
.117
.342
.065
-.194
.312
.337
-.058
果皮质量(g)
-.261
.368
.371
.220
-.331
.351
.129
-.264
.299
.177
苹果酸
.133
.386
.101
.610
.389
.149
.281
-.008
-.029
-.147
褐变度
.215
.149
-.128
-.591
.324
-.193
.395
-.023
.278
.157
白藜芦醇(mg/kg)
.066
.062
.235
.387
.127
-.607
-.247
.241
.284
.212
柠檬酸
.223
-.107
.289
.066
.301
.353
.455
.006
.000
.097
PH值
.284
-.403
.355
-.127
.012
-.082
-.411
-.489
.148
-.201
与(1)采用相同的方法进行处理得出主成分数据。从而根据所得数据对酿酒白葡萄进行分级如下:
表(8):对酿酒白葡萄的分级
白葡萄
F
按F排名
酒质量评分
按酒质量排名
名次之和
综合排名
等级
葡萄样品5
178.7
5
81.5
1
6
1
Ⅰ
葡萄样品28
254.5
2
79.6
5
7
2
Ⅰ
葡萄样品10
140.9
8
79.8
4
12
3
Ⅱ
葡萄样品25
158.1
7
79.5
6
13
4
Ⅱ
葡萄样品15
179.5
4
78.4
9
13
5
Ⅱ
葡萄样品9
129.6
12
80.4
2
14
6
Ⅱ
葡萄样品27
166.4
6
77.0
13
19
7
Ⅱ
葡萄样品3
337.7
1
75.6
20
21
8
Ⅲ
葡萄样品24
206.3
3
76.1
18
21
9
Ⅲ
葡萄样品4
140.3
9
76.9
14
23
10
Ⅲ
葡萄样品21
104.5
18
79.2
8
26
11
Ⅲ
葡萄样品20
137.5
11
76.6
16
27
12
Ⅲ
葡萄样品22
98.0
21
79.4
7
28
13
Ⅲ
葡萄样品17
78.5
25
80.3
3
28
14
Ⅲ
葡萄样品23
102.4
20
77.4
11
31
15
Ⅳ
葡萄样品14
103.7
19
77.1
12
31
16
Ⅳ
葡萄样品26
139.4
10
74.3
22
32
17
Ⅳ
葡萄样品2
125.8
13
75.8
19
32
18
Ⅳ
葡萄样品1
86.0
23
77.9
10
33
19
Ⅳ
葡萄样品6
124.2
14
75.5
21
35
20
Ⅳ
葡萄样品18
86.7
22
76.7
15
37
21
Ⅳ
葡萄样品7
115.8
16
74.2
23
39
22
Ⅳ
葡萄样品12
115.9
15
72.4
25
40
23
Ⅴ
葡萄样品19
55.0
27
76.4
17
44
24
Ⅴ
葡萄样品11
105.4
17
71.4
27
44
25
Ⅴ
葡萄样品8
85.6
24
72.3
26
50
26
Ⅴ
葡萄样品13
44.7
28
73.9
24
52
27
Ⅴ
葡萄样品16
66.7
26
67.3
28
54
28
Ⅴ
5.3 问题3的模型建立与求解
画出酿酒葡萄与葡萄酒的相同指标的散点图,我们以单宁含量为例
图(1):酿酒葡萄和葡萄酒的单宁含量
不妨假设散点有线性关系,做一元线性回归分析,建立酿酒葡萄和葡萄酒的理化指标之间的函数关系。把酿酒葡萄的理化指标作为自变量,葡萄酒的理化指标作为因变量,建立线性回归的数学模型:
运用SPSS统计功能,分别对每一组指标进行求解,求得每一组指标之间的函数关系,下面以酿酒红葡萄和红葡萄酒的单宁含量对比值为例
表(9)模型汇总b
模型
R
R 方
调整 R 方
标准 估计的误差
Durbin-Watson
1
.718a
.516
.496
2.06150
1.577
R方(拟合优度):是线性回归的决定系数,说明自变量和因变量形成的散点与回归曲线的接近程度,数值介于0和1之间,这个数值越大说明回归越好,也就是散点越集中于回归线上。
表(10)方差分析表
模型
平方和
df
均方
F
Sig.
1
回归
113.084
1
113.084
26.609
.000a
残差
106.245
25
4.2
展开阅读全文
淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。