《国赛一等奖优秀论文材料.doc》由会员分享,可在线阅读,更多相关《国赛一等奖优秀论文材料.doc(24页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-#葡萄酒质量的综合评价分析模型中国海洋大学 罗聃 徐兴成 谭萍 指导教师 高翔 【摘要】近年来,我国掀起了一场葡萄酒热,对葡萄酒的需求与日俱增,特别是随着食品科学技术的发展,人们不再满足传统感官评价葡萄酒的水平,如何运用数据资料定量研究葡萄酒的品质,加快建立葡萄酒市场指标规则成为人们关注的焦点。本文主要研究了葡萄酒的品质与葡萄酒自身以及酿酒葡萄的理化指标的关系,给出了基于葡萄酒自身的理化指标以及酿酒葡萄的理化指标与芳香物质的定量综合评价模型。首先基于两组评酒员对同一批葡萄酒的评价分数数据,采用假设检验中的t检验法建立评估两组数据差异的模型,得到了两组评酒员的评分存在显著差异的结论,并通过对两
2、组数据进行方差分析,以判别结果具有的稳定性作为标准,得到第二组比较可靠。接下来我们结合酿酒葡萄的理化指标和可信组评酒员的打分所刻画的葡萄酒的质量对酿酒葡萄进行分级,用聚类分析的方法将红,白葡萄酒和酿酒葡萄各分成了5类,然后对分好的葡萄类所酿造的葡萄酒进行统计,得到各类葡萄所对应的级别。更进一步,我们分析了酿酒葡萄和葡萄酒的理化指标之间的联系,运用主成分分析的方法,从酿酒葡萄的30个指标中提取出了12个主要成分,进而通过逐步回归的方法建立起酿酒葡萄和葡萄酒的理化指标联系的模型。最后我们将提取葡萄及葡萄酒的理化指标与芳香物质中的主成分,利用逐步回归的方法考察理化指标与芳香物质对葡萄酒质量的影响程度
3、,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒的质量有30%以上的影响比重(白葡萄的芳香物质对白葡萄酒的质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。关键词: 假设检验 聚类分析 主成分分析 逐步回归一、问题重述1.1问题背景葡萄酒是由新鲜葡萄或葡萄汁经过酒精发酵而得到的一种含酒精饮料。葡萄酒质量是其外观、香气、口感、整体的综合表现。一方面,酒中的糖、酸、矿物质和酚类化合物,都具有各自独特的风味,它们组成了葡萄酒的酒体;另一方面,酒中大量的挥发性物质,包括醇、脂、醛、碳氢化合物等,都具有不同浓度、不同愉悦程度的香气,葡萄酒最终的质量则是葡萄酒中各种成分
4、协调平衡的结果。1.2问题提出随着葡萄酒产业逐渐升温,为了获得质量更好的葡萄酒,对酿酒葡萄及葡萄酒的研究也越加深入。现在流行的做法是通过聘请一批有资质的评酒员进行品评,但是这种感官评价的主观性总是带给我们模糊的印象。正如我们所知的,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。如何充分利用这些理化指标定量研究葡萄酒的质量成了炙手可热的研究问题。二、问题分析题目为我们提供了感官评价指标,葡萄和葡萄酒的各种理化指标和芳香物质的信息。本文的关键就是通过分析处理已给的数据,建立数学模型来研究葡萄酒质量的确立。为此,我们要依次达到题目给
5、出的以下几个目标:2.1 两组评价结果差异性和可信性研究问题一给出了两组评酒员对同一批葡萄酒的评价分数,本文采用假设检验中的t检验法建立评估两组数据差异的模型,研究两组评价员的评价结果是否存在差异,判断是否能接受它们有显著性差异的假设。若判断的结果是这两组数据存在差异,我们就进入第二步,可靠性研究。我们分别对两组数据求方差,方差小的那组说明波动比较小,评酒员的评定比较稳定,数据比较可靠。2.2酿酒葡萄的分级 首先,我们我们利用第一题的结果,用置信区间法对可信组的原始数据进行处理,降低评酒员之间的差异,提高酒样品之间的差异【1】;利用处理后的数据(总分)对葡萄酒进行分级;然后,用初步处理后的酿酒
6、葡萄的理化指标对葡萄进行聚类分析,将葡萄分成了若干类;分析每类葡萄对应的葡萄酒大都属于哪一级别,从而得出葡萄的级别;最后,分析每一级葡萄理化指标的特点,建立起葡萄指标识别葡萄级别的模型帮助果农更好地利用好葡萄酿好酒。2.3酿酒葡萄与葡萄酒理化指标的联系 问题三要求研究葡萄与葡萄酒理化指标之间的联系,我们先对于葡萄的30个理化指标进行主成分分析法,得到葡萄一些具有代表性的理化指标。然后我们建立葡萄的理化指标与葡萄酒的7个理化指标之间的多元线性回归方程,得到了酿酒葡萄与葡萄酒理化指标之间的定量联系。2.4 理化指标对葡萄酒质量的影响及论证问题四要求研究酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的影响,
7、以及是否能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。我们将提取葡萄及葡萄酒的理化指标与芳香物质中的主成分,利用逐步回归的方法考察理化指标与芳香物质对葡萄酒质量的影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒的质量有30%以上的影响比重(白葡萄的芳香物质对白葡萄酒的质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。三、问题假设1、同种葡萄酒在一组评酒员下的得分成正态分布。2、一种葡萄对应酿制一种葡萄酒。3、葡萄的成分充分转换成葡萄酒里的成分,不存在意外的浪费和挥发。4、假设葡萄和葡萄酒芳香物质中没有检测到的成分不存在于该样本中,数据处理前将其
8、置为零。四、符号说明这里只列出主要模型的全局参数,其他局部参数见文中。第i个红葡萄酒样品第i个白葡萄酒样品第一组评酒员全体第一组评酒员全体酿酒红葡萄样本酿酒白葡萄样本五、建模的建立与求解5.1模型一:基于t检验建立差异评估模型我们采用假设性检验验证是否能接受两组评酒员评价结果无差异的假设。然后用方差分析两组评酒员组内数据的波动,认为较平稳的一组数据比较可靠。5.1.1数据预处理我们在整理数据的时候发现几个比较显著的异常数据:1)第一组红酒数据样品20色调品酒员4号 数据缺失;2)第一组白酒数据样品3持久性品酒员7号 数据明显有问题,怀疑是多敲了一个7;3)第一组白酒数据样品8口感分析浓度品酒员
9、2号 数据明显异常。因为随机样本在均值附近振荡,所以我们选用均值来代替异常数据以求误差最小。5.1.2基于成对数据的t检验【2】1)模型的建立:将两组评酒员分别看作两个整体、,对每个红葡萄酒样品(白葡萄酒样品)进行感官评价,对每个红葡萄酒样品的评价结果通过组内每一位品酒员的评分的均值来刻画,同样对每个红葡萄酒样品的评价结果用均值来刻画,从而得到两组评酒员对每种样品酒的评价结果,建立两组评酒员对红葡萄酒的评价结果见表1。表1 红葡萄酒的评价结果表中的数据是成对的,即对同一酒样品得到一对数据。可知一对与另一对数据之间差异是由各种因素,如葡萄酒的外观、香气、口感、材料成分等因素引起的。由于各酒样品的
10、特性有广泛的差异,就不能将第一组评酒员对种红葡萄酒的评价结果看成是同分布随机变量的观测值。因而表中第一行不能看成是一个样本的样本值,同样第二组的数据也不能看成是同一个样本的样本值,而同一对中两个数据是同分布随机变量的观测值,他们的差异是由于两组品酒员的水平引起的。为鉴定他们的评价结果有无显著性差异,可使用基于成对数据的逐对比较法。以红葡萄样品为例,有27对相互独立的评价结果:,令,则相互独立。由于是由同一因素所引起的,可认为它们服从同一分布。现假设,。就是说构成正态总体的一个样本,其中未知。基于这一样本检验假设: (1)分别记的样本均值和样本方差的观测值为,。对进行单个均值的t检验,检验问题的
11、拒绝域为(显著水平为):. (2)当的值不落在拒绝域内,接受,认为两组品酒员的评价结果没有显著差异,否则两组品酒员的评价结果有显著性差异。对白葡萄酒的处理同红葡萄。2)模型的求解: 现以红葡萄酒为例求解,首先,作出同一酒样品分别由两组品酒员、得到的评价结果之差,列于表1的第三行。根据建立的模型需检验假设.我们取=0.02,则,通过查表即知拒绝域为由观测值得,.现的值落在拒绝域内,故接受;同样对白葡萄酒进行成对数据的t检验,得白葡萄酒观测值之差的均值,故认为两组品酒员的评价结果有显著性差异。5.1.3可信度定量分析1)模型的建立:记第一组10位品酒员对红葡萄酒样品的评分为, , (3)其中,表示
12、第一组品酒员对红葡萄酒样品的评分均值,表示的评分方差;同样,第二组对红葡萄酒样品的评分均值和方差分别为, (4)从而对每一组品酒员得到一个评分方差向量同理可求得白葡萄酒的,。再对和中的元素分别求和得到方差和,用方差和对比得到对于同一批红葡萄两组不同的评价水平。方差和小的稳定性好,相对来说比另一组的评价结果是更可信的。2)模型的求解:运用excel软件进行求解,容易得到,具体附录一对红葡萄酒而言:元素的和为1409.3,元素的和为821.1。对白葡萄而言:元素的和为3183.1,元素的和为1388.5。不管是红葡萄酒还是白葡萄酒,第一组的方差和总是远远大于第一组。为了更直观的看到这个结果,下图即
13、为两组评酒员对两种葡萄酒的方差图像,可以直观的看到第二组的波动程度比第一组的小,第二组更可信。图1 两组品酒员对红、白葡萄酒的评分方差图5.2模型二:基于聚类分析建立酿酒葡萄分级模型我们根据可信组评酒员给每种酒样品的打分来确定葡萄酒的质量;再用聚类分析对酿酒葡萄进行分类,对每类的葡萄酿造的葡萄酒进行统计,对应地得到这类葡萄所对应的级别。5.2.1葡萄酒的分级1)置信区间法 置信区间法【2】能有效的降低评酒员之间的差异,提高酒样品之间的差异【1】,虽然我们在第一问中分辨出第二组评酒员评判出的数据更可靠,但是我们不能排除第一组评酒员的专业性,为了最可靠的样本,我们应该综合两组评价的分数。所以本文先
14、采用置信区间法分别处理第一,二组数据,处理之后对同种葡萄酒的分数做一个平均。以红葡萄酒为例用置信区间处理第一组数据,计算评酒员对酒样品评价的置信区间为其中为酒样的平均值;, 为酒样的标准差。如果评酒员对酒样的评价在其置信区间范围内就可以直接使用; 如果其评价不在置信区间范围内, 则做如下变换:若 ,则若变换之后的仍不在置信区间范围内,再重复上面的变换,这样逐步调整,直至不同评酒员对同一酒样的评价值都处于范围内。对第二组数据做同样处理,再对同种酒样两组数据做平均。同样方法得到红白葡萄置信区间法处理后的数据见附录2。2)葡萄酒分级现在国际上对葡萄酒的分类流行用罗伯特帕克的分类方法【3】,即:96-
15、100分 顶级葡萄酒90-95 分 具有高级品味特征和口感的葡萄酒80-89 分 品质优良,口感纯正70-79分 一般,略有瑕疵60-69分 低于一般50-59分次品,可以认为是一款不合格的葡萄酒 通过分析所有葡萄酒样品的最高分和最低分,我们发现处于运用罗伯特分级标准分级的此次过于宽泛,所以我们借鉴罗伯特的分级标准制定本文的对葡萄酒的分级标准,以更好的体现酒样之间的差异。葡萄酒样品的分级标准:8085分:高级葡萄酒7580分:中上级葡萄酒7075分:中级葡萄酒6570分:中下级葡萄酒6065分:下级葡萄酒 以下是根据1)的数据求得的葡萄酒总分的平均分 表2:红葡萄酒的评价结果(从高分到低分)根
16、据分级标准很容易看出:高级红葡萄酒:无中上级红葡萄酒:9、23、20中级红葡萄酒:3、17、2、26、14、19、5、21、4、24、27、22中下级红葡萄酒:16、10、13、1、12、25、6、15、7、8下级红葡萄酒:18、11表3:白葡萄酒的评价结果(从高分到低分)白葡萄酒样品的分级:高级白葡萄酒:9、5、25中上级白葡萄酒:21、10、28、22、17、15、23、1、4、19、14、27、26、18、24、6、20、2、3中级白葡萄酒:7、13、8、12、11中下级白葡萄酒:16下级白葡萄酒:无5.2.2对酿酒葡萄的Q型聚类分【4】聚类分析方法是基于数值分类法的思想建立起来的,又称
17、为系统聚类法。这里只基于酿酒葡萄样本进行聚类,成为Q型聚类,其步骤为:步骤一:数据标准化以酿酒红葡萄和红葡萄酒为例,由于酿酒葡萄的各理化指标使用了不同的量纲及数据的大小差距很大,对理化指标数据矩阵的处理采用标准化,处理方式为 (5) 其中,是矩阵每一列的均值和标准差。步骤二:样本的相似性度量在对酿酒红葡萄的理化指标进行聚类分析时,首先要确定理化指标样本的相似性度量,本文采用相关系数来衡量两个指标样本的相似性。记样本的取值,则两个样本的相关系数 (6)相似性度量中越接近1,与越相关;越接近0,与的相关性越弱。步骤三:样本的距离定义在对酿酒葡萄的聚类分析中,定义两类理化指标样本的距离(类平均法)为
18、 (7)它等于中两两样本点距离的平均,式中分别为中的样本点个数。其中或。步骤四:Q型聚类分析求解模型使用MATLAB软件中的linkage函数(本文所有程序均用matlab 7.11软件处理),对数据进行处理(matlab程序见附录4),样本间相似性度量采用相关系数,类间距离的度量计算采用类平均法,对两种酿酒葡萄进行Q型聚类分析,画出聚类图,对酿酒葡萄划分类别。1)红、白葡萄的聚类分析图如下:图2红、白葡萄的聚类图2)聚类结果分析红葡萄划分成6类的结果如下:属于第1类的样本有:葡萄样品2、9 、23属于第2类的样本有:葡萄样品1、8、14属于第3类的样本有:葡萄样品3、21属于第4类的样本有:
19、葡萄样品4、5、6、7、12、13、15、16、17、18、19、20、22、24、25、26、27属于第5类的样本有:葡萄样品10属于第6类的样本有:葡萄样品11白葡萄划分成6类的结果如下:属于第1类的样本有:葡萄样品2、8、11、16、19、25属于第2类的样本有:葡萄样品4、5、9、10、12、14、17、20、21、22、23、24、2 6、28属于第3类的样本有:葡萄样品6、7、15、18属于第4类的样本有:葡萄样品1、13属于第5类的样本有:葡萄样品3属于第6类的样本有:葡萄样品27对于每类葡萄中的元素(单个葡萄样本),结合其酿造出的葡萄酒的品质,既该葡萄样本所酿造的葡萄酒的级别,
20、来确定该葡萄的级别。然后再根据每类葡萄中葡萄样本级别的比例来确定该类葡萄的级别。对应葡萄酒的分级,我们也将葡萄分成高级,中上,中级,中下,下级根据以上聚类分析的结果再综合葡萄酒的分级(葡萄酒的质量)我们得出如下结论:表4:红、白葡萄分级结果红葡萄分级结果白葡萄分级结果高级红葡萄: 2、9、23中上级红葡萄: 3、21中级红葡萄: 4、5、6、7、12、13、15、16、17、18、19、20、22、24、25、26、27中下级红葡萄: 1、8、14下级红葡萄: 10、11高级白葡萄: 4、5、9、10、12、14、17、20、21、22、23、24、2 6、28中上级白葡萄: 6、7、15、1
21、8中级白葡萄: 1、13中下级白葡萄: 2、8、11、16、19、25下级白葡萄: 3、275.3模型三:基于主成分分析和逐步回归建立葡萄与葡萄酒理化指标联系模型为了更好的反应酿酒葡萄理化指标的实质,本文采用主成分分析法对30个指标进行处理,提取出葡萄理化指标的主成分;考虑到大多数葡萄到葡萄酒的化学反应时线性的,我们通过多元线性回归建立起葡萄和葡萄酒理化指标之间的联系。5.3.1关于酿酒葡萄理化指标的主成分分析本文运用主成分分析法对酿酒葡萄的理化指标进行主成分分析,将多个理化指标合为几个具有代表性的主成分,从而实现对高维变量空间进行降维处理。主成分分析法的步骤如下:1)对原始数据进行标准化处理
22、由于各指标的量纲与大小不同,首先须对初始指标的数值标准化,同一比较的尺度,方法如式(5);2)主成分的求解将27个酿酒红葡萄样本的30个指标数据标准化处理后构成一个标准化数据矩阵,求的协方差阵的特征值及相应的特征向量,将27征向量正交化得方阵,作变换,将27征值按大小顺序进行排列,相应的27个新变量。越大的新变量对模型的贡献率越大。新变量分别称为第一主成分,第二主成分,前面几个主成分构成了样本空间的最大变化特征: (8)前面几个主成分对应的特征值的和占总和的比例 (9)即为主成分的累计贡献率,当时,可选用前个主成分代替原来酿酒葡萄样本中的30个理化指标。5.3.2关于葡萄酒理化指标的多元线性回
23、归 通过对酿酒葡萄的理化指标进行主成分分析,将多个理化指标合为几个具有代表性的主成分,现将酿酒葡萄的主成分作为新的指标(现仍记为)对葡萄酒的每一项理化指标进行多元回归。多元线性回归的模型为 (10)式中为酿酒葡萄的主成分即为新的指标,为葡萄酒的理化指标,为测量误差向量,为回归系数。设,是的次测量值即确定为酿酒葡萄新的指标后葡萄的新指标值,则多元线性模型可表示为,为葡萄酒的第项理化指标。为书写方便,采用矩阵形式表达,令, 则多元线性模型可表示为求回归系数的估计值,就是求最小二乘函数达到最小的值。为此,令可以求得的最小二乘估计从而得到多元线性回归方程5.3.3模型的求解1)酿酒葡萄理化指标的主成分
24、分析结果利用MATLAB软件中的pcacov函数对酿酒葡萄(以红葡萄为例)的三十个理化指标进行主成分分析(matlab程序见附录5),的前几个特征根及其贡献率如表5。表5:酿酒红葡萄理化指标的主成分分析结果 可以看出,前8个特征根的累计贡献率就达到了80%以上,主成分分析效果很好。下面选取前12个主成分(累计贡献率就达到了92.72%)对酿酒葡萄的三十种理化指标进行替代,前12个特征值对应的特征向量见附录,由此可得12个主成分分别为从主成分的系数可以看出,第一主成分主要反映了前几个理化指标(氨基酸、蛋白质、花色苷、褐变度和总酚等方面)的信息,第二主成分主要反映了白藜芦醇、黄酮醇、总糖和可滴定酸
25、的信息,第三主成分主要反映了单宁、果皮质量和果皮颜色的信息,第十二个主成分主要反映了黄酮醇和果梗比的信息。把各酿酒葡萄样本的原始三十个理化指标的标准化数据代入十二个主成分的表达式,就可以得到各葡萄样本的十二个主成分值。2)葡萄酒理化指标的多元线性回归结果利用各葡萄样本的十二个主成分值,对葡萄酒的每一项理化指标进行多元线性回归,红葡萄酒各理化指标的回归结果为式中为酿酒红葡萄的前十二个主成分,为红葡萄酒的各理化指标。从红葡萄的回归方程及主成分中,可知:酿酒红葡萄的第一、四主成分与红葡萄酒的理化指标存在较强的正相关关系,即红葡萄中的蛋白质、花色苷、褐变度、单宁和总酚及白藜芦醇、黄酮醇、总糖和可滴定酸
26、等与红葡萄酒的理化指标存在较强的正相关性,果梗比、果皮质量与红葡萄酒的理化指标存在负相关。白葡萄酒的各理化指标的回归结果为式中为酿酒白葡萄的前十三个主成分,为白葡萄酒的各理化指标。从白葡萄的回归方程及主成分中,可知:酿酒白葡萄中的蛋白质、单宁和总酚及白藜芦醇、总糖和可滴定酸等与白葡萄酒的理化指标存在正相关关系,花色苷、褐变度、果梗比、果皮质量等与白葡萄酒的理化指标存在负相关关系。5.4模型四:基于逐步回归分析法研究理化指标对葡萄酒质量的影响5.4.1 逐步回归分析模型的建立逐步回归法是一种变量筛选方法。逐步回归法采取边进边退的方法,对于模型外部的变量,只要它还可提供显著的解释信息,就可以再次进
27、入模型;而对于已在内部的变量,只要它的偏F检验【6】不能通过,则还可能从模型中被删除。1)偏检验在决定一个新的变量是否有必要进入模型,或者判断某个变量是否可以从模型中删除时,考虑这个变量能否对提供显著的附加解释信息?现采用偏F检验。设有个自变量,采用这个自变量拟合的模型称为全模型,即从这个变量中删除自变量,这时用个自变量拟合模型称为减模型,即全模型的复判定系数为,减模型的复判定系数记为。定义由于在全模型中多一个自变量,所以,若几乎为零,说明增加,对的解释能力没有显著提高;否则,若显著不为零,则就可以为回归模型提供显著的解释信息。给出统计假设统计检验量为式中,是减模型的残差平方和,为全模型的残差
28、平方和。根据检验水平查分布表,得到拒绝域的临界值 ,则决策准则如下:(i)当时,拒绝,说明显著不为零,这说明在变量已进入模型后,引入会显著提高对的解释能力;(i)当时,接受,说明显著为零,这说明在全模型中删除,对的解释能力无显著的减弱变化。2)逐步回归分析模型的起始首先要求与每一个的一元线性回归方程,选择值最大的变量进入模型。然后,对剩下的个模型外的变量进行偏检验(设定已在模型中),在若干通过偏F检验的变量中,选择值最大者进入模型。再对模型外的个自变量做偏检验。在通过偏检验的变量中选择值最大者进入模型。接着对模型中的三个自变量分别进行偏检验,如果三个自变量都通过了偏检验,则接着选择第四个变量。
29、但如果有某一个变量没有通过偏检验,则将其从模型中删除。重复上述步骤,直到所有模型外的变量都不能通过偏检验,则算法终止。为了避免变量的进出循环,一般取偏检验拒绝域的临界值为式中,为选入变量时的临界值;为删除变量时的临界值。3)理化指标对葡萄酒质量的影响将酿酒葡萄和葡萄酒的理化指标合并为一个数据表(见附件),将得到的数据进行标准化处理,处理方法如式(5),基于模型三的酿酒葡萄理化指标的主成分分析法对合并的数据进行主成分分析,得到酿酒葡萄和葡萄酒的理化指标的个主成分,对其两者的理化指标降维,且增强指标的独立性,把各酿酒葡萄与葡萄酒合并的样本的原始三十九个理化指标的标准化数据代入个主成分的表达式,就可
30、以得到各葡萄样本的个主成分值。将评酒员的评分作为葡萄酒质量的定量刻画,利用合成样本的主成分对葡萄酒质量进行逐步回归分析,得到酿酒葡萄和葡萄酒理化指标对葡萄质量的综合定量描述,改变其中的某一项或几项解释变量,可以观察到该项或几项解释变量对葡萄质量的影响。5.4.2 逐步回归分析模型的求解对酿酒葡萄与葡萄酒合并的样本进行主成分分析,以酿酒红葡萄、红葡萄酒为例主成分分析的结果如下:表6:酿酒红葡萄、红葡萄酒理化指标的主成分分析结果 可以看出,前8个特征根的累计贡献率就达到了80%以上,主成分分析效果很好。下面选取前19个主成分(累计贡献率就达到了98.63%),由此可得19个主成分分别为现将前19个
31、主成分代替原来的理化指标,然后对葡萄酒的质量进行逐步回归。运用MATLAB中的Stepwise Regression窗口(matlab程序见附录6)进行交互式逐步回归,如图4。图3 逐步回归交互式界面复判定系数为,检验值,得到最终模型为此回归方程即为酿酒红葡萄和红葡萄酒的理化指标对红葡萄酒质量的影响方程,表示酿酒红葡萄、红葡萄酒理化指标的第个主成分。通过逐步回归分析后,影响红葡萄酒质量的红葡萄和红葡萄酒理化指标的主成分只剩下。结合红葡萄及红葡萄酒理化指标的主成分,糖转化为酒精,酸影响葡萄酒中的PH值,单宁、色素等酚类物质溶解在葡萄酒中,红葡萄酒的颜色、气味、口感等与酚类、糖类和酸类等物质密切相
32、关,而葡萄酒的质量目前主要依据评酒员的感官评价,葡萄酒的好坏与其外观、香气和口感密切联系,葡萄与葡萄酒的理化指标就在一定程度上影响了葡萄酒的质量,具体定量关系如上式回归方程。5.4.3 关于葡萄和葡萄酒的理化指标对葡萄酒质量影响的论证由于评酒员的感官评价中考虑了外观、香气和口感等综合因素,因此葡萄酒的感官质量是由葡萄酒的外观、香气、口感和整体因素等决定的,受评酒员个人的偏好的影响。若反映到葡萄及葡萄酒的化学组成,外观是受葡萄及葡萄酒的色泽等影响的,香气是由葡萄及葡萄酒的芳香物质影响的,而口感是由葡萄及葡萄酒的某些理化指标影响的。因此,理化指标在一定程度上反应了葡萄酒的质量,由于香气对葡萄酒质量
33、的影响,可能芳香物质在一定程度上影响了葡萄酒的质量。现在我们就采用主成分分析与逐步回归的方法对葡萄及葡萄酒的理化指标与芳香物质进行定量研究,考察理化指标与芳香物质对葡萄酒质量的影响程度。 分析步骤如下:(1)葡萄和葡萄酒理化指标的综合主成分分析基于模型四中酿酒葡萄和葡萄酒的理化指标的主成分分析法,得到了葡萄和葡萄酒的两种理化指标合并在一起的综合主成分,记为。(2)葡萄和葡萄酒芳香物质的综合主成分分析同对理化指标的处理方法,先将酿酒葡萄和葡萄酒的芳香物质合并成一个数据矩阵,先对其中的每一个元素进行标准化处理,然后进行主成分分析,得到芳香物质的主成分。(3)两种综合主成分的逐步回归将葡萄和葡萄酒的
34、理化指标及芳香物质的综合主成分看作同等地位的变量对葡萄酒的质量会产生一定的影响,现对其三者之间进行逐步回归分析(用matlab的Stepwise Regression 窗口实现),得到理化指标与芳香物质的回归方程: (15)(4)理化指标与芳香物质对葡萄酒质量的影响比重理化指标对葡萄酒质量影响比重计算为 (16) 芳香物质对葡萄酒质量影响比重计算为 (17)式中表示葡萄及葡萄酒理化指标的综合主成分在回归方程中的系数,表示葡萄及葡萄酒芳香物质的综合主成分在回归方程中的系数,为理化指标对葡萄酒质量影响比重,为芳香物质对葡萄酒质量影响比重。由式(15)的系数及式(15)、式(16),可以计算得理化指
35、标对红葡萄酒质量影响比重,芳香物质对红葡萄酒质量影响比重;同样可以计算得理化指标对白葡萄酒质量影响比重,芳香物质对白葡萄酒质量影响比重,说明红、白葡萄和红、白葡萄酒的芳香物质对葡萄酒的质量有30%以上的影响比重,白葡萄的芳香物质对白葡萄酒的质量影响相对更大。根据实际情况,红葡萄酒的颜色、气味、口感等与酚类等理化指标密切相关,而白葡萄酒的质量,主要由源于葡萄品种的一类香气和源于酒精发酵的二类香气以及酚类物质的含量所决定。故而它们的理化指标对葡萄酒的质量有较大程度的影响,但并不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。5.5 结果分析1)两组评价结果差异性和可信性研究结果基于两组评酒员对
36、同一批葡萄酒的评价分数数据,采用假设检验中的t检验法建立评估两组数据差异的模型,得到了两组评酒员的评分存在显著差异的结论,并通过对两组数据进行方差分析,以判别结果具有的稳定性作为标准,第一组评酒员的评酒水平波动较大,第二组较为稳定,故得到第二组比较可信。2)酿酒葡萄的分级结果我们利用第一题的结论,用置信区间法对可信组的原始数据进行处理,降低评酒员之间的差异,提高酒样品之间的差异,利用处理后的数据对葡萄酒进行分级;然后,根据酿酒葡萄的理化指标对葡萄进行聚类分析,将葡萄分成了若干类;分析每类葡萄对应的葡萄酒大都属于哪一级别,从而得出葡萄的级别,葡萄的分级结果见表4。为了更直观看清葡萄的分级结果,作
37、如下直方图: 图4 红葡萄和白葡萄的级别数量直方图观察以上两幅直方图我们能很直观的看出不同级的红葡萄数量分布和正态分布很相近,中级的葡萄占了总数的大部分,高级和低级的红葡萄占了小部分,符合自然的生物规律;而不同级的白葡萄分布的一个突出特点就是高级葡萄特别多,我们查了网上的资料,绝大部分的白葡萄都是从意大利,法国等国外引进【5】,应该经过人工的精心挑选,所以分布呈现出特殊的形态。3)酿酒葡萄与葡萄酒理化指标的联系研究葡萄和葡萄酒的理化指标之间的联系,我们运用了主成分分析的方法,从酿酒葡萄的30个指标中提取出了12个主要成分,进而通过逐步回归的方法建立起酿酒葡萄和葡萄酒理化指标的定量联系。可以得到
38、酿酒红葡萄的蛋白质、花色苷、褐变度、单宁和总酚及白藜芦醇、黄酮醇、总糖和可滴定酸等与红葡萄酒的理化指标存在较强的正相关性,果梗比、果皮质量与红葡萄酒的理化指标存在负相关;酿酒白葡萄中的单宁和总酚、白藜芦醇等与白葡萄酒的理化指标存在正相关关系,花色苷、褐变度、果梗比、果皮质量等与白葡萄酒的理化指标存在负相关关系。4)理化指标对葡萄酒质量的影响及其论证结果研究葡萄与葡萄酒的理化指标对葡萄酒质量的影响,考虑了葡萄和葡萄酒芳香物质对葡萄酒的影响,得知红、白葡萄和红、白葡萄酒的芳香物质对葡萄酒的质量有30%以上的影响比重,且白葡萄的芳香物质对白葡萄酒的质量影响相对更大,也就是说它们的理化指标对葡萄酒的质
39、量有较大程度的影响,但并不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量,葡萄酒的质量还受到芳香物质、外观及加工工艺等其他因素的影响。六、模型的检验 6.1回归模型的假设检验 葡萄酒的理化理化指标与酿酒葡萄的主成分之间是否存在如模型(10)所示的线性关系是需要检验的。1)回归方程的显著性检验如果所有都很小,与的线性关系就不大,所以可以令原假设为至少有一个不为零当成立时由统计知识可知 和是根据前面模型的建立得到统计值:,;在显著性水平下有上分位数,若,接受;否则,拒接。利用MATLAB软件进行回归模型的假设检验,我们取=0.05,则=2.53我们得到向量的7个值:14.8100 10.531
40、9 9.0860 7.9587 6.6878 7.2357 6.6663。2)回归系数的显著性检验检验假设对给定的显著水平计算统计量的数值。若,则拒绝,即认为显著不为零;若,则接受,即认为等于零。该模型的系数均通过了回归系数的t检验。3)复相关系数检验复相关系数的定义:当离差平方和越小,则复相关系数越大。该指标反映了一组自变量解释因变量的程度,。越接近1,表示因变量与各自变量之间线性相关程度越强。该回归模型的复相关系数为0.7201 0.6331 0.7530 0.9307 0.6878 0.8521 0.8663,线性相关性较好。所以我们能接受用回归模型来线性刻画酿酒葡萄和葡萄酒理化指标之间
41、的联系。七、模型的评价与优化7.1模型优缺点分析优点:该模型深入研究了酿酒葡萄及葡萄酒的理化指标,清晰明了的刻画了两种指标对葡萄酒质量的影响,创新性地通过数据评价了葡萄酒的品质,结合现在比较成熟的感官评价规则,更加客观全面地评价了葡萄酒。缺点:我们不能排除酿酒葡萄的理化指标与葡萄酒的理化指标之间,以及酿酒葡萄和葡萄酒的理化指标与葡萄酒质量之间存在非线性的关系,但不管是多元线性回归还是逐步回归,都无法完全刻画指标与质量之间的关系。7.2模型联系函数的改进分析 刻画联系的函数可由线性改为非线性(如正态函数),对于每个模型用更加合理的联系函数去衡量(因为每个联系的关系和影响程度是不同的),得到更加精
42、确的模型。八、参考文献【1】李华等. 葡萄酒感官评价结果的统计分析方法研究. 中国食品学报. 第6卷,第2期,2006年4月.【2】盛骤,谢氏千等,概率论与数理统计. 高等教育出版社,2008年6月,第181页.【3】张哲,罗伯特帕克是如何评分的,http:/ B.Moler 著,喻文健 译. MATLAB数值计算,机械工业出版社,2006年6月. 第243页九、附录附录1:对红葡萄酒而言:对白葡萄而言附录2:红葡萄酒使用置信区间前评分:6871805253767173706775767671687483737371826980786375727774767579737260777373607
43、06668777576737272746865677561586670676767686568654770577472677170785162697359685981838576698083777573677382626366667265726461676250666451676467687558637367726971746468657067707669657171786467767480737262607354597171706869716578706473667568697273757475777976766867658055626462746065726582616481768074718075806670847983717080727572627763707378777975626869737169737977808367798071817466697273736872767670686884626066697366666867836473747778637371647271697182737369使用置信区间后68.0000 71.0000 71.4000 60.6000 61.6000 76.0000 71.0000 73.0000 70.0000 67.0000;75.0000 76.0000 76.0000 71.0000 71.8000
限制150内