2012国赛A题优秀论文材料.doc
-葡萄酒的评价模型摘 要本文主要解决葡萄酒的评价问题,运用多种数理统计方法通过MATLAB和SPSS软件对可能影响葡萄酒质量的因素进行统计分析,初步得出对葡萄酒的理化指标评价和主观评价具有差异性。对于问题一中的显著性差异分析,针对两组评酒员对于每一种酒的评分,本文用MATLAB进行t检验(),结果显示两组评酒员对红葡萄酒和白葡萄酒的评分都具有显著性差异。对于可信度的问题,我们用EXCEL进行方差与置信区间的综合分析,得出对红、白葡萄酒的评价结果第二组可信度均较高。问题二,首先用相关性分析计算出各个理化指标之间以及各理化指标与葡萄酒质量间的Pearson相关系数,然后选取和葡萄酒质量相关程度较大()的理化指标进行聚类分析,依照指标的不同情况可将其分别分为3、4、5类,得出在每种分类情况下的分类方案。最后,我们计算每种分类方案下各类酿酒葡萄质量得分的平均值,分值越高则级别越高,确定了最终的分级方案。问题三,我们先对酿酒葡萄的理化指标进行主成分分析,利用降维技术找出能代表酿酒葡萄的主要理化指标,然后再将得出的主要理化指标与葡萄酒的理化指标进行相关性分析,根据相关系数确定二者理化指标间的关系。结果表明,葡萄酒的理化指标除了由相对应的酿酒葡萄的理化指标决定外,还可由其它相关性大的理化指标决定。最后,对问题四建立多元线性回归分析模型,对第一问中计算出了红、白葡萄酒和葡萄的样本相关系数进行比较,发现用葡萄的理化指标衡量葡萄酒的质量是不全面的,芳香物质可能会影响酒的香气从而影响酒的整体质量。因此在第二小问中,先根据葡萄酒中芳香物质的化学成分将其分类(醛、烃、醇、酯、酸、酮以及其他含氧有机物),再利用多元线性回归模型计算出其样本相关系数,说明芳香物质通过酒的香气来影响酒的品质,从而说明了理化指标分析和主观评分在葡萄酒质量分析中的差异性。关键词:t检验 相关性分析 聚类分析 主成分分析 多元线性回归一、 问题重述葡萄酒是世界公认的对人体有益的健康酒精饮品,其生产方式方便, 经济, 且风味极佳. 因而越来越受到广大市民的青睐,同时葡萄酒的质量以及等级划分也越来越受到人们的关注。葡萄酒化学成分复杂,葡萄酒的质量是各种化学成分的综合反映。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。葡萄酒的质量与酿酒葡萄的好坏直接相关。葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,它们是对酿酒葡萄与葡萄酒进行分级的重要依据。现已知某一年份一些葡萄酒的评价结果,以及该年份这些葡萄酒的和酿酒葡萄的成分数据。本文将建立数学模型讨论以下问题:问题一:根据附件所给两组评酒员对葡萄酒各项指标的不同评分数据,分析两组评价结果有无显著性差异,如果差异显著,确定哪一组结果可信度更高。问题二:根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。问题三:酿酒葡萄的理化指标与葡萄酒的理化指标密切相关,分析二者间的联系。问题四:分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。二、 模型的基本假设1、 两组评酒员对葡萄酒的评分服从正态分布,且针对每个葡萄酒样品,两组评酒员评分正态总体的方差相等。2、 附录所给酿酒葡萄与葡萄酒理化指标的数据均准确,没有错误。3、 附录中的理化指标为酿酒葡萄与葡萄酒的所有理化指标。4、 葡萄和葡萄酒的理化指标,.与葡萄酒的质量Y为线性相关。5、 红酒的质量仅由评酒师的主观评分决定,与其他因素无关。三、 符号说明显著性水平;置信度;两组葡萄酒所得总分的样本方差; 酿酒葡萄的第j种理化指标与葡萄酒质量间的相关系数;第i种与第j种酿酒葡萄的样本距离;原指标的个数;原指标的观测值(k=1,2,3,m);标准化后的数(k=1,2,3,m);的标准差(k=1,2,3,m)。四、 模型建立及求解4.1 问题一4.1.1 问题分析对于两组评价结果的显著性差异问题,因为每个评酒员对葡萄酒的质量的评价是由其对该葡萄酒各项指标所评总分决定的,为将问题简化,我们首先计算出各评酒员给出的每一个葡萄酒样品各项指标的总分并进行比较,并由此判定两组评价结果的差异性及可信程度。易知两组评酒员对葡萄酒样品的评分都服从正态分布且是相互独立的,由于均是对相同的葡萄酒进行评价,我们认为两正态总体的方差相等,问题转化为对两个独立正态总体下样本均值的比较,本文采用t检验法检验具有相同方差的两正态分布均值差的假设。 要确定哪一组的评价结果更可信,我们将复杂问题简单化,考虑通过比较两组分数样本的方差,方差大小反应数据的集中程度,方差越小,样本数据分布越集中越稳定,各数据更接近均值,代表结果的可信度更高。同时,可分别算出两组平均分的置信区间,比较各组落在区间内分数的个数,从而对分析结果进行检验。4.1.2 模型建立(一)显著性差异分析1 为零假设,为备择假设,显著性水平为。 检验统计量为:其中 (二)可信度比较 因为各组均有10为评酒员进行评分,故n=10。定义变量R:4.1.3 模型求解(一)t检验结果:首先,根据所给数据算出每位评酒员对各红葡萄酒样品的总评分,见表4-1(详见附件1):表4-1:各红葡萄酒样品所得各项指标总分12345678910平均值1第一组5166495477617261746262.7第二组6871805253767173706768.12第一组7181867491808379857380.3第二组75767671687483737371743第一组8085897669897383847680.4第二组8269807863757277747674.64第一组5264656658827663837768.6第二组7579737260777373607071.25第一组7474726284636884817173.3第二组5759686667646463655963.2.26第一组7380716178717276797773.8第二组686783647374777863737227第一组7164727169718273736973第二组7077636480767367857571.5由此得出两个正态总体的样本,比如,对红葡萄酒样品1,两组样本分别为:第一组:51 66 49 54 77 61 72 61 74 62第二组:68 71 80 52 53 76 71 73 70 67下面用MATLAB的统计工具箱在水平上进行两个样本的t检验(程序见附录一)。用的值反映结果的差异性,其中,表示不能拒绝零假设,即两组评价结果无显著差异;,表示评价结果有显著差异。所得结果见下表:表4-2: 对红葡萄酒评价的显著性差异分析结果酒样品显著性水平均值差的95%置信区间100.2128-14.1832 , 3.383221300.0504-0.0121 ,11.6121400.5096-10.7187, 5.518751600.0526-0.0740 ,11.8740700.1458-2.3673 ,14.7673800.0726-0.6401 ,13.2401900.1899-1.7892 ,8.3892 1000.948-14.2677,13.39491111211311400.8712-4.7098 , 5.50981500.065-14.4844, 0.48441611700.1411.7493 , 11.34931800.0951-12.0594 ,1.05941912000.287-2.5609 , 8.16092100.2243-3.2804 ,13.08042200.0556-0.1493 ,11.34932312412500.7648-5.9157 , 7.91572600.5133-3.8703 , 7.47032700.5785-4.0695 , 7.0695对于样品1,表示两组评价结果没有显著差异;显著性水平=0.2128,表示在100次试验中,约有21次t统计量大于或等于均值差;均值差的95%置信区间为-14.1832 , 3.3832。由表可知,对于编号2、5、11、12、13、16、19、23、24这9个红葡萄酒样品,也就是说,在27个红葡萄酒样品中,两组评酒员对其中9个样品的评价结果都有显著差异,所以对红葡萄酒两组评酒员的评价结果有显著性差异。同理,对于白葡萄酒,首先根据所给数据算出个评酒员对每个葡萄酒样品的总评分,见表4-3(详见附件1):表4-3:各白葡萄酒样品所得各项指标总分12345678910平均值1第一组8580886176938380957982第二组8478827579848169757277.92第一组7847865479918568738174.2第二组7976778577798059767075.83第一组8567897578758679907980.3第二组8574718779798045837375.64第一组7577806577838878858679.4第二组8478748369828466777276.95第一组8447776079627474797471第二组8379798077878273849181.5.27第一组5840796759556674737764.8第二组727984797683776379787728第一组6675896988878576889081.3第二组7582818178847971768979.6用MATLAB的统计工具箱在水平上进行两个样本的t检验,结果见下表:表4-4:对白葡萄酒评价的显著性差异分析结果酒样品显著性水平均值差的95%置信区间100.2483-3.1200 ,11.3200200.7527-12.1074 , 8.9074300.3004-4.5602 ,13.9602400.4073-3.6901 , 8.6901500.0151-18.7103 ,-2.2897600.0714-17.6122 , 0.8122700.2624-2.6920 , 9.2920800.8482-10.6353 , 8.8353900.11-16.8729 , 1.87291000.3149-16.6780 , 5.67801100.8631-9.9140 ,11.71401200.0888-19.7265 , 1.52651311400.1744-12.6779 , 2.47791500.1807-15.0521 , 3.05211711800.4158-12.6797 , 5.47971900.1361-9.8547 , 1.45472000.7269-5.9073 , 8.30732100.5724-13.0302 , 7.43022300.5314 -6.4385 , 3.43852400.4785-10.9278 , 5.32782500.5299-10.2715 , 5.47152600.1123-15.8089 , 1.80892712800.1076-1.4675 , 13.6675由表可知,对于编号13、17、27这3个红葡萄酒样品,也就是说,在28个白葡萄酒样品中,其中有3个样品的评价结果存在显著差异,所以对白葡萄酒两组评酒员的评价结果有显著性差异。综合红葡萄酒与白葡萄酒的检验结果可知,两组评酒员对葡萄酒质量的评价结果存在显著性差异,其中对红葡萄酒的评价结果差异更明显。(二)可信度比较:运用EXCEL对每一个葡萄酒样品的两组得分进行计算,求得其得分的样本方差与平均分置信区间(见附件1),作出两组数据方差对比图,如下:(1)红葡萄酒:图4-1:红葡萄酒两组得分样本方差对比图由上图可知,第一组评价结果的方差普遍较第二组大,比如对样品17,第一组分数的方差达到了88.01,说明各评酒员对17号酒样品的打分差异很大,分数较分散;而第二组评分结果的方差仅为9.16,第二组评酒员对该样品的评价较为一致,所给分数分布更集中。通过统计,对于红葡萄酒有即对27个葡萄酒样品中有20个样品的得分方差第一组大于第二组,同时经比较,第二组评酒员所打分数落在平均分置信区间的个数更多,这表明对于红葡萄酒的评分第二组的结果更可信。(2)白葡萄酒:图4-2:白葡萄酒两组得分样本方差对比图由图可知,第一组评分的方差与第二组相比,仍明显偏大,统计得到,对白葡萄酒即对28个白葡萄酒样品中有22个样品的得分方差第一组大于第二组。同样,第二组评酒员所打分数落在平均分置信区间的个数更多,这表明对于白葡萄酒的评分第二组的结果仍比一组可信。 综上所述,两组评酒员对两种葡萄酒质量的评价结果都存在显著性差异,且对红葡萄酒的评价结果差异更明显。其中第二组评酒员对两组葡萄酒的评分更集中更稳定,其评价结果较第一组也更可信。4.2 问题二4.2.1 问题分析葡萄酒的质量与酿酒葡萄各理化指标存在着严格的依存关系,要对酿酒葡萄进行分级,首先就要确定两者间的关系,根据各理化指标对葡萄酒质量的影响以及不同酿酒葡萄成分的差异对葡萄划分等级。根据第一问的结论,葡萄酒的质量由可信度更高的第二组评酒员所给的分数确定。而理化指标与葡萄酒质量间是呈线性相关的,可以采用统计学中的相关性分析,将二者的关系通过它们之间的相关系数反映出来。 对酿酒葡萄进行分级的问题,也就是根据相似程度对样品进行分类,统计学中常采用的是聚类分析的方法,它将定性和定量的分析结合起来,通过选取元素的许多共同指标,然后分析元素的指标值来分辨元素间的差距,从而达到分类的目的。对酿酒葡萄分类后,可以根据每一类葡萄所得质量分数的平均值对其进行等级的划分。这里针对酿酒葡萄的理化指标,可以只选取与葡萄酒质量的相关系数较大的一部分,以简化模型。聚类分析方法直观,结论简明,可以很好地解决酿酒葡萄分级的问题。4.2.2 模型建立名词说明:相关系数:在直线相关条件下,说明两个变量之间相关程度以及相关方向的统计分析指标;样品距离:将每个样品看成是m个变量对应的m维空间中的一个点,然后在该空间中所定义的,距离越近,则亲密程度越高。(一) 相关性分析2:采用相关性分析确定葡萄酒的质量与酿酒葡萄各理化指标的线性关系,本文最常用的Pearson相关系数,它适用于线性相关的情形,其计算公式为: 根据r所具有的符号来表示变量相关的方向,“+”号表示正相关,即01。“”表示负相关,即-10;两个变量之间的相关程度用相关系数的绝对值表示,其绝对值越接近1,表明两个变量的相关程度越高;其绝对值越接近于0,表明两个变量相关程度越低;如果其绝对值等于零1,则表示两个变量完全直线相关;如果其绝对值为零,则表示两个变量完全不相关(不是直线相关)。表4-5:相关系数范围对应关系表相关系数的值两元素相关程度完全不相关微弱相关低度相关显著相关高度相关完全相关由此可确定各项理化指标与葡萄酒质量的关联程度,选出相关系数绝对值大者,并据此进行酿酒葡萄的分类。(二) 聚类分析3 对酿酒葡萄进行分级,就是根据各样品中理化指标的相似程度对样品划分等级,下面我们采用的是聚类分析的方法对酿酒葡萄样品进行分类。聚类分析的思想是:设集合G中有n个样本X1,X2,Xn ,首先每个样本独自成为一类,计算类内样本间的距离,将距离最近的两个类聚为一类。然后再计算新类间的距离,并将最近的两个类聚为一类。以此循环,直到所有的类聚为一类。其中,计算第i种与第j种酿酒葡萄样本距离的公式为:其中,分别表示第i种与第j种酿酒葡萄的第t个理化指标含量。 常用的聚类方法有最短距离法、最长距离法、重心法等多种方法,我们选用组间平均联结法联结类,它将两个类的所有成对案例(各来自一个类)间的平均距离作为类间距离并要求该距离最小。它能利用两个类中所有成对指标的信息,使数据得到充分利用。针对本题,各种酿酒葡萄即为各类,用聚类分析对所给酿酒葡萄进行分类的步骤为:(1) 对附件所给的成分数据进行预处理,对经过多次测试的项目数据取平均值。(2) 计算各理化指标与葡萄酒质量的Pearson相关系数,选出的理化指标。(3) 将酿酒葡萄样品进行分类,计算距离,将样品视为p维空间的一点,通过计算不太样品的距离,距离接近的点归为一类,距离远的点归为不同类,并由此得到距离矩阵D。(4) 将每个酿酒葡萄样本独自成类Gi= Xi(i=1,2,n)。(5) 由距离矩阵D,找到当前最小的Dij,并将类Gi,Gj合为一类得到一个新类Gr=Gi,Gj。(6) 重新计算类间的距离,得到新的矩阵D。重复第(5)步直到全部合为一类。对所有酿酒葡萄根据其各项理化指标分好类之后,再根据附件所给评分数据,计算出每一类葡萄质量得分的评价值,根据分数高低进行等级划分。4.2.3 模型求解(一)相关性结果首先,根据第一问的结果,我们选择第二组评酒员对各葡萄酒样的评分平均值代表葡萄酒的质量分数(附录二),将各样品质量得分按从高到低排列,见表4-6(部分):表4-6:葡萄酒样品所得质量分数红葡萄酒白葡萄酒样品编号质量得分样品编号质量得分168.1182274274.2374.6380.3471.2479.4563.2571666.3668.4765.3777.5866871.4978.2972.91068.81074.3运用spss软件进行指标含量与葡萄酒质量得分的相关性分析,本文均采用酿酒葡萄的二级指标,保证数据利用率最大,计算出各项指标与葡萄酒质量的Pearson相关系数(见附件2),从中选出以及接近0.2的理化指标,代表与葡萄酒质量相关性较大的指标,结果见下表:对红葡萄酒,表4-7:红葡萄理化指标与葡萄酒质量相关系数()指标苏氨酸谷氨酸甘氨酸精氨酸蛋白质VC含量花色苷顺式白藜芦醇苷杨梅黄酮槲皮素异鼠李素-0.1950.1660.2030.2210.1910.2100.2100.8150.401-0.222-0.202指标总糖葡萄糖可溶性固形物百粒质量果梗比出汁率果皮质量L* a*(+红;-绿)H-0.1980.242-0.197-0.163-0.256-0.313-0.3360.3920.9920.935*结果分析:上表结果确定了21 个与红葡萄酒质量显著相关的理化指标,比如果皮颜色a*指标,由于果皮颜色对红葡萄酒色泽、澄清度影响较大,这直接影响着葡萄酒的外观得分,所以这项指标与红葡萄酒质量的相关系数达到了0.992,表明果皮颜色对红葡萄酒质量影响很大;而对于果梗比,它与红葡萄酒的相关系数为-0.256,代表果梗比的含量与葡萄酒质量呈负相关关系。这21 个指标在较大程度上影响了质量得分。对白葡萄酒,表4-8:白葡萄理化指标与葡萄酒质量相关系数()指标酒石酸柠檬酸多酚氧化酶活力DPPH自由基葡萄总黄酮杨梅黄酮总糖可溶性固形物-0.2350.2900.3070.294-0.226-0.2160.4070.429指标可滴定酸固酸比干物质含量果穗质量果皮质量L*C0.342-0.2620.358-0.456-0.2060.3470.395由表可知,对于白葡萄酒,共有15个与白葡萄酒质量显著相关的理化指标。(三) 分级结果:根据上述相关性分析结果,选出的相关系数较大的指标,将它们在各葡萄酒样品中的含量以及相应葡萄酒质量得分导入spss软件,首先得到样品距离柱状图(见附录二)与平均联结树状图,从而对酿酒葡萄进行分类。(1)红葡萄分级结果:运用组间平均联结法联结类的结果如下图:图4-3:红葡萄平均联结聚类树状图树状图由许多倒置的U形线连接系统聚类树中的对象绘成,每一个U的水平长度代表着两个相连对象之间的距离。由此得到酿酒葡萄样品的距离矩阵D,并对其进行分类。参照葡萄酒分类的国际等级模式4,本文分别将酿酒葡萄根据其对应的葡萄酒质量分别分为三类、四类、五类,再分别计算各类葡萄质量得分的平均值,对其进行分级,相应等级为A级、B级、C级,级别越高代表酿酒葡萄质量越好,所得结果见下表:表4-9:红葡萄分级结果三类四类五类等级红葡萄酒样品等级红葡萄酒样品等级红葡萄酒样品A级20A级20A级20B级2,3,4,5,6,9,10,11,12,13,14,15,16,17,18,19,2021,22,23,24,25,26,27B级2,3,4,5,6,9,10,12,13,14,16,17,18, 23,24,25,26,27B级4,5,9,10,13,16,17,23,24,25,26,27C级1,7,8C级11,15,19,21,22C级2,3,6,12,14,18D级1,7,8D级11,15,19,21,22E级1,7,8由表可知,当将红葡萄分为三类时,样品20为A级,代表其级别最高,质量最好;样品1,7,8为C级,级别最低,这些酿酒葡萄质量最差;其余样品介于二者之间。同理,将红葡萄分为四类、五类的结果与此相似。(2)白葡萄分级结果:组间平均联结法联结类的结果如下图:图4-4:白葡萄平均联结聚类树状图白葡萄分级结果见表4-10:表4-10:白葡萄分级结果三类四类五类等级白葡萄酒样品等级白葡萄酒样品等级白葡萄酒样品A级5,15,26,28A级28A级28B级3B级5,15,26B级15C级1,2,4,6,7,8,9,10,11,12,13,14,15,1617,18,19,20,21,22,23,24,25,27C级3C级5,26D级1,2,4,6,7,8,9,10,11,12,13,14,15,1617,18,19,20,21,22,23,24,25,27D级3E级1,2,4,6,7,8,9,10,11,12,13,14,15,1617,18,19,20,21,22,23,24,25,27由表可知,当将白葡萄分为三类时,样品5,15,26,28为A级,级别最高,质量最好;样品3为B级,质量次之;其余样品被列为C级,代表质量最差。同理,将白葡萄分为四类、五类的结果与此相似。4.3问题三4.3.1问题分析 酿酒葡萄和葡萄酒的理化指标是经过专业仪器和技术测试出来的。酿酒葡萄的理化指标的大小由葡萄本身决定,葡萄酒是经过酿酒葡萄加工而成,其理化指标与酿酒葡萄有密切关系。要求分析酿酒葡萄和葡萄酒的理化指标之间的联系,本文首先根据附录所给酿酒葡萄理化指标的数据对其进行主成分分析,选出主要理化指标。主成分分析能对对理化指标进行降维处理便于后期问题的处理。选出酿酒葡萄的主要理化指标后,将其与葡萄酒的理化指标进行相关性分析,根据相关系数的大小确定影响每一个葡萄酒理化指标的主要酿酒葡萄的理化指标,使酿酒葡萄与葡萄酒的理化指标之间的关系变得清晰。4.3.2:模型的建立与求解(一)主成分分析:主成分分析法:主成分分析是将多项指标重新组合成一组新的互相无关的几个综合指标,根据实际需要从中选取尽可能少的综合指标,以达到尽可能多的反映原指标信息的分析方法。主成分分析的一般步骤:(1)由观测数据计算的平均数及(k=1,2,3,m).(2) 由相关系数矩阵R得到特征值(j=1,2,m)及各个主成分的方差贡献、贡献率,并根据累计贡献率确定主成分保留的个数。(3)写出m个基本方程组:其中j=1,2, ,m利用施密特正交方法,对每一个求它的对应基本方程组的解,,,然后令,从而得到用所表示的主成分,或将代入后得到用所表示的主成分。(4)将的观测值代入主成分的表达式中计算各个主成分的值。(5)计算原指标与主成分的相关系数,解释主成分的意义。下面对模型进行求解:首先,我们对酿酒葡萄的理化指标在spss软件中用主成分分析法进行处理。附录二中提供的数据既有一级指标,又有二级指标,二级指标经过主成分分析后会划分在同一大类中,因此,我们直接采用一级指标进行主成分分析,避免了对数据的重复处理。对于进行多次测试的理化指标,我们取其平均值作为此理化指标的值。(1)对红葡萄的理化指标进行主成分分析,得到八个主成分,累计贡献率为82.92%,可以反映很多原理化指标信息,说明主成分分析的结果是准确可靠的。由主成分矩阵(见附录三)可知八个主成分与各理化指标的线性关系。如果主成分中理化指标的系数的绝对值大于0.5,我们认为此理化指标对主成分的影响较大。将系数的绝对值大于0.5的理化指标统计出来,即得出各个主成分包含的主要理化指标如下:表4-11:红葡萄中各个主成分包含的主要理化指标主成分12345678主要理化指标花色苷总酚单宁DPPH自由基葡萄总黄酮总糖还原糖白藜芦醇a*b*PH 值褐变度固酸比果穗质量由此可见,进行主成分分析后,红葡萄的30个理化指标降为14个。(2)对白葡萄的理化指标进行主成分分析,得到十个主成分,累计贡献率为83.22%,可以反映很多原理化指标信息,说明主成分分析的结果是准确可靠的。同理我们得出各个主成分包含的主要理化指标见下表: 表4-12:白葡萄中各个主成分包含的主要理化指标主成分12345678910主要理化指标总糖;还原糖总酚葡萄总黄酮单宁DPPH自由基b*氨基酸苹果酸果皮质量百粒质量a*白藜芦醇同理,经过主成分分析后,白葡萄的30个理化指标降为了13个。(二)相关性分析:在数据分析的过程中,常常需要分析两个或两个以上变量之间的相关关系,在这里我们同样采用第二问的相关性分析方法,它不需要区分自变量和因变量,两个或者多个变量之间是平等的关系,通过相关分析可以了解变量之间的关系密切程度。要进一步分析酿酒葡萄理化指标与葡萄酒理化指标的关系,我们采用相关性分析的方法,在spss软件中求出主成分分析后酿酒葡萄理化指标与葡萄酒理化指标的相关系数,(相关系数矩阵见附件3)。根据两变量之间相关系数的大小,我们很容易找出他们之间的相关关系。根据表4-5,相关系数大于0.8时,两参数高度相关。在相关系数矩阵中,我们选出高度相关的两变量,然后确定了与葡萄酒理化指标高度相关的酿酒葡萄的理化指标。结果如下:(1) 表4-13:红葡萄酒与酿酒葡萄的高度相关理化指标红葡萄酒花色苷单宁总酚酒总黄酮白藜芦醇DPPH自由基L*a*b*酿酒葡萄花色苷总酚单宁总酚DPPH自由基葡萄总黄酮总酚葡萄总黄酮白藜芦醇总酚葡萄总黄酮DPPH自由基L*花色苷a*b*分析上表可知,红葡萄酒中与红葡萄酒理化指标高度相关的理化指标,除了本身外,还有其他理化指标。且总酚,葡萄总黄酮与很多葡萄酒的理化指标都有密切关系,不可忽视。(2) 表4-14:白葡萄酒与酿酒葡萄的高度相关理化指标白葡萄酒单宁总酚酒总黄酮白藜芦醇DPPH半抑制体积L*a*b*酿酒葡萄单宁总酚总酚葡萄总黄酮总酚白藜芦醇DPPH自由基总酚L*a*b*分析上表可知,白葡萄酒中与白葡萄酒理化指标高度相关的理化指标,除了本身外,还有其他理化指标。且总酚,与很多葡萄酒的理化指标都有密切关系,不可忽视。比较红白葡萄酒的理化指标,发现葡萄中总酚与葡萄总黄酮是重要的理化指标,决定着很多葡萄酒的理化指标,影响着葡萄酒的质量。4.4问题四:4.4.1问题分析葡萄酒质量是其外观、香气、口味、典型性的综合表现。评酒师根据红酒的味道,香气,口感等主观指标划分红酒的质量,而红酒的这些主观指标主要由两种因素决定,即红酒本身的理化指标以及酿酒葡萄的理化指标。红酒的质量和理化指标之间存在着一定的依赖关系,故建立多元线性回归模型。而又由于理化指标特别是葡萄的理化指标众多,全部进行线性回归分析会导致计算较为繁杂,故在进行葡萄的理化指标进行处理时,运用第二问对红、白葡萄理化指标因子分析的结果,求出葡萄中对于酒的质量影响较大的理化指标与葡萄酒质量的关系。对于第二小问,依然用多元线性回归模型来求出葡萄酒中的芳香物质对于葡萄酒香气评价的样本相关系数,从而判断出芳香物质对香气的影响。4.4.2符号说明:葡萄与葡萄酒的各项理化指标:各项理化指标所对应的系数4.4.3模型的建立5根据假设4,理化指标和葡萄酒质量Y的关系可以表示为:要求解该模型只需求出系数即可。系数的求解:有组数据,则有:建立目标优化函数:为此,该问题转化为一个优化问题即:令:将上式的方程整理得一个元的线性组,再经整理,得正则方程组:其中: , , 记该正解方程的解为,则称它为参数的估计量,即:,所以,其对应的回归方程可以写为:,为了验证与的关系,引入样本相关系数,定义的表达式为:其中是理论相关系数的一个点估计值,其值越接近1时,线性相关度越强。4.4.4数据的处理与分析用spss软件中的最小二乘法得关系表,在这里以红葡萄理化指标中的各理化指标对应系数为例: 表4-15:红葡萄的指标对于红葡萄酒质量影响参数表:红葡萄理化指标()理化指标对应系数()谷氨酸-0.732脯氨酸-0.022甘氨酸0.900丙氨酸0.563胱氨酸-0.195吉氨酸0.112精氨酸0.297蛋白质0.025VC含量-27.561酒石酸10.210柠檬酸-22.996多酚氧化酶-0.380总糖-0.403可溶性固形物-1.634可滴定酸39.596固酸比4.495干物质含量12.387果皮质量454.170L*1.369苏氨酸-0.216丝氨酸-0.216DPPH自由基-45.360葡萄总黄酮-0.133杨梅黄酮11.384果穗质量-0.405C-0.320常量-244.863红白葡萄、葡萄酒的线性相关系数如下表
收藏
- 资源描述:
-
-
葡萄酒的评价模型
摘 要
本文主要解决葡萄酒的评价问题,运用多种数理统计方法通过MATLAB和SPSS软件对可能影响葡萄酒质量的因素进行统计分析,初步得出对葡萄酒的理化指标评价和主观评价具有差异性。
对于问题一中的显著性差异分析,针对两组评酒员对于每一种酒的评分,本文用MATLAB进行t检验(),结果显示两组评酒员对红葡萄酒和白葡萄酒的评分都具有显著性差异。对于可信度的问题,我们用EXCEL进行方差与置信区间的综合分析,得出对红、白葡萄酒的评价结果第二组可信度均较高。
问题二,首先用相关性分析计算出各个理化指标之间以及各理化指标与葡萄酒质量间的Pearson相关系数,然后选取和葡萄酒质量相关程度较大()的理化指标进行聚类分析,依照指标的不同情况可将其分别分为3、4、5类,得出在每种分类情况下的分类方案。最后,我们计算每种分类方案下各类酿酒葡萄质量得分的平均值,分值越高则级别越高,确定了最终的分级方案。
问题三,我们先对酿酒葡萄的理化指标进行主成分分析,利用降维技术找出能代表酿酒葡萄的主要理化指标,然后再将得出的主要理化指标与葡萄酒的理化指标进行相关性分析,根据相关系数确定二者理化指标间的关系。结果表明,葡萄酒的理化指标除了由相对应的酿酒葡萄的理化指标决定外,还可由其它相关性大的理化指标决定。
最后,对问题四建立多元线性回归分析模型,对第一问中计算出了红、白葡萄酒和葡萄的样本相关系数进行比较,发现用葡萄的理化指标衡量葡萄酒的质量是不全面的,芳香物质可能会影响酒的香气从而影响酒的整体质量。因此在第二小问中,先根据葡萄酒中芳香物质的化学成分将其分类(醛、烃、醇、酯、酸、酮以及其他含氧有机物),再利用多元线性回归模型计算出其样本相关系数,说明芳香物质通过酒的香气来影响酒的品质,从而说明了理化指标分析和主观评分在葡萄酒质量分析中的差异性。
关键词:t检验 相关性分析 聚类分析 主成分分析 多元线性回归
一、 问题重述
葡萄酒是世界公认的对人体有益的健康酒精饮品,其生产方式方便, 经济, 且风味极佳. 因而越来越受到广大市民的青睐,同时葡萄酒的质量以及等级划分也越来越受到人们的关注。
葡萄酒化学成分复杂,葡萄酒的质量是各种化学成分的综合反映。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
葡萄酒的质量与酿酒葡萄的好坏直接相关。葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,它们是对酿酒葡萄与葡萄酒进行分级的重要依据。
现已知某一年份一些葡萄酒的评价结果,以及该年份这些葡萄酒的和酿酒葡萄的成分数据。本文将建立数学模型讨论以下问题:
问题一:根据附件所给两组评酒员对葡萄酒各项指标的不同评分数据,分析两组评价结果有无显著性差异,如果差异显著,确定哪一组结果可信度更高。
问题二:根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
问题三:酿酒葡萄的理化指标与葡萄酒的理化指标密切相关,分析二者间的联系。
问题四:分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
二、 模型的基本假设
1、 两组评酒员对葡萄酒的评分服从正态分布,且针对每个葡萄酒样品,两组评酒员评分正态总体的方差相等。
2、 附录所给酿酒葡萄与葡萄酒理化指标的数据均准确,没有错误。
3、 附录中的理化指标为酿酒葡萄与葡萄酒的所有理化指标。
4、 葡萄和葡萄酒的理化指标,......与葡萄酒的质量Y为线性相关。
5、 红酒的质量仅由评酒师的主观评分决定,与其他因素无关。
三、 符号说明
显著性水平;
置信度;
两组葡萄酒所得总分的样本方差;
酿酒葡萄的第j种理化指标与葡萄酒质量间的相关系数;
第i种与第j种酿酒葡萄的样本距离;
原指标的个数;
原指标的观测值(k=1,2,3…,m);
标准化后的数(k=1,2,3…,m);
的标准差(k=1,2,3…,m)。
四、 模型建立及求解
4.1 问题一
4.1.1 问题分析
对于两组评价结果的显著性差异问题,因为每个评酒员对葡萄酒的质量的评价是由其对该葡萄酒各项指标所评总分决定的,为将问题简化,我们首先计算出各评酒员给出的每一个葡萄酒样品各项指标的总分并进行比较,并由此判定两组评价结果的差异性及可信程度。
易知两组评酒员对葡萄酒样品的评分都服从正态分布且是相互独立的,由于均是对相同的葡萄酒进行评价,我们认为两正态总体的方差相等,问题转化为对两个独立正态总体下样本均值的比较,本文采用t检验法检验具有相同方差的两正态分布均值差的假设。
要确定哪一组的评价结果更可信,我们将复杂问题简单化,考虑通过比较两组分数样本的方差,方差大小反应数据的集中程度,方差越小,样本数据分布越集中越稳定,各数据更接近均值,代表结果的可信度更高。同时,可分别算出两组平均分的置信区间,比较各组落在区间内分数的个数,从而对分析结果进行检验。
4.1.2 模型建立
(一)显著性差异分析[1]
为零假设,为备择假设,显著性水平为。
检验统计量为:
其中
(二)可信度比较
因为各组均有10为评酒员进行评分,故n=10。
定义变量R:
4.1.3 模型求解
(一)t检验结果:
首先,根据所给数据算出每位评酒员对各红葡萄酒样品的总评分,见表4-1(详见附件1):
表4-1:各红葡萄酒样品所得各项指标总分
1
2
3
4
5
6
7
8
9
10
平均值
1
第一组
51
66
49
54
77
61
72
61
74
62
62.7
第二组
68
71
80
52
53
76
71
73
70
67
68.1
2
第一组
71
81
86
74
91
80
83
79
85
73
80.3
第二组
75
76
76
71
68
74
83
73
73
71
74
3
第一组
80
85
89
76
69
89
73
83
84
76
80.4
第二组
82
69
80
78
63
75
72
77
74
76
74.6
4
第一组
52
64
65
66
58
82
76
63
83
77
68.6
第二组
75
79
73
72
60
77
73
73
60
70
71.2
5
第一组
74
74
72
62
84
63
68
84
81
71
73.3
第二组
57
59
68
66
67
64
64
63
65
59
63.2
…
…
…
…
…
…
…
…
…
…
…
...
26
第一组
73
80
71
61
78
71
72
76
79
77
73.8
第二组
68
67
83
64
73
74
77
78
63
73
72
27
第一组
71
64
72
71
69
71
82
73
73
69
73
第二组
70
77
63
64
80
76
73
67
85
75
71.5
由此得出两个正态总体的样本,比如,对红葡萄酒样品1,两组样本分别为:
第一组:51 66 49 54 77 61 72 61 74 62
第二组:68 71 80 52 53 76 71 73 70 67
下面用MATLAB的统计工具箱在水平上进行两个样本的t检验(程序见附录一)。用的值反映结果的差异性,其中,表示不能拒绝零假设,即两组评价结果无显著差异;,表示评价结果有显著差异。
所得结果见下表:
表4-2: 对红葡萄酒评价的显著性差异分析结果
酒样品
显著性水平
均值差的95%置信区间
1
0
0.2128
[-14.1832 , 3.3832]
2
1
\
\
3
0
0.0504
[-0.0121 ,11.6121]
4
0
0.5096
[-10.7187, 5.5187]
5
1
\
\
6
0
0.0526
[-0.0740 ,11.8740]
7
0
0.1458
[-2.3673 ,14.7673]
8
0
0.0726
[-0.6401 ,13.2401]
9
0
0.1899
[-1.7892 ,8.3892 ]
10
0
0.948
[-14.2677,13.3949]
11
1
\
\
12
1
\
\
13
1
\
\
14
0
0.8712
[-4.7098 , 5.5098]
15
0
0.065
[-14.4844, 0.4844]
16
1
\
\
17
0
0.141
[1.7493 , 11.3493]
18
0
0.0951
[-12.0594 ,1.0594]
19
1
\
\
20
0
0.287
[-2.5609 , 8.1609]
21
0
0.2243
[-3.2804 ,13.0804]
22
0
0.0556
[-0.1493 ,11.3493]
23
1
\
\
24
1
\
\
25
0
0.7648
[-5.9157 , 7.9157]
26
0
0.5133
[-3.8703 , 7.4703]
27
0
0.5785
[-4.0695 , 7.0695]
对于样品1,,表示两组评价结果没有显著差异;显著性水平=0.2128,表示在100次试验中,约有21次t统计量大于或等于均值差;均值差的95%置信区间为[-14.1832 , 3.3832]。
由表可知,对于编号2、5、11、12、13、16、19、23、24这9个红葡萄酒样品,,也就是说,在27个红葡萄酒样品中,两组评酒员对其中9个样品的评价结果都有显著差异,所以对红葡萄酒两组评酒员的评价结果有显著性差异。
同理,对于白葡萄酒,首先根据所给数据算出个评酒员对每个葡萄酒样品的总评分,见表4-3(详见附件1):
表4-3:各白葡萄酒样品所得各项指标总分
1
2
3
4
5
6
7
8
9
10
平均值
1
第一组
85
80
88
61
76
93
83
80
95
79
82
第二组
84
78
82
75
79
84
81
69
75
72
77.9
2
第一组
78
47
86
54
79
91
85
68
73
81
74.2
第二组
79
76
77
85
77
79
80
59
76
70
75.8
3
第一组
85
67
89
75
78
75
86
79
90
79
80.3
第二组
85
74
71
87
79
79
80
45
83
73
75.6
4
第一组
75
77
80
65
77
83
88
78
85
86
79.4
第二组
84
78
74
83
69
82
84
66
77
72
76.9
5
第一组
84
47
77
60
79
62
74
74
79
74
71
第二组
83
79
79
80
77
87
82
73
84
91
81.5
…
…
…
…
…
…
…
…
…
…
…
...
27
第一组
58
40
79
67
59
55
66
74
73
77
64.8
第二组
72
79
84
79
76
83
77
63
79
78
77
28
第一组
66
75
89
69
88
87
85
76
88
90
81.3
第二组
75
82
81
81
78
84
79
71
76
89
79.6
用MATLAB的统计工具箱在水平上进行两个样本的t检验,结果见下表:
表4-4:对白葡萄酒评价的显著性差异分析结果
酒样品
显著性水平
均值差的95%置信区间
1
0
0.2483
[-3.1200 ,11.3200]
2
0
0.7527
[-12.1074 , 8.9074]
3
0
0.3004
[-4.5602 ,13.9602]
4
0
0.4073
[-3.6901 , 8.6901]
5
0
0.0151
[-18.7103 ,-2.2897]
6
0
0.0714
[-17.6122 , 0.8122]
7
0
0.2624
[-2.6920 , 9.2920]
8
0
0.8482
[-10.6353 , 8.8353]
9
0
0.11
[-16.8729 , 1.8729]
10
0
0.3149
[-16.6780 , 5.6780]
11
0
0.8631
[-9.9140 ,11.7140]
12
0
0.0888
[-19.7265 , 1.5265]
13
1
\
\
14
0
0.1744
[-12.6779 , 2.4779]
15
0
0.1807
[-15.0521 , 3.0521]
17
1
\
\
18
0
0.4158
[-12.6797 , 5.4797]
19
0
0.1361
[-9.8547 , 1.4547]
20
0
0.7269
[-5.9073 , 8.3073]
21
0
0.5724
[-13.0302 , 7.4302]
23
0
0.5314
[ -6.4385 , 3.4385]
24
0
0.4785
[-10.9278 , 5.3278]
25
0
0.5299
[-10.2715 , 5.4715]
26
0
0.1123
[-15.8089 , 1.8089]
27
1
\
\
28
0
0.1076
[-1.4675 , 13.6675]
由表可知,对于编号13、17、27这3个红葡萄酒样品,,也就是说,在28个白葡萄酒样品中,其中有3个样品的评价结果存在显著差异,所以对白葡萄酒两组评酒员的评价结果有显著性差异。
综合红葡萄酒与白葡萄酒的检验结果可知,两组评酒员对葡萄酒质量的评价结果存在显著性差异,其中对红葡萄酒的评价结果差异更明显。
(二)可信度比较:
运用EXCEL对每一个葡萄酒样品的两组得分进行计算,求得其得分的样本方差与平均分置信区间(见附件1),作出两组数据方差对比图,如下:
(1)红葡萄酒:
图4-1:红葡萄酒两组得分样本方差对比图
由上图可知,第一组评价结果的方差普遍较第二组大,比如对样品17,第一组分数的方差达到了88.01,说明各评酒员对17号酒样品的打分差异很大,分数较分散;而第二组评分结果的方差仅为9.16,第二组评酒员对该样品的评价较为一致,所给分数分布更集中。
通过统计,对于红葡萄酒有即对27个葡萄酒样品中有20个样品的得分方差第一组大于第二组,同时经比较,第二组评酒员所打分数落在平均分置信区间的个数更多,这表明对于红葡萄酒的评分第二组的结果更可信。
(2)白葡萄酒:
图4-2:白葡萄酒两组得分样本方差对比图
由图可知,第一组评分的方差与第二组相比,仍明显偏大,统计得到,对白葡萄酒即对28个白葡萄酒样品中有22个样品的得分方差第一组大于第二组。同样,第二组评酒员所打分数落在平均分置信区间的个数更多,这表明对于白葡萄酒的评分第二组的结果仍比一组可信。
综上所述,两组评酒员对两种葡萄酒质量的评价结果都存在显著性差异,且对红葡萄酒的评价结果差异更明显。其中第二组评酒员对两组葡萄酒的评分更集中更稳定,其评价结果较第一组也更可信。
4.2 问题二
4.2.1 问题分析
葡萄酒的质量与酿酒葡萄各理化指标存在着严格的依存关系,要对酿酒葡萄进行分级,首先就要确定两者间的关系,根据各理化指标对葡萄酒质量的影响以及不同酿酒葡萄成分的差异对葡萄划分等级。
根据第一问的结论,葡萄酒的质量由可信度更高的第二组评酒员所给的分数确定。而理化指标与葡萄酒质量间是呈线性相关的,可以采用统计学中的相关性分析,将二者的关系通过它们之间的相关系数反映出来。
对酿酒葡萄进行分级的问题,也就是根据相似程度对样品进行分类,统计学中常采用的是聚类分析的方法,它将定性和定量的分析结合起来,通过选取元素的许多共同指标,然后分析元素的指标值来分辨元素间的差距,从而达到分类的目的。对酿酒葡萄分类后,可以根据每一类葡萄所得质量分数的平均值对其进行等级的划分。这里针对酿酒葡萄的理化指标,可以只选取与葡萄酒质量的相关系数较大的一部分,以简化模型。聚类分析方法直观,结论简明,可以很好地解决酿酒葡萄分级的问题。
4.2.2 模型建立
名词说明:
相关系数:在直线相关条件下,说明两个变量之间相关程度以及相关方向的统计分析指标;
样品距离:将每个样品看成是m个变量对应的m维空间中的一个点,然后在该空间中所定义的,距离越近,则亲密程度越高。
(一) 相关性分析[2]:
采用相关性分析确定葡萄酒的质量与酿酒葡萄各理化指标的线性关系,本文最常用的Pearson相关系数,它适用于线性相关的情形,其计算公式为:
根据r所具有的符号来表示变量相关的方向,“+”号表示正相关,即0≤≤1。“﹣”表示负相关,即-1≤≤0;两个变量之间的相关程度用相关系数的绝对值表示,其绝对值越接近1,表明两个变量的相关程度越高;其绝对值越接近于0,表明两个变量相关程度越低;如果其绝对值等于零1,则表示两个变量完全直线相关;如果其绝对值为零,则表示两个变量完全不相关(不是直线相关)。
表4-5:相关系数范围对应关系表
相关系数的值
两元素相关程度
完全不相关
微弱相关
低度相关
显著相关
高度相关
完全相关
由此可确定各项理化指标与葡萄酒质量的关联程度,选出相关系数绝对值大者,并据此进行酿酒葡萄的分类。
(二) 聚类分析[3]
对酿酒葡萄进行分级,就是根据各样品中理化指标的相似程度对样品划分等级,下面我们采用的是聚类分析的方法对酿酒葡萄样品进行分类。
聚类分析的思想是:设集合G中有n个样本X1,X2,…Xn ,首先每个样本独自成为一类,计算类内样本间的距离,将距离最近的两个类聚为一类。然后再计算新类间的距离,并将最近的两个类聚为一类。以此循环,直到所有的类聚为一类。
其中,计算第i种与第j种酿酒葡萄样本距离的公式为:
其中,,分别表示第i种与第j种酿酒葡萄的第t个理化指标含量。
常用的聚类方法有最短距离法、最长距离法、重心法等多种方法,我们选用组间平均联结法联结类,它将两个类的所有成对案例(各来自一个类)间的平均距离作为类间距离并要求该距离最小。它能利用两个类中所有成对指标的信息,使数据得到充分利用。
针对本题,各种酿酒葡萄即为各类,用聚类分析对所给酿酒葡萄进行分类的步骤为:
(1) 对附件所给的成分数据进行预处理,对经过多次测试的项目数据取平均值。
(2) 计算各理化指标与葡萄酒质量的Pearson相关系数,选出的理化指标。
(3) 将酿酒葡萄样品进行分类,计算距离,将样品视为p维空间的一点,通过计算不太样品的距离,距离接近的点归为一类,距离远的点归为不同类,并由此得到距离矩阵D。
(4) 将每个酿酒葡萄样本独自成类Gi={ Xi}(i=1,2,…,n)。
(5) 由距离矩阵D,找到当前最小的Dij,并将类Gi,Gj合为一类得到一个新类Gr={Gi,Gj}。
(6) 重新计算类间的距离,得到新的矩阵D。重复第(5)步直到全部合为一类。
对所有酿酒葡萄根据其各项理化指标分好类之后,再根据附件所给评分数据,计算出每一类葡萄质量得分的评价值,根据分数高低进行等级划分。
4.2.3 模型求解
(一)相关性结果
首先,根据第一问的结果,我们选择第二组评酒员对各葡萄酒样的评分平均值代表葡萄酒的质量分数(附录二),将各样品质量得分按从高到低排列,见表4-6(部分):
表4-6:葡萄酒样品所得质量分数
红葡萄酒
白葡萄酒
样品编号
质量得分
样品编号
质量得分
1
68.1
1
82
2
74
2
74.2
3
74.6
3
80.3
4
71.2
4
79.4
5
63.2
5
71
6
66.3
6
68.4
7
65.3
7
77.5
8
66
8
71.4
9
78.2
9
72.9
10
68.8
10
74.3
运用spss软件进行指标含量与葡萄酒质量得分的相关性分析,本文均采用酿酒葡萄的二级指标,保证数据利用率最大,计算出各项指标与葡萄酒质量的Pearson相关系数(见附件2),从中选出以及接近0.2的理化指标,代表与葡萄酒质量相关性较大的指标,结果见下表:
对红葡萄酒,
表4-7:红葡萄理化指标与葡萄酒质量相关系数()
指标
苏氨酸
谷氨酸
甘氨酸
精氨酸
蛋白质
VC含量
花色苷
顺式白藜芦醇苷
杨梅黄酮
槲皮素
异鼠李素
-0.195
0.166
0.203
0.221
0.191
0.210
0.210
0.815
0.401
-0.222
-0.202
指标
总糖
葡萄糖
可溶性固形物
百粒质量
果梗比
出汁率
果皮质量
L*
a*
(+红;
-绿)
H
-0.198
0.242
-0.197
-0.163
-0.256
-0.313
-0.336
0.392
0.992
0.935**
结果分析:上表结果确定了21 个与红葡萄酒质量显著相关的理化指标,比如果皮颜色a*指标,由于果皮颜色对红葡萄酒色泽、澄清度影响较大,这直接影响着葡萄酒的外观得分,所以这项指标与红葡萄酒质量的相关系数达到了0.992,表明果皮颜色对红葡萄酒质量影响很大;而对于果梗比,它与红葡萄酒的相关系数为-0.256,代表果梗比的含量与葡萄酒质量呈负相关关系。这21 个指标在较大程度上影响了质量得分。
对白葡萄酒,
表4-8:白葡萄理化指标与葡萄酒质量相关系数()
指标
酒石酸
柠檬酸
多酚氧化酶活力
DPPH自由基
葡萄总黄酮
杨梅黄酮
总糖
可溶性固形物
-0.235
0.290
0.307
0.294
-0.226
-0.216
0.407
0.429
指标
可滴定酸
固酸比
干物质含量
果穗质量
果皮质量
L*
C
0.342
-0.262
0.358
-0.456
-0.206
0.347
0.395
由表可知,对于白葡萄酒,共有15个与白葡萄酒质量显著相关的理化指标。
(三) 分级结果:
根据上述相关性分析结果,选出的相关系数较大的指标,将它们在各葡萄酒样品中的含量以及相应葡萄酒质量得分导入spss软件,首先得到样品距离柱状图(见附录二)与平均联结树状图,从而对酿酒葡萄进行分类。
(1)红葡萄分级结果:
运用组间平均联结法联结类的结果如下图:
图4-3:红葡萄平均联结聚类树状图
树状图由许多倒置的U形线连接系统聚类树中的对象绘成,每一个U的水平长度代表着两个相连对象之间的距离。由此得到酿酒葡萄样品的距离矩阵D,并对其进行分类。
参照葡萄酒分类的国际等级模式[4],本文分别将酿酒葡萄根据其对应的葡萄酒质量分别分为三类、四类、五类,再分别计算各类葡萄质量得分的平均值,对其进行分级,相应等级为A级、B级、C级…,级别越高代表酿酒葡萄质量越好,所得结果见下表:
表4-9:红葡萄分级结果
三类
四类
五类
等级
红葡萄酒样品
等级
红葡萄酒样品
等级
红葡萄酒样品
A级
20
A级
20
A级
20
B级
2,3,4,5,6,9,10,
11,12,13,14,15,16,
17,18,19,2021,22,
23,24,25,26,27
B级
2,3,4,5,6,9,10,12,13,
14,16,17,18, 23,24,
25,26,27
B级
4,5,9,10,13,16,17,
23,24,25,26,27
C级
1,7,8
C级
11,15,19,21,22
C级
2,3,6,12,14,18
D级
1,7,8
D级
11,15,19,21,22
E级
1,7,8
由表可知,当将红葡萄分为三类时,样品20为A级,代表其级别最高,质量最
好;样品1,7,8为C级,级别最低,这些酿酒葡萄质量最差;其余样品介于二者之间。同理,将红葡萄分为四类、五类的结果与此相似。
(2)白葡萄分级结果:
组间平均联结法联结类的结果如下图:
图4-4:白葡萄平均联结聚类树状图
白葡萄分级结果见表4-10:
表4-10:白葡萄分级结果
三类
四类
五类
等级
白葡萄酒样品
等级
白葡萄酒样品
等级
白葡萄酒样品
A级
5,15,26,28
A级
28
A级
28
B级
3
B级
5,15,26
B级
15
C级
1,2,4,6,7,8,9,10,
11,12,13,14,15,16
17,18,19,20,21,22,
23,24,25,27
C级
3
C级
5,26
D级
1,2,4,6,7,8,9,10,
11,12,13,14,15,16
17,18,19,20,21,22,
23,24,25,27
D级
3
E级
1,2,4,6,7,8,9,10,
11,12,13,14,15,16
17,18,19,20,21,22,
23,24,25,27
由表可知,当将白葡萄分为三类时,样品5,15,26,28为A级,级别最高,质量最
好;样品3为B级,质量次之;其余样品被列为C级,代表质量最差。同理,将白葡萄分为四类、五类的结果与此相似。
4.3问题三
4.3.1问题分析
酿酒葡萄和葡萄酒的理化指标是经过专业仪器和技术测试出来的。酿酒葡萄的理化指标的大小由葡萄本身决定,葡萄酒是经过酿酒葡萄加工而成,其理化指标与酿酒葡萄有密切关系。
要求分析酿酒葡萄和葡萄酒的理化指标之间的联系,本文首先根据附录所给酿酒葡萄理化指标的数据对其进行主成分分析,选出主要理化指标。主成分分析能对对理化指标进行降维处理便于后期问题的处理。选出酿酒葡萄的主要理化指标后,将其与葡萄酒的理化指标进行相关性分析,根据相关系数的大小确定影响每一个葡萄酒理化指标的主要酿酒葡萄的理化指标,使酿酒葡萄与葡萄酒的理化指标之间的关系变得清晰。
4.3.2:模型的建立与求解
(一)主成分分析:
主成分分析法:主成分分析是将多项指标重新组合成一组新的互相无关的几个综合指标,根据实际需要从中选取尽可能少的综合指标,以达到尽可能多的反映原指标信息的分析方法。
主成分分析的一般步骤:
(1)由观测数据计算的平均数及(k=1,2,3…,m).
(2) 由相关系数矩阵R得到特征值(j=1,2,…,m)及各个主成分的方差贡献、贡献率,并根据累计贡献率确定主成分保留的个数。
(3)写出m个基本方程组:
其中j=1,2, …,m
利用施密特正交方法,对每一个求它的对应基本方程组的解,,…,,然后令,从而得到用所表示的主成分,或将代入后得到用所表示的主成分。
(4)将的观测值代入主成分的表达式中计算各个主成分的值。
(5)计算原指标与主成分的相关系数,解释主成分的意义。
下面对模型进行求解:
首先,我们对酿酒葡萄的理化指标在spss软件中用主成分分析法进行处理。附录二中提供的数据既有一级指标,又有二级指标,二级指标经过主成分分析后会划分在同一大类中,因此,我们直接采用一级指标进行主成分分析,避免了对数据的重复处理。对于进行多次测试的理化指标,我们取其平均值作为此理化指标的值。
(1)对红葡萄的理化指标进行主成分分析,得到八个主成分,累计贡献率为82.92%,可以反映很多原理化指标信息,说明主成分分析的结果是准确可靠的。
由主成分矩阵(见附录三)可知八个主成分与各理化指标的线性关系。如果主成分中理化指标的系数的绝对值大于0.5,我们认为此理化指标对主成分的影响较大。将系数的绝对值大于0.5的理化指标统计出来,即得出各个主成分包含的主要理化指标如下:
表4-11:红葡萄中各个主成分包含的主要理化指标
主成分
1
2
3
4
5
6
7
8
主要理化指标
花色苷
总酚
单宁
DPPH自由基
葡萄总黄酮
总糖
还原糖
白藜芦醇
a*
b*
PH 值
褐变度
固酸比
果穗质量
由此可见,进行主成分分析后,红葡萄的30个理化指标降为14个。
(2)对白葡萄的理化指标进行主成分分析,得到十个主成分,累计贡献率为83.22%,可以反映很多原理化指标信息,说明主成分分析的结果是准确可靠的。
同理我们得出各个主成分包含的主要理化指标见下表:
表4-12:白葡萄中各个主成分包含的主要理化指标
主成分
1
2
3
4
5
6
7
8
9
10
主要理化指标
总糖;
还原糖
总酚
葡萄总黄酮
单宁
DPPH自由基
b*
氨基酸
苹果酸
果皮质量
百粒质量
a*
白藜芦醇
同理,经过主成分分析后,白葡萄的30个理化指标降为了13个。
(二)相关性分析:
在数据分析的过程中,常常需要分析两个或两个以上变量之间的相关关系,在这里我们同样采用第二问的相关性分析方法,它不需要区分自变量和因变量,两个或者多个变量之间是平等的关系,通过相关分析可以了解变量之间的关系密切程度。
要进一步分析酿酒葡萄理化指标与葡萄酒理化指标的关系,我们采用相关性分析的方法,在spss软件中求出主成分分析后酿酒葡萄理化指标与葡萄酒理化指标的相关系数,(相关系数矩阵见附件3)。
根据两变量之间相关系数的大小,我们很容易找出他们之间的相关关系。根据表4-5,相关系数大于0.8时,两参数高度相关。在相关系数矩阵中,我们选出高度相关的两变量,然后确定了与葡萄酒理化指标高度相关的酿酒葡萄的理化指标。结果如下:
(1) 表4-13:红葡萄酒与酿酒葡萄的高度相关理化指标
红葡萄酒
花色苷
单宁
总酚
酒总黄酮
白藜芦醇
DPPH自由基
L*
a*
b*
酿酒葡萄
花色苷
总酚
单宁
总酚
DPPH自由基
葡萄总黄酮
总酚
葡萄总黄酮
白藜芦醇
总酚
葡萄总黄酮
DPPH自由基
L*
花色苷
a*
b*
分析上表可知,红葡萄酒中与红葡萄酒理化指标高度相关的理化指标,除了本身外,还有其他理化指标。且总酚,葡萄总黄酮与很多葡萄酒的理化指标都有密切关系,不可忽视。
(2) 表4-14:白葡萄酒与酿酒葡萄的高度相关理化指标
白葡萄酒
单宁
总酚
酒总黄酮
白藜芦醇
DPPH半抑制体积
L*
a*
b*
酿酒葡萄
单宁
总酚
总酚
葡萄总黄酮
总酚
白藜芦醇
DPPH自由基
总酚
L*
a*
b*
分析上表可知,白葡萄酒中与白葡萄酒理化指标高度相关的理化指标,除了本身外,还有其他理化指标。且总酚,与很多葡萄酒的理化指标都有密切关系,不可忽视。
比较红白葡萄酒的理化指标,发现葡萄中总酚与葡萄总黄酮是重要的理化指标,决定着很多葡萄酒的理化指标,影响着葡萄酒的质量。
4.4问题四:
4.4.1问题分析
葡萄酒质量是其外观、香气、口味、典型性的综合表现。评酒师根据红酒的味道,香气,口感等主观指标划分红酒的质量,而红酒的这些主观指标主要由两种因素决定,即红酒本身的理化指标以及酿酒葡萄的理化指标。红酒的质量和理化指标之间存在着一定的依赖关系,故建立多元线性回归模型。而又由于理化指标特别是葡萄的理化指标众多,全部进行线性回归分析会导致计算较为繁杂,故在进行葡萄的理化指标进行处理时,运用第二问对红、白葡萄理化指标因子分析的结果,求出葡萄中对于酒的质量影响较大的理化指标与葡萄酒质量的关系。
对于第二小问,依然用多元线性回归模型来求出葡萄酒中的芳香物质对于葡萄酒香气评价的样本相关系数,从而判断出芳香物质对香气的影响。
4.4.2符号说明:
:葡萄与葡萄酒的各项理化指标
:各项理化指标所对应的系数
4.4.3模型的建立[5]
根据假设4,理化指标和葡萄酒质量Y的关系可以表示为:
要求解该模型只需求出系数即可。
系数的求解:
有组数据,,则有:
建立目标优化函数:
为此,该问题转化为一个优化问题即:
令:
将上式的方程整理得一个元的线性组,再经整理,得正则方程组:
其中:
, ,
记该正解方程的解为,则称它为参数的估计量,即:,
所以,其对应的回归方程可以写为:
,
为了验证与的关系,引入样本相关系数,定义的表达式为:
其中是理论相关系数的一个点估计值,其值越接近1时,线性相关度越强。
4.4.4数据的处理与分析
用spss软件中的最小二乘法得关系表,在这里以红葡萄理化指标中的各理化指标对应系数为例:
表4-15:红葡萄的指标对于红葡萄酒质量影响参数表:
红葡萄理化指标()
理化指标对应系数()
谷氨酸
-0.732
脯氨酸
-0.022
甘氨酸
0.900
丙氨酸
0.563
胱氨酸
-0.195
吉氨酸
0.112
精氨酸
0.297
蛋白质
0.025
VC含量
-27.561
酒石酸
10.210
柠檬酸
-22.996
多酚氧化酶
-0.380
总糖
-0.403
可溶性固形物
-1.634
可滴定酸
39.596
固酸比
4.495
干物质含量
12.387
果皮质量
454.170
L*
1.369
苏氨酸
-0.216
丝氨酸
-0.216
DPPH自由基
-45.360
葡萄总黄酮
-0.133
杨梅黄酮
11.384
果穗质量
-0.405
C
-0.320
常量
-244.863
红白葡萄、葡萄酒的线性相关系数如下表
展开阅读全文