葡萄酒的分析评价问题.pdf
《葡萄酒的分析评价问题.pdf》由会员分享,可在线阅读,更多相关《葡萄酒的分析评价问题.pdf(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1葡萄酒的分析评价问题宋闯宋闯(光信息科学与技术光信息科学与技术 1007412610074126),),阳宁凯阳宁凯(信息管理与信息系统信息管理与信息系统 1003410510034105),),葛利葛利(信息安全信息安全 1008420510084205)摘 要本文根据所给数据建立了多种相关统计分析评价模型,对葡萄酒及酿酒葡萄的若干问题进行了分析与评价。对于问题一,首先我们采取两配对样本 T 检验评价显著性水平050.=下两组评酒员的差异性,在 SPSS 18.0 18.0 中对两组评酒员进行差异性检验,最后得到两组评酒员的评价结果具有显著性差异的结果。然后对两组评酒员的评价进行信度分析与
2、效度分析,这两个指标分别衡量前后评价的一致性和稳定性以及结果正确性,最后通过数据比较分析得到结论:二组评酒员比一组评酒员更可信。之后题目所用数据将全部采用二组评酒员的数据。对于问题二,本文首先建立了剔除了异常值的评分控制模型。然后根据评酒员评分区分度,建立权重确立模型,最后综合分析得到了更为合理的葡萄酒质量分数。对于酿酒葡萄的分级,我们对酿酒葡萄的各指标利用 SPSS 18.0 软件进行了聚类分析,每一聚类代表同一类指标;然后建立主成分分析模型,对每个聚类提取主成分,构造出新的主成分集合,最后再引入葡萄酒质量指标,建立综合评价模型,对酿酒葡萄进行综合评分,并按照划分区间给出分级,该过程采用 M
3、ATLAB 2011b 实现。通过对比分析,发现好的葡萄酒其原料一定也是优级的,但是优级的葡萄不一定能酿造出优级的葡萄酒。该模型最大的特色在于将聚类分析与主成分分析结合,构造了新的综合指标,既达到了多指标降维的目的,又体现了聚类指标的差异性。另外,其数据处理方面,本文还对特殊指标进行单独分析,利用模糊理论的知识对特殊指标进行赋值。对于问题三,我们建立灰色关联度模型,定量分析酿酒葡萄和葡萄酒的理化指标之间的关系。首先,通过 MATLAB 软件对酿酒葡萄的理化指标与葡萄酒理化指标进行灰色关联分析,得到其灰色关联矩阵;然后,通过对比灰色关联度的大小,筛选出对单个葡萄酒指标影响最主要的酿酒葡萄指标;最
4、后,计算出每个葡萄酒指标和对其有主要影响的酿酒葡萄指标的多元线性回归方程组,定量描述两者之间的关系;模型拓展部分,我们在葡萄酒指标和酿酒葡萄指标聚类分析的基础上,研究了二者类与类之间的关系,得出相关度最大和最小的葡萄酒指标类簇与酿酒葡萄指标类簇。对于问题四,本文首先采取多元线性回归模型分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。采取附表 1 中评价葡萄酒质量的 4 个一级指标(外观因素、香气因素、口感因素、整体因素),得到 4 个关于葡萄酒质量的多元线性回归方程,最后通过 F 检验衡量回归方程的显著性水平。以红葡萄酒为例,检验到红葡萄酒的理化指标主要是和决定红葡萄酒质量的口感因素和整体因
5、素有一定的关联性,然后用多元线性方差来表示与理化指标间的关系;接下来我们对附件 3 中葡萄酒的芳香物质进行了分析与筛选,做出各个芳香物质与对应葡萄酒质量的相关系数,并对其相关系数进行排序并分析,得出以下结论:不能完全用葡萄和葡萄酒的理化指标评价葡萄酒的质量,芳香物质能参与到对葡萄酒质量评价当中。关键词:关键词:两配对样本 T 检验聚类分析主成分分析综合评价法灰色关联分析多元线性回归2一.问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标评分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和
6、酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件 1 给出了某一年份一些葡萄酒的评价结果,附件 2 和附件 3 分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:1.分析附件 1 中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。4 分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二.问题假设1.假设所有样本的酿酒工艺一致;2.每种葡萄的生长环境常年相对不变,葡萄质量具有地域区
7、别性;3.评酒员抛开个人的喜好,排除时间、地点、环境和情绪等的影响,能够进行比较准确地感官分析;4.评酒员能够充分发挥主观能动性,将获得的感觉与大脑中贮存的感官质量标准进行比较分析;5.评酒员具备嗅觉的敏感性、品尝的准确性、表达的精确性等基本素质。三.问题一:数据的显著性差异检验与信度和效度分析3.1.显著性差异检验问题一要求分析两组评酒员的评价是否有显著性差异,并比较那一组的结果更可信。对于前者显著性检验问题,我们采取两配对样本 T 检验方法,该方法的目的是利用来自两列不同总体的配对样本数据推断两个总体是否存在显著性差异。但该样本数据必须具有两个要求:1、两组样本数量相同。2、两列样本观察值
8、顺序必须一一对应,不可随意更改。两配对样本 T 检验基本步骤:1.提出原假设。两配对样本 T 检验的原假设0H:两总体均值无差异性显著,表述为0H:0-21=,1和2分别为第一个和第二个总体的均值。2.选择统计量。两配对样本T检验采取 T 统计量,求出两组数据的差值作为统计样本,通过检验样本数据的均值是否显著性为 0 来推断两组数据是否具有显著性差异。3.计算检验统计量和 P 值。将两组样本数据输入 SPSS 18.0 18.0,计算出两配对样本 T 检验的 P 值。4.给定显著性水平,做出决策。给出显著性水平,与检验统计量 P 值做比较,如果 P 值小于,则拒绝原假设,认为两总体有显著性差异
9、,反之则不拒绝原假设,认为两总体没有显著性差异。3对附表 1 中记录的 10 个评酒员对红、白葡萄酒的 4 个项目评分数据进行整理,得到每个评酒员对每种葡萄酒样的质量评分期望,见附表 1,运用 SPSS 18.0 18.0 对红、白葡萄酒进行两配对样本 T 检验,结果见下表(表 1)表 1:两组评酒员对葡萄酒评价的两配对样本 T 检验结果成对差分tdfSig.(双侧)均值标准差均值的标准误差分的 95%置信区间下限上限对 1第一组红葡萄酒第二组红葡萄酒2.540745.371881.033820.415694.665792.458260.021对 2第一组白葡萄酒第二组白葡萄酒-2.27143
10、5.503861.04013-4.40560-0.13725-2.184270.038表 1 中,第二列是一、二两组评酒员对所有葡萄酒评分的平均差异;第三列是差值样本的标准差;第四列是均值的标准差;第五列和第六列分别是样本 95%置信区间的上限和下限;第七列是 T 检验统计量的观测值;第九列是 R 检验统计观测值对应的双尾概率 P 值,假设显著性水平=0.05,由于概率 P 值小于显著性水平,应拒绝假设,即人为两组评酒员的结果有显著性差异。3.2.对两组评价的信度和效度分析问题一要求找出对葡萄酒评价更可信的一组,我们通过信度和效度这两个指标来做定量分析。目前信度和效度概念在对问卷调查准确性和科
11、学性论证上运用的比较多,在对该题的评分信度可以借鉴这种方法。信度指调查结果所具有的一致性和稳定性程度,所谓一致性,是指同一调查项目调查结果的一致程度。所谓稳定性则是指前后不同的时间内,对相同受访者在不同时空下接受同样问卷调查时的差异程度。对于这题,可以将其当作对 10 个受访者(10 个评酒员)分别做了 27 个(红葡萄酒样本数)和 28 个(白葡萄酒样本数)问卷调查。效度通常是指测量结果的正确程度,即测量结果与试测目标之间的接近程度,就调查问卷而言,效度是值能够在多大程度上放映它所测量的理论概念。该题用 10 个评酒员的均值作为真实值,用来衡量各组评酒员与他的接近程度1。3.2.1.信度检验
12、检查信度的方法有多种,针对该题葡萄酒评分连续性的特点,我们选用基于方差分析的内部相关系数 ICC 来评价数据的信度。假定n对数据),(21iixx,ni.,2,1=,计算内部相关系数 ICC 的公式为:2n121)1()(xiiiSnxxxxICC=4一般来说,ICC 大于 0.75 表示该组数据的信度极好,ICC 在 0.60.75 表示该组信度较好。在不同模型假设下,ICC 得到不同的值,模型包括 3 种,(1)单因素随机效用模型。(2)两因素随机效用模型。(3)两因素混合效用模型。模型(2)适合于从一个无限大样本总体中随机抽取样本,统计推断要推广到该总体情况,适合问题一对两组评酒员的评价
13、信度检验。用 SPSS 18.0 18.0 软件在两因素随机效用模型下求解的内部相关系数 ICC 检验信度:表 2 两组对红葡萄就和白葡萄酒评分的内部相关系数内部相关性95%置信区间下限上限第一组红葡萄评分0.8620.7670.927第二组红葡萄评分0.9120.8530.954第一组白葡萄评分0.6970.4580.84第二组白葡萄评分0.7790.6330.883由表 2 得到结论:无论是对红葡萄还是对白葡萄的评分,第二组的内部相关性都要高于第一组,即第二组的信度比第一组的信度高。3.2.2.效度检验效度能是衡量测量有效性的一个重要指标,可以从 3 个不同角度衡量,分别为(1)内容效度。
14、(2)校标关联效度。(3)架构效度。由于该题没有牵涉到(1)、(2)两方面,我们就用校标关联效度来检验效度。校标关联效度是衡量测量结果和真实结果之间的一致性程度1。计算效度需要假定或定义一个有效的外在标准,我们定义对一种葡萄酒10 名评酒员的平均得分即为该葡萄酒的真实质量。该题中的葡萄酒评分为连续性变量,用 Pearson 相关系数来衡量校标关联效度,Pearson 相关系数是一种线性相关系数,用以放两反应个变量线性相关程度的统计量,)(niyxii.2,1,=两组数据的 Pearson 相关系数的数学表达式为:=2222)()(riiiiiiiiyyxxnyxyxn运用 SPSS 18.0
15、18.0 软件计算两组评酒员的 Pearson 相关,分别得分为:5两组评酒员的校标关联度两组评酒员的校标关联度红葡萄酒平均值白葡萄平均值一组葡萄红平均值Pearson 相关性0.963*一组白葡萄平均值Pearson 相关性0.884*显著性(双侧)0显著性(双侧)0N27N28二组红葡萄平均值Pearson 相关性0.867*二组白葡萄平均值Pearson 相关性0.641*显著性(双侧)0显著性(双侧)0N27N28*.在 0.01 水平(双侧)上显著相关通常情况下,相关系数r的取值范围在 1-0.8,表示极可信;取值范围在 0.6-0.8,表示很可信;取值范围在 0.4-0.6,表示中
16、等程度可信;取值范围在 0.2-0.4,表示不太可信;小于 0.4,即为不可信。两组评酒员对红葡萄酒的评价相关系数都大于 0.8,即他们对红葡萄就的评价结果都很可信,但一组评酒员的相关系数明显高于二组,所以一组评价结果比二组跟可信。对白葡萄酒的评价,一组评酒员评价结果落在极可信范围了,二组落在很可信范围内,所以对红葡萄酒的评价结果,二组比一组评价结果更可信。总体来说,二组的评酒员比一组评酒员更可信。四.关于葡萄酒质量评价评分数据的处理模型4.1.葡萄酒质量评分数据处理问题分析在第一问中,我们通过第一问中的信度和效度分析,论证了二组的评酒员的评价数据信度更高。但是由于评酒员自身的原因,对于二组内
17、 10 个评酒员对各指标的评分仍然存在偏差,这些偏差主要体现在评酒员评分的宽严程度差异和评酒员本身评分的一致性上2。目前常用的简单易行的方法是直接将评酒员评分计算加权平均数,或者是机械地先“去掉一个最高分,去掉一个最低分”,再计算其算术平均数。这样的方法并没有很好的利用数据,排除异常值由于评酒员的个人情感或者其他自身原因造成的异常。对于这样的情况,我们根据最终评分数据通过对有关指标的统计分析及其检验,选取指标并建立葡萄酒质量评价评分数据修正模型,对评酒员评分偏差导致的各种问题进行分析,得到了更加合理的能反映葡萄酒质量的数值。4.2.分析指标的选取对于评酒员的评分数据,我们主要考虑三个指标:1.
18、对于葡萄酒而言,其得分近似服从正态分布()2,?N3。2.评酒员的评分是否公平合理,对于该指标的衡量,我们将采用各种葡萄酒的得分偏差。3.评酒员的评分是否具有区分性,对于该指标的衡量,我们将采取各评酒员的评分区分度。64.3.第一步:评分控制,评分异常值的剔除首先我们在各种葡萄酒得分近似服从正态分布的原则下,利用 SPSS 18.018.0 统计分析了各种酒的 对应了每种葡萄酒的得分期望,对应了得分的方差,以 号葡萄酒为例,可知道其得分独立同分布,且都服从正态分布,其中,。在上述条件下,将作为其正常值判定区间,形象直观的排除异常值,直接将其异常值排除开。处理后的数据见:附录表格 24.4.第二
19、步:基于区分度控制下的权重确立模型2iij2ij)xx(y=为第j个评酒员在对第i种葡萄酒评分上的偏差平方=ni1ii2ijjyW为第j个评酒员的偏差系数i 为第i种葡萄酒的评分吻合度权重=ni1iiiixx,因为总平分的高低决定了葡萄酒胜出的可能性大小=ni1i2jij2j)xx(1n1S为第j个评酒员评分的样本方差=ni1iijjxn1x,该样本方差越大说明该评酒员的评分越容易区分j2jjWSSS=为第j个评酒员评分的区分度,该值的大小体现了区分性的高低)xxmin()xxmax()xx(m1Smj1j2iijj2jiij2iij2i=为葡萄酒i的有效方差=ni1ii2i2SS为系统评分方
20、差,即每种葡萄酒的有效方差的加权之和。研究每个评酒员的自身一致性问题,即该评酒员所作评分除了满足吻合度高外,同时也应该体现出高区分度。当然,如果所有葡萄酒的水平相当,则出现高区分度的可能性将大大降低。由区分度的定义:7jjjWSSS=2),2,1(mj=其中:2jS体现评酒员j自身评分的离散程度;而jW体现评酒员j评分的偏差程度。这样jSS就可以在满足吻合程度的前提下,体现评酒员j的区分能力。如果评酒员对所有种葡萄酒的评分比较集中在某个值附近,则必然导致2jS偏小,而jW偏大,最终导致区分度jSS的值将相对特别小。我们将根据其区分度对评酒员的评分权重给予修正。由于剔除异常值的影响,对于某些样品
21、,其评酒员数量不为 10 人,其权重将按其拥有的数据进行权重的重新确立。考虑到篇幅的原因,下表(表 3)仅给出第一组红酒的 10 人的权重:表 3 权重分配表第二组红评酒员 1评酒员 2评酒员 3评酒员 4评酒员 5评酒员 6评酒员 7评酒员 8评酒员 9评酒员 10评分区分度1.4423.2252.8210.6931.9492.2432.5572.7040.6920.583权重0.0760.1710.1490.0370.1030.1190.1350.1430.0370.031综合以上两部分内容,我们将建立去异值加权平均评价模型,用于合理给出各葡萄酒的质量得分。整个过程我们利用了 EXCEL
22、2007 进行数据的处理分析。对于修正前后的最后红葡萄酒与白葡萄酒综合评分详细对比如下:表 4 修正前后的红葡萄酒与白葡萄酒综合评分红葡萄酒样本原始期望修正得分原始排名现在排名白葡萄酒样本原始期望修正得分原始排名现在排名16362.69242418284.662228081.5242274.276.23131338081.4933385.385.411146967.42322479.480.845657373.77151657173.7232167270.761919668.467.27252677270.312020777.578.078987270.851818871.474.252220
23、98280.0426972.975.21717107475.3213131074.377.3212108117067.3921231172.374.831918125451.1727271263.365.292828137576.5912111365.966.992627147374.881615147274.652119155954.8626261572.475.211816167575.741112167475.991415177978.81581778.881.665186058.6725251873.176.31612197980.4641972.271.042024207979.13
24、772077.878.8178217778.621092176.478.84107227777.59910227173.192422238686.86112375.977.061111247880.2852473.372.041523256969.9522212577.176.15914267474.8814142681.383.5933277372.3517172764.868.2527252881.381.7644从以上数据看,剔除异常值后,以及利用新的评价模型,使得修正后的数据更加合理,排名部分发生了变化,尤其是对于排名靠后的样品。五.问题二:基于综合评价法的酿造葡萄分级模型5.1.问题
25、分析题目要求根据酿酒葡萄和葡萄酒的质量对这些酿酒葡萄进行分级,对于多指标评价中的排序问题,涉及到大量指标的处理,我们首先考虑到其指标具有相关性,于是想到用主成分分析将多指标转化为少数几个综合指标已达到降维的目的,但另一方面又考虑到数据除了具有相关性还具有类别性,我们利用聚类分析将多个指标进行分类,将主成分分析与聚类分析两种统计方法结合起来,采用“主成分聚类分析法”,最后再利用综合评价法对酿酒葡萄进行评分并排序、分级。具体操作步骤如下:首先,对酿酒葡萄各指标进行聚类分析,将指标分成若干个类,每个聚类属于同一类指标,该过程我们将使用 SPSS 18.0 18.0 实现。其次,对每个聚类指标进行主成
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 葡萄酒 分析 评价 问题
限制150内