2012年全国大学生数学建模大赛一等奖论文.pdf
《2012年全国大学生数学建模大赛一等奖论文.pdf》由会员分享,可在线阅读,更多相关《2012年全国大学生数学建模大赛一等奖论文.pdf(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、.葡萄酒的评价摘要随着人民生活水平的提高,葡萄酒开始走进千家万户,而葡萄酒的优劣评定也成了人们热议的话题。葡萄酒的优劣评价一般通过聘请有经验的评酒员进行品评并做出评分。本文围绕葡萄酒的评价问题进行研究分析。针对问题一,首先我们对附录1数据进行整理分析。先利用matlab编程对数据进行正态性检验,得出样本均满足正态分布这一条件之后进一步运用SPSS对数据进行配对样本T检验,检验得出的两组p值都小于标准0.05,判定两组品酒员的评价结果存在显著性差异。接着,对所给评分数据进行方差分析,并进一步运用组间离均平方和方法比较第一、二组P值和F值的波动性,并最终得出结论:第二组评酒员所给的评分更为可信。针
2、对问题二,我们结合原问题附件中的数据,先采用因子分析方法提炼出对葡萄总体理化指标有显著影响的因子,分红葡萄和白葡萄两类之后采用聚类分析方法将葡萄分为五类。在问题一的基础上,利用可信度高的品酒员所评分数作为葡萄酒质量的衡量标准,为五类葡萄划分好坏。最终我们将红白葡萄都分为五个级别,分别是A级(极好),B级较好,C级普通,D级较差,E级最差。图-红葡萄的分类针对问题三,由于葡萄的理化指标众多,首先利用sas软件分析葡萄与葡萄酒的理化指标之间的相关系数,选取与葡萄酒理化指标相关性较显著的葡萄理化指标,做典型相关分析。并对典型相关分析的结果进行分析。红葡萄和红葡萄酒间的典型相关分析结果说明:两组变量间
3、,花色苷、苹果酸、褐变度、色泽L*相关密切,特别是葡萄与葡萄酒间的花色苷指标可见显著相关;白葡萄与白葡萄酒的结果说明:白葡萄指标的黄酮醇、褐变度、单宁指标与白葡萄酒的总黄酮、单宁、总酚可见显著相关。针对问题四,针对问题四,利用酿酒葡萄和葡萄酒的理化指标与葡萄酒的质量构建多元线性回归模型,从而分析出哪些理化指标对葡萄酒的质量有显著影响。在最后,我们将酿酒葡萄和葡萄酒的感官指标当作变量引入回归方程,得到回归方程的拟合度为98.62%,而没加上感官指标时的拟合度为78.89%,所以加上感官指标后回归方程的拟合度明显变高,而且各个参数都通过了显著性检验,论证了不能用葡萄和葡萄酒的理化指标来评价葡萄酒的
4、质量。关键词:样本关键词:样本T T检验、聚类分析法、典型相关分析、多元线性回归检验、聚类分析法、典型相关分析、多元线性回归.一、问题重述1.1问题背景葡萄酒是用鲜葡萄酿制成的发酵酒,具有增进食欲、滋补、助消化等作用,适量饮用葡萄酒,对维持和调节人体的生理机能,都起到良好的作用。随着人们社交活动的增加、生活水平的提高,葡萄酒越来越受到人们的青睐,而对葡萄酒的评价也因此显得尤为重要。1.2 基本信息本文旨在对葡萄酒的好坏进行评价。确定葡萄酒的质量。通过聘请一批有资质的评酒员进行品评后,让其各酒品分指标进行打分。打分共100分制。酿酒葡萄的好坏与所酿葡萄酒之间有直接关系,同时葡萄酒和酿酒葡萄检测的
5、理化指标会在一定程度上反映葡萄酒和葡萄的质量。1.3有关信息附件给出了评价结果、酿酒葡萄与葡萄酒的成分数据。包括:附件1:葡萄酒品尝评分表附件2:葡萄和葡萄酒的理化指标附件3:葡萄和葡萄酒的芳香物质1.4 问题提出1) 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信。2) 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3) 分析酿酒葡萄与葡萄酒的理化指标之间的联系。4) 分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。二、问题分析2.1 问题一:本小题要求我们对附件1中两组评酒员的评价结果是否存在显著性差异
6、进行分析,并检验哪组结果更可信。故我们可将评酒员对红/白葡萄酒的各项评分项目作求平均值处理并将其结果相加得到不同酒种的分数,再运用matlab软件对数据进行正态性检验判断数据是否满足进行T检验的基本条件,在确认满足条件之后,我们对数据进行T检验得出最终所需结果。2.2 问题二:题目要求我们根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级处理。对于附录中众多理化指标,我们利用spss软件进行因子分析,提炼出几个对葡萄总体理化指标有显著影响的因子。以这些因子代表原来的众多指标,接着对酿酒葡萄样本进行系统聚类分析得出样本的聚类谱系图,即可得出酿酒葡萄的分类情况。再结合葡萄酒的质量,这里需要注意
7、的是,我们要用到问题一较为可信那一组的评分情况作为质量的标准,再用其来衡量几类葡萄的好坏2.3 问题三:分析题意不难发现,这是两个有较多变量的指标样本。那么不能用多元线性回归来解决问题。由于葡萄的理化指标过多,直接进行典型相关分析无法实现,我们考虑用因子分析进行降维,之后利用降维后的指标进行系统聚类分析,在这里我们.考虑用离差平方法进行聚类。再找出能够衡量葡萄酒质量的标准来对聚类的结果进行分析,充实。2.4 问题四:题目要求我们找出哪些酿酒葡萄和葡萄酒的理化指标对葡萄酒质量有影响,并且论证能否用葡萄和葡萄酒的理化指标来直接评价葡萄酒的质量。我们运用酿酒葡萄和葡萄酒的理化指标与葡萄酒的评分建立多
8、元线性回归模型,得出通过了显著性检验的参数,从而判断出哪些理化指标对葡萄酒质量有显著影响。最后我们将酿酒葡萄和葡萄酒的感官指标当作变量引入回归方程,得到新回归方程的拟合度和显著性检验,然后判断出能否用葡萄和葡萄酒的理化指标来直接评价葡萄酒的质量。三、模型假设1.品酒员之间的打分不会相互影响。2.品酒员个人对各酒品的打分标准保持不变。3.酿酒工艺对不同葡萄酒的质量的影响保持一致。4.葡萄酒和酿酒葡萄的理化指标在短期内是稳定、保持不变的。四、符号说明x1:氨基酸总量mg/100gfwx21:固酸比x2:蛋白质mg/100gx3:VC含量mg/Lx4:花色苷mg/100gx5:酒石酸g/Lx6:苹果
9、酸g/Lx7:柠檬酸g/Lx9:褐变度A/g*g*min*mlx10:DPPH自由基g/Lx11:总酚mmol/kgx12:单宁mmol/kgx13:葡萄总黄酮mmol/kgx14:白藜芦醇(mg/kg)x15:黄酮醇(mg/kg)x16:总糖g/Lx17:还原糖g/Lx18:可溶性固形物g/Lx19:PH值x22:干物质含量g/100gx23:果穗质量gx24:百粒质量gx25:果梗比(%x26:出汁率%x27:果皮质量gx29:果皮颜色a*x30:果皮颜色b*x8:多酚氧化酶活力EA/mingmlx28:果皮颜色L*y1: 花色苷(mg/L)y2: 单宁(mmol/L)y3: 总酚(mmo
10、l/L)y4: 酒总黄酮(mmol/L)y5:白藜芦醇(mg/L)y6:DPPH半抑郁体积(uL)y7:色泽L*(D65)y8:色泽a*(D65)y9:色泽b*(D65)x20:可滴定酸g/L.五、模型的建立与求解5.1问题一模型5.1.1问题一模型的准备1.样本配对 T 检验的理论两独立样本 T 检验就是根据样本数据对两个配对样本本来自的辆配对总体的均值是否有显著差异进行推断。两配对样本T检验的前提条件:两样本应该是配对的两样本的观察值数目相同,两样本的观察只的顺序不能随意更改;样本来自的两个总体应该服从正太分布。提出原假设两配对样本T检验的原假设H0为:两总体均值无显著差异,表述为H0:1
11、2 0。1,2分别为第一个和第二个总体的均值。要检验的假设为:H0:12H1:12记S1(Xi X)(Xi X)Ti1nS2(YiY )(YiY )Ti1m采用统计量为T2mn(m n 2)(X Y )T(S1 S2)1(X Y )m n2.在此我们将会用到matlab工具箱的一个命令:h=normplotx此命令显示数据矩阵X的正态概率图,如果数据来自于正态分布,则图形显示出直线型形态,而其它概率分布呈现曲线形态。有了以上知识我们利用matlab编程对数据进行正态性检验程序见附录5.1.2 问题一模型的建立首先,我们对数据进行处理。附录1给出了10位品酒员分别对27种红葡萄酒和28种白葡萄酒
12、关于外观分析、香气分析、口感分析和平衡/整体四方面数据的评分数据。我们首先将红葡萄酒与白葡萄酒的种类编号按从小到大顺序排好以便后续数据处理工作的顺利进展,通过观察我们可以发现,编号为3的白葡萄酒在第7位品酒员在口感分析中的持久性一项中数据出现明显偏差,故我们将这一项剔除,所以最后均剩下27种红葡萄酒和27种白葡萄酒。接着,我们对10位品酒员对27种红/白葡萄酒的各项评分项目其中包括外观分析的澄清度、色调,香气分析的纯正度、浓.度、质量,口感分析的纯正度、浓度、持久性和质量作求平均值处理,再将各平均值相加,得到不同编号不同种类葡萄酒的各自分数,结果如下表1所示:表1品酒员品酒得分表第一组红酒第二
13、组红酒第一组白酒第二组白酒162.768.182.077.9280.374.074.275.8380.474.679.476.9468.671.271.081.5573.372.168.475.5672.266.377.574.2771.565.371.472.3872.366.072.980.4981.578.274.379.81074.268.872.371.41170.161.673.372.41253.968.365.973.91374.668.872.077.11473.072.672.478.41558.765.774.067.31674.969.978.880.31779.374
14、.573.176.71860.165.472.276.41978.672.677.876.62079.275.876.479.22177.172.271.079.42277.271.675.977.42385.677.173.376.12478.071.577.179.52569.268.281.374.32673.872.064.877.02773.071.581.379.6考虑以上表格,第一组红酒与第二组白酒配成第一对,第二组红酒与第二组白酒配成第二对,满足配对样本T检验的前提条件,在此我们利用matlab编程对数据进行正态性检验程序见附录1,得到图1。.图1 正态性检验可以看出,除少数异
15、常点外,图形基本呈现直线型形态,这说明这四个样本都满足正态分布,满足进行T检验的基本条件。到此样本完全满足进行配对样本T检验的所有前提条件,我们利用SPSS软件进行,得到下表:表2-成对样本检验成对差分均值标准差均值的差分的 95% 置信区间标准误下限上限.4489-4.30384.6918tdfSig.(双侧).019.021第一对2.57045.36281.0321第二对 -2.34444.9531.95322.49026-.3851-2.45926根据以上输出结果我们可以得到第一组红酒 - 第二组红酒pearson值为0.0190.05,第一组白酒 - 第二组白酒pearson值为0.0
16、210.05。两组红酒和白酒的评分都存在明显的差异。由此我们可以得出结论:两组评酒员的评价结果存在显著性差异。因此,以上我们通过matlab编程对数据进行正态性检验后再用spss进行配对T检验。可以看出,两组品酒员的评价结果存在显著性差异。这说明两组品酒员的评价结果中有一组并不准确可信。因此我们对问题进一步深入研究,通过可信度分析.方法分析两组品酒员品酒结果的可信度。5.1.3 可信分析在葡萄酒的感官评价中, 由于品酒员间存在评价尺度、评价位置和评价方向等方面的差异, 导致不同品酒员对同一酒样的评价差异很大, 从而不能真实地反映不同酒样间的差异。所以我们认为,品酒员给的评分波动值越大时,说明此
17、品酒员的可信度越低。1下面我们将分别对附件1中两组评酒员所给出的评分进行方差分析,然后再去分析哪一组的评酒员可信度比较高。(方差分析表见附录2)由上面的方差分析结果可以知道,第一组和第二组的P值和F值都相差不大,所以我们只能用组间离均平方和去比较他们的波动性。第一组红葡萄酒评分的组间离均平方和为3172.573 ,第一组白葡萄酒评分的组间离均平方和为 18023.93 ,第二组红葡萄酒评分的组间离均平方和为 3060.774 ,第二组白葡萄酒评分的组间离均平方和为6645.781 。很显然,第二组评酒员所给的评分的波动性比较小,所以第二组评酒员所给的评分是更可信的。表3-各组葡萄组间离均平方和
18、对比组间离均平方和组间离均平方和第一组红葡萄3172.573第二组红葡萄3060.774第一组白葡萄18023.93第二组白葡萄6645.7815.2问题二模型5.2.1问题二模型的准备聚类分析的理论:系统聚类的步骤一般是首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度大的指标项目首先聚合为一类,而把另一些相似程度较小的指标项目聚合为另一类,直到所有的指标项目都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一X完整的分类系统图,又称谱系图。进行类别合并的准则是使得类间差异最大,而类内差异最小为了将一些指标项目进行分类,就需要研究
19、指标项目之间关系。是将一个指标看作P 维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。5.2.2问题二模型的求解根据系统所附表格葡萄和葡萄酒的理化指标表格,葡萄的理化指标分为一级指标和二级指标,从数据中也不难发现,对于大多数一级指标来说,它是由旁副的几个二级指标的加和得到的。为了计算简便,我们只选用一级指标来进行分析,以一级指标概括描述二级指标。分析数据后,得知总共划分为30个指标,对于红葡萄和白葡萄两个样本,我们选择将它们分开来进行分析。考虑到指标众多,我们先选取红葡萄的理化指标进行因子分析,利用因子分析法进行降维,达到简化数据的目的。该过程利用SPSS软件
20、实现。通过对葡萄的指标进行评价,提炼出几个对葡萄总体理化指标有显著影响的因子,见表4。表4-因子分析.氨基酸总量蛋白质花色苷酒石酸g/L苹果酸g/L柠檬酸g/L多酚氧化酶活力褐变度总酚(mmol/kg)葡萄总黄酮mmol/kg黄酮醇(mg/kg)总糖g/L可溶性固形物g/l果梗比(%)出汁率(%)初始1.0001.0001.0001.0001.0001.0001.0001.0001.0001.0001.0001.0001.0001.0001.000提取0.9580.8280.8920.8640.8900.8250.7010.9040.8980.8260.6600.8780.9200.8030.
21、612在进行因子分析后,我们发现原本的30个指标只被采用了15个,由此达到一个缩减指标的目的,但剩下的15个指标能很好地反映原本样本模型,接下来我们利用这15个指标对红葡萄进行聚类分析2,得到图2。图2-红葡萄的聚类分析谱系图.对红葡萄的27个样本聚类谱系图。依据谱系图聚成5类。接着,我们对这五类红葡萄所对应的葡萄酒的质量进行量化。3选取第一问模型得出的较可靠的第二组评酒员的打分作为葡萄酒质量的衡量标准。我们得到下表。从五类红葡萄所对应的葡萄酒得分均值与方差表中,不难发现每一类葡萄的均值呈递增趋势,在表的基础上我们制定标准,将葡萄分为A、B、 C、D、E五个级别。第一类葡萄所酿葡萄酒质量评分均
22、值明显最低,我们将其划为E级红葡萄,这种葡萄质量最差。同样的,第二类、第三类、第四类、第五类红葡萄分别定为D、C、B、A四个等级,分别代表质量较差,质量一般,质量较好,质量最好的四种酿酒葡萄。这样我们就实现了对葡萄的分级。表5-红葡萄酒的聚类分析表葡萄酒编号质量评分均值方差61.60第一类1166.3251.94第二类6、7、12、1868.911.37第三类1、8、144、5、10、13、15、16、17、19、70.969237.283第四类20、22、24、25、26、2775.225.852第五类2、3、9、21、23表6-红葡萄的分级分级葡萄酒编号A级酿酒红葡萄2、3、9、21、23
23、B级酿酒红葡萄4、5、10、13、15、16、17、19、20、22、24、25、26、27C级酿酒红葡萄1、8、14D级酿酒红葡萄6、7、12、18E级酿酒红葡萄11对于白葡萄,我们采用同样的方法,做出来的分级如下:表7-白葡萄的分级分级葡萄酒编号A级酿酒白葡萄5、9、15、17、28B级酿酒白葡萄1、10、14、22、25、27C级酿酒白葡萄4、12、18、19、20、23、24、26D级酿酒白葡萄2、3、6、7、8、13E级酿酒白葡萄11、16白葡萄也分为A、B、C、D、E五个等级,分别代表质量最好,质量较好,质量一般,质量较差,质量最差的五种酿酒葡萄。其中,编号为5、9、17、15、2
24、8的酿酒白葡萄为A级酿酒葡萄,编号为27、14、1、22、25、10的酿酒白葡萄为B级酿酒葡萄,编号为12、26、19、4、23、24、18、20的酿酒白葡萄为C级酿酒葡萄,编号为2、3、6、7、8、13的酿酒白葡萄为D级酿酒葡萄,编号为11、16的酿酒白葡萄为E级酿酒葡萄。.5.3 问题三模型5.3.1 问题三模型的准备典型相关分析的理论依据首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此继续下去,直到两组变量之间的相关性被提取完毕为此。被选出的线性组合配对称为典型变量,它
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2012 全国大学生 数学 建模 大赛 一等奖 论文
限制150内