聚类分析与模糊数学在烟叶品质综合评价中的应用.pdf
第29卷第4期江 西 农 业 大 学 学 报Vol.29,No.42007年8月Acta Agriculturae Universitatis JiangxiensisAug.,2007文章编号:1000-2286(2007)04-0550-06聚类分析与模糊数学在烟叶品质综合评价中的应用陈义强1,沈笑天1,刘国顺13,赵明山2,胡焕兴2,赵国交3(1.河南农业大学 国家烟草栽培生理生化基地,河南 郑州450002;2.河南省南阳烟草分公司,河南 南阳473000;3.河南省南阳市烟叶生产办公室,河南 南阳473000)摘要:生产上烟叶的质量评价主要通过外观品质(烟叶分级)来进行。由于主观性的影响,这种方法常常导致同样的烟叶被不同的人分成不同的等级。随着近红外线分析方法在烟叶质量评价中的普遍应用,以化学成分为依据的烟叶质量评价方法将成为主流趋势。为此,本研究以河南省南阳烟区的烟叶样品为例,通过层次聚类的方法对烟叶主要化学成分进行分析,并求得各类的平均值,之后根据聚类结果用模糊数学对其化学品质进行综合评价,由于先用层次聚类分析对样本进行了归类,使得大样本的综合评价变得简单清晰,因此该方法特别适用于大量样本的综合评价。应用该方法对南阳烟区的烟叶样品进行综合评价,结果表明,若把50份样品分为2类,则腰叶和上二棚叶几乎各自聚为一类。若把50份样品分为4类,则模糊评价的结果显示,第 类样品的得分最高,表明其烟叶质量最佳。该方法的评价结果与腰叶优于上二棚叶的传统看法一致,与南阳烟区优质烟叶分布的实际情况也基本一致,表明用本研究的方法来评价烟叶的质量是比较客观的,也是可行的。关键词:综合评价;聚类分析;模糊数学;烟叶品质中图分类号:S572 文献标识码:AComprehensive Evaluation of Flue-cured Tobacco LeavesBase on Cluster Analysis and FuzzyMathematicsCHEN Yi-qiang1,SHEN Xiao-tian1,L I U Guo-shun13,ZHAO Ming-shan2,HU Huan-xin2,ZHAO Guo-jiao3(1.National Tobacco Cultivation of Physiology&Biochemistry Research Center,Henan AgriculturalUni2versity,Zhengzhou 450002,China;2.Nanyang Tobacco Company of Henan Province,Nanyang 473000,Chi2na;3.Nanyang City Tobacco Office,Nanyang 473000,China)Abstract:The quality of cured tobacco leaves was mainly assessed by sense of s mell,taste,touch andsight in the past long time,and this assessment always led to different results of the same cured tobacco leav2es.So a method combining cluster analysiswith fuzzy mathematics was established to access the flue-curedtobacco leavesquality.First,cluster analysiswas used to classify the samples,after that fuzzy mathematicswas easily used to access the tobacco leavesquality because the numbers of samples had been greatly de2creased after cluster analysis.Then themethod was used to evaluate the tobacco leaves quality in Nanyang are2a and the result showed that the cutters and the upper leaves from 25 siteswere almost individually classified to收稿日期:2007-03-14 修回日期:2007-04-17基金项目:国家烟草专卖局资助项目(110200401004)作者简介:陈义强(1978-),男,博士生,主要从事烟草栽培生理研究,E-mail:;3 通讯作者:刘国顺,博士生导师,教授,主要从事烟草栽培生理研究,E-mail:。第4期陈义强等:聚类分析与模糊数学在烟叶品质综合评价中的应用different clusterwhen all sampleswere classified to 2 clusters.The result also showed that leaf quality of thethe third clusters tobacco was the best when all samples were classified to 4 clusters.The results coinsidedwith the fact that the quality of cutterswere better than upper leaves and the distribution of high grade tobaccoleaves in Nanyang area,which showed that the method to assess the tobacco leavesquality was feasible.Key words:comprehensive evaluation;cluster analysis;fuzzy mathematics;quality of tobacco leaves目前,生产上烟叶的质量评价主要通过外观品质来进行,由于主观性的影响,这种方法常常导致同样的烟叶被不同的人分成不同的等级。烟叶的外观品质是化学成分的外在表现,用化学成分评价烟叶的质量更具有客观性,特别是随着近红外线分析技术的发展,烟叶中化学成分的测定也变得更加简便和快速,这也正是今后烟叶质量评价的发展趋势。评价烟叶质量的指标众多,如何以多指标为依据进行综合评价一直以来都是一个热点问题。聚类分析的实质是按照距离的远近将数据分为若干个类别,以使得类别内数据的差异尽可能小,类别间差异尽可能大。它通常可以分为层次聚类法、K-均值聚类法和两步聚类法。层次聚类法的优点是其产生的结果(树状图)形象直观,易于解释,而且还能找到每个样本所属的类别,缺点是当样本数量较大时(100)其结果的展示比较困难。K-均值聚类法和两步聚类法适合于对大样本(100)进行聚类,但其结果中无法找到具体每个样本所属的类别。在对烟叶样品或土壤养分状况进行聚类分析后,人们都希望能找出具体每个烟叶样品或土壤样品所属的类别,以便明确形成优质烟叶的原因或确定施肥方案。因此,层次聚类法较适合应用于烟叶样品或土壤样品的聚类分析,其结果可为烟叶品质评价和烟区平衡施肥提供依据1。由于聚类的结果只是进行分类,为烟叶品质评价提供依据,无法直接评价,因此在进行烟叶质量综合评价时还必须结合模糊数学的方法。本研究以河南省南阳烟区的烟叶样品为例,通过层次聚类的方法对烟叶主要化学成分进行分析,并求得各类的平均值,之后根据聚类结果用模糊数学对其化学品质进行综合评价,旨在寻求客观、合适的方法来评价烟叶的质量。1 材料与方法1.1 供试材料与供试地点2003年取河南省南阳烟区种植当年主栽品种云烟85的25个地点的烤后腰叶和上二棚叶样品。其中内乡县取8个点,邓州县取8个点,方城县取4个点,唐河县取3个点,西峡县取2个点。所取样品均为各取样地点中具有代表性的样品。栽培措施根据各自的气候条件、土壤类型及肥力按优质烟栽培技术要求进行。1.2 测定项目和数据分析水溶性总糖和还原糖用伯川法测定,蛋白质用间接法测定,总氮用过氧化氢-硫酸消化法测定,烟碱用紫外分光光度法测定,氯用莫尔法测定,钾用火焰光度法测定2。数据分析用SPSS 12.0中的描述统计量(Descriptive Statistics)、层次聚类法(Hierarchical Cluster)及平均数分析(CompareMeans)。2 结果与分析2.1 各化学指标的描述统计量水溶性总糖、还原糖、蛋白质、总氮、烟碱、氯、钾、钾氯比和施木克值这9个指标是烟叶质量评价中常用的化学指标。从表1中可以看出这九个指标的数据都是有效的,它们的最小值、最大值及平均数也都属于各指标中较为正常的数据。由于这50个样品来自25个地点,且其中有25个为腰叶,25个上二棚叶,因此有些指标的标准偏差较大,如钾氯比的平均数为8.157,标准偏差为5.850 6。2.2 层次聚类分析根据以上9个化学指标,对来自25个地点的50个样品(每个地点各有腰叶和上二棚叶两个样品)进行层次聚类分析,得到聚类分析树状图(图1)。烟草不同部位叶片的化学指标值通常是有差异的。155江 西 农 业 大 学 学 报第29卷从图1中可以看出,当聚类距离为11时,来自25个地点的50个样品可以被分为2大类,腰叶和上二棚叶几乎各自聚为一类。这表明腰叶与上二棚叶在化学指标上的差异还是比较明显的。其中有7个地点的上二棚叶被归到了腰叶的那一类,表明这7个地点的上二棚叶的9个化学指标值与其它地点的腰叶的化学指标值较为接近。同样,有6个地点的腰叶被归到了上二棚叶的那一类,表明这6个地点的腰叶的9个化学指标值与其它地点的上二棚叶的化学指标值较为接近。表1 描述统计量Tab.1Descriptive Statistics指标样本数最小值最大值平均数标准偏差水溶性总糖/%5017.2125.2421.3872.089 3还原糖/%5014.5223.5918.7662.107 0总氮/%501.322.841.8910.306 2蛋白质/%506.2911.968.5531.193 9烟碱/%501.874.062.6520.501 7钾(K)/%500.892.231.3980.255 3氯(Cl)/%500.070.760.2710.176 2施木克值501.803.552.5550.474 4钾氯比(K/CL)501.8322.258.1575.850 6有效样本数50表2 四类样品各化学指标的平均值Tab.2M ean reports of 4 clusters类别水溶性总糖/%还原糖/%总氮/%蛋白质/%烟碱/%钾/%氯/%施木克值钾氯比平均值22.5119.861.737.922.431.390.392.864.06样品数161616161616161616标准偏差1.701.790.210.850.360.220.160.311.63平均值21.2018.522.129.202.961.320.202.339.35样品数181818181818181818标准偏差1.481.470.271.030.510.180.120.255.48平均值21.8419.401.627.682.291.630.112.8915.55样品数101010101010101010标准偏差2.242.160.130.950.180.340.030.493.77平均值18.2115.542.109.742.951.290.451.873.15样品数666666666标准偏差1.020.900.210.780.520.160.150.071.21平均值21.3918.771.898.552.651.400.272.568.16总计样品数505050505050505050标准偏差2.092.110.311.190.500.260.180.475.85当聚类距离为7时,来自25个地点的50个样品可以被分为4大类(图1),第 类有16个样品,第 类有18个样品,第 类有10个样品,第 类有6个样品。对这4类样品的各指标求其平均值(表2),并进行方差分析(表3),结果表明各类间化学指标平均值的差异达极显著水平。255第4期陈义强等:聚类分析与模糊数学在烟叶品质综合评价中的应用图1 腰叶(C)和上二棚(B)的聚类分析树状图Fig.1Dendrogram of cutters(C)and upper leaves(B)2.3四类样品烟叶品质的比较分析从表2中可以看出4类样品9个化学指标的平均数及标准偏差。烟碱、总氮和蛋白质都是与烟叶生理强度及刺激性有关的指标。烤烟叶烟碱含量的适宜范围是1.5%3.5%,最适含量为2%2。若烟碱含量小于1%则烟气劲头不足,若大于3.5%则劲头太强。总氮含量的适宜范围为1.5%3.5%,最 适 含 量 为2.5%2。如果总氮含量太低则吃味平淡,高则产生浓烈辛辣的烟气,刺激性较大。烤烟经过调制后一般蛋白质由成熟鲜烟叶含量的12%15%降至8%左右2。优质烤烟的烟叶蛋白质含量应小于10%,10%15%时品质较差,超过15%时则烟气强度过大,香味和吃味变差,产生辛辣味、苦味和刺激性2。表2显示4类烟叶样品的烟碱含量也都落在了适宜范围,以第 类较好,最接近2%。总氮含量也都落在了比较适宜的范围,其中第、类较好,最接近2.5%。蛋白 质 含 量 也 都 小 于10%,其中以第、类较好,最接近8%。一般认为,在一定范围内较高的糖含量对烟叶质量是有利的。但是,如果糖含量太高则会在烟叶中形成一种酸的吃味,从355江 西 农 业 大 学 学 报第29卷而影响烟叶的质量。通常烟叶中可溶性总糖的含量为12%30%,以20%左右为宜,还原糖则以15%左右为宜2。从表2中可以看出4类样品的可溶性总糖都非常好,还原糖含量也很适宜,其中以第 类最好,其可溶性总糖为18.21%,还原糖含量为15.54%。表3 类间化学指标平均值的方差分析Tab.3ANOVA analysis among 4 clusters平方和自由度均方F显著性水溶性总糖83.373327.7919.7940.000还原糖86.736328.91210.1690.000总氮2.37430.79116.4070.000蛋白质29.86139.95411.4510.000烟碱4.36731.4568.4050.000钾(K)0.72230.2414.4770.008氯(Cl)0.78830.26316.4740.000施木克值6.34632.11520.7760.000钾氯比(K/Cl)991.323330.4422.1610.000水溶性总糖和蛋白质的比值称为施木克值。过去曾经认为烟叶的施木克值越高越好,但是实际上施木克值在2以下比较适用,超过2对判明烟叶质量就不那么准确了2。因为若施木克值太高,则有可能是蛋白质含量太低,而蛋白质含量太低会影响烟叶陈化过程中非酶促反应的正常进行。从表2可以看出第 类样品施木克值平均数小于2,其他3类都超过了2,以第 类样品为最高,达到2.89。氯通常被认为是一种必需的微量元素3,4,但过量的氯会影响烟叶的燃烧性4。当氯含量高于0.6%时会增加烟叶的吸湿性,降低燃烧性;超过1.0%时烟叶的燃烧速度减慢,灰黑、持火力减弱;超过1.5%时显著阻燃;超过2%时有熄火的可能;3%以上则完全不能持火2。但是由于氯与钾的相互作用,氯高并不一定导致熄火。一般认为较高的钾含量对烟叶质量是有利的。因此,常用钾氯比来衡量烟叶的燃烧性,钾氯比值最好大于42。从表2中可以看出,氯含量的平均值都没有超过0.6%,其中第 类样品的氯平均含量最低,为0.11%。钾含量的平均值以第 类样品为最高,为1.63%。钾氯比的平均值也是以第 类样品为最高,为15.55,以第 类样品为最低,小于4,仅为3.15。2.4 烟叶质量的模糊综合评价2.4.1 建立评判因素集 以水溶性总糖、还原糖、蛋白质、总氮、烟碱、钾、氯、钾氯比和施木克值9个指标作为评判因素集。2.4.2 确定权重 由于烟叶的质量是个复杂的概念,很难确定哪个化学指标更为重要,因此对水溶性总糖、还原糖、蛋白质、总氮、烟碱、氯和钾这7个指标赋予同样的权重,都为12.5%。施木克值(水溶性总糖与蛋白质的比例)和钾氯比是以上7个指标中2个指标的比值,都赋予6.25%的权重。2.4.3 确定评价标准 分别赋予每个指标10分,得分越高则品质越好。2.4.4 建立各指标相应的隶属函数 在烟叶的品质评价中,一般认为每个指标都有一个最适宜的含量值。若某一指标的值越高对烟叶的品质越有利,则以该指标在本次实验中出现的最高值为最适宜的含量值,若某一指标的值越低对烟叶的品质越有利,则以该指标在本次实验中出现的最小值为最适宜的含量值。水溶性总糖的最适宜含量值为20%,还原糖为15%,蛋白质为8%,总氮为2.5%,烟碱为2%,氯为0.6%。较高的钾含量有利于提高烟叶的品质,本研究参试样品的蛋白质含量和氯含量都不会太低,因此认为较高的施木克值和钾氯比对烟叶质量也是有利的。钾、钾氯比和施木克值3个指标的最适宜的含量值用它们中的最高值来表示,则本文中烟叶钾的最适宜含量值为1.63%(四类中的最大值),钾氯比为15.55(四类中的最大值),施木克值为2.86(四类中的最大值)。最后按以下隶属函数计算各指标的得分(表4)。455第4期陈义强等:聚类分析与模糊数学在烟叶品质综合评价中的应用Sij=101-|Pj-Xij|ni=1|Pj-Xij|(1)(1)式中,Sij-指第i类别第j指标的得分;Pj-指第j指标最适宜的含量值;Xij-指第i类别第j指标的平均数;n-聚类分析的结果有多少类。2.4.5 总得分的计算及烟叶品质综合评价的结果分析 总得分TS按下式计算:TS=mj=1SijNj(2)(2)式中,Sij-指第i类别第j指标的得分;Nj-指第j指标的权重;m-指有m个指标。从表4中可以看出第 类样品的得分最高,表明该类样品的烟叶质量优于其他类别。总分排名第2的是第 类的样品。第 类和第 类的样品大部分为腰叶,表明腰叶的质量确实优于上二棚叶。被归为第 类的样品有10个(图1),样品编号为方城广阳赵庄C、内乡余关麦西C、方城广阳佟庄C、内乡马山老庄C、方城清河后楼C、内乡赵店大峪C、内乡赵店大峪B、西峡田关河上C、西峡回车双河C和内乡赤眉琴溪C。在这10个样品中其中有9个为腰叶,1个为上二棚叶。从样品来自的地点上看,有5个来自内乡县,3个来自方城县,2个来自西峡县。说明这几个地点的烟叶品质比较好。表4 各类的得分情况Tab.4Scores of each cluster类别水溶性总糖还原糖总氮蛋白质烟碱钾氯施木克值钾氯比总分6.586.356.839.858.377.308.329.816.187.708.377.368.447.806.356.526.806.527.947.367.496.706.389.418.90106.0810108.127.569.598.356.816.396.188.803.665.887.313 结论与讨论作为卷烟工业的原料,烟叶的质量评价具有十分重要的作用。因此许多研究都致力于建立合适的方法来评价烟叶的质量。其中主要的评价方法有H Brckne品质指数、C Pyrki品质指数及施木克值等。在H Brckner烟草品质指数的计算公式中,上部和中部烟叶的质量指数为199.2,下部烟叶的为127.3。但该品质指数只是各指标在量上的叠加,与生产实际状况不尽相符,因此未被广泛使用2。C Pyrki对H Brckner的品质指数进行了修改,但也未获得统一意见2。施木克值是水溶性糖和蛋白质含量的比值,在一定范围内施木克值大则烟叶质量好2。但施木克值常常忽视了烟叶在调制和陈化过程中的糖类和氨基酸所进行的非酶棕色化反应。烟叶的质量是个数量性状,是多种因素相互作用的结果,而最终起决定作用的是这些因素之间的均衡性。因此,烟叶的质量评价应该是以多指标为基础的综合评价。我国烟草种植面积和总产量均居世界首位4,5。因此在进行烟叶质量评价的过程中经常会遇到大量的样本数量。当样本数量超过50个,甚至超过100个、1 000个时,如果对每个样本进行逐一综合评价比较,不仅费时费力,而且也没有必要。这时便可以先用层次聚类分析法对大量的样本进行归类,根据类间平均值确定适宜的类别数,再用模糊数学的方法对各类进行综合评价。该方法的优点是不仅可以使大量样本的综合评价变得简单清晰,又不丢失大量样本中所包含的信息,而且在必要的时候还可以在层次聚类中找到具体每个样品所属的类别。评判因素集的选择是模糊综合评价中重要的一个环节,如果选择评判因素集不够科学,会直接影响到综合评价的结果。烟叶质量是个复杂的概念,与烤烟烟叶质量有关的化学指标也有很多。从烟株吸收的营养物质来看,烟株通过光合作用从空气中吸收二氧化碳,同时通过根部吸收土壤中的无机氮,这样,空气中的二氧化碳和土壤中的无机氮便分别成为了烟株内碳-氮代谢的碳源和氮源。碳-氮代谢555江 西 农 业 大 学 学 报第29卷平衡是植物体内最基本也是最重要的代谢平衡。因此,用影响烟株内碳-氮代谢平衡的主要化学指标来评价烟叶质量具有较强的参考价值。烟草中的含氮化合物主要有生物碱、蛋白质、游离氨基酸、叶绿素、硝酸盐和其他含氮杂环化合物。烟碱是烟草生物碱的最主要化合物,它几乎等同于烟草6。烟碱本身具有烟草特殊香味,烟气中的几种吡啶化合物香气成分是由烟碱高温分解形成的2。游离态烟碱具有较强的刺激性,能给吸食者适当的生理强度和好的香气与吃味2。烟叶中适量的蛋白质能够赋予烟草充足的香气和丰富的吃味强度2。但是蛋白质含量的增加通常表现为对烟气香味不利的影响7。糖是碳代谢的基本原料。糖常用来平衡烟香,它能改善烟碱和其他烟草生物碱的感官冲击(劲头)效果2,8,9。施木克值是水溶性总糖与蛋白质的比值,它在一定程度上反应了烟叶中的酸碱平衡程度。钾氯平衡也是衡量烟叶品质的一个重要方面。过量的氯会影响烟叶的燃烧性4,10,11,而钾则被认为可以改善烟叶的颜色、质地、燃烧性和吸湿性2,4。所以,本研究从碳-氮代谢平衡和钾氯平衡的角度选取了烟碱、蛋白质、总氮、可溶性总糖、还原糖、施木克值、钾、氯及钾氯比9个指标作为评价烟叶品质的评判因素。胡建军等12、高家合等13 的研究也都表明,烟碱、总氮、总糖与评吸质量呈极显著相关。除了评判因素集外,权重的选择对模糊综合评价的结果也有较大的影响。通常确定权重的方法有平均值法、专家打分法及统计学上的一些方法等。前两种方法与专业知识结合得较为紧密,但带有较强的主观性。后一种方法具有较强的客观性,但其结果有时会与专业知识不相符。权重的选择是以专业知识为基础的,因此权重的科学确定有待于专业知识研究的进一步深入。在专业知识还未十分明确的情况下,也可以考虑多种方法的综合应用来确定权重。应用以上方法,对南阳烟区25个地点的50份烤烟样品(其中腰叶和上二棚叶各25份)进行了聚类分析和模糊综合评价。聚类分析的结果表明,若把50份样品分为2类,则腰叶和上二棚叶几乎各自聚为一类。若把50份样品分为4类,则模糊评价的结果表明,第 类样品的得分最高,表明其烟叶质量最佳,该类样品有10个,其中有9个为腰叶,1个为上二棚叶,从样品来自的地点上看,有5个来自内乡县,3个来自方城县,2个来自西峡县。本研究的评价结果与腰叶优于上二棚叶的传统看法一致,与南阳烟区优质烟叶分布的实际情况也基本一致,表明用本研究的方法来评价烟叶的质量是比较客观的,也是可行的。参考文献:1沈笑天,陈义强,刘国顺,等.层次聚类分析法在烟草平衡施肥中的应用J.中国农学通报,2006,22(9):236-2412王瑞新.烟草化学M.北京:中国农业出版社,2003:52-53,62-63,77-78,250-277,170-174,167-168,156-158.3Broyer T C,CarltonA B,Johnson CM,et al.Chlorine-amicronutrient element for higherplantsJ.Plant Physiol,1954,29:526-532.4刘国顺.烟草栽培学M.北京:中国农业出版社,2003:1-3,143-145,150-151.5刘国顺.繁华背后的烟草J.生命世界.2006(5):22-26.6EnzellC R.Terpenoid components of leaf and their relationship to smoking quality and aromaJ.Rec Adu Tob Sci,1976,30(2):32-60.7D Layten Davis,Mark T,Nielsen.烟草 生产、化学和技术M.北京:化学工业出版社,2003:251-253,257-259.8Leffingwell J C.Nitrogen components of leaf and their relationship to smoking quality and aroma J.Rec Adv Tob Sci,1976,30(2):1-31.9Fenner R A.Thermo-analytical characterization of tobacco constituentsJ.Rec Adv Tob Sci,1988,14(42):82-113.10 Neas I.Fertilizer chlorine and soil fumigation for flue-cured tobaccoJ.Tob Sci,1961(5):76-79.11 McCants C B,WoltzW G.Growth and mineral nutrition of tobaccoJ.AdvAgron,1967,19:211-265.12 胡建军,马明,李耀光,等.烟叶主要化学指标与其感官质量的灰色关联分析 J.烟草科技/烟草工艺,2001,152(1):3-7.13 高家合,秦西云,谭仲夏,等.烟叶主要化学成分对评吸质量的影响J.山地农业生物学报,2004,23(6):497-501.655