多元统计分析及其在烟草学中的应用.pdf
《多元统计分析及其在烟草学中的应用.pdf》由会员分享,可在线阅读,更多相关《多元统计分析及其在烟草学中的应用.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 134中国烟草学报2014 年 10 月 第 20 卷 第 5 期统计分析专栏多元统计分析及其在烟草学中的应用杨锦忠,宋希云青岛农业大学/山东省旱作农业技术重点实验室,青岛 266109摘要:比较全面系统地介绍了多元统计分析方法。在阐述多元统计在烟草学中应用重要性、必要性和可行性的基础上,介绍了以下方法及其在烟草学中的应用:(1)直观分析和判读数据的多元作图可视化;(2)把数据化繁为简的主成分分析;(3)将数据分门别类的聚类分析;(4)诊断识别新样品的判别分析;(5)解析两组变量之间关联的典型相关分析。用一句话概述特点的方式,列出了典型变量分析、多元方差分析、对应分析等经典方法,以及空间统计
2、学、支持向量机、投影寻踪、分类与回归树、偏最小二乘法、结构方程模型等新型方法。强调了 Bootstrap 重抽样对于增强多元统计分析结论说服力的重要性。关键词:多元统计分析;烟草学;应用案例;新技术新方法doi:10.3969/j.issn.1004-5708.2014.05.022中图分类号:O212 文献标志码:A文章编号:1004-5708(2014)05-0134-05Multivariate statistical analysis methods and their application in tobacco scienceYANG Jinzhong,SONG XiyunQing
3、dao Agricultural University/Shandong Provincial Key Laboratory of Dry Farming Techniques,Qingdao 266109Abstract:The paper was intended to open a multivariate statistical analysis(MSA)window where researchers,practitioners and managers capture some systemic pictures of MSA from a view of comprehensib
4、ility.Importance,essentiality and feasibility were analyzed of MSA application to tobacco science.Five MSA methods and their applications in applied botany including tobacco were introduced in a concise way,plus advances in the methods.These methods include(1)graphs and visualization of multivariate
5、 data;(2)principle component analysis for dimension reduction;(3)cluster analysis for classification and categorization;(4)discrimination analysis for identification and diagnosis;(5)canonical correlation analysis for interdependence and dependence between 2 sets of variables.Three additional tradit
6、ional MSA methods of canonical variate analysis,multivariate variance analysis and correspondence analysis were listed by means of one sentence summary of their functions.New MSA methods were also mentioned of geo-statistics,support vector machine,projection pursuit,classification and regression tre
7、es,partial least square and structural equation modeling.Bootstrap resampling technique was strongly recommended to use together with MSA in order to enhance the reliability of results.Keywords:multivariate statistical analysis;tobacco science;statistical application cases;new statistical techniques
8、基金项目:泰山学者岗位(20090510);山东省旱地作物水分高效利用创新团队(20121025)作者简介:杨锦忠(1963),男,教授,从事数字农业研究,Email: 通讯作者:宋希云(1963),男,教授,从事作物遗传育种研究,Tel:0532-86080009,E-mail: 收稿日期:2013-10-12 Epub:2014-10-20统计学研究对于烟草研究与应用的重要性不言而喻。作者曾分别以“烟草学术论文的统计学表达与展示”和“单一响应变量统计分析在烟草学中应用的若干问题”为题,与烟草学同仁进行了交流。随着烟草科技的进步,数据分析方法及计算机软件的快速发展与普及,多元统计方法在烟草学
9、中的应用正在从深度与广度两个方向快速发展。本文旨在为广大烟草学研究、应用和管理人员打开一个全面系统了解多元统计的窗口。1烟草学应用多元统计的必然性多元统计在烟草学中应用的重要性体现在两个 135杨锦忠等多元统计分析及其在烟草学中的应用方面:第一、烟草学具有客观多元性。烟草的种植系统、加工系统、消费系统都是复杂的多组分系统。生态环境、烟草品种、种植措施、工艺等诸多因素,共同影响烟草产品的产量与质量;经济的、管理的、医学的诸多因素,共同影响烟草产品的营销和经营水平。多元统计恰恰就是专门面向多组分系统的数据分析方法。另外,当今科学方法论的发展趋势之一是更加重视科学研究的整体性和全面性,为了展现一个多
10、组分系统中变量之间错综复杂的关系模式与格局,新型多元统计分析方法不断涌现。第二、多元统计优于一元统计。与一元统计相比,多元统计分析易于发现处理间细微判别,对事物的认识更深刻,更接近事物本来面目。多元统计在烟草学中应用的必要性也体现在两个方面。一方面,数据采集手段与方法(环境因子传感器技术、数字图像处理和遥感等波谱技术、DNA 测序及基因芯片技术等)进展迅速,自动化与半自动化测量仪器应用越来越广泛,多元数据的获取更加便利,数据量日益增多,这已成为烟草学理论研究和技术开发的常态,客观上要求采用多元统计的数据分析方法。另一方面,烟草营销和经营领域与农学等领域不同,通常无法开展控制条件下的随机化试验研
11、究,只有“流水帐”式的事实数据。对于此类数据,只有采用多元统计方法,才能在错综复杂的大量数据矿产中挖掘出有价值的信息,阐明不同变量之间的关系,评价各个变量对营销和经营的重要性,探寻变量间作用模式和分布格局。从现在往前推二三十年,在烟草学中应用多元统计遭遇以下障碍:受到研究手段和仪器设备限制,试验重复次数少或者样品数目小,测定项目少,难以获得大样本数据;计算复杂,凭借人工方式或者计算器辅助方式难以完成,必须使用计算机软件,而软件数量少且价格高;分析结果有时不易解读,基本假定时常难以验证。目前形势已发生了很大变化。经典多元统计分析方法在生物学、生态学和农学中的应用已经是常态,而且,随着数据分析新方
12、法的不断出现,各种商用和免费的计算机多元统计软件也同步推出,互联网突破了统计新技术传播的时间和空间限制,大大方便了推广应用。统计软件的多元作图和可视化功能增强,在很大程度上增加了原始数据和分析结果的易读性和直观性。重抽样技术的兴起和普及,在较大程度上突破了一些基本假定的限制。除传统时间序列统计分析领域继续进步外,生态系统固有的空间变异属性受到了前所未有的重视,短短几十年内,空间统计学自诞生以来就一直飞速发展。所有这些都为我国烟草学领域广泛应用多元统计创造了良好条件,我们应该与时俱进,主动认识它,了解它,这对提升烟草学研究和生产水平具有重要意义。2多元作图可视化方法二维和三维的散点图和密度图有助
13、于识别离群点、极端点和聚合点,初步判断关联走向1。由两两变量散点图组成的阵列图能够展示诸多变量之间关联的分布模式和格局。具有动画的散点图软件还可以任意变换视角,选择展示变量关联的最佳角度。值得指出,图中坐标点既可以是原始数据,也可以是多元统计的分析结果。统计脸谱图1-2,也称 Chernoff 脸谱图,是多元作图的一种经典方法,能在平面上直观、形象地展示多变量数据的特征,它有多个变种。其中一种可以绘制最多 36 个变量的数据,一个变量对应面部的一个特征,左右半脸各对应 18 个变量。应用此技术有两个关键点,一是变量的归一化变换(最小值对应 0,最大值对应 1),二是面部特征与变量的对照表。利用
14、人类对面部特征细微变化敏感的心理特质,借助脸谱图,既可以同时依据多个变量对样品进行相似性或者相异性的综合直观辨别,也可以识别离群点(例如两个以上变量取值异常生成极端脸形,又如某个变量取值异常,对应面部特征有显著变化)。平行坐标图3是多元作图的又一种经典方法。平行坐标图与脸谱图一样,突破了笛卡儿坐标系只能表示二维和三维数据的限制,特别适合展示变量数目超过 3 个的多元数据。其技术原理很简单,首先对每个变量进行归一化变换,在横坐标轴上依次排列全部变量,变量值为纵坐标,一个样品的各点依次连接为一条折线。离群点看起来是离群的多边形。变量顺序对图形易读性有重要影响,一种顺序可能比另一种顺序更能反映数据变
15、化的态势。使用颜色表示样品类别可以改善图的易读性。双标图能够在图中同时显示由多个样品多个变量(离散型和连续型)组成的数据,可以展示主成分、典型相关、多维尺度分析、各种对应分析的结果4。3主成分分析通俗地讲,主成分分析就是将复杂的多元数据进行简化,把多个相互关联的指标化简成少数几个相互独立的综合指标,而且,这些综合指标最大程度地保留了原来数据的信息。一个变量的信息量常用其方差 136中国烟草学报2014 年 10 月 第 20 卷 第 5 期表示,全部变量的方差总和就是多元数据的信息总量。用最简单的统计语言描述基本原理就是,首先寻找变量的线性组合中最大方差的那一个,称为第一主成分;接着,在剩余信
16、息中寻找方差最大的、并且与第一主成分独立的变量线性组合,称为第二主成分;如此反复,直到剩余信息等于零为止。可以使用协方差矩阵或者相关系数矩阵计算主成分,这两种计算方法获得的结果并不相同。使用协方差矩阵意味着变量的信息量大小完全取决于其方差大小,而且,当变量量纲不同时,产生分析结果不易解释问题;使用相关系数矩阵则意味着不同变量的信息量相同,并且消除了量纲不同的干扰。主成分的主要用途如下:作为一种化简即所谓降维技术,构造综合指标;在二维或者三维空间中实现多元数据的可视化;作为其它多元统计分析的数据源,例如主成分回归、主成分聚类、主成分判别等。主成分的简化能力取决于原始变量之间的线性相关性,相关性越
17、强,简化效果越明显。例如,汪显国等6利用主成分方法综合评价烟丝产品中 6 种加香物质含量的均匀性,前两个主成分的累计方差和达到总方差的 98.8%,这意味着已经把 6 个变量化简为 2个新变量,同时几乎保留了原来6个变量的全部信息。主成分分析最早根据多元联合正态分布推导而来,显然,连续性、正态性和线性相关成为基本假定。赵杰宏等人7的研究中烟叶变量(外观质量指标和评吸质量指标)都是有序变量而非连续变量,明显不符合主成分分析的连续性和正态性假定,显然不能使用普通相关系数,而应该使用 Polychoric 相关系数5。随着新型统计技术的出现,主成分分析正在突破早期的假定限制,如投影寻踪主成分等方法解
18、决了主成分对离群点敏感的问题,提供了所谓的稳健主成分,又如核主成分等方法解决了经典主成分无法处理变量间非线性关系的问题,拓展了主成分的应用范围。鉴于试验或者调查研究的结果总是样本结果,人们就用样本的主成分近似总体的主成分。样本结果的偶然性必然引起样本主成分的偶然性,这时,如何确定合理的主成分数目和如何准确计算主成分的标准误就成为影响主成分实际应用效果的重要问题。目前看来,Bootstrap 等统计重抽样技术提供了一种切实可行的解决方案8。4聚类分析聚类分析是根据“物以类聚”的思路,对样品或者指标(即变量)进行分类的一种多元统计分析方法。聚类分析属于数值分类的范畴,是一种探索性数据挖掘技术。样品
19、聚类分析是在事先不知道应分多少类的情况下,进行探索性分析,对观察对象即样品依据某些数量特征适当分类。变量聚类分析是在事先不知道应分多少类的情况下,进行探索性分析,对观察对象的数量特征直接分类。样品分类的常用距离有:欧氏距离,马氏距离,闵可夫斯基距离等,样品间距离越小则划入同一类的可能性越大,反之亦然。指标分类的常用相似系数有:夹角余弦,相关系数,指标间相似性越大则划入同一类的可能性越大9。上述情形只限于连续型变量,对于二值变量组成的多元数据,最好构造特殊的距离或者相似系数1。为消去变量量纲不同或者变异幅度不同的影响,样品聚类时,要对变量进行标准差标准化或者极差标准化变换,而变量聚类时,同样要对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 及其 烟草 中的 应用
限制150内