计算机在生物学上的应用数量分类学优秀课件.ppt
计算机在生物学上的应用数量分类学第1页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法0问题的提出生物分类的定量分类研究分子生物学中的相似性与相异性研究一数量分类的基本概念:数量分类方法,分类运算单位与分类性状等二性状的选取与量化:性状选取的原则,性状编码,数据标准化三系统聚类分析:相似性系数,系统聚合方法等四排序分析:主成分分析等第2页,本讲稿共68页数量分类学原理和方法1-1一数量分类的基本概念(一)数量分类方法和数量分类学 英国微生物学家P.H.A.Sneath 英国动物与人类学家A.J.Cain 美国生物统计学家R.R.Sokal 1963年Sneath&Sokal”数量分类学原理”1973年Sneath&Sokal”数量分类学:数值分类的原理和应用”第3页,本讲稿共68页数量分类学原理和方法1-2一数量分类的基本概念(二)分类运算单位与分类性状 分类运算单位(operational taxonomic unit,OUT)是数量分类学中一个抽象的基本运算单位,可以是一个个体、种、种群、群落、DNA序列、蛋白质的一级结构等等。分类性状(character)是作为分类依据以区分不同事物的特征或属性。OUT在每个性状上所呈现出来的状况或数值称为性状状态(character state)。不能再分解的性状称为单位性状(unit character)。第4页,本讲稿共68页数量分类学原理和方法1-31-3一数量分类的基本概念(二)分类分析 1、聚类分析 运用数学方法研究OUT(或性状)之间的亲疏程度,以此为依据将一批OUT(或性状)聚合为若干OUT组(或性状组)。常用的方法有聚合法、分裂法、加入法、图论法、模糊法、动态法。第5页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法1-4一数量分类的基本概念(二)分类分析 2、排序分析 多数数量分类问题中,性状之间往往具有一定的相关性。利用这种相关性,可用若干综合指标去代替全部性状。为了使较少的综合指标尽可能全面地反映原来全部性状的信息,运用数学方法对性状进行压缩,并在压缩的空间中对OTU进行排序。这就是排序分析。常见的有主成分分析(principal components analysis)和主坐标分析(principal coordinate analysis).第6页,本讲稿共68页数量分类学原理和方法1-5一数量分类的基本概念(二)分类分析 3、判别分析 所谓判别分析是在已对若干样本划分类群的基础上,根据某一OUT的性状综合判别它应置于哪个类群之中。常用方法有距离判别(distance discriminatory)、贝叶斯判别(Bayes discriminatory)等。第7页,本讲稿共68页数量分类学原理和方法1-6一数量分类的基本概念(二)分类分析 4、分类分析和统计分析的区别 不是随机样本 不随机取样第8页,本讲稿共68页数量分类学原理和方法1-7一数量分类的基本概念(二)分类分析 5、数量分类学的优点 (1)具有综合多种来源数据的能力;(2)大部分分类过程自动化,效能大为提高;(3)以数值形式编码,便于电子化管理和交流;(4)因为方法是定量的,故可提供更大示差判别且在划分类元上更为灵敏;(5)使用更多更好的性状,改善了常规分类质量;(6)是对分类学原理和分类目的的重新审查;(7)其研究结果导致了若干生物学概念的重新解释。第9页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法2-12-1二性状的选取与量化(一)性状选取的原则 1、初选性状应尽可能地广泛采用各方面的信息;2、复选时,首先从初选性状中删掉无意义的性状;3、删除不稳定和极稳定的性状;4、对性状的相关性进行分析,删除逻辑相关性状和无意义的经验相关性状;5、考虑性状选取的难易程度,及实验的可重复性。从生物学的观察记录直接得到的性状称为基本性状(fundamental character),从基本性状利用数学方法间接得到的性状称为导出性状(induced character)。第10页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法2-2二性状的选取与量化(二)性状编码 1、编码类型 1)二态性状 2)定量多态性状(连续性状)3)定性多态性状 (1)有序多态性状 (2)无序多态性状 a、转化为有序多态性状 b、分解成二态性状第11页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法2-3-1二性状的选取与量化(三)数据标准化 对m个OUT的n个性状全部编码赋值后,可以排列成如下矩阵:x11 x12 x1n x21 x22 x2nX=xijm*n=OTUi xm1 xm2 xmn X称为原始数据距阵;行向量分别是同一OUT中不同性状的编码值;列向量分别是不同OUT中同一性状状态的编码值。第12页,本讲稿共68页数量分类学原理和方法2-3-22-3-2二性状的选取与量化(三)数据标准化 因为原始数据来源不同,代表的意义不同,所以度量的标准也不同。其差异导致量纲大的掩盖量纲小的。所以必须对性状进行重新标度,即对原始数据距阵进行标准化处理。标准化的主要方法有7种:1、总和标准化 公式:yij=xij/xij 每列元素之和分别除该列元素 性质:yij=1 0=yij=1第13页,本讲稿共68页数量分类学原理和方法2-3-32-3-3二性状的选取与量化(三)数据标准化 2、最大值标准化 公式:yij=xij/MAXxij 用每列最大值分别除该列元素 性质:MAXyij=1 0=yij=1 3、极差标准化 公式:yij=(xij MINxij)/(MAXxij MINxij)用每列的极差除该列元素与最小值之差 性质:MAXyij=1 0=yij=1第14页,本讲稿共68页数量分类学原理和方法2-3-4二性状的选取与量化(三)数据标准化 4、模标准化 公式:yij=xij/xij2 用列向量的模(每列元素平方和的平方根)除该列元素 性质:yij2=1 0=yij=1 5、中心化 公式:yij=xij(xij)/m 用每列元素减去列向量的形心(均值)性质:yij=0第15页,本讲稿共68页数量分类学原理和方法2-3-52-3-5二性状的选取与量化(三)数据标准化 6、离差标准化 公式:yij=(xij(xij)/m)/(xij(xij)/m)2 用每列元素的离差除该列元素的中心化值 性质:yij=0 yij2=1 7、标准差标准化 公式:yij=(m-1)(xij(xij)/m)/(xij(xij)/m)2 用每列元素的标准差除该列元素的中心化值 性质:yij=0 Y中每列元素的方差为1第16页,本讲稿共68页数量分类学原理和方法2-3-6二性状的选取与量化(三)数据标准化 实例:1 0 1 4 2 1 3 0 75 3.2 1 1 0 2 0 1 1 2 23 2.5 0 0 1 1 0 2 1 1 80 1 1 1 1 0 1 0 2 3 42 0.9 1 0 0 3 3 0 0 2 21 1.6 1 1 0 2 3 0 0 2 15 2 1 0 0 2 1 1 1 1 43 2.2 0 1 1 1 0 2 1 0 31 1.8第17页,本讲稿共68页数量分类学原理和方法2-3-72-3-7二性状的选取与量化(三)数据标准化 练习:1、总和标准化求x11、x43 2、最大值标准化求x86 3、极差标准化求x5 10 4、模标准化求x11 5、中心化求x13 6、离差标准化求x11 7、标准差标准化求x21 第18页,本讲稿共68页数量分类学原理和方法2-3-8二性状的选取与量化(三)数据标准化 答案:1、0.17、0.25 2、1 3、0.3043 4、1/6=0.41 5、0.5 6、0.25/1.5=0.204 7、(0.25/1.5)*7=0.5401第19页,本讲稿共68页数量分类学原理和方法2-3-9二性状的选取与量化(三)数据标准化 标准差标准化(正则化)距阵:0.54 -0.94 0.94 1.70 0.59 0.15 1.89 -1.30 1.38 1.71 0.54 0.94 -0.94 0.10 -0.98 0.15 -0.13 0.59 -0.75 0.79 -1.62 -0.94 0.94 -0.70 -0.98 1.35 -0.13 -0.35 1.59-1.18 0.54 0.94 0.94 -1.50-0.20 -1.05 0.88 1.53 0.03 -1.31 0.54 -0.94 -0.94 0.90 1.37 -1.05 1.14 0.59 -0.83 -0.39 0.54 0.94 -0.94 0.10 1.37 -1.05 1.14 0.59 -1.07 0.13 0.54 -0.94 -0.94 0.10 -0.20 0.15 -0.13 -0.35 0.07 0.39 -1.62 0.94 0.94 -0.70 -0.98 1.35 -0.13 -1.30 -0.42-0.13 第20页,本讲稿共68页数量分类学原理和方法3-13-1三系统聚类分析:(一)相似性系数 衡量性状或者OUT间相似程度的数学表达式称为相似性系数。用于数量分类的相似性系数种类很多,常见的有几十种,主要分为两大类:相似性系数(狭义)和相异性系数。本章节主要介绍距离系数,此外,简单介绍相关系数和结合系数。第21页,本讲稿共68页数量分类学原理和方法3-2-1三系统聚类分析:(一)相似性系数 1)距离系数 距离系数是一种最常见的相异性系数,即系数数值越大,被比较的类群间相似性越小。如有两个OUT及3个性状,可得标准化距阵 性状1 性状2 性状3 Y 23=OTU1 y11 y12 y13 OTU2 y21 y22 y23 可在三维性状空间中标出2个OUT的坐标,由空间解析几何,OTU1和OTU2的距离为:d=(y11-y21)2+(y12-y22)2+(y13-y23)2第22页,本讲稿共68页数量分类学原理和方法3-2-2三系统聚类分析:(一)相似性系数 1)距离系数 第23页,本讲稿共68页数量分类学原理和方法3-2-3三系统聚类分析:(一)相似性系数 1)距离系数 对于m个OUT及n个性状,距离计算公式可推广为:di j=(yi1-yj1)2+(yi2-yj2)2+(yi n-yj n)2 =(yi k-yj k)2 i,j=1,2,3,m。di j被称为欧氏距离系数,实际应用中常使用平均欧氏距离系数:di j=(yi k-yj k)2)/n 练习:计算D 1 2第24页,本讲稿共68页数量分类学原理和方法3-2-43-2-4三系统聚类分析:(一)相似性系数 1)距离系数 在数学上更广义的距离系数为:di j=(|yi k-yj k|r)1/r i,j=1,2,3,m。dr(i,j)被称为Minkowski 距离系数。r=1时,d1(i,j)被称为Manhattan 度量;r=2时,d2(i,j)即为欧氏距离。欧氏距离的性质有:(1)di i=dj j=0 (2)di j=dj i 第25页,本讲稿共68页数量分类学原理和方法3-2-5三系统聚类分析:(一)相似性系数 1)距离系数 由原始数据距阵标准差标准化后,计算欧氏平均距离距阵:D=d i j88=0 1.59 1.66 1.89 1.68 1.81 1.23 1.62 0 1.55 1.23 1.16 0.92 0.77 1.22 0 1.49 1.74 1.85 1.25 0.98 0 1.48 1.30 1.36 1.49 0 0.67 0.89 1.74 0 1.03 1.59 0 1.26 0 D 1 2=1.585第26页,本讲稿共68页数量分类学原理和方法3-2-6三系统聚类分析:(一)相似性系数 2)相关系数 相关系数是样本相似性的一种重要的测度。对于标准化数据距阵Y=y i jmn 第27页,本讲稿共68页数量分类学原理和方法3-2-7三系统聚类分析:(一)相似性系数 2)相关系数 夹角余弦第28页,本讲稿共68页数量分类学原理和方法3-2-83-2-8三系统聚类分析:(一)相似性系数 2)相关系数 夹角余弦 第29页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法3-2-9三系统聚类分析:(一)相似性系数 2)相关系数 夹角余弦 第30页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法3-2-10三系统聚类分析:(一)相似性系数 3)结合系数 在一些数量分类工作中,二态性状常常占主导地位,如生理学(某种生理现象的有无)、生物化学(同功酶酶带的有无)、分子生物学(碱基或氨基酸残基的有无)的结果作分类性状时。由于二态性状的状态属形式编码,所以OTU间间性状状态相同或不同的数目比状态本身更有意义。此外,二态性状不必进行标准化处理,因为它们均无量纲且变化幅度为1。将OTUi和OTUj的 n个性状进行比较,可得如下结果。第31页,本讲稿共68页数量分类学原理和方法3-2-11三系统聚类分析:(一)相似性系数 3)结合系数 二态性状状态匹配数目 OTUi 1 0 OTUj 1 a b 0 c d 上表中,a表示2个OUT状态都为1的性状个数,称为正匹配;b和c表示2个OUT的状态分别为0和1时的性状个数,称为错配;d表示2个性状都为0的性状个数,称为负匹配。总和a+b+c+d=n(性状数)。第32页,本讲稿共68页数量分类学原理和方法3-2-12三系统聚类分析:(一)相似性系数 3)结合系数 结合系数是四个匹配数目的函数,目前已研究的有几十种,常用的有24种,最常用的是单匹配系数SSM。SSM=(a+d)/(a+b+c+d)24种结合系数可分为6种类型:(1)相似结合系数,取值范围0,1 (2)相似相关系数,取值范围-1,1(3)相似无限结合系数,取值范围0,(4)相异结合系数,取值范围0,1 (5)相异相关系数,取值范围-1,1 (6)相异无限结合系数,取值范围0,第33页,本讲稿共68页数量分类学原理和方法3-2-13三系统聚类分析:(一)相似性系数 3)结合系数 实例:一个分类群含8个OUT,20个性状。X=xij8*20 1 1 0 0 1 0 1 1 1 0 1 1 1 0 0 1 1 0 1 1 1 1 1 0 0 1 0 1 0 1 1 0 0 0 1 1 0 0 1 0 0 1 0 1 1 1 0 1 0 0 1 0 0 0 0 1 1 1 0 1 1 0 1 0 1 0 0 0 1 1 0 1 1 1 1 0 1 0 0 1 1 1 0 1 0 0 1 0 1 0 0 1 0 1 0 1 0 1 1 1 1 1 1 1 0 0 0 0 1 0 0 1 0 1 1 1 0 0 1 0 1 1 0 1 0 1 0 0 0 0 1 0 0 0 0 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 练习:计算SSM=Sij8*8 第34页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法3-2-143-2-14三系统聚类分析:(一)相似性系数 3)结合系数 实例:由 X=xij8*20得到SSM=Sij8*8 1 0.45 0.55 0.50 0.60 0.45 0.55 0.40 1 0.50 0.35 0.35 0.60 0.60 0.45 1 0.25 0.45 0.30 0.80 0.65 1 0.40 0.55 0.25 0.30 1 0.75 0.65 0.60 1 0.50 0.55 1 0.55 1第35页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法3-2-15三系统聚类分析:(一)相似性系数 4)Gower一般相似性系数 Sijk为OTUi和OTUj对性状k的积分;ijk 为权重。第36页,本讲稿共68页数量分类学原理和方法3-2-16三系统聚类分析:(一)相似性系数 4)Gower一般相似性系数 当状态进行比较时,ijk=1;出现NC不比较时,ijk=0。当二态性状正负匹配时,Sijk=1;错配时,Sijk=0。当多态性状状态编码相同时,Sijk=1;当多态性状状态编码不同时,Sijk=0。对于数量性状,Sijk=1-(|xik-xjk|)/(maxxik-minxik)可见,当原始数据距阵为二元距阵时,SG 系数等同于SSM系数;当原始数据距阵为数量性状组成的距阵时,SG系数类似于对两个极差标准化性状状态编码之差取绝对值。第37页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法3-2-173-2-17 实例:1 0 1 4 2 1 3 0 75 3.2 1 1 0 2 0 1 1 2 23 2.5 0 0 1 1 0 2 1 1 80 1 1 1 1 0 1 0 2 3 42 0.9 1 0 0 3 3 0 0 2 21 1.6 1 1 0 2 3 0 0 2 15 2 1 0 0 2 1 1 1 1 43 2.2 0 1 1 1 0 2 1 0 31 1.8 计算SG(1,2)三系统聚类分析:(一)相似性系数 4)Gower一般相似性系数 第38页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法3-2-183-2-18SG(1,2):即OTU1与OTU2进行比较。二态性状3个:1个匹配,2个错配;多态性状5个:1个相同;数量性状2个:a)1-(|75-23|)/(80-15)=0.2 b)1-(|3.2-2.5|)/(3.2-0.9)=0.7SG(1,2)=(1+1+0.2+0.7)/10=0.29三系统聚类分析:(一)相似性系数 4)Gower一般相似性系数 第39页,本讲稿共68页数量分类学原理和方法3-2-19Gower一般相似性系数距阵:1 0.29 0.30 0.25 0.25 0.16 0.41 0.27 1 0.25 0.30 0.46 0.65 0.66 0.45 1 0.24 0.18 0.06 0.39 0.69 1 0.34 0.42 0.34 0.34 1 0.78 0.44 0.18 1 0.45 0.27 1 0.25 1三系统聚类分析:(一)相似性系数 4)Gower一般相似性系数 第40页,本讲稿共68页数量分类学原理和方法3-3-13-3-1三系统聚类分析:(二)系统聚合方法 根据相似性系数对OUT或性状进行系统聚类是数量分类分析的核心步骤。其目的在于直观地反映相似性系数距阵所包含的全部信息。系统聚合方法的种类较多,但其核心是将两个最近的类群(或性状)聚成一类,换言之,相似性系数最大或相异性系数最小聚成一类,这样得到一个新类。计算这个新类与其余各类的相似性系数,再将最近的两类合并。如此类推,直至将所有的OTU(或性状)归为一类为止。所有结果可描绘成树状的示意图,称树系图。第41页,本讲稿共68页数量分类学原理和方法3-3-2三系统聚类分析:(二)系统聚合方法 对距离系数、相关系数和结合系数的聚合方法基本类似,常用的聚合策略有9种。(1)单联法 (2)全联法 (3)形心法 (4)中线法 (5)UPGMA法 (6)WPGMA法 (7)离差平方和法 (8)可变法 (9)可变平均法 第42页,本讲稿共68页数量分类学原理和方法3-3-3-1三系统聚类分析:(二)系统聚合方法 1)单联法 设两个OUT(OTUp和OTUq)聚合后形成一个新的OTUr,新的OTUr与未聚合的OTUi间的距离取OTUp和OTUq与OTUi间的距离最小值。即dri=Mindpi,dqi 实例:以平均欧氏距离系数距阵为例 0 1.59 1.66 1.89 1.68 1.81 1.23 1.62 0 1.55 1.23 1.16 0.92 0.77 1.22 0 1.49 1.74 1.85 1.25 0.98 0 1.48 1.30 1.36 1.49 0 0.67 0.89 1.74 0 1.03 1.59 0 1.26 0第43页,本讲稿共68页数量分类学原理和方法3-3-3-23-3-3-2三系统聚类分析:(二)系统聚合方法 1)单联法 第一步:dij中最小值d 5,6=0.67。将OTU5和OTU6合并,组成OTU9,记为OTU9=OTU5,OTU6。计算d 9,i:0 1.59 1.66 1.89 1.68 1.81 1.23 1.62 0 1.55 1.23 1.16 0.92 0.77 1.22 0 1.49 1.74 1.85 1.25 0.98 0 1.48 1.30 1.36 1.49 0 0.67 0.89 1.74 0.67 0 1.03 1.59 0.89 1.03 0 1.26 1.74 1.59 1.26 0 d 9,i=1.68,0.92,1.74,1.30,0.89,1.59第44页,本讲稿共68页数量分类学原理和方法3-3-3-33-3-3-3三系统聚类分析:(二)系统聚合方法 1)单联法 第二步:新距阵中dij中最小值d 2,7=0.77。将OTU2和OTU7合并,组成OTU10,记为OTU10=OTU2,OTU7。计算d 10,i:1 2 3 4 7 8 9 0 1.59 1.66 1.89 1.23 1.62 1.68 0 1.55 1.23 0.77 1.22 0.92 0 1.49 1.25 0.98 1.74 0 1.36 1.49 1.30 0 1.26 0.89 0 1.59 0 d 10,i=1.23,1.25,1.23,1.22,0.89第45页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法3-3-3-43-3-3-4三系统聚类分析:(二)系统聚合方法 1)单联法 第三步:新距阵中dij中最小值d 9,10=0.89。将OTU9和OTU10合并,组成OTU11,记为OTU11=OTU9,OTU10。计算d 11,i:1 3 4 8 9 10 0 1.66 1.89 1.62 1.68 1.23 0 1.49 0.98 1.74 1.25 0 1.49 1.30 1.23 0 1.59 1.22 0 0.89 0 d 11,i=1.23,1.25,1.23,1.22第46页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法3-3-3-5三系统聚类分析:(二)系统聚合方法 1)单联法 第四步:新距阵中dij中最小值d3,8=0.98。将OTU3和OTU8合并,组成OTU12,记为OTU12=OTU3,OTU8。计算d 12,i:1 3 4 8 11 0 1.66 1.89 1.62 1.23 0 1.49 0.98 1.25 0 1.49 1.23 0 1.22 0 d 12,i=1.66,1.49,1.22第47页,本讲稿共68页数量分类学原理和方法3-3-3-63-3-3-6三系统聚类分析:(二)系统聚合方法 1)单联法 第五步:新距阵中dij中最小值d11,12=1.22。将OTU11和OTU12合并,组成OTU13,记为OTU13=OTU11,OTU12。计算d 13,i:1 4 11 12 0 1.89 1.23 1.66 0 1.23 1.49 0 1.22 0 d 13,i=1.23,1.23第48页,本讲稿共68页数量分类学原理和方法3-3-3-7三系统聚类分析:(二)系统聚合方法 1)单联法 第六步:新距阵中dij中最小值d4,13=1.23。将OTU4和OTU13合并,组成OTU14,记为OTU14=OTU4,OTU13。计算d 14,i:1 4 13 0 1.89 1.23 0 1.23 0 d 14,i=1.23第49页,本讲稿共68页数量分类学原理和方法3-3-3-8三系统聚类分析:(二)系统聚合方法 1)单联法 第七步:新距阵中dij中最小值d1,14=1.23。将OTU1和OTU14合并,组成OTU15,记为OTU15=OTU1,OTU14。1 14 0 1.23 0 第50页,本讲稿共68页数量分类学原理和方法3-3-3-9三系统聚类分析:(二)系统聚合方法 1)单联法 经过七步,总的聚合结果如下:聚合 d i,i=最小值 OTU9=OTU5,OTU6 d 5,6=0.67 OTU10=OTU2,OTU7 d 2,7=0.76 OTU11=OTU9,OTU10 d 9,10=0.89 OTU12=OTU3,OTU8 d 5,8=0.98 OTU13=OTU11,OTU12 d 11,12=1.22 OTU14=OTU4,OTU13 d 4,13=1.23 OTU15=OTU1,OTU14 d 1,14=1.23 第51页,本讲稿共68页数量分类学原理和方法3-3-3-10三系统聚类分析:(二)系统聚合方法 1)单联法 结果树系图 第52页,本讲稿共68页数量分类学原理和方法3-3-3-11三系统聚类分析:(二)系统聚合方法 1)单联法 结果树系图 第53页,本讲稿共68页数量分类学原理和方法3-3-3-11三系统聚类分析:(二)系统聚合方法 1)单联法 结果结合线的划分 第54页,本讲稿共68页数量分类学原理和方法3-3-4-13-3-4-1三系统聚类分析:(二)系统聚合方法 2)全联法 设两个OUT(OTUp和OTUq)聚合后形成一个新的OTUr,新的OTUr与未聚合的OTUi间的距离取OTUp和OTUq与OTUi间的距离最大值。即dri=Maxdpi,dqi 练习:以平均欧氏距离系数距阵为例 0 1.59 1.66 1.89 1.68 1.81 1.23 1.62 0 1.55 1.23 1.16 0.92 0.77 1.22 0 1.49 1.74 1.85 1.25 0.98 0 1.48 1.30 1.36 1.49 0 0.67 0.89 1.74 0 1.03 1.59 0 1.26 0第55页,本讲稿共68页数量分类学原理和方法3-3-4-2三系统聚类分析:(二)系统聚合方法 2)全联法 结果树系图 第56页,本讲稿共68页数量分类学原理和方法3-3-4-3三系统聚类分析:(二)系统聚合方法 2)全联法 结果结合线的划分 第57页,本讲稿共68页数量分类学原理和方法3-3-5-1三系统聚类分析:(二)系统聚合方法 3)UPGMA法 UPGMA法即不加权的算术平均对群法。设两个已聚合过的类群OTUp和OTUq分别包含了np和nq个原始类群,则再聚合后形成一个新的OTUr,新的OTUr与未聚合的OTUi间的距离按以下公式计算:dri2=(np/(np+nq)dpi2+(nq/(np+nq)dqi2 第58页,本讲稿共68页数量分类学原理和方法3-3-5-2三系统聚类分析:(二)系统聚合方法 3)UPGMA法 练习:以结合系数距阵为例 1 0.45 0.55 0.50 0.60 0.45 0.55 0.40 1 0.50 0.35 0.35 0.60 0.60 0.45 1 0.25 0.45 0.30 0.80 0.65 1 0.40 0.55 0.25 0.30 1 0.75 0.65 0.60 1 0.50 0.55 1 0.55 1第59页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法3-3-5-3三系统聚类分析:(二)系统聚合方法 3)UPGMA法 结合系数-第一步 1 0.45 0.55 0.50 0.60 0.45 0.55 0.40 1 0.50 0.35 0.35 0.60 0.60 0.45 1 0.25 0.45 0.30 0.80 0.65 1 0.40 0.55 0.25 0.30 1 0.75 0.65 0.60 1 0.50 0.55 1 0.55 1OTU9=OTU3,OTU7d9 12=(1/(1+1)0.552+(1/(1+1)0.552 d9 1=0.55 第60页,本讲稿共68页数量分类学原理和方法3-3-5-4三系统聚类分析:(二)系统聚合方法 3)UPGMA法 结合系数-第二步 1 2 4 5 6 8 9 1 0.45 0.50 0.60 0.45 0.40 0.55 1 0.35 0.35 0.60 0.45 0.55 1 0.40 0.55 0.30 0.25 1 0.75 0.60 0.55 1 0.55 0.40 1 0.60 1OTU10=OTU5,OTU6d10 12=(1/(1+1)0.602+(1/(1+1)0.402 d10 1=0.53 第61页,本讲稿共68页数量分类学原理和方法3-3-5-5三系统聚类分析:(二)系统聚合方法 3)UPGMA法 结合系数-第三步 1 2 4 8 9 10 1 0.45 0.50 0.40 0.55 0.53 1 0.35 0.45 0.55 0.48 1 0.30 0.25 0.48 1 0.60 0.58 1 0.48 1OTU11=OTU8,OTU9d11 12=(1/(1+2)0.402+(2/(1+2)0.552 d11 1=0.505 第62页,本讲稿共68页数量分类学原理和方法3-3-5-63-3-5-6三系统聚类分析:(二)系统聚合方法 3)UPGMA法 结合系数-第四步 1 2 4 10 11 1 0.45 0.50 0.53 0.51 1 0.35 0.48 0.52 1 0.48 0.27 1 0.51 1OTU12=OTU1,OTU10d12 12=(1/(1+2)0.452+(2/(1+2)0.482 d12 1=0.471 第63页,本讲稿共68页数量分类学原理和方法3-3-5-7三系统聚类分析:(二)系统聚合方法 3)UPGMA法 结合系数-第五步 2 4 11 12 1 0.35 0.52 0.47 1 0.27 0.49 1 0.51 1OTU13=OTU2,OTU11d13 22=(1/(1+3)0.472+(3/(1+3)0.512 d13 2=0.5 第64页,本讲稿共68页数量分类学原理和方法3-3-5-8三系统聚类分析:(二)系统聚合方法 3)UPGMA法 结合系数-第五步 4 12 13 1 0.49 0.29 1 0.50 1OTU14=OTU12,OTU13d14 12=(3/(3+4)0.492+(4/(3+4)0.292 d14 1=0.39 第65页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法4 4四排序分析:主成分分析等第66页,本讲稿共68页五、常用的统计和数学工具软件1、SAS2、SPSS3、BMDP4、STATISTIC5、MathCAD6、Mathmatica7、MATLAB第67页,本讲稿共68页Thank you for your patience!第68页,本讲稿共68页