计算机在生物学上的应用数量分类学优秀课件.ppt
《计算机在生物学上的应用数量分类学优秀课件.ppt》由会员分享,可在线阅读,更多相关《计算机在生物学上的应用数量分类学优秀课件.ppt(68页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、计算机在生物学上的应用数量分类学第1页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法0问题的提出生物分类的定量分类研究分子生物学中的相似性与相异性研究一数量分类的基本概念:数量分类方法,分类运算单位与分类性状等二性状的选取与量化:性状选取的原则,性状编码,数据标准化三系统聚类分析:相似性系数,系统聚合方法等四排序分析:主成分分析等第2页,本讲稿共68页数量分类学原理和方法1-1一数量分类的基本概念(一)数量分类方法和数量分类学 英国微生物学家P.H.A.Sneath 英国动物与人类学家A.J.Cain 美国生物统计学家R.R.Sokal 1963年Sneath&Sokal”数量分类学
2、原理”1973年Sneath&Sokal”数量分类学:数值分类的原理和应用”第3页,本讲稿共68页数量分类学原理和方法1-2一数量分类的基本概念(二)分类运算单位与分类性状 分类运算单位(operational taxonomic unit,OUT)是数量分类学中一个抽象的基本运算单位,可以是一个个体、种、种群、群落、DNA序列、蛋白质的一级结构等等。分类性状(character)是作为分类依据以区分不同事物的特征或属性。OUT在每个性状上所呈现出来的状况或数值称为性状状态(character state)。不能再分解的性状称为单位性状(unit character)。第4页,本讲稿共68页数
3、量分类学原理和方法1-31-3一数量分类的基本概念(二)分类分析 1、聚类分析 运用数学方法研究OUT(或性状)之间的亲疏程度,以此为依据将一批OUT(或性状)聚合为若干OUT组(或性状组)。常用的方法有聚合法、分裂法、加入法、图论法、模糊法、动态法。第5页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法1-4一数量分类的基本概念(二)分类分析 2、排序分析 多数数量分类问题中,性状之间往往具有一定的相关性。利用这种相关性,可用若干综合指标去代替全部性状。为了使较少的综合指标尽可能全面地反映原来全部性状的信息,运用数学方法对性状进行压缩,并在压缩的空间中对OTU进行排序。这就是排序分析
4、。常见的有主成分分析(principal components analysis)和主坐标分析(principal coordinate analysis).第6页,本讲稿共68页数量分类学原理和方法1-5一数量分类的基本概念(二)分类分析 3、判别分析 所谓判别分析是在已对若干样本划分类群的基础上,根据某一OUT的性状综合判别它应置于哪个类群之中。常用方法有距离判别(distance discriminatory)、贝叶斯判别(Bayes discriminatory)等。第7页,本讲稿共68页数量分类学原理和方法1-6一数量分类的基本概念(二)分类分析 4、分类分析和统计分析的区别 不是随
5、机样本 不随机取样第8页,本讲稿共68页数量分类学原理和方法1-7一数量分类的基本概念(二)分类分析 5、数量分类学的优点 (1)具有综合多种来源数据的能力;(2)大部分分类过程自动化,效能大为提高;(3)以数值形式编码,便于电子化管理和交流;(4)因为方法是定量的,故可提供更大示差判别且在划分类元上更为灵敏;(5)使用更多更好的性状,改善了常规分类质量;(6)是对分类学原理和分类目的的重新审查;(7)其研究结果导致了若干生物学概念的重新解释。第9页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法2-12-1二性状的选取与量化(一)性状选取的原则 1、初选性状应尽可能地广泛采用各方面的
6、信息;2、复选时,首先从初选性状中删掉无意义的性状;3、删除不稳定和极稳定的性状;4、对性状的相关性进行分析,删除逻辑相关性状和无意义的经验相关性状;5、考虑性状选取的难易程度,及实验的可重复性。从生物学的观察记录直接得到的性状称为基本性状(fundamental character),从基本性状利用数学方法间接得到的性状称为导出性状(induced character)。第10页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法2-2二性状的选取与量化(二)性状编码 1、编码类型 1)二态性状 2)定量多态性状(连续性状)3)定性多态性状 (1)有序多态性状 (2)无序多态性状 a、转
7、化为有序多态性状 b、分解成二态性状第11页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法2-3-1二性状的选取与量化(三)数据标准化 对m个OUT的n个性状全部编码赋值后,可以排列成如下矩阵:x11 x12 x1n x21 x22 x2nX=xijm*n=OTUi xm1 xm2 xmn X称为原始数据距阵;行向量分别是同一OUT中不同性状的编码值;列向量分别是不同OUT中同一性状状态的编码值。第12页,本讲稿共68页数量分类学原理和方法2-3-22-3-2二性状的选取与量化(三)数据标准化 因为原始数据来源不同,代表的意义不同,所以度量的标准也不同。其差异导致量纲大的掩盖量纲小的
8、。所以必须对性状进行重新标度,即对原始数据距阵进行标准化处理。标准化的主要方法有7种:1、总和标准化 公式:yij=xij/xij 每列元素之和分别除该列元素 性质:yij=1 0=yij=1第13页,本讲稿共68页数量分类学原理和方法2-3-32-3-3二性状的选取与量化(三)数据标准化 2、最大值标准化 公式:yij=xij/MAXxij 用每列最大值分别除该列元素 性质:MAXyij=1 0=yij=1 3、极差标准化 公式:yij=(xij MINxij)/(MAXxij MINxij)用每列的极差除该列元素与最小值之差 性质:MAXyij=1 0=yij=1第14页,本讲稿共68页数
9、量分类学原理和方法2-3-4二性状的选取与量化(三)数据标准化 4、模标准化 公式:yij=xij/xij2 用列向量的模(每列元素平方和的平方根)除该列元素 性质:yij2=1 0=yij=1 5、中心化 公式:yij=xij(xij)/m 用每列元素减去列向量的形心(均值)性质:yij=0第15页,本讲稿共68页数量分类学原理和方法2-3-52-3-5二性状的选取与量化(三)数据标准化 6、离差标准化 公式:yij=(xij(xij)/m)/(xij(xij)/m)2 用每列元素的离差除该列元素的中心化值 性质:yij=0 yij2=1 7、标准差标准化 公式:yij=(m-1)(xij(
10、xij)/m)/(xij(xij)/m)2 用每列元素的标准差除该列元素的中心化值 性质:yij=0 Y中每列元素的方差为1第16页,本讲稿共68页数量分类学原理和方法2-3-6二性状的选取与量化(三)数据标准化 实例:1 0 1 4 2 1 3 0 75 3.2 1 1 0 2 0 1 1 2 23 2.5 0 0 1 1 0 2 1 1 80 1 1 1 1 0 1 0 2 3 42 0.9 1 0 0 3 3 0 0 2 21 1.6 1 1 0 2 3 0 0 2 15 2 1 0 0 2 1 1 1 1 43 2.2 0 1 1 1 0 2 1 0 31 1.8第17页,本讲稿共68
11、页数量分类学原理和方法2-3-72-3-7二性状的选取与量化(三)数据标准化 练习:1、总和标准化求x11、x43 2、最大值标准化求x86 3、极差标准化求x5 10 4、模标准化求x11 5、中心化求x13 6、离差标准化求x11 7、标准差标准化求x21 第18页,本讲稿共68页数量分类学原理和方法2-3-8二性状的选取与量化(三)数据标准化 答案:1、0.17、0.25 2、1 3、0.3043 4、1/6=0.41 5、0.5 6、0.25/1.5=0.204 7、(0.25/1.5)*7=0.5401第19页,本讲稿共68页数量分类学原理和方法2-3-9二性状的选取与量化(三)数据
12、标准化 标准差标准化(正则化)距阵:0.54 -0.94 0.94 1.70 0.59 0.15 1.89 -1.30 1.38 1.71 0.54 0.94 -0.94 0.10 -0.98 0.15 -0.13 0.59 -0.75 0.79 -1.62 -0.94 0.94 -0.70 -0.98 1.35 -0.13 -0.35 1.59-1.18 0.54 0.94 0.94 -1.50-0.20 -1.05 0.88 1.53 0.03 -1.31 0.54 -0.94 -0.94 0.90 1.37 -1.05 1.14 0.59 -0.83 -0.39 0.54 0.94 -0
13、.94 0.10 1.37 -1.05 1.14 0.59 -1.07 0.13 0.54 -0.94 -0.94 0.10 -0.20 0.15 -0.13 -0.35 0.07 0.39 -1.62 0.94 0.94 -0.70 -0.98 1.35 -0.13 -1.30 -0.42-0.13 第20页,本讲稿共68页数量分类学原理和方法3-13-1三系统聚类分析:(一)相似性系数 衡量性状或者OUT间相似程度的数学表达式称为相似性系数。用于数量分类的相似性系数种类很多,常见的有几十种,主要分为两大类:相似性系数(狭义)和相异性系数。本章节主要介绍距离系数,此外,简单介绍相关系数和结合
14、系数。第21页,本讲稿共68页数量分类学原理和方法3-2-1三系统聚类分析:(一)相似性系数 1)距离系数 距离系数是一种最常见的相异性系数,即系数数值越大,被比较的类群间相似性越小。如有两个OUT及3个性状,可得标准化距阵 性状1 性状2 性状3 Y 23=OTU1 y11 y12 y13 OTU2 y21 y22 y23 可在三维性状空间中标出2个OUT的坐标,由空间解析几何,OTU1和OTU2的距离为:d=(y11-y21)2+(y12-y22)2+(y13-y23)2第22页,本讲稿共68页数量分类学原理和方法3-2-2三系统聚类分析:(一)相似性系数 1)距离系数 第23页,本讲稿共
15、68页数量分类学原理和方法3-2-3三系统聚类分析:(一)相似性系数 1)距离系数 对于m个OUT及n个性状,距离计算公式可推广为:di j=(yi1-yj1)2+(yi2-yj2)2+(yi n-yj n)2 =(yi k-yj k)2 i,j=1,2,3,m。di j被称为欧氏距离系数,实际应用中常使用平均欧氏距离系数:di j=(yi k-yj k)2)/n 练习:计算D 1 2第24页,本讲稿共68页数量分类学原理和方法3-2-43-2-4三系统聚类分析:(一)相似性系数 1)距离系数 在数学上更广义的距离系数为:di j=(|yi k-yj k|r)1/r i,j=1,2,3,m。d
16、r(i,j)被称为Minkowski 距离系数。r=1时,d1(i,j)被称为Manhattan 度量;r=2时,d2(i,j)即为欧氏距离。欧氏距离的性质有:(1)di i=dj j=0 (2)di j=dj i 第25页,本讲稿共68页数量分类学原理和方法3-2-5三系统聚类分析:(一)相似性系数 1)距离系数 由原始数据距阵标准差标准化后,计算欧氏平均距离距阵:D=d i j88=0 1.59 1.66 1.89 1.68 1.81 1.23 1.62 0 1.55 1.23 1.16 0.92 0.77 1.22 0 1.49 1.74 1.85 1.25 0.98 0 1.48 1.
17、30 1.36 1.49 0 0.67 0.89 1.74 0 1.03 1.59 0 1.26 0 D 1 2=1.585第26页,本讲稿共68页数量分类学原理和方法3-2-6三系统聚类分析:(一)相似性系数 2)相关系数 相关系数是样本相似性的一种重要的测度。对于标准化数据距阵Y=y i jmn 第27页,本讲稿共68页数量分类学原理和方法3-2-7三系统聚类分析:(一)相似性系数 2)相关系数 夹角余弦第28页,本讲稿共68页数量分类学原理和方法3-2-83-2-8三系统聚类分析:(一)相似性系数 2)相关系数 夹角余弦 第29页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法3
18、-2-9三系统聚类分析:(一)相似性系数 2)相关系数 夹角余弦 第30页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法3-2-10三系统聚类分析:(一)相似性系数 3)结合系数 在一些数量分类工作中,二态性状常常占主导地位,如生理学(某种生理现象的有无)、生物化学(同功酶酶带的有无)、分子生物学(碱基或氨基酸残基的有无)的结果作分类性状时。由于二态性状的状态属形式编码,所以OTU间间性状状态相同或不同的数目比状态本身更有意义。此外,二态性状不必进行标准化处理,因为它们均无量纲且变化幅度为1。将OTUi和OTUj的 n个性状进行比较,可得如下结果。第31页,本讲稿共68页数量分类学原
19、理和方法3-2-11三系统聚类分析:(一)相似性系数 3)结合系数 二态性状状态匹配数目 OTUi 1 0 OTUj 1 a b 0 c d 上表中,a表示2个OUT状态都为1的性状个数,称为正匹配;b和c表示2个OUT的状态分别为0和1时的性状个数,称为错配;d表示2个性状都为0的性状个数,称为负匹配。总和a+b+c+d=n(性状数)。第32页,本讲稿共68页数量分类学原理和方法3-2-12三系统聚类分析:(一)相似性系数 3)结合系数 结合系数是四个匹配数目的函数,目前已研究的有几十种,常用的有24种,最常用的是单匹配系数SSM。SSM=(a+d)/(a+b+c+d)24种结合系数可分为6
20、种类型:(1)相似结合系数,取值范围0,1 (2)相似相关系数,取值范围-1,1(3)相似无限结合系数,取值范围0,(4)相异结合系数,取值范围0,1 (5)相异相关系数,取值范围-1,1 (6)相异无限结合系数,取值范围0,第33页,本讲稿共68页数量分类学原理和方法3-2-13三系统聚类分析:(一)相似性系数 3)结合系数 实例:一个分类群含8个OUT,20个性状。X=xij8*20 1 1 0 0 1 0 1 1 1 0 1 1 1 0 0 1 1 0 1 1 1 1 1 0 0 1 0 1 0 1 1 0 0 0 1 1 0 0 1 0 0 1 0 1 1 1 0 1 0 0 1 0
21、0 0 0 1 1 1 0 1 1 0 1 0 1 0 0 0 1 1 0 1 1 1 1 0 1 0 0 1 1 1 0 1 0 0 1 0 1 0 0 1 0 1 0 1 0 1 1 1 1 1 1 1 0 0 0 0 1 0 0 1 0 1 1 1 0 0 1 0 1 1 0 1 0 1 0 0 0 0 1 0 0 0 0 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 练习:计算SSM=Sij8*8 第34页,本讲稿共68页数量分类学原理和方法数量分类学原理和方法3-2-143-2-14三系统聚类分析:(一)相似性系数 3)结合系数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 生物学 应用 数量 分类学 优秀 课件
限制150内