生物信息学概论第四章基于距离的系统发生分析ppt课件.ppt
《生物信息学概论第四章基于距离的系统发生分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学概论第四章基于距离的系统发生分析ppt课件.ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、CompanyLOGO认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目第四章第四章第四章第四章 基于距离的系统发生分析基于距离的系统发生分析基于距离的系统发生分析基于距离的系统发生分析认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目本章内容本章内容分子系统发生学的历史分子系统发生学的历史4.1分子系统发生分析的优点分子系统发生分析的优点4.2系统发生树系统发生树4.3距离矩阵法距离矩阵法4.4最大似然法最大似然法4.5多重序列比对多重序列比对4.6认识到了
2、贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目4.1 分子系统发生学的历史分子系统发生学的历史 系统发生学系统发生学是研究物种之间的进化关系的,是进化生物学的一个重要研究领域,系统发生分析在达尔文时代就已经开始。从那时起,科学家们就开始寻找物种的源头,分析物种之间的进化关系,给各个物种分门别类。Charles Darwin(1809-1882)认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目4.1 分子系统发生学的历史分子系统发生学的历史 19021904年,G
3、.H.F Nuttall证明了把一个生物体的血液注射到另一个生物体时,产生的免疫反应的程度与这两个生物体的进化关系直接相关。通过这些实验,他检测了成百种生物之间的关系,并且最早正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先 20世纪50年代,分子数据才开始被广泛应用于系统发生研究。蛋白质电泳,使得我们可以在一些浅层特征上(如分子大小、电荷等)来分离和比较蛋白质 20世纪60年代,蛋白质测序成为可能,而在此之前,测序中等长度蛋白质的全部氨基酸序列都是很不容易的。所有这些方法促进了可研究其系统方式的生物体种类的重大改变认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国
4、家对扶贫工作高度重视,已经展开了“精准扶贫”项目4.1 分子系统发生学的历史分子系统发生学的历史20世纪70年代,研究者开始能够获得真正的基因组信息。研究者一度热衷于重建系统发生关系,结果还为面临着成指数增长的数据的分子生物学家们发展出很多严格的数学方法。这是第一次研究者有可能对系统发生分类赋予统计置信度,并且相对容易地形成关于进化过程的可验性假设 如今,DNA序列数据比任何其他形式的分子信息都要丰富得多。传统的基于解剖差异的分类方法仍旧给进化提供补充数据。古生物学也提供了关于生物体积累差异和进化真实时间不可替代的线索。此外,像PCR(聚合酶链式反应)这样的分子技术产生同源序列提供了第一手的资
5、料,使得回答关于地球上生命的历史和关系这样至关重要的问题变得更容易了。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目4.2 分子系统发生分析的优点分子系统发生分析的优点 遗传关系在解码进化关系上十分重要。分子时钟假设的最大作用是暗示了分子数据能用来解码所有生命体之间的系统发生关系。简单说,就是生物体之间分子相似度越高,他们之间的关系就越近。表型分析在能够利用分子生物学工具提供的分子数据进行这种分析之前,分类学家只能依靠表型的比较来推断生物体的基因型。最初的表型检查仅包括大量粗略的解剖特征,后来还研究了行为的、超微结构以及生
6、物化学特性认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目表型分析的局限性趋同进化有时候关系很远的生物体也能进化出相似的表型例如,如果一个生物学家按照生物体是否有眼睛来构建进化树,那么他可能将人类、两翼昆虫和软体动物放在同一个进化组中许多生物没有可用来进行比较的易于研究的表型特征例如,研究细菌之间的关系总是困难重重。即使用显微镜检查,细菌几乎没有明显特征当比较关系较远的生物的时候,第三个问题出现了,即什么样的表型特征能用来比较呢?认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经
7、展开了“精准扶贫”项目基于DNA和蛋白质序列的分析一般不会存在这样的问题,因为很多同源分子对所有生物都是很基本的认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目概念 系统发生树系统发生树:三个或者更多基因或生物体 之间 进化关系的典型图示;大部分系统发生研究都是围绕系统发生树的概念进行的,它表示了数据之间的关系分歧时间共同祖先的特征 4.3 系统发生树系统发生树认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目4.3.1 重建系统发生树的术语重建系统发生树的
8、术语系统发生树系统发生树有时也称为系统树图系统树图,它是由一系列的节点和分支组成的,其中每个节点代表一个分类单元。分支末端的节点分支末端的节点(外部节点外部节点)对应一个基因或生物体;内部节点内部节点代表一个推断的共同祖先,它在过去的某个时候分歧出两个独立的分支。ABCD外部节点外部节点内部节点内部节点根节点根节点认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目4.3.1 重建系统发生树的术语重建系统发生树的术语Newick 格式系统发生树结构的基本信息基本信息在计算机程序中常用一组嵌套的圆括号表示,称为 Newick 格式
9、,用该格式来表示上图中的树,可写成 (,),(,),)ABCD认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目二叉树与多叉树二叉树与多叉树虽然内部节点可以是多叉,即有三个或者更多的派生分支,但大多数树的内部节点都只有两个分支,称为二叉节点多叉节点可以用以下的两个方法之一来解释:一个祖先种群同时产生了三个或者更多的独立分支过去某时发生了两个或者多个二叉分歧,但是由于可获得数据的限制无法确定它们发生的先后次序本章系统发生树主要指二叉树认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经
10、展开了“精准扶贫”项目一棵系统发生树的分支模式能表达关于进化事件发生顺序的信息;一棵系统发生树的分支长度有时用来表示不同数据集分歧的程度。标度树:是指分支长度与相邻节点对的差异程度成正比的树。在最好的情况下,标度树是可加的,即连接两个节点的分支的长度准确地表示了它们之间的差异非标度树:只是将所有外部节点排成行,表示他们之间的亲缘关系,而没有表示它们之间差异程度的任何信息认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目4.3.2 有根树和无根树有根树和无根树根时间 有根树有根树 无根树无根树有根树有根树,单一的节点指派为共同的
11、祖先共同的祖先,从祖先节点只有唯一的路径进化到达其他任何节点。无根树无根树只表明了节点之间的关系,而没有关于进化发生方向的信息;但是通过引入外群或外部参考物种,可以在无根树中指派根节点认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目4.3.2 有根树和无根树有根树和无根树只考虑3个物种的时候,有3棵有根(二叉)树,一棵无根树,如下图所示:有根树有根树无根树无根树认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目4.3.2 有根树和无根树有根树和无根树描述少量
12、物种之间可能的进化关系的有根树和无根树的数目物种数目有根树数目无根树数目21133141535105151034 459 4252 207 02515213 458 046 767 8757 905 853 580 625208 200 794 532 637 891 559 375221 643 095 476 699 771 875n 个物种可能的有根系统发生树有根系统发生树(NR)和无根系统发生树无根系统发生树(NU)数目可用下面的公式计算得到:NR=(2n-3)!2n-2(n-2)!NU=(2n-5)!2n-3(n-3)!只有一棵树代表了(基因或物种)的实际系统发生关系!只有一棵树代表
13、了(基因或物种)的实际系统发生关系!认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目4.3.3 基因树和物种树基因树和物种树区别:基因树基因树为基于单个同源基因差异构建的系统发生树;物种树物种树一般从多个基因数据中分析得出。只考虑一个基因的时候,个体有可能表现出与其他物种的成员关系更近的情况。(下图)基因分化的发生通常先于产生新物种的种群分离基因分化事件常常在物种形成前或后都有发生。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目abcdefG1G2G3S
14、G4G5认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目4.3.4 特征和距离数据特征和距离数据用于构建系统发生树的分子数据分子数据分成两类:(1)距离距离(distances)数据数据,常用距离矩阵描述,表示两个数据集之间所有两两差异;(2)特征特征(characters)数据数据,存在有限不同状态的特征。DNA 和蛋白质序列数据描述离散的特征;其他特征数据集的例子包括基于解剖学或行为学的分类法中较常见的特征,如生物体颜色、生物体对某种刺激的反应时间等。一旦建立了确定所有可能状态之间相似性的标准,特征数据就很容易转化成距离
15、数据;例如,来自两个物种的两个基因之间的距离值(D)可以简单地用序列的最优比对来确定,计算匹配的核苷酸数目(m),将它除以总的位点数目(t):D=m/t许多生物学家用“每100个核苷酸改变数”来归一化距离值。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目通过蛋白质序列比对时,也可以用同样的方法来计算蛋白质距离。但是,做这样的转换时,大量重要的潜在生物信息可能会丢失。比如,我们知道,一些替换更容易发生在某些特定的核酸和蛋白质序列上,因此比对时,应赋予不同的权重值。以算术为基础的系统发生树重建方法,常常忽略数据集的生物学上的意
16、义(本章)。表型分类学家喜欢使用这种方法,因为他们把重点放在数据集之间的关系上,而不管他们到达当前状态的途径如何遗传分类学家一般更加关心进化的途径和模式,倾向于使用更多以生物学为基础的建树方法(第五章)这两类方法都被广泛使用,并且对大部分数据集都适用认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目4.4 距离矩阵法距离矩阵法两两距离矩阵是全体有待分析的数据集之间差异的表格化总结,包含用于很多常见系统发生树重建算法的原始数据。要深入理解这些算法背后的逻辑,读者首先应该理解系统发生树到底传递了什么样的信息,从而选择不同的算法4.
17、4.1 非加权组平均法(非加权组平均法(UPGMA)非加权组平均法非加权组平均法(UPGMA)是最早的距离矩阵法,20世纪60年代早期提出,用来协助进行表型特征的进化分析的是基于统计的,像所有基于距离的方法一样,要求数据能够精简为所有被研究的物种两两之间遗传距离的度量。一般来说,UPGMA方法需要建立一个距离矩阵。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目UPGMA距离矩阵系统发生树AC BDE认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目例:4个
18、物种A、B、C、D建立的矩阵,假设其两两距离如下所示:数目ABCBdABCdACdBCDdADdBDdCDdAB表示物种A和B之间的距离,dAC表示物种A和C之间的距离,依次类推。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目UPGMA 算法先将两个距离最近的物种合成一个复合物复合物种组种组,如上表所示,假设距离矩阵中的最小值是dAB,所以物种AB首先组合成一组(AB),聚类聚类以后,需要更新距离矩阵,计算新组(AB)和物种C和D之间的距离:d(AB)C=1/2(dAC+dBC),d(AB)D=1/2(dAD+dBD)然后
19、再将新的矩阵中距离最近的物种再次合成一个复合复合物种组物种组,如此反复,直到把所有物种都聚为一类。认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目 例:两两矩阵之间的不匹配的核苷酸数目物种ABCDB9C811D121510E15181351020304050A:GTGCTGCACGGCTCAGTATAGCATTTACCCTTCCATCTTCAGATCCTGAAB:ACGCTGCACGGCTCAGTGCGGTGCTTACCCTCCCATCTTCAGATCCTGAAC:GTGCTCGCAGGCTCGGCGCAGCATTTACCC
20、TCCCATCTTCAGATCCTA T CD:GTATCACACGACTCAGCGCAGCATTTGCCCTCCCGTCTCCAGATCCTAAAE:CTATCACA T AGCTCAGCGCAGCATTTGCCCTCCCGTCTTCAGATCTAAAA最小最小将物种将物种D和和E聚成一类,然后再计算新的距离矩阵聚成一类,然后再计算新的距离矩阵认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目 将物种D和E聚成一类,然后再计算新的距离矩阵物种ABCB9C811DE物种ABCDB9C811D121510E1518135=1/2
21、(dAD+dAE)13.516.511.5=1/2(dBD+dBE)=1/2(dCD+dCE)认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目 将物种A和C聚成一类,然后再计算新的距离矩阵物种BACACDE16.5物种ABCB9C811DE13.516.511.510=1/2(dAB+dBC)12.5=1/2(dA(DE)+dC(DE)认识到了贫困户贫困的根本原因,才能开始对症下药,然后药到病除。近年来国家对扶贫工作高度重视,已经展开了“精准扶贫”项目用UPGMA法重建系统发生树DE(D,E)ACDE(A,C),(D,E)A
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 概论 第四 基于 距离 系统 发生 分析 ppt 课件
限制150内