序列相似性的概念.ppt





《序列相似性的概念.ppt》由会员分享,可在线阅读,更多相关《序列相似性的概念.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、序列相似性的概念1现在学习的是第1页,共40页Dotplots-序列相似性的作图分析 序列比较的问题(The problem with sequence comparison)序列比较:序列比较包括从两个或多个序列中找出所有显著相似的区序列比较:序列比较包括从两个或多个序列中找出所有显著相似的区域。最主要的问题是必须首先作出定义,对于生物序列来说何为显著域。最主要的问题是必须首先作出定义,对于生物序列来说何为显著相似。相似。在开始讲程序之前,让我们先了解一下它们做些什么和为什么那样做。这在开始讲程序之前,让我们先了解一下它们做些什么和为什么那样做。这一节主要是关于序列比较是如何进行的。一节主要
2、是关于序列比较是如何进行的。2现在学习的是第2页,共40页Dotplots-序列相似性的作图分析 序列比较的问题(The problem with sequence comparison)当我们比较两个序列时,总是会对显著相似的区段比较感兴趣,当我们比较两个序列时,总是会对显著相似的区段比较感兴趣,可是从生物学的角度如何定义何为可是从生物学的角度如何定义何为“显著相似显著相似”?为了更好的理?为了更好的理解这一点,让我们先看看几个例子。首先从比较两个简单序列开解这一点,让我们先看看几个例子。首先从比较两个简单序列开始。始。ATGCATGCATGCATGCATATATATATATATATATGC
3、ATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT 3现在学习的是第3页,共40页Dotplots-序列相似性的作图分析 序列比较的问题(The problem with sequence comparison)在这里我们只是简单的将两个序列并排比较,对比两个序列之间在这里我们只是简单的将两个序列并排比较,对比两个序列之间的碱基,将匹配的残基用垂直线标出,可见一个保守的区域。但的碱基,将匹配的残基用垂直线标出,可见一个保守的区域。但是,是否还有更好的排比方式呢?显然,如果将其中一个序列相是,是否还有更好的排
4、比方式呢?显然,如果将其中一个序列相对另一序列错开两个碱基位置,可以得到一个更好的排比结果对另一序列错开两个碱基位置,可以得到一个更好的排比结果(这里说更好是指得到更多相匹配的碱基这里说更好是指得到更多相匹配的碱基)ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT4现在学习的是第4页,共40页Dotplots-序列相似性的作图分析 序列比较的问题(The problem with sequence comparison)结论是,我们不
5、能够简单的将两个序列头尾对应的排比,而是对各种可能结论是,我们不能够简单的将两个序列头尾对应的排比,而是对各种可能的排比方式都进行比较以找出最佳的排比结果。可是,这还不行。生物体的排比方式都进行比较以找出最佳的排比结果。可是,这还不行。生物体有许多变化的机制,简单的从一个残基变为另一个残基只是其中之一,而有许多变化的机制,简单的从一个残基变为另一个残基只是其中之一,而插入和缺失也经常发生,我们是否可以将插入和缺失考虑进去,以得到更插入和缺失也经常发生,我们是否可以将插入和缺失考虑进去,以得到更好的排比结果呢?好的排比结果呢?ATGCATGCATGCATGCATATATATATAT-ATATAT
6、GCATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATAT-ATGCATGCATGCATGCAT5现在学习的是第5页,共40页Dotplots-序列相似性的作图分析 序列比较的问题(The problem with sequence comparison)这里我们用了连字号这里我们用了连字号(-)(-)来标记插入来标记插入/缺失的事件。仅仅观察两个序列是缺失的事件。仅仅观察两个序列是很难知道是否有插入或缺失的发生的,因此我们将它简称为一个很难知道是否有插入或缺失的发生的,因此我们将它简称为一个“indel”indel”。插入插入“indels”i
7、ndels”通常会大大增加匹配残基的数目:通常会大大增加匹配残基的数目:在序列比较时必须考在序列比较时必须考在序列比较时必须考在序列比较时必须考虑虑虑虑“gaps”gaps”的存在,采用的存在,采用的存在,采用的存在,采用“gaps”gaps”通常可以大大增加匹配残基的数量通常可以大大增加匹配残基的数量通常可以大大增加匹配残基的数量通常可以大大增加匹配残基的数量。-AT-GCAT-GCATGC-ATGCATATATATATAT-ATATAT-GCATGCATGCATGCATGC|CGATCG-ATCG-AT-CG-ATATATATATATGCATATATATGCATGCATGCATGCAT6现
8、在学习的是第6页,共40页Dotplots-序列相似性的作图分析 序列比较的问题(The problem with sequence comparison)但是,在加入但是,在加入“gaps”gaps”后又会出现一个问题:这个排比是否还有意义呢?后又会出现一个问题:这个排比是否还有意义呢?如上述例子,我们通过加入了许多如上述例子,我们通过加入了许多“gaps”gaps”来增加相似度,仅仅为了得到来增加相似度,仅仅为了得到多一些匹配残基数就加入许多的多一些匹配残基数就加入许多的“gaps”gaps”,这样做是否值得呢?答案,这样做是否值得呢?答案是:是:有时有时。(不很满意,是吗?不很满意,是吗
9、?)有时确实值得,而有时又不划算。如果有时确实值得,而有时又不划算。如果我们需要使序列变化太大,那很可能是不值得的。怎样知道是否值得呢?我们需要使序列变化太大,那很可能是不值得的。怎样知道是否值得呢?通过大量的观察研究表明,通过大量的观察研究表明,“indel”indel”事件发生的机率远小于点突变。事件发生的机率远小于点突变。而常识又告诉我们,在上述例子中,单碱基的而常识又告诉我们,在上述例子中,单碱基的“indels”indels”有可能破坏有可能破坏序列上原来的开放读码框,如果有的话。因此序列上原来的开放读码框,如果有的话。因此,“gaps”gaps”比单点突变代比单点突变代表了更大的生
10、物学改变表了更大的生物学改变。“indels(gaps)”indels(gaps)”在引入时必须格外小心。在引入时必须格外小心。7现在学习的是第7页,共40页Dotplots-序列相似性的作图分析 序列比较的问题(The problem with sequence comparison)如上述,将两个序列相对位移如上述,将两个序列相对位移(shift)(shift),根据突变的情况引入,根据突变的情况引入“gaps”gaps”可以可以得到更好的排比结果。但是,这样做是否就已经发掘了所有的显得到更好的排比结果。但是,这样做是否就已经发掘了所有的显著匹配?仔细再看看可以发现,我们还忽略了一些重要的
11、特征,著匹配?仔细再看看可以发现,我们还忽略了一些重要的特征,让我们用不同颜色标出:让我们用不同颜色标出:ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGCCGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT8现在学习的是第8页,共40页Dotplots-序列相似性的作图分析 序列比较的问题(The problem with sequence comparison)是的,有一个重复序列模体是的,有一个重复序列模体(motif)(motif)分布于序列中,从简单的排比中是不分布于序列中,从简
12、单的排比中是不可能使这种特异序列显现出来的。因那样只能使其中一序列上的模体与另可能使这种特异序列显现出来的。因那样只能使其中一序列上的模体与另一序列上的模体匹配,而不能使所有的模体在排比中互相匹配,一序列上的模体匹配,而不能使所有的模体在排比中互相匹配,我们需我们需要更好的方式来比较序列的相似度,而不仅仅是简单的排比要更好的方式来比较序列的相似度,而不仅仅是简单的排比。ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGCCGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT9现在学习的是第9页
13、,共40页Dotplots-序列相似性的作图分析 序列比较的问题(The problem with sequence comparison)可是,问题还不仅于此。让我们仔细看看以下两个序列,看是否能找可是,问题还不仅于此。让我们仔细看看以下两个序列,看是否能找出显著相似的区段。出显著相似的区段。它们似乎并无多少相似,是吗?当然,可以通过一些位移和它们似乎并无多少相似,是吗?当然,可以通过一些位移和gapsgaps增加增加相似度,好象也不存在明显的重复序列。然而,这两个序列却给人相似度,好象也不存在明显的重复序列。然而,这两个序列却给人相似的印象,只是第一眼看去不明显而已。只要把其中一个序列水相
14、似的印象,只是第一眼看去不明显而已。只要把其中一个序列水平打转,让其平打转,让其55端与端与33端对调。端对调。ATGCGACATTATATGGACGCCGACAATATGCATGACTAGCATAGCATGCGAT|TAGCGTACGAGACGTTCAGTAGGTATAACAGTCGCAGGTATCTTACAGCGTA10现在学习的是第10页,共40页Dotplots-序列相似性的作图分析 序列比较的问题(The problem with sequence comparison)很吃惊,是吧。让我们再看看下面的例子,找到相似的地方吗?很吃惊,是吧。让我们再看看下面的例子,找到相似的地方吗?A
15、TGCGACATTATATGGACGCCGACAATATGCATGACTAGCATAGCATGCGAT|ATGCGACATTCTATGGACGCTGACAATATGGATGACTTGCAGAGCATGCGATATGCGATCAGATGATCAGATGACATGACATAGGCATACCCAATTGACATACG|CGTATGTCAATTGGGTATGCCTAT GTCATGTCAT CTGATCATCTGATCGCAT11现在学习的是第11页,共40页Dotplots-序列相似性的作图分析 序列比较的问题(The problem with sequence comparison)是的,这一次序
16、列已经被反转为互补的了。你看,除了简单的将是的,这一次序列已经被反转为互补的了。你看,除了简单的将两个序列放到一起比较以外,还是有很多可以做的,而且有时仅两个序列放到一起比较以外,还是有很多可以做的,而且有时仅靠肉眼判断还是非常难的。这就是为什么我们非得用计算机工具靠肉眼判断还是非常难的。这就是为什么我们非得用计算机工具来帮助做这些工作的原因。来帮助做这些工作的原因。ATGCGATCAGATGATCAGATGACATGACATAGGCATACCCAATTGACATACG|CGTATGTCAATTGGGTATGCCTAT GTCATGTCAT CTGATCATCTGATCGCAT12现在学习的是
17、第12页,共40页Dotplots-序列相似性的作图分析 利用计算机比较序列我们可以让计算机以最佳的方式来作序列比较。开始时,可以先将两个序我们可以让计算机以最佳的方式来作序列比较。开始时,可以先将两个序列摆在一起,数一数匹配的残基数。可是,这样还没有考虑生物序列的另列摆在一起,数一数匹配的残基数。可是,这样还没有考虑生物序列的另一相关因子:一相关因子:残基之间可以存在不同的相似度残基之间可以存在不同的相似度。例如,亮氨酸与异。例如,亮氨酸与异亮氨酸的相似度大于其与其它氨基酸如组氨酸等的相似度,尽管亮氨酸的相似度大于其与其它氨基酸如组氨酸等的相似度,尽管它们都属于不同的氨基酸。它们都属于不同的
18、氨基酸。13现在学习的是第13页,共40页Dotplots-序列相似性的作图分析 利用计算机比较序列因此,第一步首先制作一个表或距阵,用来标明各不同氨基酸残基之间的因此,第一步首先制作一个表或距阵,用来标明各不同氨基酸残基之间的相似度。这样一来,计算机就不会将亮氨酸变为异亮氨酸与亮氨酸变为组相似度。这样一来,计算机就不会将亮氨酸变为异亮氨酸与亮氨酸变为组氨酸等同对待。有好些这种氨基酸相似度表或距阵已被制作出来,如氨酸等同对待。有好些这种氨基酸相似度表或距阵已被制作出来,如PAMPAM、BLOSUMBLOSUM、BLOSUM32BLOSUM32等,每个距阵都是根据不同的假设或实等,每个距阵都是根
19、据不同的假设或实验数据制作出来。计算机就根据这些表来判定残基之间的相似度。验数据制作出来。计算机就根据这些表来判定残基之间的相似度。14现在学习的是第14页,共40页Dotplots-序列相似性的作图分析 利用计算机比较序列当然,我们还希望计算机将两个序列逐个碱基相对错位,以免忽当然,我们还希望计算机将两个序列逐个碱基相对错位,以免忽略耷掉任何相似的区段。如果我们把这一过程做成一个二维的图略耷掉任何相似的区段。如果我们把这一过程做成一个二维的图表,可能比较容易看出这个工作是如何完成的。在图表中,将其表,可能比较容易看出这个工作是如何完成的。在图表中,将其中一个序列的残基与另一序列的所有残基逐一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 序列 相似性 概念

限制150内