pairwise-alignment研究生生物信息学课件03.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《pairwise-alignment研究生生物信息学课件03.pptx》由会员分享,可在线阅读,更多相关《pairwise-alignment研究生生物信息学课件03.pptx(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、什么是序列比对?什么是序列比对?序列比对序列比对(Sequence Alignment)是通过在序是通过在序列中搜索一系列单个性状或性状模式来比较列中搜索一系列单个性状或性状模式来比较2个(双序列比对)或更多(多重序列比对)个(双序列比对)或更多(多重序列比对)序列的方法序列的方法序列比对分类序列比对分类双序列比对:两条序列的比对双序列比对:两条序列的比对多序列比对:三条或以上序列的比对多序列比对:三条或以上序列的比对 牛牛文库文档分享我们为什么关注序列比对我们为什么关注序列比对相似的序列可能具有相同的功能与结构相似的序列可能具有相同的功能与结构发现一个基因或蛋白哪些区域容易发生突变,哪些发现
2、一个基因或蛋白哪些区域容易发生突变,哪些位点突变后对功能没有影响位点突变后对功能没有影响 发现生物进化方面的信息发现生物进化方面的信息同源性同源性(Homologous Genes):序列来自共同的祖先,:序列来自共同的祖先,或具有共同的进化史,相似的序列往往具有同源性或具有共同的进化史,相似的序列往往具有同源性(如图如图)相似性相似性(Similarity):两序列根据某种参数相近,但相似:两序列根据某种参数相近,但相似的序列不一定具有同源性。相似性的序列不一定具有同源性。相似性同源性,两基因只有同源性,两基因只有同源与非同源关系同源与非同源关系 牛牛文库文档分享我们为什么关注序列比对(续)
3、我们为什么关注序列比对(续)直系同源直系同源(Orthologs):具有共同祖先与相似功:具有共同祖先与相似功能的同源基因(无基因复制事件)能的同源基因(无基因复制事件)旁系同源旁系同源(Paralogs):两个物种:两个物种A和和B的同源基因,的同源基因,分别是共同祖先基因组中由复制事件而产生的不分别是共同祖先基因组中由复制事件而产生的不同拷贝的后代同拷贝的后代趋同进化趋同进化(Convergent evolution):序列中的相似序列中的相似区域可能不具有共同的祖先,而是通过两条进化区域可能不具有共同的祖先,而是通过两条进化路径独立获得相同的功能(路径独立获得相同的功能(如图如图) 牛牛
4、文库文档分享同源序列与祖先序列关系同源序列与祖先序列关系进化距离:一个序列变成另一个序列所需的步骤数。进化距离:一个序列变成另一个序列所需的步骤数。如如A变为变为B的进化距离为:的进化距离为:x+ 牛牛文库文档分享基因进化基因进化AB:物种:物种I与物种与物种II中的中的a1是直系同源,是直系同源,a1与与a2为旁系同源为旁系同源C:趋同进化,物种:趋同进化,物种I与物种与物种II经历不同的进化途径,产生相同的功能经历不同的进化途径,产生相同的功能D:基因转移,称为水平转移基因:基因转移,称为水平转移基因 牛牛文库文档分享序列比对两种类型序列比对两种类型全局序列比对全局序列比对l定义:在全局范
5、围内对两条序列进行比对打分的方法定义:在全局范围内对两条序列进行比对打分的方法l适合于非常相似且长度近似相等的序列适合于非常相似且长度近似相等的序列局部序列比对局部序列比对l定义:一种寻找匹配子序列的序列比对方法定义:一种寻找匹配子序列的序列比对方法 l适合于一些片段相似而另一些片段相异的序列适合于一些片段相似而另一些片段相异的序列 Global Alignment Local L G P S S K Q T G K G S-S R I W D N|L N-I T K S A G K G A I M R L G D A T G K G|A G K G 牛牛文库文档分享记分矩阵与空位罚分记分矩阵
6、与空位罚分DNA 计分矩阵计分矩阵蛋白质计分矩阵蛋白质计分矩阵 广泛使用的两种矩阵广泛使用的两种矩阵 PAM BLOSUM空位罚分空位罚分 牛牛文库文档分享DNA 计分矩阵计分矩阵actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaaggacttaaagactSequence 1Sequence 2AGCTA1000G0100C0010T0001匹配:1错配:0分值: 牛牛文库文档分享转换和颠换转换和颠换CTAG嘧啶嘧啶嘌呤嘌呤 表示表示转换转换(transition),表示表示颠换颠换(transversions)转换比颠换更容易发生转换比颠换
7、更容易发生 牛牛文库文档分享转换和颠换转换和颠换AGTCA0.99G0.0060.99T0.0020.0020.99C0.0020.0020.0060.99转换速率是颠换转换速率是颠换3倍时的模型倍时的模型 牛牛文库文档分享蛋白质计分矩阵蛋白质计分矩阵PTHPLASKTQILPEDLASEDLTIPTHPLAGERAIGLARLAEEDFGMSequence 1Sequence 2记分矩阵记分矩阵T:G=-2 T:T=5Score=48 CSTPAGND.C 9S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1
8、-1-2-1 1 6 .CSTPAGND.C 9S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 牛牛文库文档分享PAM(Point Accepted Mutation)矩阵矩阵氨基酸记分系统需要替换的模式来提高灵敏度以检测弱的相氨基酸记分系统需要替换的模式来提高灵敏度以检测弱的相似性似性氨基酸容易被其它生化、物理特性相似的氨基酸替换氨基酸容易被其它生化、物理特性相似的氨基酸替换PAM矩阵给出了进化过程中同源蛋白质从一个氨基酸变到另矩阵给出了进化过程中同源蛋白质从一个氨基酸变到另一个氨基酸
9、的似然率一个氨基酸的似然率(Likelihood)PAM1(1个个PAM单位)被定义为每单位)被定义为每100个残基出现一个被接个残基出现一个被接受的点突变受的点突变(氨基酸的置换不引起蛋白质功能上的显著变化)氨基酸的置换不引起蛋白质功能上的显著变化)PAMn是是PAM1自乘自乘n次次PAM250、PAM120、PAM80和和PAM60矩阵可用于相似性分矩阵可用于相似性分别为别为20%、40%、50%和和60%的序列比对的序列比对 牛牛文库文档分享 A R N D C Q E G H I L K M F P S T W Y V B ZA 2-2 0 0-2 0 0 1-1-1-2-1-1-3
10、1 1 1-6-3 0 2 1 R -2 6 0-1-4 1-1-3 2-2-3 3 0-4 0 0-1 2-4-2 1 2 N 0 0 2 2-4 1 1 0 2-2-3 1-2-3 0 1 0-4-2-2 4 3 D 0-1 2 4-5 2 3 1 1-2-4 0-3-6-1 0 0-7-4-2 5 4 C -2-4-4-5 12-5-5-3-3-2-6-5-5-4-3 0-2-8 0-2-3-4 Q 0 1 1 2-5 4 2-1 3-2-2 1-1-5 0-1-1-5-4-2 3 5 E 0-1 1 3-5 2 4 0 1-2-3 0-2-5-1 0 0-7-4-2 4 5 G 1-3
11、 0 1-3-1 0 5-2-3-4-2-3-5 0 1 0-7-5-1 2 1 H -1 2 2 1-3 3 1-2 6-2-2 0-2-2 0-1-1-3 0-2 3 3 I -1-2-2-2-2-2-2-3-2 5 2-2 2 1-2-1 0-5-1 4-1-1 L -2-3-3-4-6-2-3-4-2 2 6-3 4 2-3-3-2-2-1 2-2-1 K -1 3 1 0-5 1 0-2 0-2-3 5 0-5-1 0 0-3-4-2 2 2 M -1 0-2-3-5-1-2-3-2 2 4 0 6 0-2-2-1-4-2 2-1 0 F -3-4-3-6-4-5-5-5-2 1 2
12、-5 0 9-5-3-3 0 7-1-3-4 P 1 0 0-1-3 0-1 0 0-2-3-1-2-5 6 1 0-6-5-1 1 1 S 1 0 1 0 0-1 0 1-1-1-3 0-2-3 1 2 1-2-3-1 2 1 T 1-1 0 0-2-1 0 0-1 0-2 0-1-3 0 1 3-5-3 0 2 1 W -6 2-4-7-8-5-7-7-3-5-2-3-4 0-6-2-5 17 0-6-4-4 Y -3-4-2-4 0-4-4-5 0-1-1-4-2 7-5-3-3 0 10-2-2-3 V 0-2-2-2-2-2-2-1-2 4 2-2 2-1-1-1 0-6-2 4 0
13、 0 B 2 1 4 5-3 3 4 2 3-1-2 2-1-3 1 2 2-4-2 0 6 5 Z 1 2 3 4-4 5 5 1 3-1-1 2 0-4 1 1 1-4-3 0 5 6 PAM 250C-817WW 牛牛文库文档分享 u模块替换矩阵模块替换矩阵BLOSUM以序列片段为基础以序列片段为基础,它是它是 基于蛋白质模块基于蛋白质模块(Block)数据库而建立起来的数据库而建立起来的 u 在模块比对的每一列中,分别计算在模块比对的每一列中,分别计算 两两氨基酸的变化情况两两氨基酸的变化情况,来自所有来自所有 模块的数值被用来计算模块的数值被用来计算BLOSUM矩阵矩阵u矩阵后面的数
14、字表示构建此矩阵所用的矩阵后面的数字表示构建此矩阵所用的 序列的相似程度,如序列的相似程度,如BLOSUM62表示由表示由 相似度为相似度为62%的序列构建的序列构建AACECA-C =4A-E =2C-E =2A-A =1C-C =1AACECBLOSUM矩阵矩阵(Blocks Substitution Matrix) 牛牛文库文档分享BLOSUM62 牛牛文库文档分享如何选择合适的评分矩阵?如何选择合适的评分矩阵?n 一般来说一般来说,在局部相似性搜索上,在局部相似性搜索上,BLOSUM 矩阵矩阵较较PAM要好要好n当比较距离相近的蛋白时,应选择低的当比较距离相近的蛋白时,应选择低的PAM
15、或高或高的的BLOSUM矩阵;当比较距离较远的蛋白时,应选矩阵;当比较距离较远的蛋白时,应选择高的择高的PAM或低的或低的BLOSUM矩阵矩阵 n 对于数据库搜索来说一般选择对于数据库搜索来说一般选择BLOSUM62矩阵矩阵nPAM矩阵可用于寻找蛋白质的进化起源,矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域矩阵用于发现蛋白质的保守域 牛牛文库文档分享空位罚分空位罚分(Gap Penalties)空位为了获得两个序列最佳比对,必须使用空位和空位为了获得两个序列最佳比对,必须使用空位和空位罚分空位罚分空位罚分分为:空位开放罚分空位罚分分为:空位开放罚分(Gap openi
16、ng penalty)和空位扩展罚分和空位扩展罚分(Gap extension penalty)最优的序列比对通常具有以下两下特征:最优的序列比对通常具有以下两下特征:尽可能多的匹配尽可能多的匹配尽可能少的空位尽可能少的空位插入任意多的空位会产生较高的分数,但找到的并插入任意多的空位会产生较高的分数,但找到的并不一定是真正相似序列不一定是真正相似序列 牛牛文库文档分享1 GTGATAGACAC|1 GTGCATAGACAC空位罚分空位罚分允许空位但不罚分允许空位但不罚分 Score:55 不允许有空位不允许有空位 Score:-21匹配匹配=5错配错配=-41 GTG-ATAGACAC|1 G
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- pairwise alignment 研究生 生物 信息学 课件 03
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内