生物序列联配中的算法幻灯片.ppt
《生物序列联配中的算法幻灯片.ppt》由会员分享,可在线阅读,更多相关《生物序列联配中的算法幻灯片.ppt(71页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物序列联配中的算法第1页,共71页,编辑于2022年,星期一提 纲n n背景知识n n序列相似性的比较t t两条序列的联配问题t t多序列的联配问题t t一些启发式的算法n n生物序列联配中的并行算法第2页,共71页,编辑于2022年,星期一DNA(1)脱氧核糖核酸nDNA的分子组成uu核甘(nucleotides)t t磷酸盐(phosphate)t t糖(sugar)t t一种碱基 腺嘌呤腺嘌呤(A Adenine)denine)鸟嘌呤鸟嘌呤(GGuanine)uanine)胞嘧啶胞嘧啶(C Cytosine)ytosine)胸腺嘧啶胸腺嘧啶(T Thymine)hymine)第3页,共
2、71页,编辑于2022年,星期一DNA(2)n n碱基的配对原则uuA(腺嘌呤)T(胸腺嘧啶)uuC(鸟嘌呤)G(胞嘧啶)n n一个嘌呤基与一个嘧啶基通 过氢键联结成一个碱基对。n nDNA分子的方向性uu53第4页,共71页,编辑于2022年,星期一DNA(3)n nDNA的双螺旋结构 碱基对之间的互补能力碱基对之间的互补能力第5页,共71页,编辑于2022年,星期一DNA(4)n nDNA的复制uu在DNA解旋酶的作用 下两条链分离开,分 别作为一个模板,在 聚合酶的作用下合成 一条新链。第6页,共71页,编辑于2022年,星期一RNA、转录和翻译n nRNA(核糖核酸):单链结构、尿嘧啶
3、U代替胸腺嘧啶T、位于细胞核和细胞质中。n n转录:DNA链 RNA链 信使RNA(mRNA),启动子。n n翻译:mRNA上携带遗传信息在核糖体中合成蛋白质的过程。第7页,共71页,编辑于2022年,星期一变异n n进化过程中由于不正确的复制,使DNA内容发生局部的改变。n n变异的种类主要有以下三种:uu替代(substitution)uu插入或删除(insertion or deletion)indeluu重排(rearrangement)第8页,共71页,编辑于2022年,星期一蛋白质n n由氨基酸依次链接形成在生物体中总共有20种氨基酸。n n蛋白有十分复杂的三维结构。其三维机构决定
4、了蛋白质的功能。第9页,共71页,编辑于2022年,星期一基 因n n什么是基因?uuDNA上具有特定功能的一个片断,负责一种特定性状的表达。一般来讲,一个基因只编码一个蛋白质。第10页,共71页,编辑于2022年,星期一基因组n n任何一条染色体上都带有许多基因,一条高等生物的染色体上可能带有成千上万个基因,一个细胞中的全部基因序列及其间隔序列统称为genomes(基因组)。第11页,共71页,编辑于2022年,星期一DNA上的基因 基因第12页,共71页,编辑于2022年,星期一基因的编码n n基因编码是一个逻辑的映射,表明存储在DNA和mRNA中的基因信息决定什么样的蛋白质序列。n n每
5、个碱基三元组称为一个密码子(codon)n n碱基组成的三元组的排列共有4364种,而氨基酸共有20种类型,所以不同的密码子可能表示同一种氨基酸。第13页,共71页,编辑于2022年,星期一带来的问题n n序列排列问题 n n基因组的重排问题 n n蛋白质结构和功能的预测 n n基因(外显子、内含子)查找问题 n n序列装配(Sequence Assembly)问题第14页,共71页,编辑于2022年,星期一生物序列相似性的比较第15页,共71页,编辑于2022年,星期一动机n n在生物学的研究中,将未知序列同已知序列进行比较分析已经成为一种强有力的研究手段,生物学领域中绝大部分的问题在计算机
6、科学领域中主要体现为序列或字符串的问题。第16页,共71页,编辑于2022年,星期一序列联配问题的分类 如果两个序列具有足够的相似性,则认如果两个序列具有足够的相似性,则认为两者具有同源性。为两者具有同源性。n n序列相似性的比较(两条序列的联配)n n序列的分类n n序列的排列n n多序列的联配第17页,共71页,编辑于2022年,星期一两条序列联配问题的分类n n全局联配(Global Alignment)n n局部联配(Local Alignment)n n空位处罚(Gap Penalty)第18页,共71页,编辑于2022年,星期一全局联配(1)定义n n定义定义1 1:两个任意的字符
7、:两个任意的字符 x和和y,(x,y)表示表表示表x x和y比较时的分值。(x,x)=2,)=2,(x,yx,y)=(x,-x,-)=)=(-(-,y)=-1n n定义定义2 2:S=s1 1s sn和T T=t1 1t tm m,其全局联配A可以用序列S 和和T 来表示,其中:来表示,其中:(1)|S|=|=|T T|;(2)将S S和和T T 中的空字符除去后所得到的序列分中的空字符除去后所得到的序列分别为别为S S和T;联配联配A A的分值的分值ScoreScore为:第19页,共71页,编辑于2022年,星期一全局联配(2)原始算法n n输入:序列S和T,其中|S|=|T|=n n n
8、输出:S和T的最优联配 n nfor i=0 to n dofor i=0 to n do for (S for (S的所有的子序列的所有的子序列A A,其中其中|A|=i)doA|=i)do for(T for(T的所有的子序列的所有的子序列B B,其中其中|B|=i)do B|=i)do 第20页,共71页,编辑于2022年,星期一全局联配(3)n n动态规划DP(Dynamic Programming)n nSmith-Waterman 算法uu计算出两个序列的相似分值,存于一个矩阵中。(相似度矩阵、DP矩阵)uu根据此矩阵,按照动态规划的方法寻找最优的联配序列。第21页,共71页,编辑
9、于2022年,星期一全局联配(4)n n前提条件n n递归关系第22页,共71页,编辑于2022年,星期一全局联配(5)n n在得到相似度矩阵后,通过动态规划回溯(Traceback)的方法可获得序列的最优联配序列。例:S=“a c g c t g”和T=“c a t g t”(x,x)=2,(x,y)=(x,-)=(-,y)=-1第23页,共71页,编辑于2022年,星期一 j ji i0 01 1c c2 2a a3 3t t4 4g g5 5t t 0 00 0-1-1-2-2-3-3-4-4-5-5 1 1 a a-1-1-1-11 10 0-1-1-2-2 2 2 c c-2-21
10、10 00 0-1-1-2-2 3 3 g g-3-30 00 0-1-12 21 1 4 4 c c-4-4-1-1-1-1-1-11 11 1 5 5 t t-5-5-2-2-2-21 10 03 3 6 6 g g-6-6-3-3-3-30 03 32 2第24页,共71页,编辑于2022年,星期一n n三种可能的最优联配序列:1.S:a c g c t g -T:-c a t g t 2.S:a c g c t g -T:-c a t g t 3.S:-a c g c t g T:c a t g -t -第25页,共71页,编辑于2022年,星期一局部联配(1)n n两条序列在一些局部
11、的区域内具有很高的相似度。n n在生物学中局部联配比全局联配更具有实际的意义。uu两条DNA长序列,可能只在很小的区域内(密码区)存在关系。uu不同家族的蛋白质往往具有功能和结构上的相同的一些区域。第26页,共71页,编辑于2022年,星期一局部联配(2)n n前提条件前提条件:V(i,0)=0;V(0,j)=0;n n递归关系递归关系:找出i*和j*,使得:第27页,共71页,编辑于2022年,星期一局部联配(3)n n对全局联配策略稍作修改可得到局部最优联配算法。n n联配的路径不需要到达搜索图的尽头,如果某种联配的分值不会因为增加联配的数量而增加时,这种联配就是最佳的。n n依赖于记分系
12、统的性质:因为某种路径的记分会在不匹配的序列段减少,当分值降为零时,路径的延展将会终止,一个新的路径就会产生。第28页,共71页,编辑于2022年,星期一局部联配(4)S=“a b c x d e x”,T=“x x x c d e”记分函数(x,y):(x,x)=2,(x,y)=(x,-)=(-,y)=-1第29页,共71页,编辑于2022年,星期一 j j i i0 01 1x x2 2x x3 3x x4 4c c5 5d d6 6e e 0 0 0 00 00 00 00 00 00 0 1 1 a a0 00 00 00 00 00 00 0 2 2 b b0 00 00 00 00
13、 00 00 0 3 3 c c0 00 00 00 02 21 10 0 4 4 x x0 02 22 22 21 11 10 0 5 5 d d0 01 11 11 11 13 32 2 6 6 e e0 00 00 00 00 02 25 5 7 7 x x0 02 22 22 21 11 14 4第30页,共71页,编辑于2022年,星期一n nS=“a b c x d e x”,T=“x x x c d e”局部最优联配是:c x d e c-d e或 x-d e x c d e 第31页,共71页,编辑于2022年,星期一空位处罚(1)n n空位:序列中任意连续的尽可能长的空格。n
14、 n空位的引入是为了补偿那些插入或缺失,但是在序列的联配中引入的空位不能太多,否则会使序列的排列变得面目全非。n n每引入一个空位,联配的分值都会有所扣除,常见的罚分规则主要有两种:uu空位权值恒定模型uu仿射空位处罚模型 第32页,共71页,编辑于2022年,星期一空位处罚(2)n n空位权值恒定模型:在每个空位中的空格的分值为零,即:(x,-)=(-,y)=0 n n联配的分值为:其中,Wg为开放一个空位的罚分 第33页,共71页,编辑于2022年,星期一空位处罚(3)n n仿射空位处罚模型(Affine Gap Model)用一个附加的罚分比例去乘空位的长度 Wg+qWs n n联配的分
15、值为:第34页,共71页,编辑于2022年,星期一空位处罚(4)初始条件初始条件:V V(0,0)=0(0,0)=0;V V(i i,0)=,0)=E E(i,i,0)=0)=WWg g+iWiWs s;V V(0,(0,j j)=)=F F(0(0,j,j)=)=WWg g+jWjWs s;递归条件递归条件:V V(i,ji,j)=)=maxmax G G(i,ji,j),),E E(i,ji,j),),F F(i,ji,j);G G(i,ji,j)=)=V V(i i-1-1,j,j-1)+(-1)+(S S i i,T T j j);E E(i,ji,j)=)=maxmax E E(i,
16、ji,j-1)+-1)+WWs s,V V(i,ji,j-1)+-1)+WWg g+WWs s F F(i,ji,j)=)=maxmax F F(i i-1-1,j,j)+)+WWs s,V V(i i-1-1,j,j)+)+WWg g+WWs s.第35页,共71页,编辑于2022年,星期一n n利用动态规划计算序列最优联配的算法的复杂度分析:t t时间复杂度;O(nm)t t空间复杂度:O(n+m)第36页,共71页,编辑于2022年,星期一最新的相关的研究n n在动态规划算法的基础上提出了一种新的方法,解决在序列局部联配的最优排列中经常出现的马赛克问题(在最优排列中间经常出现的相似度很低
17、的保守区域)n n把hash表方法引入到基因组序列的局部联配问题中,同时提高了原有算法的效率和质量 第37页,共71页,编辑于2022年,星期一多序列联配(1)n n两条序列联配问题的一般化推广两条序列联配问题的一般化推广n n动机:携带更多的消息、生物学家的一种重要手段。动机:携带更多的消息、生物学家的一种重要手段。n nDNA或蛋白质数据库容量的指数级的增长,即使或蛋白质数据库容量的指数级的增长,即使使用很简单的记分函数也很难找到一种在有效时使用很简单的记分函数也很难找到一种在有效时间内的解决方法,而几乎所有的近似算法和许多间内的解决方法,而几乎所有的近似算法和许多的启发式算法,实际上都是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 序列 中的 算法 幻灯片
限制150内